🔴
入学要求
💯
能力测试
🛣️
课程安排
🕹️
研究资源

统计第10讲:拟合优度检验 | Goodness-of-Fit

💡

查看全集:🎬概率与统计

一、基本概念与似然比检验原理

1.1 拟合优度检验的目的

拟合优度检验用于评估观察数据理论模型的匹配程度。通过比较两个嵌套模型(nested models)的拟合效果,判断简单模型是否足以描述数据。

关键术语

1.2 似然比检验步骤

假设:

检验统计量:

G=2log(L1L0)=2(logL1logL0) G = 2 \log\left(\frac{L_1}{L_0}\right) = 2(\log L_1 - \log L_0) 

其中:

当样本量足够大时,GG服从卡方分布:

Gχk1k02G \sim \chi^2_{k₁ - k₀}

学习建议:理解参数空间维度差异与自由度的关系。例如当比较三维多项式分布与HWE模型时,自由度差为2-1=1。


二、多项分布案例:Hardy-Weinberg平衡检验

2.1 问题设定

假设基因型观测数据服从三项分布:

(X1,X2,X3)Trinomial(n,p1,p2,p3) (X_1, X_2, X_3) \sim \text{Trinomial}(n, p_1, p_2, p_3) 
{p1=(1θ)2p2=2θ(1θ)p3=θ2\begin{cases} p_1 = (1-\theta)^2 \\ p_2 = 2\theta(1-\theta) \\ p_3 = \theta^2 \end{cases}

2.2 似然值计算

一般模型(无约束)

极大似然估计:

p^i=Xin \hat{p}i = \frac{X_i}{n} 


对数似然:

logL1=i=13Xilog(Xin) \log L_1 = \sum{i=1}^3 X_i \log\left(\frac{X_i}{n}\right) 

HWE模型(约束模型)

极大似然估计:

θ^=X2+2X32n \hat{\theta} = \frac{X_2 + 2X_3}{2n} 


对数似然:

logL0=i=13Xilogpi(θ^)\log L_0 = \sum_{i=1}^3 X_i \log p_i(\hat{\theta})

示例:假设观测到(X1,X2,X3)=(25,50,25)(X_1,X_2,X_3)=(25,50,25),则:


θ^=50+2×25200=0.5logL0=25log(0.25)+50log(0.5)+25log(0.25)\hat{\theta} = \frac{50 + 2×25}{200} = 0.5 \\ \log L_0 = 25\log(0.25) + 50\log(0.5) + 25\log(0.25)


三、独立性检验:列联表分析

3.1 检验原理

对于I×JI×J列联表数据:

(Xij)Multinomial(n,{pij}) (X_{ij}) \sim \text{Multinomial}(n, \{p_{ij}\}) 

原假设:行变量与列变量独立

即存在{qi},{rj}\{q_i\}, \{r_j\}使得:

pij=qirj(qi=1,rj=1) p_{ij} = q_i r_j \quad (\sum q_i=1, \sum r_j=1) 

3.2 检验统计量计算

期望频数

Eij=Xi+X+jn E_{ij} = \frac{X_{i+}X_{+j}}{n} 

G统计量

G=2i,jXijlog(XijEij)G = 2 \sum_{i,j} X_{ij} \log\left(\frac{X_{ij}}{E_{ij}}\right)

自由度:

df=(I1)(J1)\text{df} = (I-1)(J-1)

示例:2×2列联表

若观测到:


[10203040]\begin{bmatrix} 10 & 20 \\ 30 & 40 \end{bmatrix}

则期望频数为:


[12182842]\begin{bmatrix} 12 & 18 \\ 28 & 42 \end{bmatrix}

计算每个单元格的
Xlog(X/E)X\log(X/E)并求和。


四、正态分布案例:均值检验

4.1 方差已知情况

检验H0:μ=0H_0: \mu=0,已知σ\sigma

似然比统计量

G=nXˉ2σ2χ12 G = \frac{n\bar{X}^2}{\sigma^2} \sim \chi^2_1 

4.2 方差未知情况

需同时估计σ\sigma

G=nlog(μ^2σ^2) G = n\log\left(\frac{\hat{\mu}^2}{\hat{\sigma}^2}\right) 

学习建议:比较参数已知与未知情况下自由度的变化,理解为什么方差估计会影响自由度。


五、学习要点总结

  1. 模型嵌套关系:确认原假设模型是备择假设的特例
  1. 自由度计算:df = 大模型参数个数 - 小模型参数个数
  1. 软件实现:建议使用R的chisq.test()或Pythonscipy.stats.chisquare验证计算结果

关键公式回顾

G=2观测值×log(观测值期望值) G = 2\sum \text{观测值} \times \log\left(\frac{\text{观测值}}{\text{期望值}}\right) 

常见误区

附:练习合集

下一篇