统计第10讲:拟合优度检验 | Goodness-of-Fit
💡

一、基本概念与似然比检验原理
1.1 拟合优度检验的目的
拟合优度检验用于评估观察数据与理论模型的匹配程度。通过比较两个嵌套模型(nested models)的拟合效果,判断简单模型是否足以描述数据。
关键术语:
- 似然比检验 Likelihood Ratio (LR) Test
1.2 似然比检验步骤
假设:
检验统计量:
G=2log(L0L1)=2(logL1−logL0) 其中:
当样本量足够大时,G服从卡方分布:
G∼χk1−k02 学习建议:理解参数空间维度差异与自由度的关系。例如当比较三维多项式分布与HWE模型时,自由度差为2-1=1。
二、多项分布案例:Hardy-Weinberg平衡检验
2.1 问题设定
假设基因型观测数据服从三项分布:
(X1,X2,X3)∼Trinomial(n,p1,p2,p3) - *Hardy-Weinberg平衡(HWE)**假设:
⎩⎨⎧p1=(1−θ)2p2=2θ(1−θ)p3=θ2 2.2 似然值计算
一般模型(无约束):
极大似然估计:
p^i=nXi
对数似然:
logL1=∑i=13Xilog(nXi) HWE模型(约束模型):
极大似然估计:
θ^=2nX2+2X3
对数似然:
logL0=i=1∑3Xilogpi(θ^) 示例:假设观测到(X1,X2,X3)=(25,50,25),则:
θ^=20050+2×25=0.5logL0=25log(0.25)+50log(0.5)+25log(0.25)
三、独立性检验:列联表分析
3.1 检验原理
对于I×J列联表数据:
(Xij)∼Multinomial(n,{pij}) 原假设:行变量与列变量独立
即存在{qi},{rj}使得:
pij=qirj(∑qi=1,∑rj=1) 3.2 检验统计量计算
期望频数:
Eij=nXi+X+j G统计量:
G=2i,j∑Xijlog(EijXij) 自由度:
df=(I−1)(J−1) 示例:2×2列联表
若观测到:
[10302040]
则期望频数为:
[12281842]
计算每个单元格的
Xlog(X/E)并求和。
四、正态分布案例:均值检验
4.1 方差已知情况
检验H0:μ=0,已知σ
似然比统计量:
G=σ2nXˉ2∼χ12 4.2 方差未知情况
需同时估计σ:
G=nlog(σ^2μ^2) 学习建议:比较参数已知与未知情况下自由度的变化,理解为什么方差估计会影响自由度。
五、学习要点总结
- 模型嵌套关系:确认原假设模型是备择假设的特例
- 自由度计算:df = 大模型参数个数 - 小模型参数个数
- 软件实现:建议使用R的
chisq.test()
或Pythonscipy.stats.chisquare
验证计算结果
关键公式回顾:
G=2∑观测值×log(期望值观测值) 常见误区:
附:练习合集
练习