/ / /
统计第8讲:最大似然估计量的大样本分布 | Large-Sample Distribution of MLEs
🔴
入学要求
💯
能力测试
🛣️
课程安排
🕹️
研究资源

统计第8讲:最大似然估计量的大样本分布 | Large-Sample Distribution of MLEs

💡

查看全集:🎬概率与统计

一、渐近正态性 | Asymptotic Normality

1.1 基本定理

θn\theta_n 为参数 θΘR\theta \in \Theta \subset \mathbb{R} 的最大似然估计量 (Maximum Likelihood Estimator, MLE),基于独立同分布 (iid) 样本 X1,,XnX_1,\dots,X_n。当样本量 nn 足够大时,MLE 的分布近似满足:

θnN(θ,I(θ)1n) \theta_n \stackrel{\cdot}{\sim} N\left( \theta,\, \frac{I(\theta)^{-1}}{n} \right) 

其中 I(θ)I(\theta)Fisher 信息量 (Fisher Information),由单个样本计算得到。

特性


二、Fisher 信息量 | Fisher Information

2.1 定义与计算

设随机变量 XX 的概率密度函数为 f(xθ)f(x|\theta),则 Fisher 信息量定义为:

I(θ)=E[d2dθ2logf(Xθ)]I(\theta) = -E\left[ \frac{d^2}{d\theta^2} \log f(X|\theta) \right]

矩阵形式(当 θ\theta 为向量时):

I(θ)ij=E[2θiθjlogf(Xθ)] I(\theta)_{ij} = -E\left[ \frac{\partial^2}{\partial \theta_i \partial \theta_j} \log f(X|\theta) \right] 

矩阵 I(θ)I(\theta) 对称且半正定,反映单个样本包含的关于 θ\theta 的信息量。


三、经典案例

3.1 伯努利分布 | Bernoulli Distribution

模型设定

XBernoulli(p)X \sim \text{Bernoulli}(p),概率质量函数为:

f(xp)=px(1p)1x,x=0,1f(x|p) = p^x (1-p)^{1-x}, \quad x=0,1

推导步骤

  1. 对数似然函数:
logf(Xp)=Xlogp+(1X)log(1p)\log f(X|p) = X \log p + (1-X)\log(1-p)
  1. 二阶导数:
d2dp2logf(Xp)=Xp21X(1p)2\frac{d^2}{dp^2} \log f(X|p) = -\frac{X}{p^2} - \frac{1-X}{(1-p)^2}
  1. 计算期望:
I(p)=1p(1p)I(p) = \frac{1}{p(1-p)}

渐近分布

对于样本均值 p^=Xˉn\hat{p} = \bar{X}_n,当 nn 较大时:

p^N(p,p(1p)n)\hat{p} \approx N\left( p,\, \frac{p(1-p)}{n} \right)

3.2 几何分布 | Geometric Distribution

模型设定

XGeometric(p)X \sim \text{Geometric}(p),概率质量函数为:

f(xp)=p(1p)x1,x=1,2,f(x|p) = p(1-p)^{x-1}, \quad x=1,2,\dots

推导步骤

  1. 对数似然函数:
logf(Xp)=logp+(X1)log(1p)\log f(X|p) = \log p + (X-1)\log(1-p)
  1. 二阶导数:
d2dp2logf(Xp)=1p2X1(1p)2 \frac{d^2}{dp^2} \log f(X|p) = -\frac{1}{p^2} - \frac{X-1}{(1-p)^2} 
  1. 计算期望:
I(p)=1p2(1p) I(p) = \frac{1}{p^2(1-p)} 

渐近分布

MLE p^=1/Xˉn\hat{p} = 1/\bar{X}_n 的渐近分布为:

p^N(p,p2(1p)n) \hat{p} \approx N\left( p,\, \frac{p^2(1-p)}{n} \right) 

注意


3.3 正态分布 | Normal Distribution

模型设定

XN(μ,σ2)X \sim N(\mu, \sigma^2),参数 θ=(μ,σ)\theta = (\mu, \sigma)

Fisher 信息矩阵

I(θ)=[1σ2002σ2]I(\theta) = \begin{bmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{2}{\sigma^2} \end{bmatrix}

渐近分布

对于 MLE θ^=(Xˉn,σ^)\hat{\theta} = (\bar{X}_n, \hat{\sigma}),当 nn 较大时:

{XˉnN(μ,σ2n)(精确分布)σ^N(σ,σ22n)(近似,因σ0)\begin{cases} \bar{X}_n \sim N\left( \mu,\, \frac{\sigma^2}{n} \right) \quad (\text{精确分布}) \\ \hat{\sigma} \approx N\left( \sigma,\, \frac{\sigma^2}{2n} \right) \quad (\text{近似,因} \sigma \geq 0) \end{cases}

四、学习建议

  1. 动手推导:对每个分布的 Fisher 信息量进行手算,验证二阶导数与期望的计算。
  1. 模拟验证:使用 Python/R 生成随机样本,比较 MLE 的样本分布与理论渐近分布。
  1. 对比分析:分析几何分布中 p^=1/Xˉn\hat{p} = 1/\bar{X}_n 的偏差与方差特性。

关键术语对照表

附:练习合集