🔴
入学要求
💯
能力测试
🛣️
课程安排
🕹️
研究资源

统计第7讲:最大似然估计 | MLE

💡

查看全集:🎬概率与统计

一、基本概念

1.1 似然函数 (Likelihood Function)

设观测数据 x1,x2,,xnx_1, x_2, \dots, x_n 是独立同分布 (iid) 随机变量 X1,X2,,XnX_1, X_2, \dots, X_n 的样本值,其概率密度函数为 f(xθ)f(x|\theta),其中 θΘRk\theta \in \Theta \subset \mathbb{R}^k似然函数定义为:

L(θ)=i=1nf(xiθ)L(\theta) = \prod_{i=1}^n f(x_i|\theta)

对应的对数似然函数 (Log-Likelihood Function) 为:

(θ)=logL(θ)=i=1nlogf(xiθ) \ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log f(x_i|\theta) 

1.2 最大似然估计 (MLE)

MLE 的核心思想:选择使得观测数据出现概率最大的参数值 θ^\hat{\theta}

求解步骤

  1. 构建似然函数 L(θ)L(\theta) 或对数似然函数 (θ)\ell(\theta)
  1. (θ)\ell(\theta) 求导并令导数为零:θ=0\frac{\partial \ell}{\partial \theta} = 0
  1. 验证二阶导数 2θ2<0\frac{\partial^2 \ell}{\partial \theta^2} < 0 确保极大值

二、典型分布案例

2.1 泊松分布案例 | Poisson Distribution

参数: λ\lambda

概率质量函数:

f(xλ)=λxeλx!,x=0,1,2, f(x|\lambda) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x=0,1,2,\dots 

推导过程

  1. 似然函数
L(λ)=i=1nλxieλxi!=λxienλx1!x2!xn! L(\lambda) = \prod_{i=1}^n \frac{\lambda^{x_i} e^{-\lambda}}{x_i!} = \frac{\lambda^{\sum x_i} e^{-n\lambda}}{x_1!x_2!\dots x_n!} 
  1. 对数似然函数(忽略常数项):
(λ)=(i=1nxi)logλnλ \ell(\lambda) = \left(\sum_{i=1}^n x_i\right) \log \lambda - n\lambda 
  1. 求导并解方程
ddλ=xiλn=0λ^=xˉ \frac{d\ell}{d\lambda} = \frac{\sum x_i}{\lambda} - n = 0 \quad \Rightarrow \quad \hat{\lambda} = \bar{x} 

学习建议:重点理解如何从概率质量函数构建似然函数,并掌握对数转换简化计算的技巧。


2.2 正态分布案例 | Normal Distribution

参数: μ\mu(均值), σ\sigma(标准差)

概率密度函数:

f(xμ,σ)=12πσe(xμ)22σ2 f(x|\mu,\sigma) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} 

推导过程

  1. 对数似然函数
(μ,σ)=n2log(2π)nlogσ12σ2i=1n(xiμ)2 \ell(\mu,\sigma) = -\frac{n}{2}\log(2\pi) - n\log\sigma - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2 
  1. μ\mu 求导
μ=1σ2i=1n(xiμ)=0μ^=xˉ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i - \mu) = 0 \quad \Rightarrow \quad \hat{\mu} = \bar{x} 
  1. σ\sigma 求导
σ=nσ+1σ3i=1n(xiμ)2=0σ^2=1ni=1n(xixˉ)2 \frac{\partial \ell}{\partial \sigma} = -\frac{n}{\sigma} + \frac{1}{\sigma^3}\sum_{i=1}^n (x_i - \mu)^2 = 0 \quad \Rightarrow \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 

关键点:注意方差估计量 σ^2\hat{\sigma}^2 是有偏估计量,修正为无偏估计时需使用 n1n-1


2.3 伽马分布案例 | Gamma Distribution

参数: α\alpha(形状参数), λ\lambda(速率参数)

概率密度函数:

f(xα,λ)=λαΓ(α)xα1eλx,x>0f(x|\alpha,\lambda) = \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, \quad x>0

推导特点

  1. 对数似然函数
(α,λ)=nαlogλnlogΓ(α)+(α1)i=1nlogxiλi=1nxi \ell(\alpha,\lambda) = n\alpha \log\lambda - n\log\Gamma(\alpha) + (\alpha-1)\sum_{i=1}^n \log x_i - \lambda \sum_{i=1}^n x_i 
  1. 联立方程(需数值方法求解):
    log(αxˉ)Γ(α)Γ(α)+1ni=1nlogxi=0 \log\left(\frac{\alpha}{\bar{x}}\right) - \frac{\Gamma'(\alpha)}{\Gamma(\alpha)} + \frac{1}{n}\sum_{i=1}^n \log x_i = 0 
λ^=α^xˉ \hat{\lambda} = \frac{\hat{\alpha}}{\bar{x}} 

学习建议:对于复杂分布的MLE,重点掌握联立方程的构建方法,并了解数值求解的必要性。


三、MLE 与矩估计 (MOM) 的比较

3.1 方法论差异

3.2 性能比较

特性MLEMOM
估计量显式表达式通常无显式解总能用样本矩表示
标准误 (Standard Error)更小较大
偏差 (Bias)通常更小可能较大

应用建议:在计算资源允许时优先选择MLE,当模型复杂时可将MOM作为初始值辅助计算。


四、学习总结

  1. 核心公式需熟练掌握:
    • 似然函数构建:L(θ)=f(xiθ)L(\theta) = \prod f(x_i|\theta)
    • 对数似然函数转换:(θ)=logf(xiθ)\ell(\theta) = \sum \log f(x_i|\theta)
  1. 典型分布案例需独立推导一遍,特别注意:
    • 泊松分布的均值估计
    • 正态分布方差的有偏性
    • 伽马分布的数值求解特点
  1. 编程实践建议:使用Python的scipy.optimize模块实现伽马分布参数的MLE估计。

附:练习合集