统计第5讲:区间估计 | Interval Estimation
💡

基础概念
从点估计到区间估计
设独立同分布随机变量X1,...,Xn服从均值为μ、方差为σ2的分布:
xˉ=n1i=1∑nxi s2=n−11i=1∑n(xi−xˉ)2 - 标准误 (Standard Error, SE):
SE=ns 点估计通过xˉ±SE给出估计范围,但无法量化置信程度。区间估计通过构建置信区间 (Confidence Interval) 解决这一缺陷。
核心思想
置信区间满足:
Pr(μ∈[L,U])=1−α 其中:
- 1−α为置信水平 (Confidence Level)
- α为显著性水平 (Significance Level)
正态分布下的置信区间
标准正态分位数
设Z∼N(0,1),定义上尾分位数 (Upper-tail Quantile) zp满足:
Pr(Z>zp)=p 特别地:
- z0.5=0(中位数)
- Pr(−zp≤Z≤zp)=1−2p(对称区间概率)
置信区间构建
当满足以下条件之一时:
- 总体服从正态分布(任意样本量)
- 大样本情况(中心极限定理适用)
95%置信区间公式:
xˉ±z0.025⋅SE 具体推导:
Pr(−z0.025≤SEXˉ−μ≤z0.025)⇒Pr(Xˉ−z0.025SE≤μ≤Xˉ+z0.025SE)=0.95=0.95 常用分位数值
置信水平 | α | zα/2 |
90% | 0.10 | 1.645 |
95% | 0.05 | 1.960 |
99% | 0.01 | 2.576 |
实际应用案例
股票收益率估计
某股票30日收益率数据:
- 样本均值xˉ=0.8%
- 样本标准差s=2.5%
计算95%置信区间:
SECI=302.5%≈0.456%=0.8%±1.96×0.456%=[0.8%−0.894%,0.8%+0.894%]=[−0.094%,1.694%]
解读:有95%的置信度认为该股票的真实日均收益率在-0.094%到1.694%之间。
学习建议
- 重点掌握:
- 典型错误:
- 将"95%置信度"理解为"参数有95%概率在区间内"
- 实践练习:
# Python实现置信区间计算示例
import numpy as np
from scipy import stats
data = np.random.normal(loc=5, scale=2, size=100)
confidence = 0.95
se = stats.sem(data)
ci = stats.norm.interval(confidence, loc=np.mean(data), scale=se)
附:练习合集
练习