统计第5讲:区间估计 | Interval Estimation
💡
基础概念 从点估计到区间估计 设独立同分布随机变量X 1 , . . . , X n X_1,...,X_n X 1 , ... , X n 服从均值为μ \mu μ 、方差为σ 2 \sigma^2 σ 2 的分布:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i x ˉ = n 1 i = 1 ∑ n x i s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2 s 2 = n − 1 1 i = 1 ∑ n ( x i − x ˉ ) 2 标准误 (Standard Error, SE):S E = s n SE = \frac{s}{\sqrt{n}} SE = n s 点估计通过x ˉ ± S E \bar{x} \pm SE x ˉ ± SE 给出估计范围,但无法量化置信程度 。区间估计通过构建置信区间 (Confidence Interval) 解决这一缺陷。
核心思想 置信区间满足:
P r ( μ ∈ [ L , U ] ) = 1 − α Pr(\mu \in [L,U]) = 1-\alpha P r ( μ ∈ [ L , U ]) = 1 − α 其中:
1 − α 1-\alpha 1 − α 为置信水平 (Confidence Level)α \alpha α 为显著性水平 (Significance Level)正态分布下的置信区间 标准正态分位数 设Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z ∼ N ( 0 , 1 ) ,定义上尾分位数 (Upper-tail Quantile) z p z_p z p 满足:
P r ( Z > z p ) = p Pr(Z > z_p) = p P r ( Z > z p ) = p 特别地:
z 0.5 = 0 z_{0.5} = 0 z 0.5 = 0 (中位数)P r ( − z p ≤ Z ≤ z p ) = 1 − 2 p Pr(-z_p \leq Z \leq z_p) = 1-2p P r ( − z p ≤ Z ≤ z p ) = 1 − 2 p (对称区间概率)置信区间构建 当满足以下条件之一时:
总体服从正态分布(任意样本量) 大样本情况(中心极限定理适用) 95%置信区间 公式:
x ˉ ± z 0.025 ⋅ S E \bar{x} \pm z_{0.025} \cdot SE x ˉ ± z 0.025 ⋅ SE 具体推导:
P r ( − z 0.025 ≤ X ˉ − μ S E ≤ z 0.025 ) = 0.95 ⇒ P r ( X ˉ − z 0.025 S E ≤ μ ≤ X ˉ + z 0.025 S E ) = 0.95 \begin{aligned}
Pr\left(-z_{0.025} \leq \frac{\bar{X}-\mu}{SE} \leq z_{0.025}\right) &= 0.95 \\
\Rightarrow Pr\left(\bar{X}-z_{0.025}SE \leq \mu \leq \bar{X}+z_{0.025}SE\right) &= 0.95
\end{aligned} P r ( − z 0.025 ≤ SE X ˉ − μ ≤ z 0.025 ) ⇒ P r ( X ˉ − z 0.025 SE ≤ μ ≤ X ˉ + z 0.025 SE ) = 0.95 = 0.95 常用分位数值 置信水平 α \alpha α z α / 2 z_{\alpha/2} z α /2 90% 0.10 1.645 95% 0.05 1.960 99% 0.01 2.576
实际应用案例 股票收益率估计 某股票30日收益率数据:
样本均值x ˉ = 0.8 % \bar{x} = 0.8\% x ˉ = 0.8% 样本标准差s = 2.5 % s = 2.5\% s = 2.5% 计算95%置信区间:S E = 2.5 % 30 ≈ 0.456 % C I = 0.8 % ± 1.96 × 0.456 % = [ 0.8 % − 0.894 % , 0.8 % + 0.894 % ] = [ − 0.094 % , 1.694 % ] \begin{aligned}
SE &= \frac{2.5\%}{\sqrt{30}} \approx 0.456\% \\
CI &= 0.8\% \pm 1.96 \times 0.456\% \\
&= [0.8\% - 0.894\%, 0.8\% + 0.894\%] \\
&= [-0.094\%, 1.694\%]
\end{aligned} SE C I = 30 2.5% ≈ 0.456% = 0.8% ± 1.96 × 0.456% = [ 0.8% − 0.894% , 0.8% + 0.894% ] = [ − 0.094% , 1.694% ]
解读 :有95%的置信度认为该股票的真实日均收益率在-0.094%到1.694%之间。
学习建议 重点掌握 :典型错误 :将"95%置信度"理解为"参数有95%概率在区间内" 实践练习 :
import numpy as np
from scipy import stats
data = np. random. normal( loc= 5 , scale= 2 , size= 100 )
confidence = 0.95
se = stats. sem( data)
ci = stats. norm. interval( confidence, loc= np. mean( data) , scale= se)
附:练习合集 练习