统计第2讲:概率进阶 | Probability (2)
💡

均方误差(Mean Square Error, MSE)
基本定义与性质
对于随机变量 (Y),其均方误差定义为:
MSE=E[(Y−c)2] - 预测值选择:当用常数 (c) 预测(Y) 时:
- (MSE=var(Y)+[E(Y)−c]2)
- 最小化条件:当 (c=E(Y)) 时,(minMSE=var(Y))
条件期望下的MSE
若 (Y) 与另一随机变量 (X) 相关:
MSE=var(Y∣X)+[E(Y∣X)−c]2 - 条件MSE:(MSE=E[(Y−c)2∣X])
- 最优预测:当 (c=E(Y∣X)) 时,(minMSE=var(Y∣X))
- 对比:若错误地使用 (c=E(Y)),MSE会增加([E(Y∣X)−E(Y)]2)
例子
假设 ( Y ) 表示股票收益率,( X ) 为市场指数。若已知 (E(Y∣X=10%)=8%),则用 (c=8%)预测的误差最小。
条件期望的随机性(Random Conditional Expectations)
条件期望的性质
设 (X,Y) 为随机变量:
- (E[Y∣X]) 是随机变量,取值为 (E[Y∣x])(概率由 ( X ) 的分布决定)
- 双重期望公式:
E(E[X2∣X1])=E(X2) - 方差分解公式:
var(E[X2∣X1])+E(var[X2∣X1])=var(X2) 学习建议
尝试证明方差分解公式(提示:从 (var(X)=E(X2)−[E(X)]2) 出发)。
累积分布函数(Cumulative Distribution Function, CDF)
定义与性质
对随机变量 ( X ),其CDF定义为:
F(x)=P(X≤x) - 性质:
- 定义域为(R),值域为([0,1])
- 若 (X) 有概率密度函数 (f(x)),则:
F(x)=∫−∞xf(t)dt
正态分布(Normal Distribution)
标准正态分布
设 (Z∼N(0,1)),其密度函数为:
ϕ(z)=2π1e−z2/2 - 矩性质:
- (E(Z)=0),(var(Z)=1)
- 所有奇次矩为零:(E(Z2k+1)=0)
一般正态分布
设 (X∼N(μ,σ2)),可通过标准化转为标准正态:
σX−μ∼N(0,1) 线性变换与独立性
- 线性变换:对常数 (a,b=0),有:
a+bX∼N(a+bμ,b2σ2) - 独立性:若 (X⊥Y),则:
X+Y∼N(μX+μY,σX2+σY2)
中心极限定理(Central Limit Theorem, CLT)
定理表述
设 (X1,…,Xn) 为独立同分布随机变量,均值为 (μ),标准差为 (σ)。定义 (Sn=∑i=1nXi),则当 (n→∞) 时:
nσSn−nμdN(0,1) 伯努利试验的例子
设 (Xi∼Bernoulli(p)),则 (Sn∼Binom(n,p))。当 (n) 足够大时:
Sn≈N(np,np(1−p)) 学习建议
尝试用Python模拟抛硬币实验(p=0.5),观察 (Sn)的分布如何随 (n) 增大接近正态分布。
关键术语对照:
- 均方误差:Mean Square Error (MSE)
- 条件期望:Conditional Expectation
- 累积分布函数:Cumulative Distribution Function (CDF)
- 中心极限定理:Central Limit Theorem (CLT)
附:练习合集
练习