🔴
入学要求
💯
能力测试
🛣️
课程安排
🕹️
研究资源

统计第2讲:概率进阶 | Probability (2)

💡

查看全集:🎬概率与统计

均方误差(Mean Square Error, MSE)

基本定义与性质

对于随机变量 (Y)( Y ),其均方误差定义为:

MSE=E[(Yc)2]MSE = E[(Y - c)^2]

条件期望下的MSE

(Y)( Y ) 与另一随机变量 (X)( X )  相关:

MSE=var(YX)+[E(YX)c]2 MSE = \text{var}(Y|X) + [E(Y|X) - c]^2 

例子

假设 ( Y ) 表示股票收益率,( X ) 为市场指数。若已知 (E(YX=10%)=8%)( E(Y|X=10\%) = 8\% ),则用 (c=8%)( c=8\% ) 预测的误差最小。


条件期望的随机性(Random Conditional Expectations)

条件期望的性质

(X,Y)( X, Y ) 为随机变量:

  1. (E[YX])( E[Y|X] ) 是随机变量,取值为 (E[Yx])( E[Y|x] )(概率由 ( X ) 的分布决定)
  1. 双重期望公式
E(E[X2X1])=E(X2)E(E[X_2|X_1]) = E(X_2)
  1. 方差分解公式
var(E[X2X1])+E(var[X2X1])=var(X2) \text{var}(E[X_2|X_1]) + E(\text{var}[X_2|X_1]) = \text{var}(X_2) 

学习建议

尝试证明方差分解公式(提示:从 (var(X)=E(X2)[E(X)]2)( \text{var}(X) = E(X^2) - [E(X)]^2 ) 出发)。


累积分布函数(Cumulative Distribution Function, CDF)

定义与性质

对随机变量 ( X ),其CDF定义为:

F(x)=P(Xx)F(x) = P(X \leq x)

正态分布(Normal Distribution)

标准正态分布

(ZN(0,1))( Z \sim N(0, 1) ),其密度函数为:

ϕ(z)=12πez2/2 \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-z^2/2} 

一般正态分布

(XN(μ,σ2))( X \sim N(\mu, \sigma^2) ),可通过标准化转为标准正态:

XμσN(0,1) \frac{X - \mu}{\sigma} \sim N(0, 1) 

线性变换与独立性

a+bXN(a+bμ,b2σ2) a + bX \sim N(a + b\mu, b^2\sigma^2) 
X+YN(μX+μY,σX2+σY2) X + Y \sim N(\mu_X + \mu_Y, \sigma_X^2 + \sigma_Y^2) 

中心极限定理(Central Limit Theorem, CLT)

定理表述

(X1,,Xn)( X_1, \dots, X_n ) 为独立同分布随机变量,均值为 (μ)( \mu ),标准差为 (σ)( \sigma )。定义 (Sn=i=1nXi)( S_n = \sum_{i=1}^n X_i ),则当 (n)( n \to \infty ) 时:

SnnμnσdN(0,1) \frac{S_n - n\mu}{\sqrt{n}\sigma} \xrightarrow{d} N(0, 1) 

伯努利试验的例子

(XiBernoulli(p))( X_i \sim \text{Bernoulli}(p) ),则 (SnBinom(n,p))( S_n \sim \text{Binom}(n, p) )。当 (n) ( n ) 足够大时:

SnN(np,np(1p))S_n \approx N(np, np(1-p))

学习建议

尝试用Python模拟抛硬币实验(p=0.5)( p=0.5 ),观察 (Sn)( S_n ) 的分布如何随 (n)( n ) 增大接近正态分布。


关键术语对照

附:练习合集