其实都是照着抄的

Chapter 1 样本空间与概率

1.3 条件模型

条件概率:P(AB)=P(AB)P(B)P(A|B)=\frac{P(A\cap B)}{P(B)}

乘法定律:P(AB...)=P(A)P(BA)...P(AB...)=P(A)P(B|A)...

1.4 全概率定理与贝叶斯准则

A1...AnA_1...A_n 为样本空间的一个分割,则:

全概率定理:P(B)=iP(AiB)=iP(Ai)P(BAi)P(B)=\sum_i P(A_i\cap B)=\sum_i P(A_i)P(B|A_i)

贝叶斯准则:P(AiB)=P(Ai)P(BAi)P(B)=P(Ai)P(BAi)P(A1)P(BA1)+...+P(An)P(BAn)P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(B)}=\frac{P(A_i)P(B|A_i)}{P(A_1)P(B|A_1)+...+P(A_n)P(B|A_n)}

1.5 独立性

事件 A,BA, B 独立:P(AB)=P(A)P(B)P(A\cap B) = P(A)P(B)

条件独立:P(ABC)=P(AC)P(BC)P(A\cap B|C)=P(A|C)P(B|C)


Chapter 2 离散随机变量

2.2 分布列

分布列:pX(x)=P({X=x})p_X(x)=P(\{X=x\})

两点分布(伯努利):B(1,p),E=p,var=p(1p)B(1,p),E=p,var=p(1-p)

二项分布:XB(n,p),P(X=k)=(kn)pk(1p)nk,E=np,var=np(1p)X\sim B(n,p),P(X=k)=({}^n_k)p^k(1-p)^{n-k},E=np,var=np(1-p)

几何分布:XG(p),P(X=k)=(1p)k1p,E=1p,var=1pp2X\sim G(p),P(X=k)=(1-p)^{k-1}p,E=\frac1p,var=\frac{1-p}{p^2}

泊松分布:XP(λ),P(X=k)=eλλkk!,E=var=λX\sim P(\lambda),P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},E=var=\lambda,当 n>>pn>>p 时可以取 λ=np\lambda=np 逼近二项分布

2.4 期望、均值和方差

期望:E[X]=xpX(x)E[X]=\sum_xp_X(x)

方差:var(X)=E[(XE[x])2]=E[X2](E[X])2var(X)=E[(X-E[x])^2]=E[X^2]-(E[X])^2

标准差:σX=var(X)\sigma_X=\sqrt{var(X)}

Y=aX+bY=aX+bE[Y]=aE[X]+b,var(Y)=a2var(X)E[Y]=aE[X]+b,var(Y)=a^2var(X)

2.5 多个随机变量的联合分布列

pX,Y(x,y)=P(X=x,Y=y)p_{X,Y}(x,y)=P(X=x,Y=y)

边缘分布列:pX(x)=P(X=x,Y)p_X(x)=\sum P(X=x,Y)

E[aX+bY+c]=aE[X]+bE[Y]+cE[aX+bY+c]=aE[X]+bE[Y]+c

E[X]=iP(Ai)E[XAi]E[X]=\sum_iP(A_i)E[X|A_i](样本空间分割)

2.7 独立性

变量 XX 相对事件 AA 独立:pXA(x)=pX(x)p_{X|A}(x)=p_X(x)

变量 X,YX,Y 独立:pX,Y(x,y)=pX(x)pY(y)p_{X,Y}(x,y)=p_X(x)p_Y(y)

这时有 E[XY]=E[X]E[Y],var(X+Y)=var(X)+var(Y)E[XY]=E[X]E[Y],var(X+Y)=var(X)+var(Y)


Chapter 3 一般随机变量

3.1 连续随机变量和概率密度函数

将求和改为积分,P(XA)=AfX(x)dxP(X\in A)=\int_Af_X(x)dxfX(x)f_X(x) 为概率密度函数(PDF)

E[X]=+xfX(x)dxE[X]=\int_{-\infty}^{+\infty}xf_X(x)dx

var(X)=+(xE[X])2fX(x)dxvar(X)=\int_{-\infty}^{+\infty}(x-E[X])^2f_X(x)dx

IA(x)=[xA]I_A(x)=[x\in A]

均匀分布:

  • XU(a,b)X\sim U(a, b)

  • fX(x)=1ba(x(a,b))f_X(x)=\frac{1}{b-a}(x\in(a, b))

  • E[X]=a+b2E[X]=\frac{a+b}{2}

  • var(X)=(ba)212var(X)=\frac{(b-a)^2}{12}

指数分布:

  • Xε(λ)X\sim \varepsilon(\lambda)

  • fX(x)=λeλx(x>0)f_X(x)=\lambda e^{-\lambda x}(x>0)

  • E[X]=1λE[X]=\frac{1}{\lambda}

  • var(X)=1λ2var(X)=\frac{1}{\lambda^2}

3.2 分布函数

概率分布函数(CDF):FX(x)=P(Xx)F_X(x)=P(X\le x)

3.3 正态随机变量

XN(μ,σ2)X\sim N(\mu, \sigma^2)

fX(x)=12πσexp((xμ)22σ2)f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})

E[X]=μ,var(X)=σ2E[X]=\mu, var(X)=\sigma^2

图像上 μ\mu 为对称轴,σ\sigma 与宽度相关

μ=0,σ=1\mu=0, \sigma=1 时记为标准正态随机变量,PDF 记为 ϕ(x)\phi(x)φ(x)\varphi(x),CDF 记为 Φ(x)\Phi(x)

二元正态分布:

  • (X,Y)N(μ1,μ2,σ12,σ22,ρ)(X, Y)\sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)

  • f(x,y)=12πσ1σ21ρ2exp(12(1ρ2)[(xμ1)2σ122ρ(xμ1)(yμ2)σ1σ2+(yμ2)2σ22])f(x,y)=\frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\rho^2}}\exp(-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_1)^2}{\sigma_1^2}-\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\right])

  • X,YX, Y 独立的充要条件:ρ=0\rho=0

3.4 多个随机变量的联合概率密度

P((X,Y)A)=(x,y)AfX,Y(x,y)dxdyP((X,Y)\in A)=\int\int_{(x,y)\in A}f_{X,Y}(x,y)dxdy

fX(x)=fX,Y(x,y)dyf_X(x)=\int f_{X,Y}(x,y)dy

fX,Y(x,y)=2xyFX,Y(x,y)f_{X,Y}(x,y)=\frac{\partial^2}{\partial x\partial y}F_{X,Y}(x,y)

E[g(X,Y)]=g(x,y)fX,Y(x,y)dxdyE[g(X,Y)]=\int\int g(x,y)f_{X,Y}(x,y)dxdy

E[aX+bY+c]=aE[X]+bE[Y]+cE[aX+bY+c]=aE[X]+bE[Y]+c

3.5 条件

P(XBA)=BfXA(x)dxP(X\in B|A)=\int_Bf_{X|A}(x)dx

fXA(x)=fX(x)P(XA)(xA)f_{X|A}(x)=\frac{f_X(x)}{P(X\in A)}(x\in A)

E[XA]=E[XIA]P(A)E[X|A]=\frac{E[XI_A]}{P(A)}

fX(x)=P(Ai)fXAi(x)f_X(x)=\sum P(A_i)f_{X|A_i}(x)

fX,Y(x,y)=fY(y)fXY(xy)f_{X,Y}(x,y)=f_Y(y)f_{X|Y}(x|y)

fX(x)=fY(y)fXY(xy)dyf_X(x)=\int f_Y(y)f_{X|Y}(x|y)dy

P(XAY=y)=AfXY(xy)dxP(X\in A|Y=y)=\int_Af_{X|Y}(x|y)dx

E[XA]=xfXA(x)dxE[X|A]=\int xf_{X|A}(x)dx

E[X]=P(Ai)E[XAi]E[X]=\sum P(A_i)E[X|A_i]

E[X]=fY(y)E[XY=y]dyE[X]=\int f_Y(y)E[X|Y=y]dy

X,YX,Y 独立:fX,Y(x,y)=fX(x)fY(y)f_{X,Y}(x,y)=f_X(x)f_Y(y),此时 E[XY]=E[X]E[Y],var(X+Y)=var(X)+var(Y)E[XY]=E[X]E[Y], var(X+Y)=var(X)+var(Y)

3.6 连续贝叶斯准则

对连续随机变量 X,YX, YfXY(xy)fY(y)=fYX(yx)fX(x)f_{X|Y}(x|y)f_Y(y)=f_{Y|X}(y|x)f_X(x)

fXY(xy)=fX(x)fYX(yx)fY(y)=fX(x)fYX(yx)fX(t)fYX(yt)dtf_{X|Y}(x|y)=\frac{f_X(x)f_{Y|X}(y|x)}{f_Y(y)}=\frac{f_X(x)f_{Y|X}(y|x)}{\int f_X(t)f_{Y|X}(y|t)dt}

对于一个随机变量和一个离散变量的情况同理


Chapter 4 随机变量的深入内容

4.1 随机变量函数的分布密度函数

Y=g(X)Y=g(X),则 CDF FY(y)=g(x)yfX(x)dxF_Y(y)=\int_{g(x)\le y}f_X(x)dx

求导得 PDF:fY(y)=ddyFY(y)f_Y(y)=\frac{d}{dy}F_Y(y)

Y=aX+bfY(y)=1afX(yba)Y=aX+b\Rightarrow f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})

对严格单调函数 y=g(x),x=h(y),fY(y)=fX(h(y))h(y)y=g(x), x=h(y), f_Y(y)=f_X(h(y))|h'(y)|

对一般 Y=g(X)Y=g(X),设值域 DD,如果有:

  • {Y=y}=i=1n{X=hi(y)}\{Y=y\}=\bigcup_{i = 1}^n \{X=h_i(y)\}

  • hi(y)h_i(y) 为值域 DD 到定义域 DiD_i 的可逆映射,存在连续导数

  • DiD_i 互不相交

fY(y)=fX(hi(y))h(y)(yD)f_Y(y)=\sum f_X(h_i(y))|h'(y)|(y\in D)

同理,对二维情形 U=u(X,Y),V=v(X,Y)U=u(X,Y), V=v(X, Y)

fU,V(u,v)=fX,Y(xi(u,v),yi(u,v))(xi,yi)(u,v)f_{U, V}(u, v)=\sum f_{X, Y}(x_i(u, v), y_i(u, v))\left|\frac{\partial(x_i, y_i)}{\partial(u, v)}\right|

卷积:设 X,YX, Y 独立,Z=X+Y,fZ(z)=fX(x)fY(zx)dxZ=X+Y, f_Z(z)=\int f_X(x)f_Y(z-x)dx

XN(μx,σx2),YN(μy,σy2),Z=X+YN(μx+μy,σx2+σy2)X\sim N(\mu_x,\sigma_x^2), Y\sim N(\mu_y, \sigma_y^2), Z=X+Y\sim N(\mu_x+\mu_y, \sigma_x^2+\sigma_y^2)

fX(x)=fX(x)f_{-X}(x)=f_X(-x)

4.2 协方差和相关

协方差 cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]

XXYY 不相关:cov(X,Y)=0cov(X,Y)=0

  • cov(X,a)=0cov(X, a)=0

  • cov(X,X)=var(X)cov(X,X)=var(X)

  • cov(X,aY+b)=acov(X,Y)cov(X,aY+b)=a\cdot cov(X,Y)

  • cov(X,Y+Z)=cov(X,Y)+cov(X,Z)cov(X, Y+Z)=cov(X, Y) + cov(X, Z)

相关系数:ρ(X,Y)=ρXY=corr(X,Y)=cov(X,Y)var(X)var(Y),ρXY[1,1]\rho(X, Y) = \rho_{XY} = corr(X,Y) =\frac{cov(X, Y)}{\sqrt{var(X)var(Y)}},\rho_{XY}\in[-1,1]

X 的标准化:Y=(XE[X])var(X)Y=\frac{(X-E[X])}{\sqrt{var(X)}}

X,YX,Y 标准化为 X,YX', Y',则 corr(X,Y)=cov(X,Y)corr(X,Y)=cov(X', Y')

对二元正态分布有 ρXY=ρ\rho_{XY}=\rho

ρXY=1|\rho_{XY}|=1X,YX,Y 线性相关(aX+bY=caX+bY=c

var(i=1nXi)=i=1nj=1ncov(Xi,Xj)=i=1nvar(Xi)+i=1nj=1n[ij]cov(Xi,Xj)var(\sum\limits_{i = 1}^nX_i)=\sum\limits_{i = 1}^n\sum\limits_{j = 1}^ncov(X_i, X_j)=\sum\limits_{i = 1}^nvar(X_i)+\sum\limits_{i = 1}^n\sum\limits_{j = 1}^n[i\ne j]cov(X_i, X_j)

随机向量 X\boldsymbol X 的协方差矩阵:σij=cov(Xi,Xj)\sigma_{ij}=cov(X_i, X_j)

4.3 条件期望和条件方差

重期望法则:E[E[XY]]=E[X]E[E[X|Y]]=E[X]

全方差法则:var(X)=E[var(XY)]+var(E[XY])var(X)=E[var(X|Y)]+var(E[X|Y])

E[XY]XE[X|Y]-XE[XY]E[X|Y] 不相关

4.4 矩母函数

MX(s)=E[esX]M_X(s)=E[e^{sX}]

MX()=P(X=0)M_X(-\infty)=P(X=0)

若存在正数 aaMX(s)M_X(s)[a,a][-a,a] 中有限,则 MX(s)M_X(s) 唯一决定 XX 的分布函数

E[Xn]=MX(n)(0)E[X^n]=M_X^{(n)}(0)

Y=aX+bY=aX+b,则 MY(s)=esbMX(as)M_Y(s)=e^{sb}M_X(as)

X,YX, Y 独立,则 MX+Y(s)=MX(s)MY(s)M_{X+Y}(s)=M_X(s)M_Y(s)

XN(μ,σ2),MX(s)=exp(σ2s22+μs)X\sim N(\mu, \sigma^2), M_X(s)=\exp(\frac{\sigma^2s^2}{2}+\mu s)

联合分布的矩母函数:MX1X2(s1,s2)=E[es1X1+s2X2]M_{X_1X_2}(s_1, s_2)=E[e^{s_1X_1+s_2X_2}]

XX 的特征函数:ϕ(t)=E(eitX)\phi(t)=E(e^{itX})

4.5 随机数量个独立变量之和

Y=X1++XnY=X_1+\cdots+X_n,其中 XiX_i 同分布且独立,NN 为随机正整数,则:

  • E[Y]=E[X]E[N]E[Y]=E[X]E[N]

  • var(Y)=var(X)E[N]+(E[X])2var(N)var(Y)=var(X)E[N]+(E[X])^2var(N)

  • MN(s)=f(es)M_N(s)=f(e^s),则 MY(s)=f(MX(s))M_Y(s)=f(M_X(s))


Chapter 5 极限理论

5.1 马尔可夫和切比雪夫不等式

马尔可夫不等式:设随机变量 XX 取非负值,则对 a>0a>0P(Xa)E[X]aP(X\ge a)\le\frac{E[X]}{a}

切比雪夫不等式:设随机变量 XX 均值 μ\mu,方差 σ2\sigma^2,则对 a>0a>0P(Xμa)σ2a2P(|X-\mu|\ge a)\le\frac{\sigma^2}{a^2}

5.2 弱大数定律

X1XnX_1\sim X_n 同分布,E[Xi]=μE[X_i]=\mu,则 ϵ>0,limnP(X1++Xnnμϵ)=0\forall\epsilon>0,\lim\limits_{n\rightarrow\infty}P(|\frac{X_1+\cdots+X_n}{n}-\mu|\ge\epsilon)=0

5.3 依概率收敛

依分布收敛:limnFn(x)=F(x)\lim\limits_{n\rightarrow\infty}F_n(x)=F(x),则 XnX_n 依分布收敛到 XX,记作 XndXX_n\xrightarrow[]{d}X,或 FnF_n 弱收敛到 FF,记作 FnwFF_n\xrightarrow{w}F。充要条件:limnϕn(t)=ϕ(t)\lim\limits_{n\rightarrow\infty}\phi_n(t)=\phi(t)

依概率收敛:ϵ>0,limnP(XnXϵ)=0\forall\epsilon>0,\lim\limits_{n\rightarrow\infty}P(|X_n-X|\ge\epsilon)=0,记作 XnpXX_n\xrightarrow{p}X

XnpXX_n\xrightarrow{p}XXndXX_n\xrightarrow[]{d}X

几乎处处收敛:P(limnXn=X)=1P(\lim\limits_{n\rightarrow\infty}X_n = X) = 1,记作 Xna.s.XX_n\xrightarrow{a.s.}X

5.4 中心极限定理

X1XnX_1\sim X_n 同分布,E[Xi]=μE[X_i]=\mu,设 Zn=X1++XnnμnσZ_n=\frac{X_1+\cdots+X_n-n\mu}{\sqrt{n}\sigma}

ZnZ_n 的极限分布为标准正态分布函数

二项分布的棣莫弗-拉普拉斯近似:设 SnB(n,p)S_n\sim B(n, p)nn 足够大,a,ba,b 为非负整数,则:

P(aSnb)Φ(b+12npnp(1p))Φ(a12npnp(1p))P(a\le S_n\le b)\approx \Phi(\frac{b+\frac12-np}{\sqrt{np(1-p)}})-\Phi(\frac{a-\frac12-np}{\sqrt{np(1-p)}})

5.5 强大数定律

X1XnX_1\sim X_n 同分布,E[Xi]=μE[X_i]=\mu,则

P(limnX1++Xnn=μ)=1P(\lim\limits_{n\rightarrow\infty}\frac{X_1+\cdots+X_n}{n}=\mu)=1


Ex

次序统计量

对同分布的 X1XnX_1\sim X_n 排序得到 X(1)X(2)X_{(1)}\le X_{(2)}\le\cdots,称为次序统计量

设有公共的 PDF f(x)f(x),CDF F(x)F(x),则:

  • a<x1<<xk<bf(x1)f(xk)dx1dxk=(F(b)F(a))kk!\int_{a<x_1<\cdots<x_k<b}f(x_1)\cdots f(x_k)dx_1\cdots dx_k=\frac{(F(b)-F(a))^k}{k!}

  • (X(1),,X(n))(X_{(1)}, \cdots, X_{(n)}) 联合密度 g(x1,,xn)=n!i=1nf(xi)(x1<<xn)g(x_1, \cdots, x_n)=n!\prod_{i = 1}^n f(x_i)(x_1<\cdots<x_n)

  • X(k)X_{(k)} 密度 gk(x)=n!(k1)!(nk)!(F(x))k1(1F(x))nkf(x)g_k(x)=\frac{n!}{(k-1)!(n-k)!}(F(x))^{k - 1}(1-F(x))^{n - k}f(x)

  • 同理,对 k1<k2k_1< k_2(X(k1),X(k2))(X_{(k_1)}, X_{(k_2)}) 联合密度:

    g(xk1,xk2)=n!(k11)!(k2k11)!(nk2)!×(F(xk1))k11(F(xk2)F(xk1))k2k11(1F(xk2))nk2×f(xk1)f(xk2)\begin{aligned}g(x_{k_1}, x_{k_2})&=\frac{n!}{(k_1 - 1)!(k_2-k_1-1)!(n-k_2)!}\\&\times(F(x_{k_1}))^{k_1-1}(F(x_{k_2})-F(x_{k_1}))^{k_2-k_1-1}(1-F(x_{k_2}))^{n-k_2}\\&\times f(x_{k_1})f(x_{k_2})\end{aligned}

    记忆的话可以考虑组合意义,总方案数 n!n!,然后第 11 个到第 k11k_1-1 个随意分布就除以 (k11)!(k_1-1)!,并乘上贡献 (F(xk1))k11(F(x_{k_1}))^{k_1-1},其他部分同理。

杂项

var(x)E(Xa)2var(x)\le E(X-a)^2

标准差 σX=var(X)\sigma_X=\sqrt{var(X)}

内积不等式:E(XY)E(X2)E(Y2)|E(XY)|\le\sqrt{E(X^2)E(Y^2)},当存在不全为零的 a,ba,b 使 aX+bY=0aX+bY=0 时取等

卡方分布:XiN(0,1),Y=X12++Xn2,fY(y)=12n2Γ(n2)yn21ey2X_i\sim N(0, 1),Y=X_1^2+\cdots+X_n^2,f_Y(y)=\frac{1}{2^{\frac n2}\Gamma(\frac n2)}y^{\frac n2 - 1}e^{-\frac y2}