其实都是照着抄的

Chapter 1 样本空间与概率

1.3 条件模型

条件概率:\(P(A|B)=\frac{P(A\cap B)}{P(B)}\)

乘法定律:\(P(AB...)=P(A)P(B|A)...\)

1.4 全概率定理与贝叶斯准则

\(A_1...A_n\) 为样本空间的一个分割,则:

全概率定理:\(P(B)=\sum_i P(A_i\cap B)=\sum_i P(A_i)P(B|A_i)\)

贝叶斯准则:\(P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(B)}=\frac{P(A_i)P(B|A_i)}{P(A_1)P(B|A_1)+...+P(A_n)P(B|A_n)}\)

1.5 独立性

事件 \(A, B\) 独立:\(P(A\cap B) = P(A)P(B)\)

条件独立:\(P(A\cap B|C)=P(A|C)P(B|C)\)


Chapter 2 离散随机变量

2.2 分布列

分布列:\(p_X(x)=P(\{X=x\})\)

两点分布(伯努利):\(B(1,p),E=p,var=p(1-p)\)

二项分布:\(X\sim B(n,p),P(X=k)=({}^n_k)p^k(1-p)^{n-k},E=np,var=np(1-p)\)

几何分布:\(X\sim G(p),P(X=k)=(1-p)^{k-1}p,E=\frac1p,var=\frac{1-p}{p^2}\)

泊松分布:\(X\sim P(\lambda),P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!},E=var=\lambda\),当 \(n>>p\) 时可以取 \(\lambda=np\) 逼近二项分布

2.4 期望、均值和方差

期望:\(E[X]=\sum_xp_X(x)\)

方差:\(var(X)=E[(X-E[x])^2]=E[X^2]-(E[X])^2\)

标准差:\(\sigma_X=\sqrt{var(X)}\)

\(Y=aX+b\)\(E[Y]=aE[X]+b,var(Y)=a^2var(X)\)

2.5 多个随机变量的联合分布列

\(p_{X,Y}(x,y)=P(X=x,Y=y)\)

边缘分布列:\(p_X(x)=\sum P(X=x,Y)\)

\(E[aX+bY+c]=aE[X]+bE[Y]+c\)

\(E[X]=\sum_iP(A_i)E[X|A_i]\)(样本空间分割)

2.7 独立性

变量 \(X\) 相对事件 \(A\) 独立:\(p_{X|A}(x)=p_X(x)\)

变量 \(X,Y\) 独立:\(p_{X,Y}(x,y)=p_X(x)p_Y(y)\)

这时有 \(E[XY]=E[X]E[Y],var(X+Y)=var(X)+var(Y)\)


Chapter 3 一般随机变量

3.1 连续随机变量和概率密度函数

将求和改为积分,\(P(X\in A)=\int_Af_X(x)dx\)\(f_X(x)\) 为概率密度函数(PDF)

\(E[X]=\int_{-\infty}^{+\infty}xf_X(x)dx\)

\(var(X)=\int_{-\infty}^{+\infty}(x-E[X])^2f_X(x)dx\)

\(I_A(x)=[x\in A]\)

均匀分布:

  • \(X\sim U(a, b)\)

  • \(f_X(x)=\frac{1}{b-a}(x\in(a, b))\)

  • \(E[X]=\frac{a+b}{2}\)

  • \(var(X)=\frac{(b-a)^2}{12}\)

指数分布:

  • \(X\sim \varepsilon(\lambda)\)

  • \(f_X(x)=\lambda e^{-\lambda x}(x>0)\)

  • \(E[X]=\frac{1}{\lambda}\)

  • \(var(X)=\frac{1}{\lambda^2}\)

3.2 分布函数

概率分布函数(CDF):\(F_X(x)=P(X\le x)\)

3.3 正态随机变量

\(X\sim N(\mu, \sigma^2)\)

\(f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})\)

\(E[X]=\mu, var(X)=\sigma^2\)

图像上 \(\mu\) 为对称轴,\(\sigma\) 与宽度相关

\(\mu=0, \sigma=1\) 时记为标准正态随机变量,PDF 记为 \(\phi(x)\)\(\varphi(x)\),CDF 记为 \(\Phi(x)\)

二元正态分布:

  • \((X, Y)\sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)\)

  • \(f(x,y)=\frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\rho^2}}\exp(-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_1)^2}{\sigma_1^2}-\frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}\right])\)

  • \(X, Y\) 独立的充要条件:\(\rho=0\)

3.4 多个随机变量的联合概率密度

\(P((X,Y)\in A)=\int\int_{(x,y)\in A}f_{X,Y}(x,y)dxdy\)

\(f_X(x)=\int f_{X,Y}(x,y)dy\)

\(f_{X,Y}(x,y)=\frac{\partial^2}{\partial x\partial y}F_{X,Y}(x,y)\)

\(E[g(X,Y)]=\int\int g(x,y)f_{X,Y}(x,y)dxdy\)

\(E[aX+bY+c]=aE[X]+bE[Y]+c\)

3.5 条件

\(P(X\in B|A)=\int_Bf_{X|A}(x)dx\)

\(f_{X|A}(x)=\frac{f_X(x)}{P(X\in A)}(x\in A)\)

\(E[X|A]=\frac{E[XI_A]}{P(A)}\)

\(f_X(x)=\sum P(A_i)f_{X|A_i}(x)\)

\(f_{X,Y}(x,y)=f_Y(y)f_{X|Y}(x|y)\)

\(f_X(x)=\int f_Y(y)f_{X|Y}(x|y)dy\)

\(P(X\in A|Y=y)=\int_Af_{X|Y}(x|y)dx\)

\(E[X|A]=\int xf_{X|A}(x)dx\)

\(E[X]=\sum P(A_i)E[X|A_i]\)

\(E[X]=\int f_Y(y)E[X|Y=y]dy\)

\(X,Y\) 独立:\(f_{X,Y}(x,y)=f_X(x)f_Y(y)\),此时 \(E[XY]=E[X]E[Y], var(X+Y)=var(X)+var(Y)\)

3.6 连续贝叶斯准则

对连续随机变量 \(X, Y\)\(f_{X|Y}(x|y)f_Y(y)=f_{Y|X}(y|x)f_X(x)\)

\(f_{X|Y}(x|y)=\frac{f_X(x)f_{Y|X}(y|x)}{f_Y(y)}=\frac{f_X(x)f_{Y|X}(y|x)}{\int f_X(t)f_{Y|X}(y|t)dt}\)

对于一个随机变量和一个离散变量的情况同理


Chapter 4 随机变量的深入内容

4.1 随机变量函数的分布密度函数

\(Y=g(X)\),则 CDF \(F_Y(y)=\int_{g(x)\le y}f_X(x)dx\)

求导得 PDF:\(f_Y(y)=\frac{d}{dy}F_Y(y)\)

\(Y=aX+b\Rightarrow f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})\)

对严格单调函数 \(y=g(x), x=h(y), f_Y(y)=f_X(h(y))|h'(y)|\)

对一般 \(Y=g(X)\),设值域 \(D\),如果有:

  • \(\{Y=y\}=\bigcup_{i = 1}^n \{X=h_i(y)\}\)

  • \(h_i(y)\) 为值域 \(D\) 到定义域 \(D_i\) 的可逆映射,存在连续导数

  • \(D_i\) 互不相交

\(f_Y(y)=\sum f_X(h_i(y))|h'(y)|(y\in D)\)

同理,对二维情形 \(U=u(X,Y), V=v(X, Y)\)

\(f_{U, V}(u, v)=\sum f_{X, Y}(x_i(u, v), y_i(u, v))\left|\frac{\partial(x_i, y_i)}{\partial(u, v)}\right|\)

卷积:设 \(X, Y\) 独立,\(Z=X+Y, f_Z(z)=\int f_X(x)f_Y(z-x)dx\)

\(X\sim N(\mu_x,\sigma_x^2), Y\sim N(\mu_y, \sigma_y^2), Z=X+Y\sim N(\mu_x+\mu_y, \sigma_x^2+\sigma_y^2)\)

\(f_{-X}(x)=f_X(-x)\)

4.2 协方差和相关

协方差 \(cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]\)

\(X\)\(Y\) 不相关:\(cov(X,Y)=0\)

  • \(cov(X, a)=0\)

  • \(cov(X,X)=var(X)\)

  • \(cov(X,aY+b)=a\cdot cov(X,Y)\)

  • \(cov(X, Y+Z)=cov(X, Y) + cov(X, Z)\)

相关系数:\(\rho(X, Y) = \rho_{XY} = corr(X,Y) =\frac{cov(X, Y)}{\sqrt{var(X)var(Y)}},\rho_{XY}\in[-1,1]\)

X 的标准化:\(Y=\frac{(X-E[X])}{\sqrt{var(X)}}\)

\(X,Y\) 标准化为 \(X', Y'\),则 \(corr(X,Y)=cov(X', Y')\)

对二元正态分布有 \(\rho_{XY}=\rho\)

\(|\rho_{XY}|=1\)\(X,Y\) 线性相关(\(aX+bY=c\)

\(var(\sum\limits_{i = 1}^nX_i)=\sum\limits_{i = 1}^n\sum\limits_{j = 1}^ncov(X_i, X_j)=\sum\limits_{i = 1}^nvar(X_i)+\sum\limits_{i = 1}^n\sum\limits_{j = 1}^n[i\ne j]cov(X_i, X_j)\)

随机向量 \(\boldsymbol X\) 的协方差矩阵:\(\sigma_{ij}=cov(X_i, X_j)\)

4.3 条件期望和条件方差

重期望法则:\(E[E[X|Y]]=E[X]\)

全方差法则:\(var(X)=E[var(X|Y)]+var(E[X|Y])\)

\(E[X|Y]-X\)\(E[X|Y]\) 不相关

4.4 矩母函数

\(M_X(s)=E[e^{sX}]\)

\(M_X(-\infty)=P(X=0)\)

若存在正数 \(a\)\(M_X(s)\)\([-a,a]\) 中有限,则 \(M_X(s)\) 唯一决定 \(X\) 的分布函数

\(E[X^n]=M_X^{(n)}(0)\)

\(Y=aX+b\),则 \(M_Y(s)=e^{sb}M_X(as)\)

\(X, Y\) 独立,则 \(M_{X+Y}(s)=M_X(s)M_Y(s)\)

\(X\sim N(\mu, \sigma^2), M_X(s)=\exp(\frac{\sigma^2s^2}{2}+\mu s)\)

联合分布的矩母函数:\(M_{X_1X_2}(s_1, s_2)=E[e^{s_1X_1+s_2X_2}]\)

\(X\) 的特征函数:\(\phi(t)=E(e^{itX})\)

4.5 随机数量个独立变量之和

\(Y=X_1+\cdots+X_n\),其中 \(X_i\) 同分布且独立,\(N\) 为随机正整数,则:

  • \(E[Y]=E[X]E[N]\)

  • \(var(Y)=var(X)E[N]+(E[X])^2var(N)\)

  • \(M_N(s)=f(e^s)\),则 \(M_Y(s)=f(M_X(s))\)


Chapter 5 极限理论

5.1 马尔可夫和切比雪夫不等式

马尔可夫不等式:设随机变量 \(X\) 取非负值,则对 \(a>0\)\(P(X\ge a)\le\frac{E[X]}{a}\)

切比雪夫不等式:设随机变量 \(X\) 均值 \(\mu\),方差 \(\sigma^2\),则对 \(a>0\)\(P(|X-\mu|\ge a)\le\frac{\sigma^2}{a^2}\)

5.2 弱大数定律

\(X_1\sim X_n\) 同分布,\(E[X_i]=\mu\),则 \(\forall\epsilon>0,\lim\limits_{n\rightarrow\infty}P(|\frac{X_1+\cdots+X_n}{n}-\mu|\ge\epsilon)=0\)

5.3 依概率收敛

依分布收敛:\(\lim\limits_{n\rightarrow\infty}F_n(x)=F(x)\),则 \(X_n\) 依分布收敛到 \(X\),记作 \(X_n\xrightarrow[]{d}X\),或 \(F_n\) 弱收敛到 \(F\),记作 \(F_n\xrightarrow{w}F\)。充要条件:\(\lim\limits_{n\rightarrow\infty}\phi_n(t)=\phi(t)\)

依概率收敛:\(\forall\epsilon>0,\lim\limits_{n\rightarrow\infty}P(|X_n-X|\ge\epsilon)=0\),记作 \(X_n\xrightarrow{p}X\)

\(X_n\xrightarrow{p}X\)\(X_n\xrightarrow[]{d}X\)

几乎处处收敛:\(P(\lim\limits_{n\rightarrow\infty}X_n = X) = 1\),记作 \(X_n\xrightarrow{a.s.}X\)

5.4 中心极限定理

\(X_1\sim X_n\) 同分布,\(E[X_i]=\mu\),设 \(Z_n=\frac{X_1+\cdots+X_n-n\mu}{\sqrt{n}\sigma}\)

\(Z_n\) 的极限分布为标准正态分布函数

二项分布的棣莫弗-拉普拉斯近似:设 \(S_n\sim B(n, p)\)\(n\) 足够大,\(a,b\) 为非负整数,则:

\(P(a\le S_n\le b)\approx \Phi(\frac{b+\frac12-np}{\sqrt{np(1-p)}})-\Phi(\frac{a-\frac12-np}{\sqrt{np(1-p)}})\)

5.5 强大数定律

\(X_1\sim X_n\) 同分布,\(E[X_i]=\mu\),则

\(P(\lim\limits_{n\rightarrow\infty}\frac{X_1+\cdots+X_n}{n}=\mu)=1\)


Ex

次序统计量

对同分布的 \(X_1\sim X_n\) 排序得到 \(X_{(1)}\le X_{(2)}\le\cdots\),称为次序统计量

设有公共的 PDF \(f(x)\),CDF \(F(x)\),则:

  • \(\int_{a<x_1<\cdots<x_k<b}f(x_1)\cdots f(x_k)dx_1\cdots dx_k=\frac{(F(b)-F(a))^k}{k!}\)

  • \((X_{(1)}, \cdots, X_{(n)})\) 联合密度 \(g(x_1, \cdots, x_n)=n!\prod_{i = 1}^n f(x_i)(x_1<\cdots<x_n)\)

  • \(X_{(k)}\) 密度 \(g_k(x)=\frac{n!}{(k-1)!(n-k)!}(F(x))^{k - 1}(1-F(x))^{n - k}f(x)\)

  • 同理,对 \(k_1< k_2\)\((X_{(k_1)}, X_{(k_2)})\) 联合密度:

    \(\begin{aligned}g(x_{k_1}, x_{k_2})&=\frac{n!}{(k_1 - 1)!(k_2-k_1-1)!(n-k_2)!}\\&\times(F(x_{k_1}))^{k_1-1}(F(x_{k_2})-F(x_{k_1}))^{k_2-k_1-1}(1-F(x_{k_2}))^{n-k_2}\\&\times f(x_{k_1})f(x_{k_2})\end{aligned}\)

    记忆的话可以考虑组合意义,总方案数 \(n!\),然后第 \(1\) 个到第 \(k_1-1\) 个随意分布就除以 \((k_1-1)!\),并乘上贡献 \((F(x_{k_1}))^{k_1-1}\),其他部分同理。

杂项

\(var(x)\le E(X-a)^2\)

标准差 \(\sigma_X=\sqrt{var(X)}\)

内积不等式:\(|E(XY)|\le\sqrt{E(X^2)E(Y^2)}\),当存在不全为零的 \(a,b\) 使 \(aX+bY=0\) 时取等

卡方分布:\(X_i\sim N(0, 1),Y=X_1^2+\cdots+X_n^2,f_Y(y)=\frac{1}{2^{\frac n2}\Gamma(\frac n2)}y^{\frac n2 - 1}e^{-\frac y2}\)