概率论与数理统计的记忆知识点

关于

尽管是纯粹的数学学科，但还是有很多公式是需要特别记忆的，以及一些非常容易忽视的概念性的内容，整理的过程中也能发现一些规律，并不需要死记硬背。（顺便测试下博客的内嵌 PDF 功能）

概率的公理化定义

设随机试验 $E$ 的样本空间为 $S$，如果对每一个事件 $A$，都有一个实数 $P(A)$ 与之对应，且满足以下公理：

$P(A) \geq 0$；
$P(S) = 1$；
对于互不相容的事件 $A_1,A_2,\dots,A_n$，有
$$ P(A_1+A_2+\dots+A_n+\dots)=P(A_1)+P(A_2)+\dots+P(A_n)+\dots $$
则称实数 $P(A)$ 为事件 $A$ 的概率。

分布函数

设 $X$ 为一随机变量，称

$$ F(x)=P(X \leq x) $$

为 $X$ 的分布函数。注意 $F(x)$ 是右连续的，如分段时区间应当写成左闭右开的形式。

性质

$0\leq F(x)\leq 1$；
$F(x)$ 是单调非减的；
$\lim_{x\to-\infty}F(x)=0,\lim_{x\to\infty}F(x)=1$；
$F(x^+)=F(x)$，即 $F(x)$ 是右连续的。

二维连续型随机变量

$$ f_X(x)=\int_{-\infty}^{\infty}f(x,y)\ \mathrm{d}y $$$$ f_Y(y)=\int_{-\infty}^{\infty}f(x,y)\ \mathrm{d}x $$

二维随机变量函数的分布

和的分布

设二维随机变量 $(X,Y)$ 是连续型的，概率密度为 $f(x,y)$，和 $Z=X+Y$，则 $Z$ 是连续型随机变量且概率密度

$$ f_Z(z)=\int_{-\infty}^{\infty}f(x,z-x)\ \mathrm{d}x=\int_{-\infty}^{\infty}f(z-y,y)\ \mathrm{d}y $$

如果 $X$ 与 $Y$ 是独立的，则

$$ f_Z(z)=\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)\ \mathrm{d}x=\int_{-\infty}^{\infty}f_X(z-y)f_Y(y)\ \mathrm{d}y $$

条件分布

$$ f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)} $$$$ f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)} $$

商的分布

设二维连续型随机变量 $(X,Y)$ 的概率密度为 $f(x,y)$，则 $Z=\frac{Y}{X}$ 的概率密度为

$$ f_Z(z)=\int_{-\infty}^{\infty}|x|f(x,xz)\ \mathrm{d}x $$

当 $X$ 与 $Y$ 相互独立时，有

$$ f_Z(z)=\int_{-\infty}^{\infty}|x|f_X(x)f_Y(xz)\ \mathrm{d}x $$

协方差与相关系数

$$ \text{Cov}(X,Y) = E(XY) - E(X)E(Y) $$$$ D(X + Y) = D(X) + 2 \text{Cov}(X,Y) + D(Y) $$$$ \rho = \frac{\text{Cov}(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}} $$

两个随机变量经过线性变换之后，其相关系数不变。
一般情况下，独立 $\Rightarrow$ 不相关，但是不相关 $\nRightarrow$ 独立，但是对于服从二维正态分布的随机变量来说，独立 $\Leftrightarrow$ 不相关。

切比雪夫不等式

$$ P(|X - E(X)| \geq \varepsilon) \leq \frac{D(X)}{\varepsilon^2} $$

中心极限定理

独立同分布的中心极限定理（林德伯格-莱维中心极限定理）

设 $X_1,X_2,\dots,X_n$ 独立同分布，且具有有限的数学期望和方差 $E(X_i)=\mu,D(X_i)=\sigma^2$，则

$$ \lim_{n \to \infty} P\left(\frac{\sum_{i=1}^n X_i - n \mu}{\sqrt{n} \sigma} \leq x \right) = \Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \ \mathrm{d}x $$

棣莫弗-拉普拉斯定理

在 $n$ 重伯努利试验中，成功概率为 $p$，成功次数为 $Y_n$，则

$$ \lim_{n \to \infty} P\left( \frac{Y_n - np}{\sqrt{npq}} \leq x \right) = \Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \ \mathrm{d}x $$

数理统计中的三大分布

$\chi^2$ 分布

设 $X_1,X_2,\dots,X_n$ 为 $n$ 个 $(n\geq1)$ 相互独立的随机变量，它们都服从标准正态分布 $N(0,1)$。

$$ Y=\sum_{i=1}^n X_i^2 $$

则随机变量 $Y$ 服从自由度为 $n$ 的 $\chi^2$ 分布，记作 $Y\sim\chi^2(n)$，且有

$$ E(Y)=n,D(Y)=2n $$

$t$ 分布

设随机变量 $X,Y$ 相互独立，且 $X\sim N(0,1),Y\sim\chi^2(n)$。

$$ T=\frac{X}{\sqrt{\frac{Y}{n}}} $$

则随机变量 $T$ 服从自由度为 $n$ 的 $t$ 分布，记作 $T\sim t(n)$。

$F$ 分布

设随机变量 $X,Y$ 相互独立，且 $X\sim\chi^2(n_1),Y\sim\chi^2(n_2)$。

$$ F=\frac{\frac{X}{n_1}}{\frac{Y}{n_2}} $$

则随机变量 $F$ 服从第一自由度为 $n_1$，第二自由度为 $n_2$ 的 $F$ 分布，记作 $F\sim F(n_1,n_2)$。

统计量及抽样分布

设 $X_1, X_2, \dots, X_n$ 为总体 $X$ 的容量为 $n$ 的样本，$T(x_1,x_2, \dots, x_n)$ 是定义在样本空间上不依赖于位置参数的一个连续函数，则称随机变量 $T(X_1,X_2, \dots, X_n)$ 为一个统计量。

$$ \overline{X}= \frac{1}{n} \sum_{i=1}^n X_i $$$$ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline{X})^2=\frac{1}{n-1}\left(\sum_{i=1}^n X_i^2 - n\overline{X}^2\right) $$

设 $X_1, X_2, \dots, X_n$ 是来自总体 $N(\mu, \sigma^2)$ 的一个样本，则样本均值

$$ \overline{X} \sim N\left( \mu, \frac{\sigma^2}{n} \right) $$

样本方差 $S^2$ 与样本均值 $\overline{X}$ 相互独立，且

$$ \frac{n-1}{\sigma^2} S^2 \sim \chi^2(n-1) $$$$ \frac{(\overline{X} - \mu)\sqrt{n}}{S} \sim t(n-1) $$

评定估计量的标准

无偏性

$$ E[\hat{\theta}(X_1,X_2,\dots,X_n)] = \theta $$

则称 $\hat{\theta}$ 为 $\theta$ 的无偏估计量。

有效性

$$ D(\hat{\theta}_1) \leq D(\hat{\theta}_2) $$

则称 $\hat{\theta}_1$ 较 $\hat{\theta}_2$ 有效。

相合性

$\hat{\theta}$ 依概率收敛于 $\theta$，即对任意 $\varepsilon > 0$，有

$$ \lim_{n \to \infty} P\left( |\hat{\theta} - \theta| \geq \varepsilon \right) = 0 $$

则称 $\hat{\theta}$ 为 $\theta$ 的相合估计量。

区间估计

设 $x_1, x_2, \dots, x_n$ 是来自总体 $N(\mu, \sigma^2)$ 的一个样本，$\overline{x}, s^2$ 分别为样本均值和样本方差。

$\sigma^2$ 已知

$\mu$ 的一个置信区间为

$$ \left( \overline{x} - u_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}, \overline{x} + u_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \right) $$

$\sigma^2$ 未知

$\mu$ 的一个置信区间为

$$ \left( \overline{x} - t_{\frac{\alpha}{2}}(n-1) \frac{s}{\sqrt{n}}, \overline{x} + t_{\frac{\alpha}{2}}(n-1) \frac{s}{\sqrt{n}} \right) $$

$\sigma^2$ 的置信区间

$$ \left( \frac{(n-1)s^2}{\chi^2_{\frac{\alpha}{2}}(n-1)}, \frac{(n-1)s^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)} \right) $$

常用分布

分布	分布列或概率密度	数学期望	方差
$0-1$分布 $B(1, p)$	$P(X = k) = p^k q^{1-k}$ $k = 0, 1$, $0 < p < 1$, $p + q = 1$	$p$	$pq$
二项分布 $B(n, p)$	$P(X = k) = C_n^k p^k q^{n-k}$ $k = 0, 1, \dots, n$, $0 < p < 1$, $p + q = 1$	$np$	$npq$
泊松分布 $P(\lambda)$	$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$ $k = 0, 1, 2, \dots$, $\lambda > 0$	$\lambda$	$\lambda$
几何分布 $G(p)$	$P(X = k) = q^{k-1} p$, $k = 1, 2, \dots$ $0 < p < 1$, $p + q = 1$	$\frac{1}{p}$	$\frac{q}{p^2}$
均匀分布 $U[a, b]$	$f(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{其他} \end{cases}$	$\frac{a+b}{2}$	$\frac{(b-a)^2}{12}$
指数分布 $E(\lambda)$	$f(x) = \begin{cases} \lambda e^{-\lambda x}, & x > 0 \\ 0, & x \leq 0 \end{cases}$	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$
正态分布 $N(\mu, \sigma^2)$	$f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ $-\infty < \mu < +\infty$, $\sigma > 0$	$\mu$	$\sigma^2$

对于泊松分布，若 $X\sim P(\lambda_1),Y\sim P(\lambda_2)$，则 $X+Y\sim P(\lambda_1+\lambda_2)$。
对于正态分布，若 $X\sim N(0,\sigma^2)$，则 $E(|X|)=\sigma\sqrt{\frac{2}{\pi}},E(X^2)=\sigma^2$。

$\Gamma$ 函数

$$ \Gamma(z) = \int_0^\infty t^{z-1} e^{-t} \ \mathrm{d}t $$

若 $n$ 为正整数，则

$$ \Gamma(n) = (n-1)! $$

递推公式

$$ \Gamma(x+1) = x\Gamma(x) $$

特殊值

$$ \Gamma\left(\frac{1}{2}\right) = \sqrt{\pi} $$

PDF 版本

可能不是最新。。。。