随机变量及其概率分布¶
Abstract
收集了一些教科书里的分布及其性质。较 Savia 更详细一些,应当适用于复习。
离散型随机变量¶
二项分布¶
设在 \(n \geq 1\) 次独立的伯努利试验中,每次试验成功的概率为 \(p\) \((0 < p < 1)\),失败的概率为 \(q = 1-p\)。设 \(X\) 表示 \(n\) 次试验中成功的次数,则 \(X\) 的概率分布律为
称随机变量 \(X\) 服从参数为 \((n, p)\) 的二项分布(Binomial distribution),记为 \(X \sim B(n, p)\)。
二项分布的数字特征:
- 期望 \(E(X) = np\)
- 方差 \(\text{Var}(X) = np(1-p)\)
二项分布的可加性:若 \(X_1 \sim B(n_1, p)\),\(X_2 \sim B(n_2, p)\) 且相互独立,则 \(X_1 + X_2 \sim B(n_1 + n_2, p)\)。
二项分布的极限情况:
- 当 \(n \to \infty\),\(p \to 0\),且 \(np \to \lambda\)(常数)时,二项分布趋于泊松分布。
- 当 \(n = 1\) 时,二项分布退化为伯努利分布。
泊松分布¶
设随机变量 \(X\) 的概率分布律为
其中 \(\lambda > 0\),则称 \(X\) 服从参数为 \(\lambda\) 的泊松分布(Poisson distribution),记为 \(X \sim P(\lambda)\)。
泊松分布的数字特征:
- 期望 \(E(X) = \lambda\)
- 方差 \(\text{Var}(X) = \lambda\)
泊松分布的可加性:若 \(X_1 \sim P(\lambda_1)\),\(X_2 \sim P(\lambda_2)\) 且相互独立,则 \(X_1 + X_2 \sim P(\lambda_1 + \lambda_2)\)。
泊松定理:泊松分布是二项分布 \(B(n, p)\) 当 \(n \to \infty\),\(p \to 0\),\(np \to \lambda\) 时的极限分布。
泊松定理的推导
设 \(X_n \sim B(n, p_n)\),其中 \(p_n = \frac{\lambda}{n}\),\(\lambda > 0\) 为常数。当 \(n \to \infty\) 时,我们有 \(p_n \to 0\) 且 \(np_n = \lambda\)。
对于固定的 \(k\),二项分布的概率为:
整理得:
当 \(n \to \infty\) 时:
-
\(\frac{n(n-1)\cdots(n-k+1)}{n^k} = \frac{n}{n} \cdot \frac{n-1}{n} \cdots \frac{n-k+1}{n} \to 1\)
-
\(\left(1-\frac{\lambda}{n}\right)^n \to e^{-\lambda}\)
-
\(\left(1-\frac{\lambda}{n}\right)^{-k} \to 1\)
因此:
这正是参数为 \(\lambda\) 的泊松分布的概率质量函数。
泊松分布常用于描述单位时间内随机事件发生的次数。
超几何分布¶
设总体中有 \(N\) 个个体,其中有 \(M\) 个具有某种特征。从总体中不放回地抽取 \(n\) 个个体,设 \(X\) 表示抽取的 \(n\) 个个体中具有该特征的个体数,则 \(X\) 的概率分布律为
称随机变量 \(X\) 服从参数为 \((N, M, n)\) 的超几何分布(Hypergeometric distribution),记为 \(X \sim H(N, M, n)\)。
超几何分布的数字特征:
- 期望 \(E(X) = n \cdot \dfrac{M}{N}\)
- 方差 \(\text{Var}(X) = n \cdot \dfrac{M}{N} \cdot \dfrac{N-M}{N} \cdot \dfrac{N-n}{N-1}\)
- 方差公式中的 \(\dfrac{N-n}{N-1}\) 称为有限总体修正因子,反映了不放回抽样的影响。
当总体容量 \(N\) 很大而抽样个数 \(n\) 相对较小时,超几何分布近似于二项分布 \(B\left(n, \dfrac{M}{N}\right)\)。
超几何分布常用于描述不放回抽样问题。
几何分布¶
在独立重复的伯努利试验中,设每次试验成功的概率为 \(p\)(\(0 < p < 1\)),失败的概率为 \(q = 1-p\)。设 \(X\) 表示首次成功所需的试验次数,则 \(X\) 的概率分布律为
称随机变量 \(X\) 服从参数为 \(p\) 的几何分布(Geometric distribution),记为 \(X \sim G(p)\)。
几何分布的数字特征:
- 期望 \(E(X) = \dfrac{1}{p}\)
- 方差 \(\text{Var}(X) = \dfrac{1-p}{p^2}\)
几何分布是离散分布中唯一具有无记忆性的分布。对于任意正整数 \(m, n\),有
这意味着在已知前 \(m\) 次试验都失败的条件下,还需要进行 \(n\) 次以上试验才能获得第一次成功的概率,与前面的 \(m\) 次试验无关。
帕斯卡分布¶
在独立重复的伯努利试验中,设每次试验成功的概率为 \(p\)(\(0 < p < 1\)),失败的概率为 \(q = 1-p\)。设 \(X\) 表示获得第 \(r\) 次成功所需的试验次数,则 \(X\) 的概率分布律为
称随机变量 \(X\) 服从参数为 \((r, p)\) 的帕斯卡分布(Pascal distribution)或负二项分布(Negative binomial distribution),记为 \(X \sim NB(r, p)\)。
Tip
\(P\{X = k\} = P\{\)前 \(k − 1\) 次 中恰有 \(r − 1\) 次 \(A\) 发生,且第 \(k\) 次 \(A\) 发生\(\}.\)
帕斯卡分布的数字特征:
- 期望 \(E(X) = \dfrac{r}{p}\)
- 方差 \(\text{Var}(X) = \dfrac{r(1-p)}{p^2}\)
当 \(r = 1\) 时,帕斯卡分布退化为几何分布。
连续型随机变量¶
均匀分布¶
设随机变量 \(X\) 具有密度函数
其中参数 \(a < b\),则称 \(X\) 服从区间 \((a, b)\) 上的均匀分布(Uniform distribution),记为 \(X \sim U(a, b)\)。
均匀分布的分布函数为
均匀分布的数字特征:
- 期望 \(E(X) = \dfrac{a+b}{2}\)
- 方差 \(\text{Var}(X) = \dfrac{(b-a)^2}{12}\)
正态分布¶
设随机变量 \(X\) 具有密度函数
其中参数 \(\mu \in \mathbb{R}, \sigma > 0\),则称 \(X\) 服从参数为 \((\mu, \sigma^2)\) 的正态分布(Normal distribution),记为 \(X \sim N(\mu, \sigma^2)\)。
正态分布具有以下重要性质:
- 密度函数关于 \(x = \mu\) 对称;
- 在 \(x = \mu\) 处取得最大值 \(\dfrac{1}{\sqrt{2\pi}\sigma}\);
- 当 \(x \to \pm\infty\) 时,\(f(x) \to 0\);
正态分布的数字特征:
- 期望 \(E(X) = \mu\)
- 方差 \(\text{Var}(X) = \sigma^2\)
特别地,当 \(\mu = 0, \sigma = 1\) 时,称为标准正态分布,记为 \(X \sim N(0, 1)\),其密度函数为
其分布函数记为 \(\Phi(x) = \displaystyle\int_{-\infty}^{x} \varphi(t) \mathrm{d}t\)。
标准正态分布具有性质:\(\Phi(-x) = 1 - \Phi(x)\)。
对于一般的正态分布 \(X \sim N(\mu, \sigma^2)\),有标准化公式:
因此 \(P\{X \leq x\} = \Phi\left(\dfrac{x - \mu}{\sigma}\right)\)。
指数分布¶
设随机变量 \(X\) 具有密度函数
其中 \(\lambda > 0\),则称 \(X\) 服从参数为 \(\lambda\) 的指数分布(Exponential distribution),记为 \(X \sim E(\lambda)\)。
指数分布的分布函数为
指数分布的数字特征:
- 期望 \(E(X) = \dfrac{1}{\lambda}\)
- 方差 \(\text{Var}(X) = \dfrac{1}{\lambda^2}\)
指数分布具有无记忆性:对于任意 \(s, t > 0\),有