概率与分布
概率与分布
概率分布(Probability Distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。
离散型变量和概率质量函数
离散型变量的概率分布可以用概率质量函数(Probability mass function, PMF)来描述。我们通常用大写字母 $P$ 来表示概率质量函数。通常每一个随机变量都会有一个不同的概率质量函数,并且必须根据随机变量来推断所使用的 PMF,而不是根据函数的名称来推断;例如,$P(x)$ 通常和 $P(y)$ 不一样。
概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。$\mathrm{x} = x$ 的概率用 $P(x)$ 来表示,概率为 1 表示 $\mathrm{x} = x$ 是确定的,概率为 0 表示 $\mathrm{x} = x$ 是不可能发生的。有时我们会定义一个随机变量,然后用 $\sim$ 符号来说明分布:$\mathrm{x} \sim P(\mathrm{x})$。
概率质量函数可以同时作用于多个随机变量,这种多个变量的概率分布被称为联合概率分布(joint probability distribution)。$P(\mathrm{x}=x, \mathrm{y}=y)$ 表示 $\mathrm{x} = x$ 和 $\mathrm{y} = y$ 同时发生的概率,可以简写为 $P(x,y)$。
如果一个函数 $P$ 是随机变量 $\mathrm{x}$ 的 PMF,必须满足以下条件:
-
$P$ 的定义域必须是 $\mathrm{x}$ 所有可能状态的集合。
-
$\forall x \in \mathrm{x}, 0 \leq P(x) \leq 1$ 不可能发生的事件概率为 0,并且不存在比这概率更低的状态。类似的,能够确保一定发生的事件概率为 1,而且不存在比这概率更高的状态。
-
$\sum_{x \in \mathrm{x}} P(x)=1$ 我们把这条性质称之为归一化的(normalized)。如果没有这条性质,当我们计算很多事件其中之一发生的概率时可能会得到大于 1 的概率。
例如,考虑一个离散型随机变量 $\mathrm{x}$ 有 $k$ 个不同的状态。我们可以假设 $\mathrm{x}$ 是均匀分布(Uniform Distribution)的,也就是将它的每个状态视为等可能的,其 PMF 可以为:
$$ P\left(\mathrm{x}=x_{i}\right)=\frac{1}{k} $$
对于所有的 $i$ 都成立。我们可以看出这满足上述成为概率质量函数的条件。因为 $k$ 是一个正整数,所以 $\frac{1}{k}$ 是正的,并且:
$$ \sum_{i} P\left(\mathrm{x}=x_{i}\right)=\sum_{i} \frac{1}{k}=\frac{k}{k}=1 $$
因此分布也满足归一化条件。
连续型变量和概率密度函数
当我们研究的对象是连续型随机变量时,我们用概率密度函数(Probability density function, PDF)而不是概率质量函数来描述它的概率分布。如果一个函数 $p$ 是概率密度函数,必须满足下面这几个条件:
-
$p$ 的定义域必须是 $\mathrm{x}$ 所有可能状态的集合。
-
$\forall x \in \mathrm{x}, p(x) \geq 0$,值得一提的是,并不要求:$p(x) \leq 1$。
-
$\int p(x) d x=1$
概率密度函数 $p(x)$ 并没有直接对特定的状态给出概率,相对的,它给出了落在面积为 $\delta x$ 的无限小的区域内的概率为 $p(x) \delta x$。我们可以对概率密度函数求积分来获得点集的真实概率质量,$x$ 落在区间 $[a, b]$ 的概率是 $\int_{[a, b]} p(x) d x$。
为了给出一个连续型随机变量的 PDF 的例子,我们可以考虑实数区间上的均匀分布。我们可以使用函数 $u(x ; a, b)$,其中 $a$ 和 $b$ 是区间的端点且满足 $b > a$。符号 $;$ 表示以什么为参数。一般将 $x$ 作为函数的自变量,$a$ 和 $b$ 作为定义函数的参数。
- 为了确保区间外没有概率,我们对所有的 $x \notin[a, b]$,令 $u(x ; a, b)=0$。
- 在 $[a,b]$ 内,有 $u(x ; a, b)=\frac{1}{b-a}$。
上述函数中,任何一点都非负,并且其积分为 1,通常可以使用 $\mathrm{x} \sim U(a, b)$ 表示 $x$ 在 $[a,b]$ 上是均匀分布的。
条件概率与独立事件
所谓条件概率,已知 $A$ 事件发生的条件下 $B$ 发生的概率,记作 $P(B|A)$,它等于事件 $AB$ 的概率相对于事件 $A$ 的概率,即:$P(B | A)=\frac{P(A B)}{P(A)}$,其中必须有 $P(A)>0$。
条件概率分布满足链式法则,对于 $n$ 个随机变量 $X_{1}, X_{2}, \cdots, X_{n}$,存在有
$$ P\left(X_{1}, X_{2}, \cdots, X_{n}\right)=P\left(X_{1}\right) \prod_{i=2}^{n} P\left(X_{i} | X_{1}, \cdots, X_{i-1}\right) $$
独立
两个随机变量 $X,Y$ 相互独立的数学描述如下,记作 $X \perp Y$:
$$ P(X, Y)=P(X) P(Y) $$
两个随机变量 $X,Y$ 关于随机变量 $Z$ 条件独立的数学描述,记作 $X \perp Y | Z$:
$$ P(X, Y | Z)=P(X | Z) P(Y | Z) $$
联合概率分布
定义 $X$ 和 $Y$ 的联合分布为:
$$ P(a, b)=P{X \leq a, Y \leq b}, \quad-\infty<a, b<+\infty $$
$X$ 的分布可以从联合分布中得到:
$$ P_{X}(a)=P{X \leq a}=P{X \leq a, Y \leq \infty}=P(a, \infty), \quad-\infty<a<+\infty $$
$Y$ 的分布可以从联合分布中得到:
$$ P_{Y}(b)=P{Y \leq b}=P{X \leq \infty, Y \leq b}=P(\infty, b), \quad-\infty<b<+\infty $$