多项分布

Bernoulli Distribution | 伯努利分布

伯努利分布是关于布尔变量 $x \in {0,1}$ 的概率分布,其连续参数 $\phi \in [0,1]$ 表示变量 $x=1$ 的概率。

$$ P(x|\phi)=Bern(x|\phi)=\phi^x(1-x)^{(1-x)} \ E[x] = \phi \ Var[x] = \phi(1-\phi) $$

Binomial Distribution | 二项分布

二项分布用以描述 $n$ 次独立的伯努利实验中有 $x$ 次成功的概率,其中每次伯努利实验成功的概率为 $\phi \in [0,1]$:

$$ p(X=x)=\frac{n !}{x !(n-x) !} \phi^{x}(1-\phi)^{n-x}, x \in{0,1, \cdots, n} $$

当 $n=1$ 时,二项分布退化为伯努利分布。二项分布的典型例子是扔硬币,硬币正面朝上概率为 $p$, 重复扔 $n$ 次硬币,$k$ 次为正面的概率即为一个二项分布概率。

二项分布的期望 $\mathbb{E}[X]=n \phi$,方差则是 $\operatorname{Var}[X]=n \phi(1-\phi)$。

Categorical/Multinomial Distribution | 多项分布

比如扔骰子,不同于扔硬币,骰子有 6 个面对应 6 个不同的点数,这样单次每个点数朝上的概率都是 $1/6$,即对应 p1~p6,它们的值不一定都是 1/6,只要和为 1 且互斥即可,比如一个形状不规则的骰子;重复扔 n 次,如果问有 $x$ 次都是点数 6 朝上的概率就是:

$$ P = C(n,x)p^x(1-p)^{n-x} $$

严格定义来说,将伯努利分布由单变量扩展到 $d$ 维向量 $x$,其中 $x_i \in {0,1}$,且$\sum_{i=1}^{d} x_i = 1$,并假设 $x_i$取 1 的概率为 $\mu_i \in [0,1],\sum_{i=1}^d \mu_i = 1$,则将得到离散概率分布为:

$$ P(x|\mu) = \prod_{i=1}^d \mu_i^{x_i} \ E[x_i] = \mu_i \ Var[x_i] = \mu_i(1 - \mu_i) \ Cov[x_j,x_i] = \prod[j=i] \mu_i $$

在此基础上扩展二项分布则得到多项分布,它描述了在 $N$ 次独立实验中有 $m_i$ 次 $x_i = 1$ 的概率:

$$ P(m_1,m_2,…,m_d|N,\mu)=Mult(m_1,m_2,…,m_d | N,\mu) \ = \frac{N!}{m_1!m_2!…m_d!}\prod_{i=1}^d \mu_i^{m_i} \ E[m_i] = N_{\mu_i} \ Var[m_i] = N_{\mu_i}(1-\mu_i) \ Cov[m_j,m_i] = -N_{\mu_j \mu_i} $$

狄里克雷分布

多项式分布的质量密度函数:

$$ \operatorname{Mult}\left(m_{1}, m_{2}, \cdots, m_{K} ; \vec{\mu}, N\right)=\frac{N !}{m_{1} ! m_{2} ! \cdots m_{K} !} \prod_{k=1}^{K} \mu_{k}^{m_{k}} $$

它是 $\left(\mu_{1}+\mu_{2}+\cdots+\mu_{K}\right)^{m_{1}+m_{2}+\cdots+m_{K}}$ 的多项式展开的形式。

狄利克雷分布的概率密度函数:

$$ \operatorname{Dir}(\vec{\mu} ; \vec{\alpha})=\frac{\Gamma\left(\sum_{k=1}^{K} \alpha_{k}\right)}{\sum_{k=1}^{K} \Gamma\left(\alpha_{k}\right)} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} $$

可以看到,多项式分布与狄里克雷分布的概率密度函数非常相似,区别仅仅在于前面的归一化项:

  • 多项式分布是针对离散型随机变量,通过求和获取概率。
  • 狄里克雷分布时针对连续型随机变量,通过求积分来获取概率。
下一页