多变量正态分布 (MND)

最编程 2024-04-13 14:01:17

...

多元正态分布（Multivariate normal distribution）

前言

我们通常讨论正态分布都是在一元（univariate）的情况下，相信下面的定义大家都很熟悉了：假设随机变量 $X$ 服从正态分布，则 $X$ 具有概率密度函数：
$f(x)=(\sqrt{2\pi}\sigma)^{-1}\text{exp}(-\frac{(x-\mu)^2}{2\sigma^2})$
其中 $\mu$ 表示 $X$ 的均值， $\sigma^2$ 表示其方差。

有不少读者应该也看到过下面这个公式：
$\begin{aligned} f(x_1,x_2)=&(2\pi\sigma_1\sigma_2\sqrt{1-\rho^2} )^{-1}\text{exp}[-\frac{1}{2(1-\rho^2)}(\frac{(x_1-\mu_1)^2}{\sigma_1^2}\\ &-\frac{2\rho(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2})] \end{aligned}$
没错，这正是将正态分布拓展到二维的情况，即：
$X=[X_1,X_2]^T$
其中 $X_1$ , $X_2$ 分别服从正态分布。

有不少读者应该和我一样，看到这个二维的公式就头痛了，这他娘的一堆是啥玩意儿啊？老实说把上面的公式准确的打出来还花费了我不少功夫，可见公式之复杂，如果再往三元以上，简直不敢想象了。

由于许多本文许多内容我是从wikipedia看的，现学现卖，自己也是似懂非懂，不敢误人子弟，只能把自己确定的一些心得写一写，以作备忘，如果可以，也能给一些同有此问的后来者一些帮助。

多元正态分布

假设 $X=(X_1,X_2,\cdots,X_k)^T$ 是一个 $k$ 维的列向量，服从多元正态分布，我们可以把它记做：
$X\sim N(\mu,\Sigma)$
其中，
$\begin{aligned} &\mu=E(X)=(\mu_1,\mu_2,\cdots,\mu_k)\\ &\Sigma_{i,j}=Cov(X_i,X_j) \end{aligned}$
对于多元随机变量，我们最关心的是它的概率函数，当上述协方差矩阵是正定的（positive definite），分布才有概率密度函数，这种情况被称为“非退化的”（non-degenerate）。这里笔者亦不甚解，猜测大概和协方差矩阵 $\Sigma$ 是否可逆有关。

如果多元正态分布的概率密度函数存在，它被定义如下：
$f(x_1,x_2,\cdots,x_k)=\frac{\text{exp}(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))}{\sqrt{(2\pi)^k|\Sigma|}}$

上一篇：均匀分布和指数分布的密度和分布函数

下一篇： ELF 文件解析 (II)：ELF 文件头详细信息

多变量正态分布 (MND)

多元正态分布（Multivariate normal distribution）

前言

多元正态分布

概括多，极端少 - 正态分布（又名高斯分布）

多变量正态分布 (MND)

python 基础知识：详细介绍计算机的五大组成部分、计算机的三大核心硬件、操作系统、编程与编程语言的关系、编程语言的发展历史、编程语言的分类、python 解释器、环境变量与多版本并存、运行 python 程序的三种方法

回顾与掌握：多元统计中的回归变量选择及逐步回归 - 多个自变量的多线性回归第四章

R语言的多标签分类方法以及r语言中的分类变量处理