机器学习实战17--高斯帕克贝叶斯（GaussianNB）模型的实际应用，结合生活中的生动实例帮助你理解--四．高斯帕克贝叶斯模型的数学原理

最编程 2024-07-02 11:45:51

...

在机器学习中，Gaussian Naive Bayes (GaussianNB) 模型是一种基于贝叶斯定理和高斯分布的概率分类器。其核心思想是假设特征之间相互独立，并且每个特征都服从高斯分布（正态分布）。以下是GaussianNB模型的数学原理：

对于给定的数据集 $D = \{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$ ，其中 $x_i \in \mathbb{R}^d$ 是一个d维特征向量， $y_i \in \{C_1, C_2, ..., C_k\}$ 是对应的类别标签。

对于每一个类别 $C_j$ ，GaussianNB模型假设每个特征 $x_{ij}$ 都独立地服从高斯分布：

$p(x_{ij}|y=C_j) = \frac{1}{\sqrt{2\pi\sigma_{j}^2}} \exp\left(-\frac{(x_{ij} - \mu_{j})^2}{2\sigma_{j}^2}\right)$

其中， $\mu_j$ 是类别 $C_j$ 对应的第i个特征的均值， $\sigma_j^2$ 是类别 $C_j$ 对应的第i个特征的方差。

在预测阶段，利用贝叶斯定理计算后验概率：

$P(y=C_j|x) = \frac{P(y=C_j) \prod_{i=1}^{d} P(x_i|y=C_j)}{\sum_{l=1}^{k} P(y=C_l) \prod_{i=1}^{d} P(x_i|y=C_l)}$

其中， $P(y=C_j)$ 是先验概率，可以通过训练数据集中各类别的频率估计得到。模型将预测使得后验概率最大的类别作为新的观测样本的类别。