重启机器学习基础--最大似然估计和最大后验估计

最编程 2024-03-13 14:03:58

...

「这是我参与11月更文挑战的第3天，活动详情查看：2021最后一次更文挑战」

频率学派和贝叶斯学派，其中最大似然估计属于频率学派，而最大后验估计则属于贝叶斯学派。

最大似然估计(MLE)

在机器学过程，首先是数据，那么数据就是对于全集数据的采样，然后首先选择一个模型来拟合这些样本数据或者一个概率分布来描述数据的分布，这些模型可以简单理解为一个函数集合，我们要这些函数集合中找到一个最佳函数，也就是在函数参数空间找到一个最优函数参数可以让我们函数给出值越接近真实值越好。或者说找到一个分布，分布越接近真实分布越好，那么这个分布对应参数就是我们要找的。

所以我们在选定模型后，通过朝着目标函数方向来调整参数，这里参数用 $\theta$ 来表示，找到最佳参数。在 MLE 中，我们就仅用手上数据来估计这个参数 $\theta$ ，在具体点说就是我们观察数据，然后找到一个 $\theta$ 可以让这些数据出现的可能性最大。

\argmax_{\theta} P(D|\theta)

最大后验估计(MAP)

最大后验估计是贝叶斯派模型参数估计的常用方法。上面在 MLE 我们知道对于 MLE 是仅依赖手上样本来估计参数，而在后验估计，处理数据意外还依赖于先验 $P(\theta)$ 。

\argmax_{\theta} P(\theta|D) = \argmax_{\theta} \frac{ P(D|\theta)P(\theta)}{P(D)}

因为这里 $P(D)$ 对于 $\theta$ 取不同值是没有影响的，也就是 $P(D)$ 并不依赖于 $\theta$ 所以可以将上面式子进行化简为

\argmax_{\theta} P(D|\theta)P(\theta)

怎么去理解这个公式呢?首先我们看这两项 $P(D|\theta)$ 和 $P(\theta)$ 相乘，其中 $P(D|\theta)$ 不就是 MLE，而相对于 MLE 这里多了一项 $P(\theta)$ 也就是对参数的先验。也就是我们对于数据并不是一无所知的，而是有所了解，然后通过不断观察数据(可以看做证据)来更正我们概率 $P(\theta|D)$ ，可以将先验将其看做正则化。

上一篇：货币银行学原理

下一篇： java 注销帐户 java 如何注销用户

重启机器学习基础--最大似然估计和最大后验估计

最大似然估计(MLE)

最大后验估计(MAP)

对最大似然估计和统计机器学习的通俗理解

重启机器学习基础--最大似然估计和最大后验估计

理解概率统计中的三大估计方法：最大似然、最大后验和逻辑回归