欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

重启机器学习基础--最大似然估计和最大后验估计

最编程 2024-03-13 14:03:58
...

「这是我参与11月更文挑战的第3天,活动详情查看:2021最后一次更文挑战

频率学派和贝叶斯学派,其中最大似然估计属于频率学派,而最大后验估计则属于贝叶斯学派。

最大似然估计(MLE)

在机器学过程,首先是数据,那么数据就是对于全集数据的采样,然后首先选择一个模型来拟合这些样本数据或者一个概率分布来描述数据的分布,这些模型可以简单理解为一个函数集合,我们要这些函数集合中找到一个最佳函数,也就是在函数参数空间找到一个最优函数参数可以让我们函数给出值越接近真实值越好。或者说找到一个分布,分布越接近真实分布越好,那么这个分布对应参数就是我们要找的。

所以我们在选定模型后,通过朝着目标函数方向来调整参数,这里参数用 θ\theta 来表示,找到最佳参数。在 MLE 中,我们就仅用手上数据来估计这个参数 θ\theta,在具体点说就是我们观察数据,然后找到一个 θ\theta 可以让这些数据出现的可能性最大。

001.png

arg maxθP(Dθ)\argmax_{\theta} P(D|\theta)

最大后验估计(MAP)

最大后验估计是贝叶斯派模型参数估计的常用方法。上面在 MLE 我们知道对于 MLE 是仅依赖手上样本来估计参数,而在后验估计,处理数据意外还依赖于先验 P(θ)P(\theta)

arg maxθP(θD)=arg maxθP(Dθ)P(θ)P(D)\argmax_{\theta} P(\theta|D) = \argmax_{\theta} \frac{ P(D|\theta)P(\theta)}{P(D)}

因为这里 P(D)P(D) 对于 θ\theta 取不同值是没有影响的,也就是 P(D)P(D) 并不依赖于 θ\theta 所以可以将上面式子进行化简为

arg maxθP(Dθ)P(θ)\argmax_{\theta} P(D|\theta)P(\theta)

怎么去理解这个公式呢?首先我们看这两项P(Dθ)P(D|\theta)P(θ)P(\theta) 相乘,其中P(Dθ)P(D|\theta) 不就是 MLE,而相对于 MLE 这里多了一项 P(θ)P(\theta) 也就是对参数的先验。也就是我们对于数据并不是一无所知的,而是有所了解,然后通过不断观察数据(可以看做证据)来更正我们概率 P(θD)P(\theta|D),可以将先验将其看做正则化。

002.png