明白差异:分清什么是似然率(likelihood)和概率(probability)的窍门
我在学习朴素贝叶斯算法时,发现所选教材中对于似然度与概率之间的概念区分解释的并不详细
(可能作者认为这是基础知识,所以没有详细阐述吧hh)
碰巧,我自己对于概率论的知识忘得差不多了,所以在这方面犯了不少难。
在查阅了各大搜索引擎之后,在Google里找到了我认为的Best Answer(相关链接我会放在文末,但内容是全英文的,需要一些耐心去读)。
进入正题:
首先,回答这个问题之前,我们需要分清楚我们的问题是基于离散型随机变量还是连续型随机变量。
【离散型随机变量 的情况】
比如,连续抛N次硬币问题、某车站在一定时间区间内接收的旅客数目问题等均属于离散型概率分布问题。
在这类问题中,我们可以通过对潜在的随机过程做出适当的假设来计算出一组特定结果的概率。
我们假设,
O为观察结果,θ为描述随机过程的参数集(即表示导致观察结果O的特征集合)。
于是,当我们在求解所谓的概率的时候,其实就是在求解P(O|θ)。 换句话说,当我们得到θ的一个确定值时,P(O|θ)就是我们观察到事件的最终结果是O的概率。
但问题是,在实际情况下,当我们对一个真实生活中的随机过程进行建模时,我们通常是无法知晓θ的。展现在我们眼前的只有观察结果O。
也就是说,在现实生活中我们往往可以知道一个事件的观察结果,但是无法知道是什么因素造成了这个结果。
所以,问题就来到了:我们需要找到一个估计值θ,让P(O|θ)在该θ下尽可能的大(即在该θ下,观察结果O是最有可能发生的)。
总而言之,我们就是在讨论函数P(O|θ)中的O和θ,两者之中谁在做已知常量,谁在做未知变量。
当θ已知,O未知时,P(O|θ)可称为概率函数(Probability Function);
而当θ未知,O已知时,P(O|θ)可称为似然函数(Likelihood Function)或似然度。
通常,我们将似然函数写作L(θ|O),L(θ|O) = P(O|θ)
L(θ|O)表示方式意味着,似然函数是基于观察结果O为先决条件,参数集θ作为未知参数的函数。
意思是说我们已经得知了观察结果O,θ为估计值,我们通过不断输入不同的θ来求得对应的P(O|θ)。
我们希望通过改变估计值θ,使得求出来的L(O|θ)(= P(O|θ) )尽可能的大,因为以为这意味着更有可能是该θ导致了结果O的发生。
对于L(θ|O) 的最大值,我们将其称作 最大似然估计。
【连续型随机变量 的情况】
与离散型随机变量的情况相似的是,在该情况下我们同样只知道观察结果O,而不知道造成该结果的参数集θ。
然而,我们无法再讨论由得到观察结果O的概率P(O|θ),因为在连续概率分布中,任意一点的概率都为零(P(O|θ) = 0)
因此,我们需要将概率密度函数与观察结果O联系起来,讨论的对象从P(O|θ) 转变为 f(O|θ)。则似然函数为L(θ|O) = f(O|θ) 。
讨论的问题也相应地变为 通过改变估计值θ,使得L(O|θ)(= P(O|θ) )尽可能的大,以求得对于真实概率的最大似然估计。
【若有错误,欢迎指正】
链接:https://stats.stackexchange.com/questions/2641/what-is-the-difference-between-likelihood-and-probability
上一篇: 比较三大统计方法:极大似然法、最大后验概率法与贝叶斯估计
下一篇: MLE详解:最大似然估计方法