理解概率论中的两大方法:最大似然估计 (MLE) 和最大后验估计 (MAP)
概率与统计的区别
- 概率研究的问题是一个模型和它的参数已知的情况下,怎么去预测这个模型产生的结果的特性(如均值,方差,协方差等)
- 统计研究的问题是在已有的大量的数据的情况下,推断产生这堆数据的模型及其参数.
贝叶斯公式
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
- P ( A ∣ B ) P(A|B) P(A∣B)在B发生的情况下,A发生的概率(后验概率).体现了某个事件发生后对于证据的确信度,即确实是由A导致B发生的概率;
- P ( A ) P(A) P(A)情况 A A A发生的概率(先验概率),之所以称之为先验是因为这个概率通常是我们基于经验估计或者统计得出的一个概率;
- P ( B ∣ A ) P(B|A) P(B∣A)在A发生的情况下,B发生的概率;
值得一提的是,这里 P ( B ∣ A ) P(B|A) P(B∣A)出现的概率大不一定导致 P ( A ∣ B ) P(A|B) P(A∣B)就大,还需要 P ( A ) P(A) P(A)也大.例如一个模型本身不太可能选择某组参数,那么即便这组参数很有可能会产出我们想要的结果,但是也不能说是由这套参数产生这个结果的可能性大,因为本身A的概率拉低了整体发生的概率(这是后续MAP的思想依据).
假定模型已定的情况下,其模型参数为某特定参数的事件为 A A A,该模型参数某特定结果的事件为 B B B,则 P ( A ∣ B ) P(A|B) P(A∣B)表示在获得该组数据的情况下,模型是这一套参数的概率; P ( B ∣ A ) P(B|A) P(B∣A)表示基于经验,分析或者别的什么(扯淡的操作),我们认为这套参数下产生结果B的概率
似然函数(Likehood Function)
一菜两吃的 P ( x ∣ θ ) P(x|\theta) P(x∣θ):
- 如果 θ \theta θ已知, x x x是变量,则它是概率函数(由因导果);
- 如果 x x x已知, θ \theta θ未知,那它是似然函数(由果导因);
最大似然估计(MLP)
假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为 θ \theta θ)各是多少?
- STEP1: 获取数据.显然,这是一个由因导果(求模型参数)的问题,为此我们投掷10次硬币,假设出现了结果 x 0 x_0 x0(“反正正正正反正正正反”);
- STEP2: 确定模型.根据经验,我们假定实验结果 x x x服从二项分布,则 f ( x 0 , θ ) = θ 7 ( 1 − θ ) 3 f(x_0,\theta)=\theta^7(1-\theta)^3 f(x0,θ)=θ7(1−θ)3,这是一个关于 θ \theta θ的函数;
- STEP3: 似然估计.绘图求解知
f
f
f在
θ
=
0.7
\theta=0.7
θ=0.7处取得最大值.因此,我们认为
θ
=
0.7
\theta=0.7
θ=0.7是最有可能导致
x
0
x_0
x0出现的.
最大后验概率估计(MAP)
与MLE不同的是,MAP是要使后验概率 P ( A ∣ B ) P(A|B) P(A∣B)最大化,即确实是由 A A A导致 B B B发生的可能性最高.因为贝叶斯公式中的 P ( B ) P(B) P(B)通常是可以从数据中统计得出,所以只需让 P ( B ∣ A ) P ( A ) P(B|A)P(A) P(B∣A)P(A)这个整体,即 P ( A B ) P(AB) P(AB)最大. 这个思路也是可以理解,毕竟谁也不能说产生结果 B B B就一定是参数 A A A导致的:-)因此,在该例中,按照贝叶斯的想法要使 P ( x 0 ∣ θ ) P ( θ ) P(x_0|\theta)P(\theta) P(x0∣θ)P(θ)最大.
- STEP1:获取数据.如前所述.
- STEP2:确定模型.我们先验地知道 θ = 0.5 \theta=0.5 θ=0.5的概率很大,因此假定 θ ∼ N ( 0.5 , 0.1 ) \theta\sim N(0.5,0.1) θ∼N(0.5,0.1);同理,假定实验结果 x ∼ B ( 10 , θ ) x\sim B(10,\theta) x∼B(10,θ).
- STEP3:后验概率估计.计算得其后验概率
P
(
x
0
∣
θ
)
P
(
θ
)
=
θ
7
(
1
−
θ
)
3
×
1
2
π
×
0.
1
2
e
−
(
θ
−
0.5
)
2
2
×
0.
1
2
P(x_0|\theta)P(\theta)=\theta^7(1-\theta)^3 \times \frac{1}{\sqrt{2\pi\times 0.1^2}}e^{-\frac{(\theta-0.5)^2}{2\times 0.1^2}}
P(x0∣θ)P(θ)=θ7(1−θ)3×2π×0.121e−2×0.12(θ−0.5)2,绘图可知在
θ
=
0.558
\theta=0.558
θ=0.558处后验概率最大.
二者的区别与联系
通过观察MLE和MAP的式子,我们不难发现 f ( x 0 , θ ) f(x_0,\theta) f(x0,θ)与 P ( x 0 ∣ θ ) P ( θ ) P(x_0|\theta)P(\theta) P(x0∣θ)P(θ)主要的差别在于是否考虑了先验概率 P ( θ ) P(\theta) P(θ)这个因子,或者说MLE简单得将先验概率视为了 P ( θ ) = 1 P(\theta)=1 P(θ)=1,即认为 θ \theta θ是均匀分布的.
所以,需要说服一个贝叶斯学派的相信一个经典统计学派的的论调,你只有做很多的实验来让他信服(即投的次数多了,自然而然就能说明这枚硬币有没有猫腻了).
以上便是自己拜读了参考资料后的一些感悟,不足之处恳请各位批评指正.
参考资料
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
上一篇: likehood function
推荐阅读
-
理解概率论中的两大方法:最大似然估计 (MLE) 和最大后验估计 (MAP)
-
包婷婷 (201550484)作业一 统计软件简介与数据操作-SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件。最初软件全称为"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。 1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。 R统计软件介绍 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。 该语言的语法表面上类似 C,但在语义上是函数设计语言(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在"语言上计算"(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。 R是一个免费的*软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。在R主页那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。 二、R语言 R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个*、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点: 1.R是*软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。[2] 2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。[2] 3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等.[2] 4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。[2] 5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地.[2] R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。R的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。 但是请不要忘了:R是免费的(R is free)。R语言源代码托管在github,具体地址可以看参考资料。[3] 。 R语言的下载可以通过CRAN的镜像来查找。 R语言有域名为.cn的下载地址,有六个,其中两个由Datagurn,由 中国科学技术大学提供的。R语言Windows版,其中由两个下载地点是Datagurn和 USTC提供的。 三、stata Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。用Stata绘制的统计图形相当精美。 新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。 除此之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过Stata. Journal获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。 四、PYTHON
-
理解概率统计中的三大估计方法:最大似然、最大后验和逻辑回归