掌握机器学习数学基础之概率统计(二)
标题:
机器学习为什么要使用概率
概率学派和贝叶斯学派
何为随机变量和何又为概率分布?
条件概率,联合概率和全概率公式:
边缘概率
独立性和条件独立性
期望、方差、协方差和相关系数
常用概率分布
贝叶斯及其应用
中心极限定理
极大似然估计
概率论中的独立同分布?
读完估计需要10min,这里主要讲解第二部分,第一部分详细看之前文章哦
边缘概率
边缘概率:当我们知道一组变量的联合概率分布时,若我们想知道一个子集的概率分布。那么定义在子集上的概率分布就被我们称为边缘概率分布。
离散型随机变量:X和Y,并且我们知道P(X, Y)。 我们可以依据下面的求和法则来计算P(x)
注:这里有了大写字母表示随机变量,但其实要用小写的,具体查看上面第一节。
注:“边缘概率”的名称来源于手算边缘概率的计算过程。 当P(x, y)的每个值被写在由每行表示不同的x值,每列表示不同的y值形成的网格中时,对网格中的每行求和是很自然的事情,然后将求和的结果P(x)写在每行右边的纸的边缘处。
连续型随机变量:我们需要用积分替代求和:
边缘概率可能用的不多,但是也是基础来的,因为很多其他重要知识设计边缘概率。
独立性和条件独立性
独立性:两个随机变量 x和y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含x另一个因子只包含y,我们就称这两个随机变量是 相互独立的:
条件独立性:如果关于 x 和 y 的条件概率分布对于 z 的每一个值都可以写成乘积的形式,那么这两个随机变量 x 和 y 在给定随机变量 z 时是 条件独立的(conditionally independent):
我们可以采用一种简化形式来表示独立性和条件独立性:x⊥y 表示 x 和 y 相互独立,x⊥y z 表示 x 和 y 在给定 z 时条件独立。
记住独立性,这个真的重要,直接影响在看论文或者算法时对数学公式的理解。
期望、方差、协方差和相关系数
在概率论和统计学中,数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一,反映随机变量平均值的大小。
举例说明:
某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个。
则此城市中任一个家庭中孩子的数目是一个随机变量,记为X。它可取值0,1,2,3。
其中,X取0的概率为0.01,取1的概率为0.9,取2的概率为0.06,取3的概率为0.03。
则,它的数学期望
即此城市一个家庭平均有小孩1.11个。
相关系数:相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。
简单相关系数:又叫相关系数或线性相关系数,一般用字母r 表示,用来度量两个变量间的线性关系。定义式:
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差
常用概率分布
伯努利试验(Bernoulli experiment):是在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。
(1)离散型随机变量分布:
泊松分布
日常生活中,大量事件是有固定频率的,比如:
某医院平均每小时出生3个婴儿
某网站平均每分钟有2次访问
某超市平均每小时销售4包奶粉
它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?有可能一下子出生6个,也有可能一个都不出生,这是我们没法知道的。
泊松分布就是描述某段时间内,事件具体的发生概率。其概率函数为:
(2)连续型随机变量分布:
均匀分布
在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)
均匀分布的概率密度函数为:
高斯分布/正态分布
高斯分布又叫正态分布,其曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,如下图所示的这个不同期望和方差的分布图:
就如上图:σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
而对应的,一维正态分布,且其概率密度函数为:
注:高斯分布是几个及其重要的分布,希望读者可以去深入了解。
指数分布
指数分布是事件的时间间隔的概率,它的一个重要特征是无记忆性。这个是其最重要的性质!例如:如果某一元件的寿命的寿命为T,已知元件使用了t小时,它总共使用至少t+s小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。下面这些都属于指数分布:
婴儿出生的时间间隔
网站访问的时间间隔
奶粉销售的时间间隔
指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间t,就等同于t之内没有任何婴儿出生,即:
指数分布的图像如下:
这些常见的概率分布要详细记住并加以区分,在机器学习中,大量应用,比如一般线性模型,比如高斯混合模型等等,要区分的记,记住性质,理解公式!