数据分析 - 正态分布、大数定理、中心极限定理
这是我参与8月更文挑战的第27天,活动详情查看:8月更文挑战
正态分布
概念
正态分布又叫作 常态分布、 高斯分布。图形长这样 -
呈现出中间高,两边低的形态。当概率密度函数服从
时,就是正态分布,即期望值为中心左右两边对称的概率密度值。
正态分布的基本特性是什么?
是非偏态的分布 - 也就是期望等于中位数。由正态分布的图形特点可以得知大部分样本落在期望值周围, 由此引申出3σ相关问题。那么3σ方法与正态分布之间存在怎样的关联呢?3σ的意思就是 68.27%, 95.45%, 99.73%的概率会使样本分别落在 σ,2σ,3σ 区间。样本落在3σ之外的概率只有0.27%, 因此这类样本不属于随机误差,而是粗大误差,应当剔除。
如何用通俗易懂的语言介绍正态分布
拿成绩和身高举例 - 成绩 - 每个人的成绩都是不同的,有些人聪明勤奋些,成绩就好一些,有些人懒惰些,成绩就差一些。一次期末考试把全年级的学生成绩按人数统计出来,画在纸上,就会发现大部分的人都在中等成绩的范围内。少部分的人能够取得极其优异的成绩,少部分人取得极其差的成绩。最终图像就是两边高,中间低的形态,这就是正态分布。
大数定理
大数定律是指随机变量X所对应的随机试验重复多次,随着随机次数的增加,X的均值会趋于E(X)。一般有三种大数定律。
-
辛钦大数定律 【算数平均值 期望】 独立同分布的随机变量 E(X) = μ 算术平均值依概率收敛于μ
-
伯努利大数定律【概率 频率】 μ - n次独立试验中事件A发生的次数每次试验中发生的概率是 P 概率和频率的关系 N很大时,事件A发生的概率等于事件A发生的频率
-
切比雪夫大数定律 【样本均值 真实值】 切比雪夫相比于辛钦大数 - 不要求同分布,只要求独立或者不相关 - 具有更强的广泛性 简述常见的大数定律,以及它们之间的区别
定律 | 分布情况 | 期望 | 方差 | 总结 |
---|---|---|---|---|
辛钦大数定律 | 相互独立且同分布 | 相同 | 相同 | 估算期望 |
伯努利大数定律 | 二项分布 | 相同 | 相同 | 频率等于概率 - 估算概率 |
切比雪夫大数定律 | 相互独立或不相关 | 存在 | 存在 | 估算期望 |
中心极限定理
设X 1-n是一组独立同分布的随机变量,E(X)=μ, D(X) = σ²,则当n足够大时,均值的分布接近于正态分布N。
将均值进行标准化处理,就可得到接近于N(0, 1)的标准正态分布
随着样本数量的增加,均值的分布愈发趋近于正态分布
随着试验次数的增加 - 一组独立同分布的变量的均值可以近似看作服从正态分布,且方差也会随着次数的增加而变小