欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

数据分析 - 正态分布、大数定理、中心极限定理

最编程 2024-04-13 13:11:04
...

这是我参与8月更文挑战的第27天,活动详情查看:8月更文挑战

正态分布

概念

正态分布又叫作 常态分布、 高斯分布。图形长这样 -

image.png

呈现出中间高,两边低的形态。当概率密度函数服从

image.png 时,就是正态分布,即期望值为中心左右两边对称的概率密度值。

正态分布的基本特性是什么?

是非偏态的分布 - 也就是期望等于中位数。由正态分布的图形特点可以得知大部分样本落在期望值周围, 由此引申出3σ相关问题。那么3σ方法与正态分布之间存在怎样的关联呢?3σ的意思就是 68.27%, 95.45%, 99.73%的概率会使样本分别落在 σ,2σ,3σ 区间。样本落在3σ之外的概率只有0.27%, 因此这类样本不属于随机误差,而是粗大误差,应当剔除。

如何用通俗易懂的语言介绍正态分布

拿成绩和身高举例 - 成绩 - 每个人的成绩都是不同的,有些人聪明勤奋些,成绩就好一些,有些人懒惰些,成绩就差一些。一次期末考试把全年级的学生成绩按人数统计出来,画在纸上,就会发现大部分的人都在中等成绩的范围内。少部分的人能够取得极其优异的成绩,少部分人取得极其差的成绩。最终图像就是两边高,中间低的形态,这就是正态分布。

大数定理

大数定律是指随机变量X所对应的随机试验重复多次,随着随机次数的增加,X的均值会趋于E(X)。一般有三种大数定律。

  1. 辛钦大数定律 【算数平均值 期望】 独立同分布的随机变量 E(X) = μ 算术平均值依概率收敛于μ

  2. 伯努利大数定律【概率 频率】 μ - n次独立试验中事件A发生的次数每次试验中发生的概率是 P 概率和频率的关系 N很大时,事件A发生的概率等于事件A发生的频率

  3. 切比雪夫大数定律 【样本均值 真实值】 切比雪夫相比于辛钦大数 - 不要求同分布,只要求独立或者不相关 - 具有更强的广泛性 简述常见的大数定律,以及它们之间的区别

定律 分布情况 期望 方差 总结
辛钦大数定律 相互独立且同分布 相同 相同 估算期望
伯努利大数定律 二项分布 相同 相同 频率等于概率 - 估算概率
切比雪夫大数定律 相互独立或不相关 存在 存在 估算期望

中心极限定理

设X 1-n是一组独立同分布的随机变量,E(X)=μ, D(X) = σ²,则当n足够大时,均值的分布接近于正态分布N。
将均值进行标准化处理,就可得到接近于N(0, 1)的标准正态分布
随着样本数量的增加,均值的分布愈发趋近于正态分布
随着试验次数的增加 - 一组独立同分布的变量的均值可以近似看作服从正态分布,且方差也会随着次数的增加而变小