与数学运动员一起成长 (I) 高斯分布

最编程 2024-04-13 12:55:44

...

简介:

高斯分布(Gaussian Distribution) 又名正态分布(Normal Distribution) ,数学模型类似于一个大钟，扣在地上。

高斯分布概率密度函数：

exp指的是自然数e的多少次幂的概念（e是无限不循环的小数约等于 2.171828）。这个函数在x = μ的位置，此时对应的函数值y = 1 / $\sqrt{2\pi \sigma }$ ，这里的样本数量的计算用的是定积分的费你定义，即整个函数曲线在其下方围住的与y = 0 所围成的面积占比，他在 x = $\mu$ 左右对称的，x在 $\mu$ - $\sigma$ 和 $\mu$ + $\sigma$ 的样本数量占真个数量样本的 68.2% ，x在 $\mu$ - 2 $\sigma$ 和 $\mu + 2\sigma$ 之间的样本数量占整个样本数量的百分之95.4，x 在 $\mu -3\sigma 和\mu + 3\sigma 之间$ 的数量占总样本的百分之99.6。

高斯分布作为分布特性的一种，首先是用来描述统计对象的，如果统计对象的分布性符合高斯分布，那么所有针对高斯分布的定理和经验值就能够直接套用，高斯分布在自然界的应用是非常广的，用一句话概括就是“常见的一般的很多，极端的很少”。

高斯分布密度函数曲线：

举个例子：

假如对某一地区的男性身高做个随机抽样，一共1000人，结果发现他们身高是一个 $\mu$ = 175的高斯分布， $\sigma$ = 10cm，根据密度函数就可以求出大概的身高以及对应的人数。

身高 165 ~ 175 人数大约= 1000 * 34.1% = 341

身高 175 ~ 185 人数大约= 1000 * 34.1% = 341

身高 155 ~ 165 人数大约= 1000 * 13.6% = 136

身高 185 ~ 195 人数大约= 1000 * 13.6% = 136

身高 145 ~ 155 人数大约= 1000 * 2.1% = 21

身高 195 ~ 205 人数大约= 1000 * 2.1% = 21

结论：

$\mu$ 越大则函数图像的最大值就越靠右。

$\sigma$ 越大则图像越显得扁，坡度显着缓。

参考：《白话大数据和机器学习》

上一篇：什么是 Z-score，有哪些使用场景？

下一篇： maven 中的依赖关系管理