欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

概率中的随机变量和分布 - 连续分布

最编程 2024-04-13 12:50:46
...

Continuous Distribution

对于连续型随机变量而言,可能的取值无法通过列举的方式展现;而且针对这样的随机变量,统计分析并不会针对某个具体随机变量出现的概率感兴趣,而是考虑某个随机变量区间,也即是说要研究随机变量所取的值落在一个区间的概率,这就引入了分布函数(Distribution Function)的概念。分布函数F(x)记作:

0eacb84100b54626af849e6b562bf92a.png

分布函数完整地描述了随机变量的统计规律性,如果我们已知随机变量X的分布函数F(X),就知道X落在任一区间的概率。若以下公式成立,则称非负可积函数f(x)为概率密度函数(probability density function, pdf),而此时的X则为连续型随机变量。

2d65d23f6d4748949b924e4057485923.png

由于:

2e9b90b2ca334476abebe75bafe6eeaa.png

所以,连续型随机变量的概率密度函数是其分布函数的导数,即:

0a2653c851af460fa595bd959398a8f1.png

分布函数的公式牵涉到积分运算,可以简单地理解为:

若一个连续分布存在一个密度函数f,且h的值较小,则在x到x+h区间中值的概率约等于h*f(x)。

我们来看看均匀分布(Uniform Distribution)的概率密度函数。此时f(x)满足:

0eacb84100b54626af849e6b562bf92a.png

这个函数非常简单,随机变量X落到区间[a, b)的概率要么为0,要么为1/(b-a)。假设a=0,b=1,则Python实现该区间的概率密度函数为:

def uniform_pdf(x):
    return 1 if x >=0 and x < 1 else 0

如果h的值取值为0.1,实际上就相当于对[1, 0)取十等分。取其中一个区间[0.2, 0.3),则随机变量落在这个区间中的概率就为1/10,即P(x)=h*f(x),此时h为0.1, f(x)在[0.2, 0.3)区间返回1,故而P(x) = 0.1。

如果要获得随机变量小于或等于特定的某个数值的概率,即P(X<=x),则可以使用累加分布函数(cumulative distribution funciton, cdf)。例如前面例子中的均匀分布,实现cdf即为:

def uniform_cdf(x)
    if x < 0:    return 0
    elif x < 1:  return x
    else:        return 1