概率中的随机变量和分布 - 连续分布
Continuous Distribution
对于连续型随机变量而言,可能的取值无法通过列举的方式展现;而且针对这样的随机变量,统计分析并不会针对某个具体随机变量出现的概率感兴趣,而是考虑某个随机变量区间,也即是说要研究随机变量所取的值落在一个区间的概率,这就引入了分布函数(Distribution Function)的概念。分布函数F(x)记作:
分布函数完整地描述了随机变量的统计规律性,如果我们已知随机变量X的分布函数F(X),就知道X落在任一区间的概率。若以下公式成立,则称非负可积函数f(x)为概率密度函数(probability density function, pdf),而此时的X则为连续型随机变量。
由于:
所以,连续型随机变量的概率密度函数是其分布函数的导数,即:
分布函数的公式牵涉到积分运算,可以简单地理解为:
若一个连续分布存在一个密度函数f,且h的值较小,则在x到x+h区间中值的概率约等于h*f(x)。
我们来看看均匀分布(Uniform Distribution)的概率密度函数。此时f(x)满足:
这个函数非常简单,随机变量X落到区间[a, b)的概率要么为0,要么为1/(b-a)。假设a=0,b=1,则Python实现该区间的概率密度函数为:
def uniform_pdf(x): return 1 if x >=0 and x < 1 else 0
如果h的值取值为0.1,实际上就相当于对[1, 0)取十等分。取其中一个区间[0.2, 0.3),则随机变量落在这个区间中的概率就为1/10,即P(x)=h*f(x),此时h为0.1, f(x)在[0.2, 0.3)区间返回1,故而P(x) = 0.1。
如果要获得随机变量小于或等于特定的某个数值的概率,即P(X<=x),则可以使用累加分布函数(cumulative distribution funciton, cdf)。例如前面例子中的均匀分布,实现cdf即为:
def uniform_cdf(x) if x < 0: return 0 elif x < 1: return x else: return 1