欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

关于如何计算皮尔逊相关系数的显著性 p 值及其背后原因的思考

最编程 2024-03-02 17:46:44
...

我们能在网上非常容易找到如下公式:

对于 X X X Y Y Y 变量,有 n n n 个样本 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) (x_1,y_1),(x_2,y_2),...,(x_n,y_n) (x1,y1),(x2,y2),...,(xn,yn)

则 Pearson 相关系数

r = ∑ i = 1 n ( x i − x ˉ ) ( x y − y ˉ ) [ ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 ] 1 2 (1) r= \frac {\sum_{i=1}^n{(x_i-\bar{x})(x_y-\bar{y})}} {[\sum_{i=1}^n(x_i-\bar{x})^2\sum_{i=1}^n(y_i-\bar{y})^2]^\frac{1}{2}} \tag{1} r=[i=1n(xixˉ)2i=1n(yiyˉ)2]21i=1n(xixˉ)(xyyˉ)(1)

其中 x ˉ , y ˉ \bar{x},\bar{y} xˉ,yˉ 代表样本的平均值,

欲求该 r r r 值的显著性,则构建 t t t 统计量
t = r 1 − r 2 / n − 2 (2) t=\frac{r}{\sqrt{1-r^2}/\sqrt{n-2}} \tag{2} t=1r2 /n2 r(2)
那么,通过查阅 t t t 分布表,就可以很容易知道 p p p 值的大小,从而判定当前回归系数是否有意义(有意义: p < 0.05 p<0.05 p<0.05)。


但是,为什么可以这样算?我们来思考一下。

回忆 t 统计量的公式:

t = x ˉ − μ s / n (3) t=\frac{\bar{x}-\mu}{s/\sqrt{n}} \tag{3} t=s/n xˉμ(3)

其中 x ˉ \bar{x} xˉ 是样本均值, μ \mu μ 是总体均值, s s s 是样本标准差, n n n 是*样本数量

多说一句, t t t 检验的精髓在这里就体现了:
在只知道总体均值 μ \mu μ、而不知道总体方差时,如何知道某些样本是否来自这个总体?
首先,我们得假定一个合理的偏离范围
如果样本均值 x ˉ \bar{x} xˉ 和总体均值 μ \mu μ 的偏差(分子)落在这个偏离范围内,则认为它来自这个总体
这个偏离范围,一般用总体自身的振荡 σ 2 \sigma^2 σ2 代表,但是总体方差未知,于是我们便用样本方差 s 2 s^2 s2 替代
这样,通过分子和分母的比值,就可以知道当前样本有多大程度偏离总体了
或者说,样本的偏移量到底是总体自身振荡导致的,还是 “样本不属于这个总体” 导致的

我们对比一下(2)和(3)式,可以发现这里实际上是取了:

μ = 0 \mu=0 μ=0 s = 1 − r 2 s=\sqrt{1-r^2} s=1r2 ,回归问题的*度是 n − 2 n-2 n2 而不是 n n n


那么,这意味着什么?

这意味着 我们在判断当前的 r r r 有多大程度偏离一个均值为 0、方差为 1 − r 2 1-r^2 1r2 的总体


首先,为什么要和均值为 0 的总体作比较?

请注意,任何一个显著性检验都离不开零假设,同样,相关性评价问题的零假设如下:

H 0 H_0 H0:变量 X X X 和 变量 Y Y Y 没有相关性

显然,在这种假设下,即便拥有再多的样本,计算出来的 r r r 应该在 0 附近摆动

其次, X X X Y Y Y 无关时,相关系数 r r r 会在 [ − 1 , 1 ] [-1,1] [1,1] 振荡,

而且,相关系数越大,意味着总体越不发散(振荡越小),因此取该总体的标准差 s = 1 − r 2 s=\sqrt{1-r^2} s=1r2


这样,从通俗易懂的角度,我们就理解(2)式的目的了:

假设 X X X Y Y Y 无关,则 r r r 值应该在 [ − 1 , 1 ] \pmb{[-1, 1]} [1,1][−1,1][1,1] 附近振荡,但大多数情况下接近 0,即均值为 0

构建的统计量就是在判断,当前的 r r r 有多大程度远离这个总体,也即有多大可能 X X X Y Y Y 并非无关


当然,以上都是从感性的角度去理解(2)式的合理性,即从 t t t 分布的意义上去理解(2)式的构造

更严格地讲,问题核心是要证明(2)构建的统计量恰好地服从 t t t 分布,这是我们可以查表得到 p p