关于如何计算皮尔逊相关系数的显著性 p 值及其背后原因的思考
我们能在网上非常容易找到如下公式:
对于 X X X 和 Y Y Y 变量,有 n n n 个样本 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) (x_1,y_1),(x_2,y_2),...,(x_n,y_n) (x1,y1),(x2,y2),...,(xn,yn),
则 Pearson 相关系数
r = ∑ i = 1 n ( x i − x ˉ ) ( x y − y ˉ ) [ ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 ] 1 2 (1) r= \frac {\sum_{i=1}^n{(x_i-\bar{x})(x_y-\bar{y})}} {[\sum_{i=1}^n(x_i-\bar{x})^2\sum_{i=1}^n(y_i-\bar{y})^2]^\frac{1}{2}} \tag{1} r=[∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2]21∑i=1n(xi−xˉ)(xy−yˉ)(1)
其中 x ˉ , y ˉ \bar{x},\bar{y} xˉ,yˉ 代表样本的平均值,
欲求该
r
r
r 值的显著性,则构建
t
t
t 统计量
t
=
r
1
−
r
2
/
n
−
2
(2)
t=\frac{r}{\sqrt{1-r^2}/\sqrt{n-2}} \tag{2}
t=1−r2/n−2r(2)
那么,通过查阅
t
t
t 分布表,就可以很容易知道
p
p
p 值的大小,从而判定当前回归系数是否有意义(有意义:
p
<
0.05
p<0.05
p<0.05)。
但是,为什么可以这样算?我们来思考一下。
回忆 t 统计量的公式:
t = x ˉ − μ s / n (3) t=\frac{\bar{x}-\mu}{s/\sqrt{n}} \tag{3} t=s/nxˉ−μ(3)
其中 x ˉ \bar{x} xˉ 是样本均值, μ \mu μ 是总体均值, s s s 是样本标准差, n n n 是*样本数量
多说一句, t t t 检验的精髓在这里就体现了:
在只知道总体均值 μ \mu μ、而不知道总体方差时,如何知道某些样本是否来自这个总体?
首先,我们得假定一个合理的偏离范围
如果样本均值 x ˉ \bar{x} xˉ 和总体均值 μ \mu μ 的偏差(分子)落在这个偏离范围内,则认为它来自这个总体
这个偏离范围,一般用总体自身的振荡 σ 2 \sigma^2 σ2 代表,但是总体方差未知,于是我们便用样本方差 s 2 s^2 s2 替代
这样,通过分子和分母的比值,就可以知道当前样本有多大程度偏离总体了
或者说,样本的偏移量到底是总体自身振荡导致的,还是 “样本不属于这个总体” 导致的
我们对比一下(2)和(3)式,可以发现这里实际上是取了:
μ
=
0
\mu=0
μ=0,
s
=
1
−
r
2
s=\sqrt{1-r^2}
s=1−r2,回归问题的*度是
n
−
2
n-2
n−2 而不是
n
n
n
那么,这意味着什么?
这意味着 我们在判断当前的 r r r 有多大程度偏离一个均值为 0、方差为 1 − r 2 1-r^2 1−r2 的总体
首先,为什么要和均值为 0 的总体作比较?
请注意,任何一个显著性检验都离不开零假设,同样,相关性评价问题的零假设如下:
H 0 H_0 H0:变量 X X X 和 变量 Y Y Y 没有相关性
显然,在这种假设下,即便拥有再多的样本,计算出来的 r r r 应该在 0 附近摆动
其次, X X X 和 Y Y Y 无关时,相关系数 r r r 会在 [ − 1 , 1 ] [-1,1] [−1,1] 振荡,
而且,相关系数越大,意味着总体越不发散(振荡越小),因此取该总体的标准差
s
=
1
−
r
2
s=\sqrt{1-r^2}
s=1−r2
这样,从通俗易懂的角度,我们就理解(2)式的目的了:
假设 X X X 和 Y Y Y 无关,则 r r r 值应该在 [ − 1 , 1 ] \pmb{[-1, 1]} [−1,1][−1,1][−1,1] 附近振荡,但大多数情况下接近 0,即均值为 0
构建的统计量就是在判断,当前的 r r r 有多大程度远离这个总体,也即有多大可能 X X X 和 Y Y Y 并非无关
当然,以上都是从感性的角度去理解(2)式的合理性,即从 t t t 分布的意义上去理解(2)式的构造
更严格地讲,问题核心是要证明(2)构建的统计量恰好地服从
t
t
t 分布,这是我们可以查表得到
p
p
上一篇:
GWAMA:全球荟萃分析工具