关于如何计算皮尔逊相关系数的显著性 p 值及其背后原因的思考

最编程 2024-03-02 17:46:44

...

我们能在网上非常容易找到如下公式：

对于 $X$ 和 $Y$ 变量，有 $n$ 个样本 $x_1,y_1),(x_2,y_2),...,(x_n,y_n)$ ，

则 Pearson 相关系数

$\frac {\sum_{i=1}^n{(x_i-\bar{x})(x_y-\bar{y})}} {[\sum_{i=1}^n(x_i-\bar{x})^2\sum_{i=1}^n(y_i-\bar{y})^2]^\frac{1}{2}} \tag{1}$

其中 $\bar{x},\bar{y}$ 代表样本的平均值，

欲求该 $r$ 值的显著性，则构建 $t$ 统计量
$t=\frac{r}{\sqrt{1-r^2}/\sqrt{n-2}} \tag{2}$
那么，通过查阅 $t$ 分布表，就可以很容易知道 $p$ 值的大小，从而判定当前回归系数是否有意义（有意义： $p < 0.05$ ）。

但是，为什么可以这样算？我们来思考一下。

回忆 t 统计量的公式：

$t=\frac{\bar{x}-\mu}{s/\sqrt{n}} \tag{3}$

其中 $\bar{x}$ 是样本均值， $\mu$ 是总体均值， $s$ 是样本标准差， $n$ 是*样本数量

多说一句， $t$ 检验的精髓在这里就体现了：
在只知道总体均值 $\mu$ 、而不知道总体方差时，如何知道某些样本是否来自这个总体？
首先，我们得假定一个合理的偏离范围
如果样本均值 $\bar{x}$ 和总体均值 $\mu$ 的偏差（分子）落在这个偏离范围内，则认为它来自这个总体
这个偏离范围，一般用总体自身的振荡 $\sigma^2$ 代表，但是总体方差未知，于是我们便用样本方差 $s^2$ 替代
这样，通过分子和分母的比值，就可以知道当前样本有多大程度偏离总体了
或者说，样本的偏移量到底是总体自身振荡导致的，还是 “样本不属于这个总体” 导致的

我们对比一下（2）和（3）式，可以发现这里实际上是取了：

$\mu=0$ ， $s=\sqrt{1-r^2}$ ，回归问题的*度是 $n - 2$ 而不是 $n$

那么，这意味着什么？

这意味着 我们在判断当前的 $r$ 有多大程度偏离一个均值为 0、方差为 $1-r^2$ 的总体

首先，为什么要和均值为 0 的总体作比较？

请注意，任何一个显著性检验都离不开零假设，同样，相关性评价问题的零假设如下：

$H_0$ ：变量 $X$ 和变量 $Y$ 没有相关性

显然，在这种假设下，即便拥有再多的样本，计算出来的 $r$ 应该在 0 附近摆动

其次， $X$ 和 $Y$ 无关时，相关系数 $r$ 会在 $[- 1, 1]$ 振荡，

而且，相关系数越大，意味着总体越不发散（振荡越小），因此取该总体的标准差 $s=\sqrt{1-r^2}$

这样，从通俗易懂的角度，我们就理解（2）式的目的了：

假设 $X$ 和 $Y$ 无关，则 $r$ 值应该在 $\pmb{[-1, 1]}$ 附近振荡，但大多数情况下接近 0，即均值为 0

构建的统计量就是在判断，当前的 $r$ 有多大程度远离这个总体，也即有多大可能 $X$ 和 $Y$ 并非无关

当然，以上都是从感性的角度去理解（2）式的合理性，即从 $t$ 分布的意义上去理解（2）式的构造

更严格地讲，问题核心是要证明（2）构建的统计量恰好地服从 $t$ 分布，这是我们可以查表得到

上一篇： GWAMA：全球荟萃分析工具

下一篇：偏最小二乘法路径模型（PLS-PM）的详细结果