欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

理解多元线性回归:第3章第3.4节 - 回归方程的重要性测试

最编程 2024-08-07 22:22:09
...

3.4 回归方程的显著性检验

我们事先并不能断定随机变量 \(y\) 与变量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 之间确有线性关系,在进行回归参数的估计之前,用多元线性回归方程去拟合这种关系,只是根据一些定性分析所做的一种线性假设。在求出线性回归方程后,还需对回归方程进行显著性检验。

下面介绍两种统计检验方法:一种是回归方程显著性的 \(F\) 检验;另一种是回归系数显著性的 \(t\) 检验。同时介绍衡量回归拟合程度的拟合优度检验。

3.4.1 \(F\) 检验

对多元线性回归方程的显著性检验要看自变量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 从整体上对随机变量 \(y\) 是否有明显的影响。为此提出原假设

\[H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0 \tag{3.4.1} \]

如果 \(H_0\) 被接受,则表明随机变量 \(y\) 与自变量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 之间的关系由线性回归模型表示不合适。

类似于一元线性回归,为了建立对原假设进行检验的 \(F\) 统计量,仍然利用总离差平方和的分解式,即

\[\sum_{i=1}^n (y_i - \overline{y})^2 = \sum_{i=1}^n (\hat{y}_i - \overline{y})^2 + \sum_{i=1}^n (y_i - \hat{y}_i)^2 \]

简写为:

\[\text{SST} = \text{SSR} + \text{SSE} \tag{3.4.2} \]

在多元线性回归的场合,我们对上式做进一步解释。

定理 3.4.1

  • \(\text{SSR} = \bm{y}'(H - \frac{1}{n} \bm{1} \bm{1}') \bm{y}\)

  • \(\text{SSE} = \bm{y}'(I - H)\bm{y}\)

  • \(\text{SST} = \bm{y}'(I - \frac{1}{n} \bm{1} \bm{1}')\bm{y}\)

证明:考虑 \(\text{SSE}\),有

\[\text{SSE} = \bm{e}' \bm{e} = \left[ (I-H) \bm{y} \right]'\left[ (I-H) \bm{y} \right] = \bm{y}' (I - H) \bm{y} \]

考虑 \(\text{SSR}\),有

\[\begin{align*} \text{SSR} & = \sum_{i=1}^n (\hat{y}_i - \overline{y})^2 \\ & = (\hat{\bm{y}} - \overline{y} \bm{1}_n)' (\hat{\bm{y}} - \overline{y} \bm{1}_n) \\ & = (H \bm{y} - \frac{1}{n} \bm{1}_n \bm{1}_n' \bm{y})' (H \bm{y} - \frac{1}{n} \bm{1}_n \bm{1}_n' \bm{y}) \\ & = \bm{y}' (H - \frac{1}{n} \bm{1}_n \bm{1}_n') \bm{y} \end{align*} \]

证毕。

引理 3.4.1

\(\bm{y} \sim N(\bm{\mu}, \sigma^2 I_n)\)\(U=\bm{y}' A \bm{y}\)\(V=\bm{y}' B \bm{y}\),其中 \(A\)\(B\)\(n \times n\) 的矩阵。

  • \(A^2=A\),则 \(U/\sigma^2 \sim \chi_{r,\lambda}^2\),其中 \(r=\text{rank}(A)\)\(\lambda = \bm{\mu}' A \bm{\mu} / \sigma^2\)

  • \(AB=0\),则 \(U、V\) 独立。

证明略。

利用上述引理可以得到下述重要的定理。

定理 3.4.2

随机向量 \(\bm{y} \sim N(X \bm{\beta}, \sigma^2 I_n)\),则有

  • 如果 \(\beta_1 = \beta_2 = \cdots = \beta_p=0\),则 \(\text{SSR} / \sigma^2 \sim \chi^2(p)\)

  • \(\text{SSE} / \sigma^2 \sim \chi^2(n-p-1)\)

  • \(\text{SSR}\)\(\text{SSE}\) 独立。

证明: 证明第一点。由于 \(\beta_1 = \beta_2 = \cdots = \beta_p=0\),因此有

\[E(y_i) = \beta_0, \quad E(\bm{y}) = \beta_0 \bm{1}_n \]

\(A = H - \frac{1}{n} \bm{1}_n \bm{1}_n'\),可以验证

\[A^2 = (H - \frac{1}{n} \bm{1}_n \bm{1}_n')^2 = (H^2 - H \frac{1}{n} \bm{1}_n \bm{1}_n' - \frac{1}{n} \bm{1}_n \bm{1}_n' H + \frac{1}{n} \bm{1}_n \bm{1}_n')=A \]

因此可知 \(A\) 是一个对称幂等矩阵,由引理 \((3.4.1)\) 得到*度

\[r = \text{rank} (A) = \text{tr} (A) = p+1 - 1=p \]

得到非中心参数

\[\lambda = \frac{1}{\sigma^2} (\beta_0 \bm{1}_n)' (H - \frac{1}{n} \bm{1}_n \bm{1}_n') (\beta_0 \bm{1}_n) = 0 \]

证明第二点。由于

\[\text{SSE} = \bm{y}'(I - H)\bm{y} \]

因此令 \(B = I - H\),可知 \(B\) 是一个对称幂等阵,由引理 \((3.4.1)\) 得到*度

\[r = \text{rank} (B) = \text{rank} (I-H) = \text{tr} (I-H) = n - p - 1 \]

得到非中心参数

\[\lambda = \frac{1}{\sigma^2} (X \bm{\beta})' (I - H) (X \bm{\beta}) = 0 \]

证毕。

构造 \(F\) 检验统计量如下:

\[F = \frac{\text{SSR} / p}{\text{SSE} / (n-p-1)} \tag{3.4.3} \]

对构造的 \(F\) 检验统计量,我们有

定理 3.4.3

在正态假设下,当原假设 \(H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0\) 成立时,\(F\) 检验统计量服从*度为 \((p, n-p-1)\)\(F\) 分布。

证明:由定理 \(3.4.2\) 可知,在正态假设下,原假设 \(H_0\) 成立时有

\[\text{SSR} / \sigma^2 \sim \chi^2(p), \quad \text{SSE} / \sigma^2 \sim \chi^2(n-p-1) \]

\(F\) 分布定义知

\[F \sim F(p, n-p-1) \]

证毕。

我们可以利用 \(F\) 统计量对回归方程的总体显著性进行检验。对于给定的数据,计算出 \(\text{SSR}\)\(\text{SSE}\),进而得到 \(F\) 值。我们可以得到类似一元线性回归场合的方差分析表。

\[\begin{array}{|c|c|c|c|c|} \hline {方差来源} & {*度} & {平方和} & {均方} & {F 值} & {P 值}\\ \hline {回归} & {p} & {\text{SSR}} & {\text{SSR}/p} & {\frac{\text{SSR} / p}{\text{SSE} / (n-p-1)}} & {P(F > F 值) = P值} \\ \hline {残差} & {n - p-1} & {\text{SSE}} & {\text{SSE} / (n-p-1)} & {} \\ \hline {总和} & {n - 1} & {\text{SST}} & {} & {} \\ \hline \end{array} \]

给定显著性水平 \(\alpha\),得到临界值 \(F_{\alpha}(p, n-p-1)\)

\(F > F_{\alpha}(p, n-p-1)\),拒绝原假设 \(H_0\),认为在显著性水平 \(\alpha\) 下,\(y\)\(x_1\)\(x_2\)\(\cdots\)\(x_p\) 存在显著的线性关系。

\(F \leqslant F_{\alpha}(p, n-p-1)\),接受原假设 \(H_0\),认为在显著性水平 \(\alpha\) 下,\(y\)\(x_1\)\(x_2\)\(\cdots\)\(x_p\) 不存在显著的线性关系。

与一元线性回归一样,也可以根据 \(P\) 值做检验,当 \(P\)\(< \alpha\) 时,拒绝原假设 \(H_0\);当 \(P\)\(\geqslant \alpha\) 时,接受原假设 \(H_0\)

3.4.2 \(t\) 检验

在多元线性回归中,回归方程显著并不意味着每个自变量对 \(y\) 的影响都显著,我们想从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单的回归方程(降低模型复杂度,防止过拟合),所以需要对每个自变量进行显著性检验。

显然,如果某个自变量 \(x_j\)\(y\) 的作用不显著,那么在回归模型中,它的系数 \(\beta_j\) 就取值为 \(0\)。因此检验变量 \(x_j\) 是否显著,等价于检验假设

\[H_{0j}:\beta_j = 0, \quad j = 1,2,\cdots,p \tag{3.4.4} \]

如果接受原假设 \(H_{0j}\),则 \(x_j\) 不显著;如果拒绝原假设 \(H_{0j}\),则 \(x_j\) 是显著的。

\(3.3.6\) 的正态性得到

\[\hat{\bm{\beta}} \sim N(\bm{\beta}, \sigma^2 (X'X)^{-1}) \]

\((X'X)^{-1} = (c_{ij})\),于是有

\[E(\hat{\beta}_j) = \beta_j, \quad \text{var}(\hat{\beta}_j) = c_{jj} \sigma^2 \]

\[\hat{\beta}_j \sim N(\beta_j, c_{jj} \sigma^2), \quad j = 0,1,\cdots,p \tag{3.4.5} \]

由此构成 \(t\) 统计量

\[t_j = \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \hat{\sigma}} \tag{3.4.6} \]

其中 \(\hat{\sigma}\) 是回归标准差:

\[\hat{\sigma} = \sqrt{\frac{1}{n-p-1} \sum_{i=1}^n e_i^2} = \sqrt{\frac{1}{n-p-1} \sum_{i=1}^n (y_i - \hat{y}_i)^2} \tag{3.4.7} \]

对构造的 \(t\) 检验统计量,我们有

定理 3.4.4

在正态假设下,当原假设 \(H_{0j} : \beta_j = 0\) 成立时,\(t_j\) 检验统计量服从*度为 \(n-p-1\)\(t\) 分布。

证明:在正态假设下,当原假设 \(H_{0j} : \beta_j = 0\) 成立时,有

\[U = \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \sigma} \sim N(0, 1) \]

由定理 \(3.4.2\) 可得

\[V = \frac{(n-p-1) \hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-p-1) \]

则有

\[t_j = \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \hat{\sigma}} = \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \sigma} \frac{\sigma}{\hat{\sigma}} = \frac{U}{\frac{\hat{\sigma}}{\sigma}} = \frac{U}{\sqrt{V/(n-p-1)}} \sim t(n-p-1) \]

证毕。

给定显著性水平 \(\alpha\),查出双侧检验的临界值 \(t_{\alpha/2}\)

\(|t_j| \geqslant t_{\alpha / 2}\),拒绝原假设 \(H_{0j}\),认为 \(\beta_{j}\) 显著不为 \(0\),自变量 \(x_j\) 对因变量 \(y\) 的线性效果显著。

\(|t_j| < t_{\alpha / 2}\),接受原假设 \(H_{0j}\),认为 \(\beta_{j}\) 显著为 \(0\),自变量 \(x_j\) 对因变量 \(y\) 的线性效果不显著。

在教材上给出一个关于城镇消费性支出的例子,由 \(F\) 检验可以知道回归方程整体是显著的,即 \(9\) 个自变量作为一个整体对因变量 \(y\) 有十分显著的影响,但软件计算发现,关于 \(\beta_j\)\(t\) 统计量 \(t_j\),在显著性水平 \(\alpha = 0.05\) 时只有 \(x_1\)\(x_2\)\(x_3\)\(x_5\) 通过了显著性检验。这个例子说明,尽管回归方程高度显著,但也会出现某些自变量 \(x_j\)\(y\) 无显著影响的情况。

多元回归中,并不是包含在回归方程中的自变量越多越好(之后有详细讨论)。在此介绍一种简单的剔除多余变量的方法——后退法

当有多个自变量对因变量 \(y\) 无显著影响时,由于自变量之间的交互作用,不能一次剔除掉所有不显著的变量。原则上每次只剔除一个变量,且先剔除其中 \(|t|\) 值最小(或 \(|P|\) 值最大)的一个变量,然后再对求得的新的回归方程进行检验,有不显著的变量再从中选出最不显著的进行剔除,直到保留的变量都对 \(y\) 有显著影响为止。

使用后退法时,由于各个自变量的单位不同,注意标准化数据

3.4.3 \(t\) 检验与 \(F\) 检验的关系:偏 \(F\) 检验

在一元线性回归中,回归系数显著性的 \(t\) 检验与回归方程显著性的 \(F\) 检验是等价的,但在多元线性回归中,这两种检验并不等价。\(F\) 检验显著,只能说明 \(y\) 对自变量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 整体的线性回归效果是显著的,不能说明 \(y\) 对每个自变量 \(x_i\) 的回归效果都显著。

从另一个角度考虑自变量 \(x_j\) 的显著性。

\(y\) 对自变量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 线性回归的残差平方和为 \(\text{SSE}\),回归平方和为 \(\text{SSR}\)。在剔除掉 \(x_j\) 后,用 \(y\) 对其余的 \(p-1\) 个自变量做回归,记所得的残差平方和为 \(\text{SSE}_{(j)}\),回归平方和为 \(\text{SSR}_{(j)}\),则自变量 \(x_j\) 对回归的贡献为

\[\Delta \text{SSR}_{(j)} = \text{SSR} - \text{SSR}_{(j)} \tag{3.4.8} \]

称上式为 \(x_j\)偏回归平方和。由此构造偏 \(F\) 检验统计量

\[F_j = \frac{\Delta \text{SSR}_{(j)} / 1}{\text{SSE} / (n-p-1)} \tag{3.4.9} \]

定理 3.4.5

在正态假设下,当原假设 \(H_{0j}:\beta_j = 0\) 成立时,偏 \(F\) 检验统计量 \(F_j\) 服从*度为 \((1,n-p-1)\)\(F\) 分布。

证明:由定理 \(3.4.1\),我们有

\[\begin{align*} \Delta \text{SSR}_{(j)} & = \text{SSR} - \text{SSR}_{(j)} \\ & = \bm{y}'(H - \frac{1}{n} \bm{1} \bm{1}') \bm{y} - \bm{y}'(H^* - \frac{1}{n} \bm{1} \bm{1}') \bm{y} \\ & = \bm{y}'(H - H^*) \bm{y} \\ & = \bm{y}'( \begin{bmatrix} X_1 & \bm{x_j} & X_2 \end{bmatrix} (\begin{bmatrix} X_1 & \bm{x_j} & X_2 \end{bmatrix}' \begin{bmatrix} X_1 & \bm{x_j} & X_2 \end{bmatrix})^{-1} \begin{bmatrix} X_1 & \bm{x_j} & X_2 \end{bmatrix}' y \\ & = \hat{\beta}_j^2 / c_{jj} \end{align*} \]

在正态假设下,当原假设 \(H_0\) 成立时,由式 \((3.4.5)\)

\[\frac{\Delta \text{SSR}_{(j)}}{\sigma^2} = \frac{\hat{\beta}_j^2}{c_{jj} \sigma^2} = \left( \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \sigma} \right)^2 \sim \chi^2(1) \]

证毕。

可以证明上式给出的偏 \(F\) 检验与 \(t\) 检验是一致的,具体有下述定理

定理 3.4.6

对式 \((3.4.9)\) 的偏 \(F\) 检验统计量和式 \((3.4.6)\)\(t\) 检验统计量有关系式

\[F_j = t_j^2 \]

证明:

\[t_j^2 = \frac{\hat{\beta}_j^2 / c_{jj}}{\hat{\sigma}^2} = \frac{\text{SSR} - \text{SSR}_{(j)}}{\text{SSE} / (n-p-1)} = \frac{\Delta \text{SSR}_{(j)} / 1}{\text{SSE} / (n-p-1)} = F_j \tag{3.4.10} \]

证毕。
当从回归方程中剔除变元时,回归平方和减少,残差平方和增加。反之,往回归方程中引入变元,回归平方和增加,残差平方和减少,且两者的增减量相等。具体地,根据平方和分解式可得下式关系

\[\Delta \text{SSR}_{(j)} = \Delta \text{SSE}_{(j)} = \text{SSE}_{(j)} - \text{SSE} \]

3.4.4 拟合优度

拟合优度用于检验回归方程对样本观测值的拟合程度。在一元线性回归中,定义了样本决定系数 \(r^2 = \text{SSR} / \text{SST}\),在多元线性回归中,同样可以定义样本决定系数为:

\[R^2 = \frac{ \text{SSR} }{ \text{SST} } = 1 - \frac{ \text{SSE} }{ \text{SST} } \tag{3.4.11} \]

样本决定系数 \(R^2\) 的取值在 \([0,1]\) 区间内,\(R^2\) 越接近 \(1\),表明回归拟合的效果越好;\(R^2\) 越接近 \(0\),表明回归拟合的效果越差。与 \(F\) 检验相比,\(R^2\) 可以更清楚直观地反映回归拟合的效果,但是并不能作为严格的显著性检验。

\[R = \sqrt{R^2} = \sqrt{\frac{ \text{SSR} }{ \text{SST} }} \tag{3.4.14} \]

称上式给出的 \(R\)\(y\) 关于 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 的样本复相关系数。在两个变量的简单相关系数中,相关系数有正负之分,而复相关系数表示的是因变量 \(y\) 与全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号确定,因而都取正号。。。