欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

理解多元线性回归模型:第3章的内容简介

最编程 2024-08-07 22:23:22
...

3.1 多元线性回归模型

在许多实际问题中,一元线性回归只不过是回归分析中的一个特例,我们还需要进一步讨论多元线性回归问题。

3.1.1 多元线性回归模型的一般形式

设随机变量 \(y\) 与一般变量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\)多元线性理论回归模型为:

\[y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \varepsilon \tag{3.1.1} \]

式中,\(\beta_0\)\(\beta_1\)\(\cdots\)\(\beta_p\)\(p+1\) 个未知参数,\(\beta_0\) 称为回归常数\(\beta_1\)\(\cdots\)\(\beta_p\) 称为回归系数\(y\) 称为被解释变量(因变量)\(x_1\)\(x_2\)\(\cdots\)\(x_p\)\(p\) 个可以精确测量并控制的一般变量,称为解释变量(自变量)\(\varepsilon\) 是随机误差,与一元线性回归一样,对随机误差项我们假定

\[\left\{ \begin{align*} & E(\varepsilon) = 0 \\ & \text{var} (\varepsilon) = \sigma^2 \end{align*} \tag{3.1.2} \right. \]

\[E(y|\bm{x}) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p \tag{3.1.3} \]

回归方程

对研究的某个实际问题,如果获得 \(n\) 组观测数据 \((x_{i1}, x_{i2}, \cdots, x_{ip};y_i)\)\(i=1,2,\cdots,n\)),则理论回归模型式 \((3.1.1)\) 可进一步表示为多元线性样本回归模型

\[\left\{ \begin{align*} & y_1 = \beta_0 + \beta_1 x_{11} + \cdots + \beta_p x_{1p} + \varepsilon_1 \\ & y_2 = \beta_0 + \beta_1 x_{21} + \cdots + \beta_p x_{2p} + \varepsilon_2 \\ & \quad \, \vdots \\ & y_n = \beta_0 + \beta_1 x_{n1} + \cdots + \beta_p x_{np} + \varepsilon_n \\ \end{align*} \tag{3.1.4} \right. \]

表成矩阵形式,为

\[\bm{y} = X \bm{\beta} + \bm{\varepsilon} \tag{3.1.5} \]

式中的变量解释,

\[\bm{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, \quad X = \begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & & \vdots\\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \\ \end{bmatrix}, \quad \bm{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \\ \end{bmatrix}, \quad \bm{\varepsilon} = \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \\ \end{bmatrix} \tag{3.1.6} \]

注意,\(X\) 是一个 \(n\times (p+1)\) 阶矩阵,称为回归设计矩阵或资料矩阵。在实验设计中,\(X\) 元素是预先设定并可以控制的,因此称 \(X\)设计矩阵

回归分析的一个任务是通过 \(n\) 组样本观测值对 \(\beta_i\) 进行估计。一般用 \(\hat{\beta}_i\) 表示 \(\beta_i\) 的估计值。

\[\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \hat{\beta}_2 x_2 + \cdots +\hat{\beta}_p x_p \]

称上式为多元线性经验回归方程

3.1.2 多元线性回归模型的基本假定

为了方便地进行模型的参数假设,对回归方程式 \((3.1.4)\) 有如下一些基本假设。

  • 解释变量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 是确定性变量,不是随机变量,且要求 \(\text{rand} (X) = p+1 < n\)。最后一点对设计矩阵秩的要求,表明设计矩阵 \(X\) 中自变量列之间不相关,样本量个数应大于解释变量的个数,\(X\) 是一满秩矩阵。

  • 随机误差项具有零均值和等方差,式\((3.1.7)\) 称为高斯-马尔可夫条件\(E(\varepsilon_i) = 0\) 假设观测值没有系统误差,随机误差项的平均值为零。随机误差项 \(\varepsilon_i\) 的协方差为零,表明随机误差项在不同样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。

\[\left\{ \begin{align*} & E(\varepsilon_i) = 0, \quad i = 1,2,\cdots,n \\ & \text{cov} (\varepsilon_i, \varepsilon_j) = \delta_{ij} \sigma^2, \quad i,j = 1,2,\cdots,n \end{align*} \tag{3.1.7} \right. \]

  • 正态分布的假定条件为

\[\left\{ \begin{align*} & \varepsilon_i \sim N(0, \sigma^2), \quad i = 1,2,\cdots,n \\ & \varepsilon_i \text{相互独立}, \quad i = 1,2,\cdots,n \end{align*} \tag{3.1.8} \right. \]

由多元线性样本回归模型 \((3.1.5)\),正态假定可表示为:

\[\bm{\varepsilon} \sim N(\bm{0}, \sigma^2 \bm{I}_n) \tag{3.1.9} \]

在上述假定和多元正态分布的性质可知,且式 \((3.1.5)\) 表明随机向量 \(y\) 是随机向量 \(\varepsilon\) 的线性变换,因此随机向量 \(y\) 服从 \(n\) 维正态分布,可得

\[\begin{align*} E(\bm{y}) & = X \bm{\beta} \\ D (\bm{y}) & = \sigma^2 \bm{I}_n \end{align*} \]

因此,

\[\bm{y} \sim N(X \bm{\beta}, \sigma^2 \bm{I}_n) \tag{3.1.10} \]

3.1.3 多元线性回归方程的解释

为了给多元线性回归方程及其回归系数一个解释,下面以 \(p=2\) 的一个微观经济问题为例,给出回归方程的几何解释和回归系数的经济意义。在建立空调机销售量的预测模型时,用 \(y\) 表示空调机的销售量,\(x_1\) 表示空调机的价格,\(x_2\) 表示消费者的可支配收入,则可建立理论回归方程:

\[E(y) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \tag{3.1.11} \]

在式 \((3.1.11)\) 中,假如 \(x_2\) 保持不变,为一常数,则有

\[\frac{\partial E(y)}{\partial x_1} = \beta_1 \tag{3.1.12} \]

\(\beta_1\) 可解释为在消费者收入 \(x_2\) 保持不变时,空调机价格 \(x_1\) 每增加一个单位,空调机销售量 \(y\) 的平均增加幅度。一般来说,随着空调机价格提高,销售量减少,因此 \(\beta_1\) 将是负的。

在式 \((3.1.11)\) 中,假如 \(x_1\) 保持不变,为一常数,则有

\[\frac{\partial E(y)}{\partial x_2} = \beta_2 \tag{3.1.13} \]

\(\beta_2\) 可解释为在空调机价格 \(x_1\) 保持不变时,消费者收入 \(x_2\) 每增加一个单位,空调机销售量 \(y\) 的平均增加幅度。一般来说,随着消费者收入提高,销售量增加,因此 \(\beta_1\) 将是正的。

对一般情况下含有 \(p\) 个自变量的多元线性回归而言,每个回归系数 \(\beta_i\) 表示在回归方程中其他自变量保持不变的情况下,自变量 \(x_i\) 每增加一个单位时因变量 \(y\) 的平均增加幅度。因此也把多元线性回归的回归系数称为偏回归系数