理解多元线性回归模型：第3章的内容简介

最编程 2024-08-07 22:23:22

...

3.1 多元线性回归模型

在许多实际问题中，一元线性回归只不过是回归分析中的一个特例，我们还需要进一步讨论多元线性回归问题。

3.1.1 多元线性回归模型的一般形式

设随机变量 \(y\) 与一般变量 \(x_1\)，\(x_2\)，\(\cdots\)，\(x_p\) 的多元线性理论回归模型为：

\[y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \varepsilon \tag{3.1.1} \]

式中，\(\beta_0\)，\(\beta_1\)，\(\cdots\)，\(\beta_p\) 是 \(p+1\) 个未知参数，\(\beta_0\) 称为回归常数，\(\beta_1\)，\(\cdots\)，\(\beta_p\) 称为回归系数。\(y\) 称为被解释变量（因变量），\(x_1\)，\(x_2\)，\(\cdots\)，\(x_p\) 是 \(p\) 个可以精确测量并控制的一般变量，称为解释变量（自变量）。\(\varepsilon\) 是随机误差，与一元线性回归一样，对随机误差项我们假定

\[\left\{ \begin{align*} & E(\varepsilon) = 0 \\ & \text{var} (\varepsilon) = \sigma^2 \end{align*} \tag{3.1.2} \right. \]

称

\[E(y|\bm{x}) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p \tag{3.1.3} \]

为回归方程。

对研究的某个实际问题，如果获得 \(n\) 组观测数据 \((x_{i1}, x_{i2}, \cdots, x_{ip};y_i)\)（\(i=1,2,\cdots,n\)），则理论回归模型式 \((3.1.1)\) 可进一步表示为多元线性样本回归模型。

\[\left\{ \begin{align*} & y_1 = \beta_0 + \beta_1 x_{11} + \cdots + \beta_p x_{1p} + \varepsilon_1 \\ & y_2 = \beta_0 + \beta_1 x_{21} + \cdots + \beta_p x_{2p} + \varepsilon_2 \\ & \quad \, \vdots \\ & y_n = \beta_0 + \beta_1 x_{n1} + \cdots + \beta_p x_{np} + \varepsilon_n \\ \end{align*} \tag{3.1.4} \right. \]

表成矩阵形式，为

\[\bm{y} = X \bm{\beta} + \bm{\varepsilon} \tag{3.1.5} \]

式中的变量解释，

\[\bm{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, \quad X = \begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & & \vdots\\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \\ \end{bmatrix}, \quad \bm{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \\ \end{bmatrix}, \quad \bm{\varepsilon} = \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \\ \end{bmatrix} \tag{3.1.6} \]

注意，\(X\) 是一个 \(n\times (p+1)\) 阶矩阵，称为回归设计矩阵或资料矩阵。在实验设计中，\(X\) 元素是预先设定并可以控制的，因此称 \(X\) 为设计矩阵。

回归分析的一个任务是通过 \(n\) 组样本观测值对 \(\beta_i\) 进行估计。一般用 \(\hat{\beta}_i\) 表示 \(\beta_i\) 的估计值。

\[\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \hat{\beta}_2 x_2 + \cdots +\hat{\beta}_p x_p \]

称上式为多元线性经验回归方程。

3.1.2 多元线性回归模型的基本假定

为了方便地进行模型的参数假设，对回归方程式 \((3.1.4)\) 有如下一些基本假设。

解释变量 \(x_1\)，\(x_2\)，\(\cdots\)，\(x_p\) 是确定性变量，不是随机变量，且要求 \(\text{rand} (X) = p+1 < n\)。最后一点对设计矩阵秩的要求，表明设计矩阵 \(X\) 中自变量列之间不相关，样本量个数应大于解释变量的个数，\(X\) 是一满秩矩阵。
随机误差项具有零均值和等方差，式\((3.1.7)\) 称为高斯-马尔可夫条件。\(E(\varepsilon_i) = 0\) 假设观测值没有系统误差，随机误差项的平均值为零。随机误差项 \(\varepsilon_i\) 的协方差为零，表明随机误差项在不同样本点之间是不相关的（在正态假定下即为独立的），不存在序列相关，并且有相同的精度。

\[\left\{ \begin{align*} & E(\varepsilon_i) = 0, \quad i = 1,2,\cdots,n \\ & \text{cov} (\varepsilon_i, \varepsilon_j) = \delta_{ij} \sigma^2, \quad i,j = 1,2,\cdots,n \end{align*} \tag{3.1.7} \right. \]

正态分布的假定条件为

\[\left\{ \begin{align*} & \varepsilon_i \sim N(0, \sigma^2), \quad i = 1,2,\cdots,n \\ & \varepsilon_i \text{相互独立}, \quad i = 1,2,\cdots,n \end{align*} \tag{3.1.8} \right. \]

由多元线性样本回归模型 \((3.1.5)\)，正态假定可表示为：

\[\bm{\varepsilon} \sim N(\bm{0}, \sigma^2 \bm{I}_n) \tag{3.1.9} \]

在上述假定和多元正态分布的性质可知，且式 \((3.1.5)\) 表明随机向量 \(y\) 是随机向量 \(\varepsilon\) 的线性变换，因此随机向量 \(y\) 服从 \(n\) 维正态分布，可得

\[\begin{align*} E(\bm{y}) & = X \bm{\beta} \\ D (\bm{y}) & = \sigma^2 \bm{I}_n \end{align*} \]

因此，

\[\bm{y} \sim N(X \bm{\beta}, \sigma^2 \bm{I}_n) \tag{3.1.10} \]

3.1.3 多元线性回归方程的解释

为了给多元线性回归方程及其回归系数一个解释，下面以 \(p=2\) 的一个微观经济问题为例，给出回归方程的几何解释和回归系数的经济意义。在建立空调机销售量的预测模型时，用 \(y\) 表示空调机的销售量，\(x_1\) 表示空调机的价格，\(x_2\) 表示消费者的可支配收入，则可建立理论回归方程：

\[E(y) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 \tag{3.1.11} \]

在式 \((3.1.11)\) 中，假如 \(x_2\) 保持不变，为一常数，则有

\[\frac{\partial E(y)}{\partial x_1} = \beta_1 \tag{3.1.12} \]

对 \(\beta_1\) 可解释为在消费者收入 \(x_2\) 保持不变时，空调机价格 \(x_1\) 每增加一个单位，空调机销售量 \(y\) 的平均增加幅度。一般来说，随着空调机价格提高，销售量减少，因此 \(\beta_1\) 将是负的。

在式 \((3.1.11)\) 中，假如 \(x_1\) 保持不变，为一常数，则有

\[\frac{\partial E(y)}{\partial x_2} = \beta_2 \tag{3.1.13} \]

对 \(\beta_2\) 可解释为在空调机价格 \(x_1\) 保持不变时，消费者收入 \(x_2\) 每增加一个单位，空调机销售量 \(y\) 的平均增加幅度。一般来说，随着消费者收入提高，销售量增加，因此 \(\beta_1\) 将是正的。

对一般情况下含有 \(p\) 个自变量的多元线性回归而言，每个回归系数 \(\beta_i\) 表示在回归方程中其他自变量保持不变的情况下，自变量 \(x_i\) 每增加一个单位时因变量 \(y\) 的平均增加幅度。因此也把多元线性回归的回归系数称为偏回归系数。

上一篇：玩转多元回归分析：第12讲

下一篇：超级详细！多元线性回归分析的数学建模学习笔记（第9期）

理解多元线性回归模型：第3章的内容简介

3.1 多元线性回归模型

3.1.1 多元线性回归模型的一般形式

3.1.2 多元线性回归模型的基本假定

3.1.3 多元线性回归方程的解释

理解多元线性回归的第 3.5 步：中心化与标准化在数学中的应用

理解多元线性回归的第3章：3.2节探讨回归参数的估计方法

超级详细！多元线性回归分析的数学建模学习笔记（第9期）

理解多元线性回归模型：第3章的内容简介

理解多元线性回归：第3章第3.4节 - 回归方程的重要性测试

用R语言探究保险投资风险敞口：广义线性模型和广义相加模型的多元平滑回归分析

理解多元线性回归：机器学习中的重要工具及其实际运用

用多元线性回归模型解决问题的数学方法

全面解析多元线性回归模型及其在Stata中的应用