欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

理解多元线性回归的第 3.5 步:中心化与标准化在数学中的应用

最编程 2024-08-07 22:26:46
...

3.5 中心化和标准化

在多元线性回归中,由于涉及多个自变量,自变量单位往往不同,给利用回归方程进行结构分析带来一些困难。由于有时多元回归涉及的数据量很大,可能因为舍入误差而使计算结果不理想。因此,对原始数据进行处理,避免较大的误差是有实际意义的。

产生舍入误差有两个主要原因:一是在回归分析计算中数据量级有很大差异;二是设计矩阵 \(\bm{X}\) 的列向量近似线性相关,\(\bm{X}'\bm{X}\) 为病态矩阵,其逆矩阵 \((\bm{X}'\bm{X})^{-1}\) 产生了较大的误差。

3.5.1 中心化

多元线性理论回归模型一般形式为:

\[y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon \]

多元线性经验回归方程一般形式为:

\[\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \hat{\beta}_2 x_2 + \cdots + \hat{\beta}_p x_p \]

经验回归方程必定经过样本中心 \((\overline{x}_1, \overline{x}_2, \cdots, \overline{x}_p;\overline{y})\),将坐标原点移至样本中心,即做坐标变换

\[x_{ij}' = x_{ij} - \overline{x}_j, \quad i=1,\cdots,n, \quad j = 1,\cdots,p \]

\[y_i' = y_i - \overline{y}, \quad i=1,\cdots, n \]

则经验回归方程转变为:

\[\hat{y}' = \hat{\beta}_1 x_1' + \hat{\beta}_2 x_2' + \cdots + \hat{\beta}_p x_p' \]

上式即为中心化经验回归方程。中心化经验回归方程的常数项为 \(0\),而回归系数的最小二乘估计 \(\hat{\beta}_1\)\(\hat{\beta}_2\)\(\cdots\)\(\hat{\beta}_p\) 保持不变。这是因为坐标系的平移变换只改变直线的截距,不改变直线的斜率。

中心化经验回归方程较一般的经验回归方程少一个未知参数,这使得计算量减少很多。可以先对数据中心化,求出中心化经验回归方程,再由

\[\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}_1 + \hat{\beta}_2 \overline{x}_2 + \cdots + \hat{\beta}_p \overline{x}_p \]

求出常数项估计值 \(\hat{\beta}_0\)

3.5.2 标准化回归系数

在用回归方程描述某种现象时,由于自变量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 所用单位大多不同,数据的大小差异也往往很大,这不利于在同一标准上进行比较。为了消除量纲不同和数量级差异所带来的影响,就需要将样本数据做标准化处理

\(i=1,2,\cdots,n\)\(j=1,2,\cdots,p\),样本数据的标准化公式为:

\[x_{ij}^* = \frac{x_{ij} - \overline{x}_j}{\sqrt{L_{jj}}} \]

\[y_i^* = \frac{y_i - \overline{y}}{\sqrt{L_{yy}}} \]

上式中,

\[\sqrt{L_{jj}} = \sum_{i=1}^n (x_{ij} - \overline{x}_j)^2, \quad \sqrt{L_{yy}} = \sum_{i=1}^n (y_i - \overline{y})^2 \]

分别表示自变量 \(x_j\) 和因变量 \(y\) 的离差平方和。用最小二乘法求出标准化的样本数据 \((x_{i1}^*, x_{i2}^*, \cdots, x_{ip}^* ; y_{i}^*)\) 的经验回归方程,记为:

\[\hat{y}_{i}^* = \hat{\beta}_1^* x_1^* + \hat{\beta}_2^* x_2^* + \cdots + \hat{\beta}_p^* x_p^* \]

式中,\(\hat{\beta}_1^*\)\(\hat{\beta}_2^*\)\(\cdots\)\(\hat{\beta}_p^*\)\(y\) 对自变量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 的标准化回归系数。标准化包括了中心化,因而标准化的回归常数项为 \(0\)