欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

多元线性回归分析2的学习心得与记录

最编程 2024-08-07 21:49:52
...

开发者学堂课程【机器学习算法 :多元线性回归分析-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7200


多元线性回归分析-2

 

内容简介

一、回归方程是否显著:F 检验

二、回归方程是否显著:t 检验

三、自变量的标准化

 

一、回归方程是否显著:F 检验

SST=SSE+SSR

离差平方和等于残差平方和加离差平方和。残差平方和越小越好,回归平方和越大越好

网络异常,图片无法展示
|

求方程检验还是要构建统计量

F 检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。由平方和分解式可得到 SSR 越大,回归效果越好,据此构造 F 统计量。

网络异常,图片无法展示
|

确定假设:检验自变量 X 对因变量 Y 是否有明显影响,即原假设

网络异常,图片无法展示
|
,这就可以看出一元和多元的区别,是要检验所有因变量和自变量的关系,有没有明显的影响。

确定检验水平:采取最常用的 α=0.05α=0.01,α=0.005…

计算统计量:计算*度为(p,n-p-1)的 F 统计量

下图中的表体现三者之间的关系。

网络异常,图片无法展示
|

计算 p 值:根据 F 计算 p 值(也可以直接取比较F值)

得到结论

网络异常,图片无法展示
|
,或者
网络异常,图片无法展示
|
拒绝原假设
网络异常,图片无法展示
|
,接受备择假设

网络异常,图片无法展示
|

 

二、回归方程是否显著:t 检验

因变量 y 和自变量 x 之间是否存在线性关系,即

网络异常,图片无法展示
|
是否等于0,使用 t 检验进行判断。

确定假设:检验

网络异常,图片无法展示
|
对 y 是否有作用显著,即原假设
网络异常,图片无法展示
|
,备择假设

确定检验水平:采取最常用的α=0.05α=0.01,α=0.005…

计算统计量:

网络异常,图片无法展示
|
,记
网络异常,图片无法展示
|
,构造统计量 t=
网络异常,图片无法展示
|

计算 p 值:根据 t 值计算 p 值(也可以直接取比较 T 值),t 分布临界表,*度 n-p-1,双尾检测

得到结论

网络异常,图片无法展示
|
,或者
网络异常,图片无法展示
|
拒绝原假设
网络异常,图片无法展示
|
,接受备择假设
网络异常,图片无法展示
|

t检验和F检验对多元线性回归来说不等价,F检验的目标是对所有自变量,t检验目标为单个自变

量,即使 F 检验拒绝原假设,也不等于所有自变量都对因变量有影响,需要使用t检验去逐个验证。

 

三、自变量的标准化

多个自变量 x 的单位不同,其取值也不同,如果取值相差太大,会因计算误差问题导致回归方程结果不理想,需要对其进行标准化。

中心化:找到样本数据的中心(

网络异常,图片无法展示
|
),回归方程会经过这点,通过坐标变化,将原点移到该中心:

网络异常,图片无法展示
|

网络异常,图片无法展示
|

中心化后的方程:

网络异常,图片无法展示
|

中心化不改变回归线的斜率,只改变了直线的截距,所以 β。中心化后变成了0,而其他的回归系数

网络异常,图片无法展示
|
没有变化。

标准化:自变量单位不同,数据大小差异大,不利于在同一个标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,将样本数据标准化处理,然后使用最小二乘法,得到标准化后的回归系数。

y=1+10000* x1+0.1* x2 这时候是和单位有关的,一元是和单位无关的,只有一个变量不存在自变量的相加,假设 x1 的单位是分,x2 的单位是万元或是亿元。在不知道单位的情况下,x1 的影响更大,x2 的影响更小。忽略单位的影响,误差是和其系数相关的,一旦加上单位,就会发生变化,对 x1 x2 消除变量话的影响。用到标准化公式为

网络异常,图片无法展示
|

标准化后的方程:

网络异常,图片无法展示
|

标准化包括中心化,标准化后的公式中有:

网络异常,图片无法展示
|

网络异常,图片无法展示
|
 

简单相关系数

网络异常,图片无法展示
|

相关阵:简单相关系数组成的矩阵,反应的是变量之间的相关程度。

自变量间的相关阵为 r,若记中心标准化后的设计阵为 X*=(x*ij)n*p 则有:r=(X*)TX*在自变量相关阵的基础上,增加因变量 y 与各自变量 xi 的相关系数 ryi,得到增广相关阵。

网络异常,图片无法展示
|

复相关系数与偏相关系数

复相关系数:反映了一个因变量与一组自变量之间相关程度的指标,用来度量复相关程度。复相关系数 R 的平方 R² 被称作决定系数、拟合优度等,对于一元线性方程,R 等同于简单相关系数 r。

偏决定系数;设某多元线性回归模型为 image.png ,i=1,2,…n。当模型中只含有自变量 x,时 y 的残差平方和记作 SSE(x),含有所有自变量x时的残差平方和记作SSE(x1,X2……Xp),自变量 xk 的加入使得残差平方和相对减少的量被称作偏决定系数。其平方根被称为偏相关系数,记作 r。偏决定系数的公式为:如下图。

image.png