用多元线性回归模型解决问题的数学方法
多元线性回归分析
概念
- 目的:作出以多个自变量估计因变量的多元线性回归方程。
- 资料:因变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。
- 用途:解释和预报。
- 意义:由于事物间的联系常常是多方面的,一个因变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。
多元线性回归模型
一般形式
y = β 0 + β 1 X 1 + β 2 X 2 + . . . β n X n + e y = β_0+β_1X_1+β_2X_2+...β_nX_n+e y=β0+β1X1+β2X2+...βnXn+e
上式表示数据中应变量Y可以近似地表示为自变量 X 1 , X 2 . . . X m X_1,X_2...X_m X1,X2...Xm的线性函数。
β 0 β_0 β0为常数项, β 1 , β 2 , . . . β m β_1,β_2,...β_m β1,β2,...βm为偏回归系数,表示在其它自变量保持不变时, X j X_j Xj增加或减少一个单位时 Y Y Y的平均变化量, e e e是去除m个自变量对 Y Y Y影响后的随机误差(残差)。
一般步骤
- 求偏回归系数 b 0 , b 1 , b 2 . . . b m b_0,b_1,b_2...b_m b0,b1,b2...bm
- Y ^ = b 0 + b 1 X + b 2 X 2 + . . . b n X m \hat{Y} = b_0+b_1X+b_2X_2+...b_nX_m Y^=b0+b1X+b2X2+...bnXm
- 检验并评价回归方程及各自变量的作用大小
多元线性回归方程的建立
例:27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于下表中,试建立血糖与其它几项指标关系的多元线性回归方程。
序号i | 总胆固醇(mmol/L) X 1 X_1 X1 | 甘油三脂(mmol/L) X 2 X_2 X2 | 胰岛素(μU/ml) X 3 X_3 X3 | 糖化血红蛋白(%) X 4 X_4 X4 | 血糖(mmol/L) Y Y Y |
---|---|---|---|---|---|
1 | 5.68 | 1.90 | 4.53 | 8.2 | 11.2 |
2 | 3.79 | 1.64 | 7.32 | 6.9 | 8.8 |
3 | 6.02 | 3.56 | 6.95 | 10.8 | 12.3 |
4 | 4.85 | 1.07 | 5.88 | 8.3 | 11.6 |
5 | 4.60 | 2.32 | 4.05 | 7.5 | 13.4 |
6 | 6.05 | 0.64 | 1.42 | 13.6 | 18.3 |
7 | 4.90 | 8.50 | 12.60 | 8.5 | 11.1 |
8 | 7.08 | 3.00 | 6.75 | 11.5 | 12.1 |
9 | 3.85 | 2.11 | 16.28 | 7.9 | 9.6 |
10 | 4.65 | 0.63 | 6.59 | 7.1 | 8.4 |
11 | 4.59 | 1.97 | 3.61 | 8.7 | 9.3 |
12 | 4.29 | 1.97 | 6.61 | 7.8 | 10.6 |
13 | 7.97 | 1.93 | 7.57 | 9.9 | 8.4 |
14 | 6.19 | 1.18 | 1.42 | 6.9 | 9.6 |
15 | 6.13 | 2.06 | 10.35 | 10.5 | 10.9 |
16 | 5.71 | 1.78 | 8.53 | 8.0 | 10.1 |
17 | 6.40 | 2.40 | 4.53 | 10.3 | 14.8 |
18 | 6.06 | 3.67 | 12.79 | 7.1 | 9.1 |
19 | 5.09 | 1.03 | 2.53 | 8.9 | 10.8 |
20 | 6.13 | 1.71 | 5.28 | 9.9 | 10.2 |
21 | 5.78 | 3.36 | 2.96 | 8.0 | 13.6 |
22 | 5.43 | 1.13 | 4.31 | 11.3 | 14.9 |
23 | 6.50 | 6.21 | 3.47 | 12.3 | 16.0 |
24 | 7.98 | 7.92 | 3.37 | 9.8 | 13.2 |
25 | 11.54 | 10.89 | 1.20 | 10.5 | 20.0 |
26 | 5.84 | 0.92 | 8.61 | 6.4 | 13.3 |
27 | 3.84 | 1.20 | 6.45 | 9.6 | 10.4 |
Q = ∑ ( Y − Y ^ ) 2 = ∑ [ Y − ( b 0 + b 1 X 1 + b 2 X 2 + ⋯ + b m X m ) ] 2 Q=\sum(Y-\hat{Y})^{2}=\sum\left[Y-\left(b_{0}+b_{1} X_{1}+b_{2} X_{2}+\cdots+b_{m} X_{m}\right)\right]^{2} Q=∑(Y−Y^)2=∑[Y−(b0+b1X1+b2X2+⋯+bmXm)]2
求偏导数↓
推荐阅读
{
l
11
b
1
+
l
12
b
2
+
⋯
+
l
1
m
b
m
=
l
1
Y
l
21
b
1
+
l
22
b
2
+
⋯
+
l
2
m
b
m
=
l
2
Y
⋯
⋯
l
m
1
b
1
+
l
m
2
b
2
+
⋯
+
l
m
m
b
m
=
l
m
Y
\left\{\begin{array}{l}{l_{11} b_{1}+l_{12} b_{2}+\cdots+l_{1 m} b_{m}=l_{1 Y}} \\ {l_{21} b_{1}+l_{22} b_{2}+\cdots+l_{2 m} b_{m}=l_{2 Y}} \\ {\cdots \cdots} \\ {l_{m 1} b_{1}+l_{m 2} b_{2}+\cdots+l_{m m} b_{m}=l_{m Y}}\end{array}\right.\\
⎩⎪⎪⎨⎪⎪⎧l11b1+l12b2+⋯+l1mbm=l1Yl21b1+l22b2+⋯+l2mbm=l2Y⋯⋯lm1b1+lm2b
多元线性回归:机器学习中经典模型的探索
理解多元线性回归模型:第3章的内容简介
用R语言探究保险投资风险敞口:广义线性模型和广义相加模型的多元平滑回归分析
用R语言进行多元线性回归的回归分析教程
用多元线性回归模型解决问题的数学方法
全面解析多元线性回归模型及其在Stata中的应用
理解R语言中的广义线性模型和广义相加模型:如何进行多元平滑回归分析以评估保险投资组合的信用风险敞口
用多元线性回归模型玩转数学建模
用Python的sklearn库实现多元线性回归分析
包婷婷 (201550484)作业一 统计软件简介与数据操作-SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件。最初软件全称为"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。
1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。
R统计软件介绍
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。
与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。
该语言的语法表面上类似 C,但在语义上是函数设计语言(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在"语言上计算"(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。
R是一个免费的*软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。在R主页那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。
二、R语言
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个*、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:
1.R是*软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。[2]
2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。[2]
3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等.[2]
4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。[2]
5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地.[2]
R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。R的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。
但是请不要忘了:R是免费的(R is free)。R语言源代码托管在github,具体地址可以看参考资料。[3]
。
R语言的下载可以通过CRAN的镜像来查找。
R语言有域名为.cn的下载地址,有六个,其中两个由Datagurn,由
中国科学技术大学提供的。R语言Windows版,其中由两个下载地点是Datagurn和
USTC提供的。
三、stata
Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。用Stata绘制的统计图形相当精美。
新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。
除此之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过Stata. Journal获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。
四、PYTHON