实战演练:多元回归分析在数学建模中的应用
1.多元线性回归
某品种水稻糙米含镉量y(mg/kg)与地上部生物量x1(10g/盆)及土壤含镉量x2(100mg/kg)的8组观测值如表。试建立多元线性回归模型。
1.1SAS代码
data ex;
input x1-x2 y@@;
cards;
1.7 9.08 4.93 12 1.89 1.86
9.67 3.06 2.33 0.76 10.2 5.78
17.67 0.05 0.06 15.91 0.73 0.43
15.74 1.03 0.87 5.41 6.25 3.86
;
proc reg;
model y=x1 x2;
run;
1.2结果分析
我们可以通过WORD将这些复制做成表格更加美观直接,每个表下面都需要有文字说明:
由方差分析表可知,其F value=386.30,pr>F的值<0.0001,远小于0.05,说明F值落在了拒绝域里面,故拒绝原假设,接受备择假设,认为y1与x1,x2之间具有显著性的线性关系;
由参数估计表可知,x2对应的t值为1.61,Pr>|t|的值=0.1691,大于0.05,说明1.61落在了接受域中,接受x2为0的假设,x2对外没有比较显著的线性贡献。
为此,需要在程序中model y1=x1 x2中去掉x2,再次运行:
对常数检验t值分别为t=37.53、,Pr>|t|的值<0.0001,远小于0.05,说明截距项通过检验,估计值为5.67953。
同理可知x1的系数通过检验,估计值为-0.32103
回归方程:y=-0.32103x1+5.67953
许多实际问题中可能还会出现某几个变量的系数并没有通过检验,此时,可以在原程序中的modely1=x1-x2中去掉没用通过的变量,直到所有的系数均通过检验。或者使用逐步回归方法,让软件自动保留通过检验的变量。
2.多元非线性回归
将非线性回归方程转化为线性回归方程。转化时应首先选择适合的非线性回归形式,并将其线性化。再确定线性化回归方程的系
数,最后确定非线性回归方程中未知的系数或参数。
湖北省油菜投入与产出的统计分析
1.投入指标
(1)土地(S)。土地用播种面积来表示。农作物播种面积是指当年从事农业
(2)劳动(L)。劳动用劳动用工数(成年劳动力一人劳动一天为一个工)来表示。劳动用工中包含着直接和间接生产用工。
(3)资本(K)。资本用物质费用来表示。物质费用包含直接费用和间接费用。主要有种子秧苗费、农家肥费、化肥费、农药费、畜力、固定资产折旧费和管理及其他费用等。
2.产出指标
产出指标用湖北省历年油菜生产的总产量(Y)来表示。
2.1SAS代码
data ex;input y k s l t @@;
x1=log(k);x2=log(s);x3=log(l);y1=log(y);
cards;
70.8972 40076.5884 825.1305 15347.4273 1
83.7506 48008.7690 915.1500 15832.0950 2
70.8627 44593.8425 804.150 13306.8090 3
78.3451 43460.3229 783.2100 13314.5700 4
98.0749 72657.2633 923.8050 14596.1190 5
134.8767 146108.3421 1282.8900 20911.1070 7
147.5315 162433.3500 1244.7000 18670.5000 8
154.7607 166979.6325 1330.5150 18627.2100 9
159.9743 190395.5262 1505.4600 20775.3480 10
198.4942 205914.6645 1738.4100 22599.3300 11
194.7943 189762.7335 1677.0900 20963.6250 12
187.1013 193463.610 1761.9450 21936.2153 14
235.1184 183768.4035 1779.1500 19606.2330 15
;
proc reg;model y1=x1 x2 x3 t ; /*selection=stepwise*/
run;
2.2结果分析
F值为145.06,对应的Pr>F的概率小于0.001,说明F值落在了拒绝域中。故拒绝原假设H0:x1,x2,x3x,t都为0,x1,x2,x3x,t对y1有显著的线性关系。
这里我们遵循一个原则,先看变量,再看常数。变量如果要去,需要一个一个去,因为他们之间可能有线性关系,一个变量会影响另一个变量。
我们可以通过增加一段SAS代码查看变量之间的线性关系。
proc corr;var x1 x2 x3 t;
可以看到,x1 x2 x3 t之间都有线性关系,这种其实是极不稳定的。
回到上面的表,我们看到常数显著性概率大于0.05,但是我们得先看变量,先不去管他。接着看x3,t都大于0.05很多,我们取最大的t显著性概率为0.9466,远大于0.05。因此将model y1=x1 x2 x3 t;去掉他,即改为model y1=x1 x2 x3 ;
截距项Intercept(常数)的显著性概率为0.6117,大于0.05,因此将model y1=x1 x2 x3 ; 改为model y1=x1 x2 x3/noint;(去掉常数项)
这时候F检验也过了,T检验也过了。我们可以得出式子:
F=34565.8 R2=0.9999 K,S,L的t值分别为(3.01) (6.59) (-9.98)
但是我们通过经济学解释就会发现这个式子很不合理:K(资本)增长1%Y增长0.
推荐阅读
-
实战演练:多元回归分析在数学建模中的应用
-
神经网络在多元回归数据分析中的应用与数据处理技巧
-
【摩尔线程+Colossal-AI强强联手】MusaBert登上CLUE榜单TOP10:技术细节揭秘 - 技术实力:摩尔线程凭借"软硬兼备"的技术底蕴,让MusaBert得以从底层优化到顶层。其内置多功能GPU配备AI加速和并行计算模块,提供了全面的AI与科学计算支持,为AI推理和低资源条件下的大模型训练等场景带来了高效、经济且环保的算力。 - 算法层面亮点:依托Colossal-AI AI大模型开发系统,MusaBert在训练过程中展现出了卓越的并行性能与易用性,特别在预处理阶段对DataLoader进行了优化,适应低资源环境高效处理海量数据。同时,通过精细的建模优化、领域内数据增强以及Adan优化器等手段,挖掘和展示了预训练语言模型出色的语义理解潜力。基于MusaBert,摩尔线程自主研发的MusaSim通过对比学习方法微调,结合百万对标注数据,MusaSim在多个任务如语义相似度、意图识别和情绪分析中均表现出色。 - 数据资源丰富:MusaBert除了自家高质量语义相似数据外,还融合了悟道开源200GB数据、CLUE社区80GB数据,以及浪潮公司提供的1TB高质量数据,保证模型即便在较小规模下仍具备良好性能。 当前,MusaBert已成功应用于摩尔线程的智能客服与数字人项目,并广泛服务于语义相似度、情绪识别、阅读理解与声韵识别等领域。为了降低大模型开发和应用难度,MusaBert及其相关高质量模型代码已在Colossal-AI仓库开源,可快速训练优质中文BERT模型。同时,通过摩尔线程与潞晨科技的深度合作,仅需一张多功能GPU单卡便能高效训练MusaBert或更大规模的GPT2模型,显著降低预训练成本,进一步推动双方在低资源大模型训练领域的共享目标。 MusaBert荣登CLUE榜单TOP10,象征着摩尔线程与潞晨科技联合研发团队在中文预训练研究领域的领先地位。展望未来,双方将携手探索更大规模的自然语言模型研究,充分运用上游数据资源,产出更为强大的模型并开源。持续强化在摩尔线程多功能GPU上的大模型训练能力,特别是在消费级显卡等低资源环境下,致力于降低使用大模型训练的门槛与成本,推动人工智能更加普惠。而潞晨科技作为重要合作伙伴,将继续发挥关键作用。
-
【2022新手指南】Java编程进阶之路 - 六、技术架构篇 ### MySQL索引底层解析与优化实战 - 你会讲解MySQL索引的数据结构吗?性能调优技巧知多少? - Redis深度揭秘:你知道多少?从基础到哨兵、主从复制全梳理 - Redis持久化及哨兵模式详解,还有集群搭建和Leader选举黑箱打开 - Zookeeper是个啥?特性和应用场景大公开 - ZooKeeper集群搭建攻略及 Leader选举、读写一致性、共享锁实现细节 - 探究ZooKeeper中的Leader选举机制及其在分布式环境中的作用 - Zab协议深入剖析:原理、功能与在Zookeeper中的核心地位 - RabbitMQ全方位解读:工作模式、消费限流、可靠投递与配置策略 - 设计者视角:RabbitMQ过期时间、死信队列与延时队列实践指南 - RocketMQ特性和应用场景揭示:理解其精髓与差异化优势 - Kafka详细介绍:特性及广泛应用于实时数据处理的场景解析 - ElasticSearch实力揭秘:特性概述与作为搜索引擎的广泛应用 - MongoDB认知升级:非关系型数据库的优势阐述,安装与使用实战教学 - BIO/NIO/AIO网络模型对比:掌握它们的区别与在网络编程中的实际应用 - Netty带你飞:理解其超快速度背后的秘密,包括线程模型分析 - 网络通信黑科技:Netty编解码原理与常用编解码器的应用,Protostuff实战演示 - 解密Netty粘包与拆包现象,怎样有效应对这一常见问题 - 自定义Netty心跳检测机制,轻松调整检测间隔时间的艺术 - Dubbo轻骑兵介绍:核心特性概览,服务降级实战与其实现益处 - Dubbo三大神器解读:本地存根与本地伪装的实战运用与优势呈现 ----------------------- 七、结语与回顾
-
包婷婷 (201550484)作业一 统计软件简介与数据操作-SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件。最初软件全称为"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。 1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。 R统计软件介绍 R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。 该语言的语法表面上类似 C,但在语义上是函数设计语言(functional programming language)的变种并且和Lisp 以及 APL有很强的兼容性。特别的是,它允许在"语言上计算"(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。 R是一个免费的*软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。在R主页那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。 二、R语言 R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个*、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点: 1.R是*软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。[2] 2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。[2] 3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等.[2] 4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。[2] 5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地.[2] R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。R的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。 但是请不要忘了:R是免费的(R is free)。R语言源代码托管在github,具体地址可以看参考资料。[3] 。 R语言的下载可以通过CRAN的镜像来查找。 R语言有域名为.cn的下载地址,有六个,其中两个由Datagurn,由 中国科学技术大学提供的。R语言Windows版,其中由两个下载地点是Datagurn和 USTC提供的。 三、stata Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。用Stata绘制的统计图形相当精美。 新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。 除此之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过Stata. Journal获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。 四、PYTHON
-
AI 大模型智能大气科学探索 ChatGPT 在大气科学建模、数据分析、可视化和资源评估中的高效应用和论文写作
-
实战教学:利用three.js在WebGL中创建酷炫3D效果——打造6讲实例,包括3D虚拟消防演练、大型3D建筑、数字化孪生火警模拟、可视化方案(第18课变体)与3D智慧园区、大屏及楼宇等全方位三维呈现与BIM管理系统的Web版应用(第6课)
-
10倍测序单细胞数据融合分析实战指南:Seurat在多样本集成中的应用
-
实战R语言数据分析:第七章假设检验及其在R中的应用(上)
-
理解数学建模中的 Matlab:rem 和 mod 函数在实际应用中的差异探索