数学建模的常用模型 - II.分类模型
数学建模的分类模型是指根据已知的分类标号将输入的数据集建立分类的数据挖掘方法。分类的目标是将数据的每个个案都尽可能准确地预测到一个目标分类中。典型模型包括K-means聚类、Fisher判别分析、二元logistic回归、决策树、随机森林、神经网络分类、K近邻算法等。
1、K-means聚类
(1)基本思想
K-means算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。因为需要计算距离,所以决定了K-means算法只能处理数值型数据,而不能处理分类属性型数据。
(2)分析步骤
-
第一步:K-means算法首先需要选择K个初始化聚类中心
-
第二步:计算每个数据对象到K个初始化聚类中心的距离,将数据对象分到距离聚类中心最近的那个数据集中,当所有数据对象都划分以后,就形成了K个数据集(即K个簇)
-
第三步:接下来重新计算每个簇的数据对象的均值,将均值作为新的聚类中心
-
第四步:最后计算每个数据对象到新的K个初始化聚类中心的距离,重新划分
-
第五步:每次划分以后,都需要重新计算初始化聚类中心,一直重复这个过程,直到所有的数据对象无法更新到其他的数据集中。
(3)软件操作
将数据上传至SPSSAU系统,分析页面右侧选择【聚类】;将变量拖拽到右侧相应分析框中,点击“开始分析”,操作如下图:
补充:SPSSAU在进行聚类分析时,将相应的数据类型放入右边的分析栏中,可自动识别数据进行定量or定类or混合数据的聚类分析。
-
当仅进行定量数据分析时,SPSSAU默认使用K-means聚类方法进行聚类;
-
当仅进行定类数据分析时,SPSSAU默认使用K-modes聚类方法进行聚类;
-
当进行混合型(定量+定类)数据分析时,SPSSAU将使用K-prototype聚类方法进行聚类。
2、Fisher判别分析
(1)基本思想
Fisher判别分析基本思想是通过将样本投影到一条直线上,使得同类样本间的距离尽可能小,不同类样本间的距离尽可能大,从而实现对样本的分类。
(2)软件操作
将数据上传至SPSSAU系统,分析页面右侧选择【判别分析】;将变量拖拽到右侧相应分析框中,点击“开始分析”,操作如下图:
3、二元logistic回归
(1)基本思想
二元logistic回归分析是一种常用的分类方法,其基本思想是通过建立一个逻辑回归模型来对样本进行分类。将预测变量的线性组合转化为一个在0到1之间的概率值,然后以此概率值作为分类的依据。相对于其他分类方法,二元logistic回归分析具有模型简单、参数可解释性强等优点,在实际应用中得到了广泛的使用。
(2)分析步骤
第一步:建立二元logistic回归模型;第二步:对模型进行评估;第三步:应用模型进行分类预测。
(3)软件操作
将数据上传至SPSSAU系统,分析页面右侧选择【二元logit回归】;将变量拖拽到右侧相应分析框中,点击“开始分析”
4、机器学习
决策树、随机森林、神经网络、K近邻算法、朴素贝叶斯、支持向量机可归类为机器学习进行分类的这一类,有关六类典型机器学习算法可以下面这篇以往文章
推荐阅读
-
数学建模常用模型 10:数据包络(DEA)分析(投入产出法)
-
数学建模中的常用模型 (X):数据包络(DEA)分析法
-
数学建模的常用模型 - II.分类模型
-
Kev 的数学建模模型学习 2:整数规划模型
-
2024MathorCup 数学建模 D 题思路模型代码 - 以下是对 2023 年 MathorCup 大学生数学建模挑战赛 D 题思路的解释:
-
数学建模 - 非线性编程模型 - 如果线性规划存在最优解,那么其最优解只能在可行域的边界上(尤其是可行域的顶点上)找到;而非线性规划的最优解(如果存在最优解)可以在可行域的任何一点上找到。
-
中国人口增长的数学模型(供数学建模用)
-
玩转控制工程数学建模(7):深入解析典型环节的数学模型(第三部分)
-
搞定数学建模初体验:探索人口增长模型的奥秘
-
理解logistic人口增长模型的数学建模方法