数学建模的常用模型 - II.分类模型

最编程 2024-04-19 21:22:51

...

数学建模的分类模型是指根据已知的分类标号将输入的数据集建立分类的数据挖掘方法。分类的目标是将数据的每个个案都尽可能准确地预测到一个目标分类中。典型模型包括K-means聚类、Fisher判别分析、二元logistic回归、决策树、随机森林、神经网络分类、K近邻算法等。

1、K-means聚类

（1）基本思想

K-means算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。因为需要计算距离，所以决定了K-means算法只能处理数值型数据，而不能处理分类属性型数据。

（2）分析步骤

第一步：K-means算法首先需要选择K个初始化聚类中心
第二步：计算每个数据对象到K个初始化聚类中心的距离，将数据对象分到距离聚类中心最近的那个数据集中，当所有数据对象都划分以后，就形成了K个数据集（即K个簇）
第三步：接下来重新计算每个簇的数据对象的均值，将均值作为新的聚类中心
第四步：最后计算每个数据对象到新的K个初始化聚类中心的距离，重新划分
第五步：每次划分以后，都需要重新计算初始化聚类中心，一直重复这个过程，直到所有的数据对象无法更新到其他的数据集中。

（3）软件操作

将数据上传至SPSSAU系统，分析页面右侧选择【聚类】；将变量拖拽到右侧相应分析框中，点击“开始分析”，操作如下图：

补充：SPSSAU在进行聚类分析时，将相应的数据类型放入右边的分析栏中，可自动识别数据进行定量or定类or混合数据的聚类分析。

当仅进行定量数据分析时，SPSSAU默认使用K-means聚类方法进行聚类；
当仅进行定类数据分析时，SPSSAU默认使用K-modes聚类方法进行聚类；
当进行混合型（定量+定类）数据分析时，SPSSAU将使用K-prototype聚类方法进行聚类。

2、Fisher判别分析

（1）基本思想

Fisher判别分析基本思想是通过将样本投影到一条直线上，使得同类样本间的距离尽可能小，不同类样本间的距离尽可能大，从而实现对样本的分类。

（2）软件操作

将数据上传至SPSSAU系统，分析页面右侧选择【判别分析】；将变量拖拽到右侧相应分析框中，点击“开始分析”，操作如下图：

3、二元logistic回归

（1）基本思想

二元logistic回归分析是一种常用的分类方法，其基本思想是通过建立一个逻辑回归模型来对样本进行分类。将预测变量的线性组合转化为一个在0到1之间的概率值，然后以此概率值作为分类的依据。相对于其他分类方法，二元logistic回归分析具有模型简单、参数可解释性强等优点，在实际应用中得到了广泛的使用。

（2）分析步骤

第一步：建立二元logistic回归模型；第二步：对模型进行评估；第三步：应用模型进行分类预测。

（3）软件操作

将数据上传至SPSSAU系统，分析页面右侧选择【二元logit回归】；将变量拖拽到右侧相应分析框中，点击“开始分析”