数学建模四大模型总结-2 分类模型
判别分析是在已知研究对象分成若干类型并已经取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析。
聚类分析则是给定的一批样品,要划分的类型实现并不知道,正需要通过局内分析来给以确定类型的。
2.1 判别分析
l 距离判别法
基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第类的重心距离最近,就认为它来自第类。
至于距离的测定,可以根据实际需要采用欧氏距离、马氏距离、明科夫距离等。
l Fisher判别法
基本思想:从两个总体中抽取具有个指标的样品观测数据,借助方差分析的思想构造一个判别函数或称判别式。其中系数确定的原则是使两组间的区别最大,而使每个组内部的离差最小。
对于一个新的样品,将它的p个指标值代人判别式中求出 y 值,然后与判别临界值(或称分界点(后面给出)进行比较,就可以判别它应属于哪一个总体。在两个总体先验概率相等的假设下,判别临界值一般取:
最后,用统计量来检验判别效果,若则认为判别有效,否则判别无效。
以上描述的是两总体判别,至于多总体判别方法则需要加以扩展。
Fisher判别法随着总体数的增加,建立的判别式也增加,因而计算比较复杂。
l Bayes判别法
基本思想:假定对所研究的对象有一定的认识,即假设个总体中,第个总体的先验概率为,概率密度函数为。利用bayes公式计算观测样品来自第个总体的后验概率,当时,将样本判为总体。
l 逐步判别法
基本思想与逐步回归法类似,采用“有进有出”的算法,逐步引入变量,每次引入一个变量进入判别式,则同时考虑在较早引入判别式的某些作用不显著的变量剔除出去。
2.2 聚类分析
聚类分析是一种无监督的分类方法,即不预先指定类别。
根据分类对象不同,聚类分析可以分为样本聚类(Q型)和变量聚类(R型)。样本聚类是针对观测样本进行分类,而变量聚类则是试图找出彼此独立且有代表性的自变量,而又不丢失大部分信息。变量聚类是一种降维的方法。
l 系统聚类法(分层聚类法)
基本思想:开始将每个样本自成一类;然后求两两之间的距离,将距离最近的两类合成一类;如此重复,直到所有样本都合为一类为止。
适用范围:既适用于样本聚类,也适用于变量聚类。并且距离分类准则和距离计算方法都有多种,可以依据具体情形选择。
l 快速聚类法(K-均值聚类法)
基本思想:按照指定分类数目,选择个初始聚类中心;计算每个观测量(样本)到各个聚类中心的距离,按照就近原则将其分别分到放入各类中;重新计算聚类中心,继续以上步骤;满足停止条件时(如最大迭代次数等)则停止。
使用范围:要求用户给定分类数目,只适用于样本聚类(Q型),不适用于变量聚类(R型)。
l 两步聚类法(智能聚类方法)
基本思想:先进行预聚类,然后再进行正式聚类。
适用范围:属于智能聚类方法,用于解决海量数据或者具有复杂类别结构的聚类分析问题。可以同时处理离散和连续变量,自动选择聚类数,可以处理超大样本量的数据。
l 模糊聚类分析
l 与遗传算法、神经网络或灰色理论联合的聚类方法