资源描述
多元统计分析,中国人民大学:何晓群,苏州大学:马学俊,基于,R,语言,多元统计分析中国人民大学:何晓群基于R语言,聚类分析,学习目标:,1.,了解适合用聚类分析解决的问题,;,2.,理解对象之间的相似性是如何测量的,;,3.,区别不同的距离,;,4.,区分不同的聚类方法及其相应的应用,;,5.,理解如何选择类的个数,;,6.,简述聚类分析的局限。,0,3,聚类分析学习目标:03,3.1,聚类分析的基本思想,3.1.1,目的,聚类分析不仅可以用来对样品进行分类,而且可以用来对变量进行分类。对样品的分类常称为型聚类分析,对变量的分类常称为型聚类分析。与多元分析的其他方法相比,聚类分析的方法还是比较粗糙的,理论上也不算完善,但由于它能解决许多实际问题,所以很受实际研究者重视,同回归分析、判别分析一起称为多元分析的三大方法。,目的,在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,如前所述,聚类分析的目的就是把相似的研究对象归成类。,3.1 聚类分析的基本思想3.1.1 目的聚类分析不仅可以用,3.1,聚类分析的基本思想,3.1.2,聚类的分类方法,分类方法,系统聚类法,:,首先,将n个样品看成n类,然后将性质最接近的两类合并成一个新类,得到n-1类,再从中找出最接近的两类加以合并,变成n-2类,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,。,模糊聚类法:,将模糊数学的思想观点用到聚类分析中产生的方法。,K-均值法,:,把样品聚集成k个类的集合,,,类的个数k可以预先给定或者在聚类过程中确定。该方法可应用于比系统聚类法适用的大得多的数据组。,有序样品的聚类,:,n个样品按某种原因(时间、地层深度等)排成次序,,,必须是次序相邻的样品才能聚成一类。,分解法,:,首先所有的样品均在一类,然后用某种最优准则将它分为两类,再试图用同种准则将这两类各自分裂为两类,从中选一个使目标函数较好者,这样由两类变成三类,如此下去,一直分裂到每类只有一个样品为止(或采用其他停止规则),将上述分裂过程画成图,由图便可求得各个类。,加入法,:,将样品依次加入,每次加入后将它放到当前聚类图的应在位置上,全部加入后,即可得到聚类图。,3.1 聚类分析的基本思想3.1.2 聚类的分类方法分类方法,3.2,相似性度量,距离定义,3.2 相似性度量距离定义,3.2,相似性度量,间隔尺度定义,3.2 相似性度量间隔尺度定义,3.3,类和类的特征,3.3.1,类的定义,用表示类,设中有个元素,这些元素用,等表示。,定义,3.3 类和类的特征3.3.1 类的定义用表示类,设,3.3,类和类的特征,3.3.2,类的特征,特征,3.3 类和类的特征3.3.2 类的特征特征,3.3,类和类的特征,3.3.3,类的距离定义,定义,3.3 类和类的特征3.3.3 类的距离定义定义,3.4,系统聚类法,系统聚类法是聚类分析诸方法中使用最多的。它包含下列步骤:,3.4 系统聚类法系统聚类法是聚类分析诸方法中使用最多的。它,3.4,系统聚类法,3.4.1,最短距离法和最长距离法,3.4 系统聚类法3.4.1 最短距离法和最长距离法,3.4,系统聚类法,3.4.2,重心法和类平均法,3.4 系统聚类法3.4.2 重心法和类平均法,3.4,系统聚类法,3.4.3,离差平方和法,3.4 系统聚类法3.4.3 离差平方和法,3.4,系统聚类法,3.4.4,分类数的确定,聚类分析的目的是要对研究对象进行分类,因此,如何选择分类数成为各种聚类方法中的主要问题之一。实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。德穆曼,(Demirmen),曾提出根据树状结构图来分类的准则。,准则,1:,任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。,准则,2:,各类所包含的元素都不应过多。,准则,3:,分类的数目应该符合使用的目的。,准则,4:,若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。,分类准则,3.4 系统聚类法3.4.4 分类数的确定聚类分析的目的是要,3.5,均值聚类和有序样品的聚类,3.5.1,均值法,(,快速聚类法,),K-,均值法主要思想:把每个样品聚集到其最近形心,(,均值,),类中,步骤:,(1),把样品粗略分成,K,个初始类。,(2),进行修改,逐个分派样品到其最近均值类中,(,通常用标准化数据或非标准化数据计算欧氏距离,),。重新计算接受新样品的类和失去样品的类的形心,(,均值,),。,(3),重复第,2,步,直到各类无元素进出。,注意:,样品的最终聚类在某种程度上依赖于最初的划分或种子点的选择。,为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如果最终分类与原来一样,则不必再行计算,;,否则,须另行考虑聚类算法。,3.5 均值聚类和有序样品的聚类3.5.1 均值法(快速聚类,3.5,均值聚类和有序样品的聚类,3.5.2,有序样品的聚类,3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类,3.5,均值聚类和有序样品的聚类,3.5.2,有序样品的聚类,3.5 均值聚类和有序样品的聚类3.5.2 有序样品的聚类,3.6,模糊聚类分析,3.6.1,模糊聚类的几个基本概念,3.6 模糊聚类分析3.6.1 模糊聚类的几个基本概念,3.6,模糊聚类分析,3.6.2 FCM,聚类方法,3.6 模糊聚类分析3.6.2 FCM聚类方法,3.6,模糊聚类分析,3.6.3 FCM,聚类算法,3.6 模糊聚类分析3.6.3 FCM聚类算法,3.7,计算步骤与上机实现,系统聚类,快速聚类,模糊聚类用,R,软件操作具体步骤如下,:,(1)分析需要研究的问题,确定聚类分析所需的多元变量;,(2)选择对样品聚类还是对指标聚类;,(3)选择合适的聚类方法;,(4)选择所需的输出结果。,3.7 计算步骤与上机实现系统聚类,快速聚类,模糊聚类用R软,3.7,计算步骤与上机实现,城镇居民消费水平通常用食品、衣着、居住、生活用品及服务、交通通信、文教娱乐、医疗保健和其他用品及服务支出这八项指标来描述,八项指标间可能存在一定的线性关系。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。下表列出了,2016,年我国分地区,(,不含港澳台,),城镇居民的人均消费支出的部分原始数据,数据来源于,2017,年,中国统计年鉴,。,X1:,食品烟酒支出,X2:,衣着支出,X3:,居住支出,X4:,生活用品及服务支出,X5:,交通通信支出,X6:,教育文化娱乐支出,X7:,医疗保健支出,X8:,其他用品及服务支出,2016,年分地区城镇居民人均消费支出,3.7 计算步骤与上机实现城镇居民消费水平通常用食品、衣着、,3.7,计算步骤与上机实现,对,2016,年我国分地区,(,不含港澳台,),城镇居民的人均消费支出,我们采用欧氏距离,分别运用类平均法,(,组间联结,),、最短距离法、最长距离法,对,31,个省、直辖市、自治区分类。下面详细介绍使用,R,进行系统聚类的步骤。,1.,rm,(,list=ls,(),2.,ex3.5,dat35,rownames,(,dat35,),round,(,cor,(,dat35,),3,),#,相关系数矩阵,16.,dat35_cor,dat35_cs,par,(,mfrow=c,(,1,1,),19.,plot,(,dat35_cs,hang,=,-1,),20.,rect.hclust,(,dat35_cs,k,=,4,),22.,dat35_dist,dat35_ave,par,(,mfrow=c,(,1,1,),26.,plot,(,dat35_ave,hang,=,-1,),27.,rect.hclust,(,dat35_ave,k,=,3,),29.,dat35_sin,par,(,mfrow=c,(,1,1,),31.,plot,(,dat35_sin,hang,=,-1,),3.7 计算步骤与上机实现对2016年我国分地区(不含港澳,3.7,计算步骤与上机实现,不同聚类方法的聚类结果对比表如下:,地区,类平均法类标记,最短距离法类标记,最长距离法类标记,北京,1,1,1,天津,2,2,2,河北,3,2,3,山西,3,2,3,内蒙古,3,2,3,辽宁,3,2,3,吉林,3,2,3,黑龙江,3,2,3,上海,1,1,1,江苏,2,2,2,浙江,2,2,2,安徽,3,2,3,福建,2,2,2,江西,3,2,3,山东,3,2,3,河南,3,2,3,地区,类平均法类标记,最短距离法类标记,最长距离法类标记,湖北,3,2,3,湖南,3,2,3,广东,2,2,2,广西,3,2,3,海南,3,2,3,重庆,3,2,3,四川,3,2,3,贵州,3,2,3,云南,3,2,3,西藏,3,2,3,陕西,3,2,3,甘肃,3,2,3,青海,3,2,3,宁夏,3,2,3,新疆,3,2,3,由上表可知,当把所有样品分为三类时,类平均法和最长距离法所得到的结果一致,北京,上海,为一类,这两个地区的居民平均消费水平最高,;,天津,江苏,浙江,福建,广东,为一类,这些地区的居民平均消费水平居中,;,其余的地区为一类,居民的平均消费水平较低。但最短距离法将北京和上海分别聚为一类,其余为一类,相对不如类平均法和最长距离法得到的分类结果合理。,3.7 计算步骤与上机实现不同聚类方法的聚类结果对比表如下:,
展开阅读全文