资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1,聚类分析,2,第五章 把对象分类,聚类分析,3,分类,俗语说,物以类聚、人以群分。,当有一个分类指标时,分类比较容易。,但是当有多个指标,要进行分类就不是很容易了。,比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;,也可以考虑收入、教育水准、医疗条件、基础设施等指标;,4,聚类分析,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。,所以需要进行多元分类,即聚类分析。,最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。,5,聚类分析,对于一个数据,人们既可以对变量(指标)进行分类,(,相当于对数据中的列分类,),,也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。,对变量的聚类称为,R,型聚类,而对观测值聚类称为,Q,型聚类。这两种聚类在数学上是对称的,没有什么不同。,6,聚类中选择变量的要求,和聚类分析的目标密切相关,反映了要分类对象的特征,变量之间不应该高度相关。,7,如何聚类?,聚类分析就是要找出具有相近程度的点或类聚为一类;,如何衡量这个“相近程度”?,一种方法是用,相似系数,,性质越接近的样品,它们的相似系数的绝对值越接近,1,,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。,另一种方法是将一个样品看作,p,维空间的一个点,并在,空间定义距离,,距离越近的点归为一类,距离较远的点归为不同的类。,8,距离和相似系数,9,距离,什么是距离?,首先我们,看样本数,据:,一般满足以下四个条件时,就称为聚例:,10,常用距离,明氏距离,Minkowski,距离:,当,q=1,时:,当,q=2,时:,当,q=,时:,11,明氏距离的缺点,距离的大小与个指标的观测单位有关,具有一定的人为性。,例如:对体重和身高进行测量,采用不同单位,其距离测量的结果不同。以欧氏距离为例。,12,当长度,=cm,时:,13,当长度,=mm,时:,改进的方法:对数据进行标准化,然后再计算距离。,14,采用明氏距离需要注意的是:,一定要采用相同量纲的变量。如果各变量的量纲不同,或当各变量的量纲相同但各变量的测量值相差悬殊时,不能直接采用明氏距离。,需要先对数据进行标准化处理,然后再用标准化处理后的数据计算距离。,最常用的标准化处理方法是,:,15,对指标标准化的方法,16,明氏距离的缺点,另一个缺点:它没有考虑到指标之间的相关性。,改进的方法是:采用,马氏距离,马氏距离是,1936,年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离。,17,相似系数,研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有:,夹角余弦,相关系数,18,相似系数,夹角余弦,cosine,尽管图中,AB,和,CD,长度不一样,但形,状相似。当长度不,是主要矛盾时,就,可利用夹角余弦这,样的相似系数。,19,夹角余弦,cosine,20,相关系数,21,22,聚类分析内容,系统聚类法,有序样品聚类法,动态聚类法,模糊聚类法,图论聚类法,聚类预报法等。,本章主要介绍常用的系统聚类法。,23,系统聚类法,24,系统聚类法的基本思想,先将每个研究对象,(,样品或指标,),各自看成一类。,然后根据对象间的相似度量,将,h,类中最相似的两类合并,组成一个新类,这样得到,h-1,类,再在这,h-1,类中找出最相似的两类合并,得到,h-2,类,如此下去,直至将所有的对象并成一个大类为止。,当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该在某个类水平数(即未合并的类数)停下来,最终的类就取这些未合并的类。决定聚类个数是一个很复杂的问题。,25,系统聚类法的步骤,可选择适当的距离,计算距离,把每个样品看成一类,构造,n,个类,合并最近的两类为一新类,计算新类与当前各类的距离,判断,画聚类图,根据实际情况,确定类和类的个数,仅有一个类,不是仅有一个类,采用系统聚类法,26,系统聚类法,正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。,例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之间的距离等等。,类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。,27,八种系统聚类方法,最短距离法,最长距离法,中间距离法,重心法,类平均法,可变类平均法,可变法,离差平方和法,系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法,从而得到不同的计算距离的公式。这些公式在形式上不大一样,但最后可将它们统一为一个公式,对上机计算带来很大的方便 。,28,系统聚类法,最短距离法,Nearest Neighbor,G1 G2 G3 G4 G5,G1,G2,G3,G4,G5,0,1 0,2.5,1.5,0,6,5,3.5 0,8,7,5.5 2 0,G6 G3 G4 G5,G6,G3,G4,G5,0,1.5,0,5,3.5 0,7,3. 5 3.5 0,29,系统聚类法,最长距离法,Furthest Neighbor,G1 G2 G3 G4 G5,G1,G2,G3,G4,G5,0,1 0,2.5,1.5 0,6,5 3.5 0,8,7 5.5 2 0,G6 G3 G4 G5,G6,G3,G4,G5,0,2.5,0,6,3.5 0,8,3. 5 3.5 0,30,系统聚类法,重心法,Centroid Clustering,类平均法,Between-groups Linkage,31,系统聚类法,离差平方和法,Words Method,Words,法的基本思想是来自于方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。,具体方法,:,先将,n,个样品各自成一类,然后每次缩小一类;,每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有的样品归为一类为止。,32,系统聚类法,中样品的离差平方和为:,33,系统聚类法,如有五个样品:,1,,,2,,,3.5,,,7,,,9,第一步:将五个样品各自分成一类,显然这时的类内离差平方和,S=0,;,第二步:将一切可能的任意两样品合并,计算所增加的离差平方和:,如,34,G,1,G,2,G,3,G,4,G,5,G,1,G,2,G,3,G,4,G,5,0,0.5 0,3.125 1.123 0,18 12.5 6.125 0,32 24.5 12.125 2 0,此外,还有中间距离法、类内平均法等。,35,SPSS,中的聚类分析与过程,36,例,9.1,饮料数据(,drink.sav,),16,种饮料的热量、咖啡因、钠及价格四种变量,37,SPSS,中的聚类分析,Spss,中的聚类功能常用的有两种:,快速聚类(迭代过程):,K-Means Cluster,分层聚类:,Hierarchical,38,Hierarchical Cluster,聚类,分层聚类由两种方法:分解法和凝聚法。,分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。,分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。,39,Hierarchical Cluster,聚类,分层聚类的中要进行以下的选择:,数据的标准化,测度方法的选择,:距离方法的选择或相似性、关联程度的选择。,聚类方法的选择,:即以什么方法聚类,,spss,中提供了,7,中方法可进行选择。,输出图形的选择:树形图或冰柱图。,40,41,欧氏平方距离、类平均法聚类,快速聚类法聚类,42,欧氏平方距离、最短距离法聚类,欧氏平方距离、最长距离法聚类,43,欧氏平方距离、重心法聚类,欧氏平方距离、,Words,法聚类,44,聚类分析在市场细分中的应用,要对消费者购物的态度进行分类,在前期研究的基础上,确定,6,个态度变量。每个消费者要对有关购物态度的,6,个观点进行评价:,1,表示非常不同意,,7,表示非常同意。,V1,购物很有趣,V2,购物不利于我的预算,V3,购物总是与上饭店吃饭联系在一起,V4,购物时我尽量买的最好,V5,我对购物不感兴趣,V6,购物时多比较价格可以节省很多钱,(,SPSS,文件:购物态度聚类分析,),45,1,类:,1,、,3,、,6,、,7,、,8,、,12,、,15,、,17,2,类:,2,、,5,、,9,、,11,、,13,、,20,3,类:,4,、,10,、,14,、,16,、,18,、,19,46,第,1,类消费者对于,V1,和,V3,的评价相对较高,而对,V5,评价较低,因此可以称其为“热情的消费者”。,V1,购物很有趣,V3,购物总是与上饭店吃饭联系在一起,V5,我对购物不感兴趣,47,第,2,类消费者正好与第,1,类相反,对于,V1,和,V3,的评价相对较低,而对,V5,评价较高,因此可以称其为“冷淡的消费者”。,V1,购物很有趣,V3,购物总是与上饭店吃饭联系在一起,V5,我对购物不感兴趣,48,第,3,类消费者对于,V2,、,V4,和,V6,的评价相对较高,因此可以称其为“经济型消费者”。,V2,购物不利于我的预算,V4,购物时我尽量买的最好,V6,购物时多比较价格可以节省很多钱,49,K-Means Cluster,原理,首先,,选择,n,个数值型变量参与聚类分析,最后要求的,聚类数为,k,个,;,其次,,,由系统选择,k,个,(,聚类的类数),观测量,(也可由用户指定),作为聚类的种子,。,第三,,按照距离这些类中心的,距离最小的原则,把所有观测量(样品)分派到各类重心所在的类中去。,第四,,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;,第五,,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。,50,K-Means Methods,-,快速聚类,51,K-Means Methods,52,K-Means Methods,53,K-Means Cluster,聚类过程,由,AnalyzeClassify,K-Means Cluster,将个变量放入,Variable,;,输入最后聚类的个数;,54,55,56,57,快速聚类法与层次聚类法应用区别,层次聚类法的聚类过程是单方向的,一旦某个样品(,case,)进入某一类,就不可能从该类出来,再归入其他的类。,而快速聚类法受奇异值、相似测度和不合使得聚类变量的影响较小,对于不合适的初始分类可以进行反复调整,.,58,快速聚类法与层次聚类法应用区别,在聚类分析发展的早期,层次聚类法应用普遍,其中尤以组间类平均法和离差平方和法应用最广。,后来快速聚类方法逐步被人们接受,应用日益增多。现在是两者相结合,取长补短。,首先使用层次聚类法确定分类数,检查是否有奇异值,去除奇异值后,对剩下的案例重新进行分类,把用层次聚类法得到的各个类的重心,作为迭代法的初始分类中心,对样本进行重新调整。,59,练习,各地区的不同类型的房屋销售情况聚类分析。,数据文件:,各省不同类型房屋销售情况,.sav,。,变量为:,别墅公寓,经济适用房,办公楼,商业用房,其他,60,61,62,
展开阅读全文