厦门大学《应用多元统计分析》第05章-聚类分析ppt课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,为深入学习习近平新时代中国特色社会主义思想和党的十九大精神,贯彻全国教育大会精神,充分发挥中小学图书室育人功能,第五章聚类分析,第一节,引言,第二节,相似性的量度,第三节,系统聚类分析法,第四节,K均值聚类分析,第五节,有序样品的聚类分析法,第六节,实例分析与计算机实现,第一节引言,“物以类聚，人以群分”。对事物进行分类，是人们认识事物的出发点，也是人们认识世界的一种重要方法。因此，分类学已成为人们认识世界的一门基础科学。,在生物、经济、社会、人口等领域的研究中，存在着大量量化分类研究。例如：在生物学中，为了研究生物的演变，生物学家需要根据各种生物不同的特征对生物进行分类。在经济研究中，为了研究不同地区城镇居民生活中的收入和消费情况，往往需要划分不同的类型去研究。在地质学中，为了研究矿物勘探，需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。在人口学研究中，需要构造人口生育分类模式、人口死亡分类状况，以此来研究人口的生育和死亡规律。,但历史上这些分类方法多半是人们主要依靠经验作定性分类，致使许多分类带有主观性和任意性，不能很好地揭示客观事物内在的本质差别与联系；特别是对于多因素、多指标的分类问题，定性分类的准确性不好把握。为了克服定性分类存在的不足，人们把数学方法引入分类中，形成了数值分类学。后来随着多元统计分析的发展，从数值分类学中逐渐分离出了聚类分析方法。随着计算机技术的不断发展，利用数学方法研究分类不仅非常必要而且完全可能，因此近年来，聚类分析的理论和应用得到了迅速的发展。,聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为,Q,型聚类和,R,型聚类。,Q,型聚类是对样品进行分类处理，,R,型聚类是对变量进行分类处理。,第二节相似性的量度,一,样品相似性的度量,二,变量相似性的度量,一、样品相似性的度量,在聚类之前，要首先分析样品间的相似性。,Q,型聚类分析，常用距离来测度样品之间的相似程度。每个样品有,p,个指标（变量）从不同方面描述其性质，形成一个,p,维的向量。如果把,n,个样品看成,p,维空间中的,n,个点，则两个样品间相似程度就可用,p,维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义，令,d,ij,表示样品,X,i,与,X,j,的距离，存在以下的距离公式：,1明考夫斯基距离,(5.1),明考夫斯基距离简称明氏距离，按的取值不同又可分成：,欧氏距离是常用的距离，大家都比较熟悉，但是前面已经提到，在解决多元数据的分析问题时，欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近的影响，显然一个变异程度大的总体可能与更多样品近些，既使它们的欧氏距离不一定最近；另外，欧氏距离受变量的量纲影响，这对多元数据的处理是不利的。为了克服这方面的不足，可用“马氏距离”的概念。,2马氏距离,设,X,i,与,X,j,是来自均值向量为,，协方差为,=,（0）,的总体,G,中的,p,维样品，则两个样品间的马氏距离为,(5.5),马氏距离又称为广义欧氏距离。显然，马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。如果各变量之间相互独立，即观测变量的协方差矩阵是对角矩阵，则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。马氏距离还考虑了观测变量之间的变异性，不再受各指标量纲的影响。将原始数据作线性变换后，马氏距离不变。,3兰氏距离,(5.6),它仅适用于一切,X,ij,0的情况，这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的量，由于它对大的奇异值不敏感，它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点，但它也没有考虑指标之间的相关性。,4距离选择的原则,一般说来，同一批数据采用不同的距离公式，会得到不同的分类结果。产生不同结果的原因，主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时，应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则：,（1）要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。,（2）要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理，则通常就可采用欧氏距离。,（3）要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题，我们应根据研究对象的特点不同做出具体分折。实际中，聚类分析前不妨试探性地多选择几个距离公式分别进行聚类，然后对聚类分析的结果进行对比分析，以确定最合适的距离测度方法。,二、变量相似性的度量,多元数据中的变量表现为向量形式，在几何上可用多维空间中的一个有向线段表示。在对多元数据进行分析时，相对于数据的大小，我们更多地对变量的变化趋势或方向感兴趣。因此，变量间的相似性，我们可以从它们的方向趋同性或“相关性”进行考察，从而得到“夹角余弦法”和“相关系数”两种度量方法。,1、夹角余弦,两变量,X,i,与,X,j,看作,p,维空间的两个向量，这两个向量间的夹角余弦可用下式进行计算,(5.7),显然，cos,ij,1。,2相关系数,相关系数经常用来度量变量间的相似性。变量,X,i,与,X,j,的相关系数定义为,(5.8),显然也有，,r,ij,1。,无论是夹角余弦还是相关系数，它们的绝对值都小于1，作为变量近似性的度量工具，我们把它们统记为,c,ij,。当,c,ij,=,1时，说明变量,X,i,与,X,j,完全相似；当,c,ij,近似于1时，说,明变量,X,i,与,X,j,非常密切；当,c,ij,=,0,时，说明变量,X,i,与,X,j,完,全不一样；当,c,ij,近似于0时，说明变量,X,i,与,X,j,差别很大。,据此，我们把比较相似的变量聚为一类，把不太相似的变量归到不同的类内。,在实际聚类过程中，为了计算方便，我们把变量间相似性的度量公式作一个变换为,d,ij,=,1 ,c,ij,(5.9),或者,d,ij,2,=,1,c,ij,2,(5.10),用表示变量间的距离远近，小则与先聚成一类，这比较符合人们的一般思维习惯。,第三节系统聚类分析法,一,系统聚类的基本思想,二,类间距离与系统聚类法,三,类间距离的统一性,一、系统聚类的基本思想,系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。系统聚类过程是：假设总共有,n,个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有,n,类；第二步根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其它的样品（或变量）仍各自聚为一类，共聚成,n,1,类；第三步将“距离”最近的两个类进一步聚成一类，共聚成,n,2,类；，以上步骤一直进行下去，最后将所有的样品（或变量）全聚成一类。为了直观地反映以上的系统聚类过程，可以把整个分类系统画成一张谱系图。所以有时系统聚类也称为谱系分析。除系统聚类法外，还有有序聚类法、动态聚类法、图论聚类法、模糊聚类法等，限于篇幅，我们只介绍系统聚类方法。,二、类间距离与系统聚类法,在进行系统聚类之前，我们首先要定义类与类之间的距离，由类间距离定义的不同产生了不同的系统聚类法。常用的类间距离定义有8种之多，与之相应的系统聚类法也有8种，分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。它们的归类步骤基本上是一致的，主要差异是类间距离的计算方法不同。以下用,d,ij,表示样品,X,i,与,X,j,之间距离，用,D,ij,表示类,G,i,与,G,j,之间的距离。,1. 最短距离法,定义类与之间的距离为两类最近样品的距离，即为,(5.11),设类与合并成一个新类记为，则任一类与的距离为,(5.12),最短距离法进行聚类分析的步骤如下：,（1）定义样品之间距离，计算样品的两两距离，得一距离,阵记为,D,（0）,，开始每个样品自成一类，显然这时,D,ij,=,d,ij,。,（2）找出距离最小元素，设为,D,pq,，则将,G,p,和,G,q,合并成一个,新类，记为,G,r,，即,G,r,=,G,p,，,G,q,。,（3）按（5.12）计算新类与其它类的距离。,（4）重复（2）、（3）两步，直到所有元素。并成一类为,止。如果某一步距离最小的元素不止一个，则对应这些,最小元素的类可以同时合并。,【例5.1】设有六个样品，每个只测量一个指标，分别是1，2，5，7，9，10，试用最短距离法将它们分类。,（1）样品采用绝对值距离，计算样品间的距离阵,D,（0）,，见表5.1,表5.1,（2）,D,（0）,中最小的元素是,D,12,D,56,1，于是将,G,1,和,G,2,合,并成,G,7,，,G,5,和,G,6,合并成,G,8,，并利用（5.12）式计算新类与其,它类的距离,D,（1）,，见表5.2,表5.2,（3）在,D,（1）,中最小值是,D,34,D,48,2，由于,G,4,与,G,3,合并，,又与,G,8,合并，因此,G,3,、,G,4,、,G,8,合并成一个新类,G,9,，其与其,它类的距离,D,（2）,，见表5.3,表5.3,（4）最后将,G,7,和,G,9,合并成,G,10,，这时所有的六个样品聚为一类，其过程终止。,上述聚类的可视化过程见图5.1所示，横坐标的刻度表示并类的距离。这里我们应该注意，聚类的个数要以实际情况所定，其详细内容将在后面讨论。,图5.1 最短距离聚类法的过程,再找距离最小两类并类，直至所有的样品全归为一类为止。可以看出最长距离法与最短距离法只有两点不同：,一是类与类之间的距离定义不同；,另一是计算新类与其它类的距离所用的公式不同。,3. 中间距离法,最短、最长距离定义表示都是极端情况，我们定义类间距离可以既不采用两类之间最近的距离也不采用两类之间最远的距离，而是采用介于两者之间的距离，称为中间距离法。,中间距离将类,G,p,与,G,q,类合并为类,G,r,，则任意的类,G,k,和,G,r,的距离公式为,(,14 , 0,) (5.15),设,D,kq,D,kp,，如果采用最短距离法，则,D,kr,=,D,kp,，如果采用,最长距离法，则,D,kr,=,D,kq,。如图5.2所示，(5.15)式就是取它们（最长距离与最短距离）的中间一点作为计算,D,kr,的根据。,特别当,=,14,，它表示取中间点算距离，公式为,(5.16),图5.2 中间距离法,【例5.2】针对例5.1的数据，试用重心法将它们聚类。,（1）样品采用欧氏距离，计算样品间的平方距离阵,D,2,（0）,，见表5.4所示。,表5.4,（2）,D,2,（0）,中最小的元素是,D,2,12,D,2,56,1，于是将,G,1,和,G,2,合,并成,G,7,，,G,5,和,G,6,合并成,G,8,，并利用（5.18）式计算新类与,其它类的距离得到距离阵,D,2,（1）,，见表5.5：,其中，,其它结果类似可以求得,（3）在,D,2,（1）,中最小值是,D,2,34,4，那么,G,3,与,G,4,合并一个新类,G,9,，其与与其它类的距离,D,2,（2）,，见表5.6：,表5.6,（4）在中最小值是12.5，那么与合并一个新类，其与与,其它类的距离，见表5.7：,表5.7,（5）最后将,G,7,和,G,10,合并成,G,11,，这时所有的六个样品聚为一类，其过程终止。,上述重心法聚类的可视化过程见图5.3所示，横坐标的刻度表示并类的距离。,图5.3 重心聚类法的过程,6. 可变类平均法,由于类平均法中没有反映出G,p,和G,q,之间的距离D,pq,的影响，,因此将类平均法进一步推广，如果将G,p,和G,q,合并为新类G,r,，类,G,k,与新并类,G,r,的距离公式为：,（5.22）,其中,是可变的且,1,，称这种系统聚类法为可变类平均法。,8. 离差平方和法,该方法是Ward提出来的，所以又称为Ward法。该方法的基本思想来自于方差分析，如果分类正确，同类样品的离差平方和应当较小，类与类的离差平方和较大。具体做法是先将,n,个样品各自成一类，然后每次缩小一类，每缩小一类，离差平方和就要增大，选择使方差增加最小的两类合并，直到所有的样品归为一类为止。,设将,n,个样品分成k类,G,1,，,G,2,，,G,k,，用,X,it,表示,G,t,中的第,I,个样品，,n,t,表示,G,t,中样品的个数，是,G,t,的重心，则,G,t,的样品离差平方和为,这种系统聚类法称为离差平方和法或Ward方法。下面论证离差平方和法的距离递推（5.26）式。,由于,三、类间距离的统一性,上述八种系统聚类法的步骤完全一样，只是距离的递推公式不同。兰斯（Lance）和威廉姆斯（Williams）于1967年给出了一个统一的公式。,(5.28),其中,a,p,、,a,q,、,、,是参数，不同的系统聚类法，它们取不,同的数，详见表5.8。,这里应该注意，不同的聚类方法结果不一定完全相同，一般只是大致相似。如果有很大的差异，则应该仔细考查，找到问题所在；另外，可将聚类结果与实际问题对照，看哪一个结果更符合经验。,表5.8 系统聚类法参数表,第四节 K均值聚类分析,系统聚类法需要计算出不同样品或变量的距离，还要在聚类的每一步都要计算“类间距离”，相应的计算量自然比较大；特别是当样本的容量很大时，需要占据非常大的计算机内存空间，这给应用带来一定的困难。而K均值法是一种快速聚类法，采用该方法得到的结果比较简单易懂，对计算机的性能要求不高，因此应用也比较广泛。,K均值法是麦奎因（MacQueen，1967）提出的，这种算法的基本思想是将每一个样品分配给最近中心（均值）的类中，具体的算法至少包括以下三个步骤：,1将所有的样品分成K个初始类；,2通过欧氏距离将某个样品划入离中心最近的类中，并对获得样品与失去样品的类，重新计算中心坐标；,3重复步骤2，直到所有的样品都不能再分配时为止。,K均值法和系统聚类法一样，都是以距离的远近亲疏为标准进行聚类的，但是两者的不同之处也是明显的：系统聚类对不同的类数产生一系列的聚类结果，而K均值法只能产生指定类数的聚类结果。具体类数的确定，离不开实践经验的积累；有时也可以借助系统聚类法以一部分样品为对象进行聚类，其结果作为K均值法确定类数的参考。,下面通过一个具体问题说明K均值法的计算过程。,【例5.3】假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见表5.9。,试将以上的样品聚成两类。,表5.9 样品测量结果,第一步：按要求取K=2，为了实施均值法聚类，我们将这些样品随意分成两类，比如（A、B）和（C、D），然后计算这两个聚类的中心坐标，见表5.10所示。,表5.10中的中心坐标是通过原始数据计算得来的，比如（A、,B）类的，等等。,表5.10 中心坐标,第二步：计算某个样品到各类中心的欧氏平方距离，然后将该样品分配给最近的一类。对于样品有变动的类，重新计算它们的中心坐标，为下一步聚类做准备。先计算A到两个类的平方距离：,由于A到（A、B）的距离小于到（C、D）的距离，因此A不用重新分配。计算B到两类的平方距离：,由于B到（A、B）的距离大于到（C、D）的距离，因此B要分配给（C、D）类，得到新的聚类是（A）和（B、C、D）。更新中心坐标如表5.11所示。,表5.11 更新后的中心坐标,第三步：再次检查每个样品，以决定是否需要重新分类。计算各样品到各中心的距离平方，得结果见表5.12。,到现在为止，每个样品都已经分配给距离中心最近的类，因此聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类，B、C、D聚成一类。,表5.12 样品聚类结果,第五节有序样品的聚类分析法,一,有序样品可能的分类数目,二,费希尔最优求解法,三,一个典型例子,以上的系统聚类和K均值聚类中，样品的地位是彼此独立的，没有考虑样品的次序。但在实际应用中，有时样品的次序是不能变动的，这就产生了有序样品的聚类分析问题。例如对动植物按生长的年龄段进行分类，年龄的顺序是不能改变的，否则就没有实际意义了；又例如在地质勘探中，需要通过岩心了解地层结构，此时按深度顺序取样，样品的次序也不能打乱。,如果用,X,（1）,，,X,（2）,，,，,X,（,n,）,表示n个有序的样品，则每一类必须是这样的形式，即,X,（,i,）,，,X,（,i,+1),，,X,（,j,）,，其中1,r,n,，且,j,n,，简记为,G,i,=,i,，,i,+1，,j,。在同一类中的样品是次序相邻的。这类问题称为有序样品的聚类分析。,一、有序样品可能的分类数目,n,个有序样品分成k类，则一切可能的分法有种。,实际上，,n,个有序样品共有（,n,1）,个间隔，分成,k,类相当于在这（,n,1）,个间隔中插入,k,1,根“棍子”。由于不考虑棍子的插入顺序，是一个组合问题，共有种插法。,图5.4 有序样品的分类法,这就是,n,个有序样品分成k类的一切可能分法。因此，对于有限的,n,和,k,，有序样品的所有可能分类结果是有限的，可以在某种损失函数意义下，求得最优解。所以有序样品聚类分析又称为最优分割，该算法是费希尔（Fisher）最先提出来的，故也称之为费希尔最优求解法。,二、费希尔最优求解法,这里需要注意，若要寻找将,n,个样品分为,k,类的最优分割，则对于任意的,j,（,k,j,n,）,先将前面,j,1,个样品最优分割为,k,1,类，得到,p,（,j, 1，,k, 1,），否则从,j,到,n,这最后一类就不可能构成,k,类的最优分割，参见图5.6。再考虑使,L,b,（,n,，,k,）最小的,j,，得到,p,（,n,，,k,）。,因此我们得到费希尔最优求解法的递推公式为,（5.23）,图5.6 最优分割,三、一个典型例子,【例5.4】为了了解儿童的生长发育规律，今随机抽样统计了男孩从出生到11岁每年平均增长的重量数据表5.13，试问男孩发育可分为几个阶段？,在分析这是一个有序样品的聚类问题时，我们通过图形可以看到男孩增重随年龄顺序变化的规律，从图5.6中发现男孩发育确实可以分为几个阶段。,表5.13 111岁儿童每年平均增长的重量,图5.7 儿童成长阶段分析,下面通过有序样品的聚类分析确定男孩发育分成几个阶段较合适。步骤如下：,表5.14 直径,D,（,i,，,j,）,（3）分类个数的确定。如果能从生理角度事先确定,k,当然最好；有时不能事先确定,k,时，可以从,L,p,（,l,，,k,）随,k,的变化趋势图中找到拐点处，作为确定,k,的根据。当曲线拐点很平缓时，可选择的,k,很多，这时需要用其它的办法来确定，比如均方比和特征根法，限于篇幅此略，有兴趣的读者可以查看其它资料。,本例从表5.15中的最后一行可以看出,k,=,3，4,处有拐点，即分成3类或4类都是较合适的，从图5.8中可以更明显看出这一点。,第六节实例分析与计算机实现,一,在SPSS中利用系统聚类法进行聚类分析,二,在SPSS中利用K均值法进行聚类分析,一、在SPSS中利用系统聚类法进行聚类分析,设有20个土壤样品分别对5个变量的观测数据如表5.16所示，试利用系统聚类法对其进行样品聚类分析。,表5.16 土壤样本的观测数据,（一）操作步骤,1. 在SPSS窗口中选择AnalyzeClassifyHierachical Cluster，调出系统聚类分析主界面，并将变量X,1,X,5,移入Variables框中。在Cluster栏中选择Cases单选按钮，即对样品进行聚类（若选择Variables，则对变量进行聚类）。在Display栏中选择Statistics和Plots复选框，这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。,图5.9 系统聚类法主界面,2. 点击Statistics按钮，设置在结果输出窗口中给出的聚类分析统计量。这里我们选择系统默认值，点击Continue按钮，返回主界面。,3. 点击Plots按钮，设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram复选框和Icicle栏中的None单选按钮，即只给出聚类树形图，而不给出冰柱图。单击Continue按钮，返回主界面。,图5.10 Plots子对话框,4. 点击Method按钮，设置系统聚类的方法选项。Cluster Method下拉列表用于指定聚类的方法，包括组间连接法、组内连接法、最近距离法、最远距离法等；Measure栏用于选择对距离和相似性的测度方法；剩下的Transform Values和Transform Measures栏用于选择对原始数据进行标准化的方法。这里我们仍然均沿用系统默认选项。单击Continue按钮，返回主界面。,图5.11 Method子对话框,5. 点击Save按钮，指定保存在数据文件中的用于表明聚类结果的新变量。None表示不保存任何新变量；Single solution表示生成一个分类变量，在其后的矩形框中输入要分成的类数；Range of solutions表示生成多个分类变量。这里我们选择Range of solutions，并在后面的两个矩形框中分别输入2和4，即生成三个新的分类变量，分别表明将样品分为2类、3类和4类时的聚类结果。点击Continue，返回主界面。,图5.12 Save子对话框,6. 点击OK按钮，运行系统聚类过程。,（二）主要运行结果解释,1. 在结果输出窗口中我们可以看到聚类树形图（Dendrogram）。,从树形图5.12可以清楚地看到，若将20个样品分为两类，则样品2、6、19、7、和样品1为一类，其余的为另一类；若将样品分为三类，则样品8、9、4从第二类中分离出来，自成一类；依此类推。,图5.13 系统聚类法树形图,2. 由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量，所以，在数据编辑窗口中，我们可以看到生成的三个表示分类结果的新变量。变量名为clu4_1、clu3_1和clu2-1的三个分类变量分别表明了把样品分成4类、3类和2类的分类情况。,图5.14 生成三个新的分类变量,二、在SPSS中利用K均值法进行聚类分析,我国各地区2003年三次产业产值如表5.17所示，试根据三次产业产值利用K均值法对我国31个省、自治区和直辖市进行聚类分析。,当要聚成的类数确定时，使用K均值法可以很快将观测量分到各类中去，而且该方法处理速度快，占用内存少，尤其适用于大样本的聚类分析。,（一）操作步骤,1. 在SPSS窗口中选择AnalyzeClassifyK-Means Cluster，调出K均值聚类分析主界面，并将变量,移入Variables框中，将标志变量Region移入Label Case by框中。在Method框中选择Iterate classify，即使用K-means算法不断计算新的类中心，并替换旧的类中心（若选择Classify only，则根据初始类中心进行聚类，在聚类过程中不改变类中心）。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数，这里我们输入3，即将31个地区分为3类。至于Centers按钮，则用于设置迭代的初始类中心。如果不手工设置，则系统会自动设置初始类中心，这里我们不作设置。,图5.15 K均值聚类分析主界面,2. 点击Iterate按钮，对迭代参数进行设置。Maximum Iterations参数框用于设定K-means算法迭代的最大次数，Convergence Criterion参数框用于设定算法的收敛判据，其值应该介于0和1之间。例如判据设置为0.02，则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时，迭代停止。设置完这两个参数之后，只要在迭代的过程中先满足了其中的参数，则迭代过程就停止。这里我们选择系统默认的标准。单击Continue，返回主界面。,图5.16 Iterate子对话框,3. 点击Save按钮，设置保存在数据文件中的表明聚类结果的新变量。其中Cluster membership选项用于建立一个代表聚类结果的变量，默认变量名为qcl_1；Distance from cluster center选项建立一个新变量，代表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中，单击Continue按钮返回。,图5.17 Save子对话框,4. 点击Options按钮，指定要计算的统计量。选中Initial cluster centers和Cluster information for each case复选框。这样，在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息，包括分配到哪一类和该观测量距所属类中心的距离。单击Continue返回。,5. 点击OK按钮，运行K均值聚类分析程序。,图5.18 Options子对话框,（二）主要运行结果解释,1. Initial Cluster Centers（给出初始类中心）,2. Iteration History（给出每次迭代结束后类中心的变动）,从表5.18中可以看到本次聚类过程共经历了三次迭代。由于我们在Iterate子对话框中使用系统默认的选项（最大迭代次数为10和收敛判据为0），所以在第三次迭代后，类中心的变化为0，从而迭代停止。,3. Cluster Membership（给出各观测量所属的类及与所属类中心的距离）,表5.19中Cluster列给出了观测量所属的类别，Distance列给出了观测量与所属类中心的距离。（出于排版要求，此表经过加工，因此与原始输出表形态有一定差异）。,表5.18 迭代过程中类中心的变化量,表5.19 各观测量所属类成员表,4. Final Cluster Centers（给出聚类结果形成的类中心的各变量值）,表5.20 最终的类中心表,结合表5.19和表5.20，我们可以看出31个地区被分成3类。第一类包括：江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元，属于三个产业都比较发达的地区。第二类包括：天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区。这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元，属于欠发达地区。剩下的11个地区为第三类。这一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和212.87亿元，属于中等发达地区。,5. 由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量，所以，在数据编辑窗口中，我们可以看到生成的两个表示分类结果的新变量。变量qcl_1和变量qcl_2分别代表分类号和观测量距所属类中心的距离。,本章结束,

展开阅读全文

厦门大学《应用多元统计分析》第05章-聚类分析ppt课件

最新文档