第九章 SPSS的聚类分析

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第九章,SPSS,的聚类分析,9/16/2024,1,9.1,聚类分析的一般问题,9.1.1,聚类分析的意义,聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。,聚类分析,是一种建立分类的多元统计分析方法，它能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类，产生多个分类结果。类内部的个体在特征上具有相似性，不同类间个体特征的差异性较大。,9/16/2024,2,例如，学校里有些同学经常在一起，关系比较密切，而他们与另一些同学却很少来往，关系比较疏远。究其原因可能会发现，经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处，而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素，可以从有关这些方面的数据入手，进行客观分组，然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析方法。,9/16/2024,3,9.1.2,聚类分析中“亲疏程度”的度量方法,1,、定距型变量个体间距离的计算方式,欧式距离（,Euclidean distance,）,平方欧式距离（,Squared Euclidean distance,）,切比雪夫（,Chebychev,）距离,Block,距离,明考斯基（,Minkowski,）距离,夹角余弦（,Cosine,）距离,用户自定义（,Customized,）距离,9/16/2024,4,2,、计数变量个体间距离的计算方式,卡方（,Chi-Square measure,）距离,Phi,方（,Phi-Square measure,）距离,3,、二值（,Binary,）变量个体间距离的计算方式,简单匹配系数（,Simple Matching,）,雅科比系数（,Jaccard,）,注：聚类分析的几点说明,所选择的变量应符合聚类的要求,各变量的变量值不应有数量级上的差异,各变量间不应有较强的线性相关关系,9/16/2024,5,9.2,层次聚类,9.2.1,层次聚类的两种类型和两种方式,层次聚类又称系统聚类,，简单地讲是指聚类过程是按照一定层次进行的。层次聚类有两种类型，分别是,Q,型聚类,和,R,型聚类,；层次聚类的聚类方式又有两种，分别是,凝聚方式聚类,和,分解方式聚类,。,9/16/2024,6,Q,型聚类,：对,样本,进行聚类，使具有相似特征的样本聚集在一起，使差异性大的样本分离开来。,R,型聚类,：对,变量,进行聚类，使具有相似性的变量聚集在一起，差异性大的变量分离开来，可在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数，达到变量降维的目的。,9/16/2024,7,凝聚方式聚类,：其过程是，首先，每个个体自成一类；然后，按照某种方法度量所有个体间的亲疏程度，并将其中最,“亲密”,的个体聚成一小类，形成,n-1,个类；接下来，再次度量剩余个体和小类间的亲疏程度，并将当前最亲密的个体或小类再聚到一类；重复上述过程，直到所有个体聚成一个大类为止。可见，这种聚类方式对,n,个个体通过,n-1,步可凝聚成一大类。,分解方式聚类,：其过程是，首先，所有个体都属一大类；然后，按照某种方法度量所有个体间的亲疏程度，将大类中彼此间最,“疏远”,的个体分离出去，形成两类；接下来，再次度量类中剩余个体间的亲疏程度，并将最疏远的个体再分离出去；重复上述过程，不断进行类分解，直到所有个体自成一类为止。可见，这种聚类方式对包含,n,个个体的大类通过,n-1,步可分解成,n,个个体。,SPSS,中的层次聚类采用的是凝聚方式。,9/16/2024,8,9.2.2,个体与小类、小类与小类间“亲疏程度”的度量方法,SPSS,中提供了多种度量个体与小类、小类与小类间“亲疏程度”的方法。与个体间“亲疏程度”的测度方法类似，应首先定义个体与小类、小类与小类的距离。距离小的关系亲密，距离大的关系疏远。这里的距离是在个体间距离的基础上定义的，常见的距离有：,9/16/2024,9,最近邻居（,Nearest Neighbor,）距离,：个体与小类中每个个体距离的最小值。,最远邻居（,Furthest Neighbor,）距离,：个体与小类中每个个体距离的最大值。,组间平均链锁（,Between-groups linkage,）距离,：个体与小类中每个个体距离的平均值。,组内平均链锁（,Within-groups linkage,）距离,：个体与小类中每个个体距离以及小类内各个体间距离的平均值。,重心（,Centroid,clustering,）距离,：个体与小类的重心点的距离。,离差平方和法（,Wards method,）,：聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类。,9/16/2024,10,9.2.3,层次聚类的基本操作,1,、选择菜单,Analyze,Classify,Hierarchical Cluster,，出现窗口：,9/16/2024,11,2,、把参与层次聚类分析的变量选到,Variable(s,),框中。,3,、把一个字符型变量作为标记变量选到,Label Cases by,框中，它将大大增强聚类分析结果的可读性。,4,、在,Cluster,框中选择聚类类型。其中,Cases,表示进行,Q,型聚类,（默认类型）；,Variables,表示进行,R,型聚类,。,5,、在,Display,框中选择输出内容。其中,Statistics,表示输出聚类分析的相关统计量；,Plot,表示输出聚类分析的相关图形。,9/16/2024,12,6,、单击,Method,按钮指定距离的计算方法。,9/16/2024,13,Measure,框中给出的是不同变量类型下的个体距离的计算方法。其中,Interval,框中的方法适用于连续型定距变量；,Counts,框中的方法适用于计数型变量；,Binary,框中的方法适用于二值变量。,Cluster Method,框中给出的是计算个体与小类、小类与小类间距离的方法。,7,、如果参与聚类分析的变量存在数量级上的差异，应在,Transform Values,框中的,Standardize,选项中选择消除数量级差的方法。并指定处理是针对变量的还是针对样本的。,By variable,表示针对变量，适于,Q,型聚类分析；,By case,表示针对样本，适于,R,型聚类分析。,9/16/2024,14,8,、单击,Statistics,按钮指定输出哪些统计量,9/16/2024,15,Agglomeration schedule,表示输出聚类分析的,凝聚状态表,；,Proximity matrix,表示输出个体间的,距离矩阵,；,Cluster Membership,框中，,None,表示不输出样本所属类，,Single Solution,表示指定输出当分成,n,类时各样本所属类，是,单一解,。,Range of solution,表示指定输出当分成,m,至,n,类（,m,小于等于,n,）时各样本所属类，是,多个解,。,9/16/2024,16,9,、单击,Plot,按钮指定输出哪种聚类分析图。,9/16/2024,17,Dendrogram,选项表示表示输出聚类分析,树形图,；在,Icicle,框中指定输出,冰挂图,，其中，,All clusters,表示输出聚类分析每个阶段的冰挂图，,Specified range of clusters,表示只输出某个阶段的冰挂图，输入从第几步开始，到第几步结束，中间间隔几步；在,Orientation,框中指定如何显示冰挂图，其中，,Vertical,表示纵向显示，,Horizontal,表示横向水平显示。,树形图以躺倒树的形式展现了聚类分析中的每一次类合并的情况。,SPSS,自动将各类间的距离映射到,0,25,之间，并将凝聚过程近似地表示在图上。,9/16/2024,18,10,、单击,Save,按钮可以将聚类分析的结果以变量的形式保存到数据编辑窗口中。生成的变量名为,clun_m,（如,clu2_1,），其中,n,表示类数（如,2,），,m,表示是第,m,次分析（如,1,）。,由于不同的距离计算方法会产生不同的聚类分析结果，即使聚成,n,类，同一样本的类归属也会因计算方法的不同而不同。因此实际分析中应反复尝试以最终得到符合实际的合理解，并保存于,SPSS,变量中。,9/16/2024,19,9.2.4,层次聚类的应用举例,1,、利用对,5,个商厦的评分做聚类分析。,2,、例：,31,个省市自治区小康和现代化指数的层次聚类分析。,利用,SPSS,层次聚类,Q,型聚类对,31,个省市自治区进行分类分析。其中个体距离采用欧式距离，类间距离采用平均组间链锁距离，由于数据不存在数量级上的差异，因此无需进行标准化处理。,9/16/2024,20,9.3 K-Means,聚类,9.3.1 K-Means,聚类分析的核心步骤,K-Means,聚类也称快速聚类，仍将数据看成,k,维空间上的点，仍以距离作为测度个体“亲疏程度”的指标，并通过牺牲多个解为代价换得高的执行效率，其核心步骤是：,第一，指定聚类数目,K,第二，确定,K,个初始类中心,SPSS,中初始类中心的指定方式有两种：一是用户指定方式；二是系统指定方式。,9/16/2024,21,第三，根据距离最近原则进行分类,依次计算每个样本数据点到,K,个类中心点的欧式距离，并按距,K,个类中心点距离最短的原则将所有样本分成,K,类。,第四，重新确定,K,个类中心,中心点的确定原则是，依次计算各类中,k,个变量的均值，并以均值点作为,K,个类的中心点。,第五，判断是否已满足中止聚类分析的条件,条件有两个：一是迭代次数（,SPSS,默认为,10,）；二是类中心点偏移程度，即新确定的类中心点距上个类中心点的最大偏移量小于指定的量（,SPSS,默认为,0.02,）时中止聚类。,9/16/2024,22,9.3.2 K-Means,聚类分析的操作步骤,1.,选择选项,Analyze,Classify,K-Means Cluster,，打开主窗口。,9/16/2024,23,2.,选定参与,K-Means,聚类的变量放入,Variables,框中。,3.,选择一个字符型变量作为标记变量放入,Label Cases,框中，增加分析结果的可读性。,4.,在,Number of Clusters,框中输入聚类数目，该数应小于样本数。,5.,如果用户自行指定初始类中心点，则单击,Centers,按钮，并在,Read initial from,框后给出存放初始类中心的,SPSS,数据文件名；否则本步可略去。,9/16/2024,24,6.,在,Method,框中指定聚类过程是否调整类中心点。其中，,Iterate and classify,表示在聚类分析的每一步都重新确定类中心点（,SPSS,默认）；,Classify only,表示聚类分析过程中类中心点始终为初始类中心点，此时仅进行一次迭代。,7.,单击,Iterate,按钮确定中止聚类的条件。在,Maximum iterations,框后输入最大迭代次数，在,Convergence criterion,框后输入类中心的偏移量。另外，,Use running means,选项，选中表示每当一个样本被分配到一类时便立即重新计算新的类中心点，此时类中心点与样本分配的前后顺序有关；不选该项表示只有当完成了所有样本的类分配后再计算类中心，该方式可节省运算时间，通常不选中该选项。,9/16/2024,25,8.,单击,Save,按钮将聚类分析的部分结果以,SPSS,变量的形式保存到数据编辑窗口中，其中,Cluster membership,表示保存样本所属类的类号；,Distance from cluster center,表示保存样本距各自类中心点的距离。,9.,单击,Option,按钮确定输出哪些相关分析结果和缺失值的处理方式。,Statistics,框中，,Initial cluster centers,表示输出初始类中心点；,ANOVA table,表示以聚类分析产生的类为控制变量，以,k,个变量为观测变量进行单因素方差分析，并输出各个变量的方差分析表；,Cluster information for each case,表示输出样本分类信息及距所属类中心点的距离。,至此完成了,K-Means,聚类分析的全部操作。,9/16/2024,26,9.3.3 K-Means,聚类分析应用举例,用,2001,年全国,31,个省市自治区各类小康好人现代化指数的数据，对地区进行,K-Means,聚类分析，要求分成,3,类，初始类中心点由,SPSS,自行确定。,9/16/2024,27,9/16/2024,28,

展开阅读全文

第九章 SPSS的聚类分析

最新文档