聚类分析课件_装配图网

资源描述

11.聚类分析111.聚类分析111.2 层次聚类法优缺点优点可对变量（样品）或记录进行聚类变量可为连续或分类变量提供了丰富的距离测量方法和结果表示方法（树状图）缺点由于它要反复计算距离，所以当样本量太大或变量较多时，其运算速度明显较慢。211.2 层次聚类法优缺点211.2 层次聚类法类间距离的定义不同的类间距离的定义，构成了不同的层次聚类方法Between-groups linkage（组间平均距离法、类平均法）用两个类别间各个数据点两两间的距离的平均来表示两个类别间的距离Within-groups linkageNearest neighbor（最短距离法）用两个类别间各个数据点间的最短的距离来表示两个类别间的距离311.2 层次聚类法类间距离的定义Between-grou11.2 层次聚类法Furthest neighbor（最长距离法）Centroid clustering（重心法）用两个类别的重心间的距离来表示两个类别间的距离Median clustering（中位数法）Wards method（离差平方和法）思想来自方差分析使类中的离差平方和较小，而类间的离差平方和较大基本操作Analyze Classify Hierarchical Cluster411.2 层次聚类法Furthest neighbor（最11.2 层次聚类法输入参与输入参与层次聚类层次聚类的变量的变量输入标输入标记变量记变量选择聚选择聚类类型类类型Q型聚类R型聚类输出聚类分析的凝聚状态表输出个体间的距离矩阵不输出样本所属类指定输出当分成n类时各样本所属类，是单一解指定输出当分成m至n类时（mn）各样本所属类，是多个解511.2 层次聚类法输入参与层次聚类的变量输入标记变量选择11.2 层次聚类法输出树形图（谱系图）输出冰挂图，没前者好输出每个阶段的冰挂图输出某个阶段的冰挂图，输入从第几步开始，到第几步结束，中间间隔几步纵向横向指定如何显示冰挂图选择计算个体与小类、小类与小类间距离的方法，多次尝试后的结果选择不同变量类型下个体距离的计算方法连续型定距变量计数型变量二值变量选择消除变量数量级差异的方法，并指定是针对变量还是针对样本611.2 层次聚类法输出树形图（谱系图）输出冰挂图，没前者11.2 层次聚类法消除数量级差的方法：消除数量级差的方法：消除数量级差的方法：消除数量级差的方法：Z scores：计算Z分数。将各变量值减去均值后除以标准差，标准化后变量值的均值为0，标准差为1；Range-1 to 1：将各变量值除以全距，处理后的变量值位于-1+1。适用于变量值中有负值的变量；Range 0 to 1：将各变量值减去最小值后除以全距，处理后的变量值的范围为0+1；Maximum magnitude of 1：将各变量值除以最大值，处理后的变量值的最大值为1；Mean of 1：将各变量值除以均值；Standard deviation of 1：将各变量值除以标准差。Save将聚类分析的结果以变量的形式保存到数据编辑窗口。生成的变量名为clun_m，其中n表类数，m表第m次分析。不同的距离计算方法会产生不同的聚类分析结果。实际中应反复尝试以最终得到符合实际的合理解。711.2 层次聚类法消除数量级差的方法：Save将聚类分析11.2 层次聚类法例11.1 现搜集了02年中国部分省市的国民经济数据，希望将这些省份归类，从而更好地了解各地区生活水平的差异。数据的初步分析5个指标的数量级各不相同，均值100.82 9377.11，标准差1.39 7165.65，表明量纲间很强的差异性。811.2 层次聚类法例11.1 现搜集了02年中国部分省11.2 层次聚类法需要标准化。从条形图可知，前4个变量地区间取值的差异较大，各地区居民消费价格指数的取值差异很小。911.2 层次聚类法需要标准化。从条形图可知，前4个变量地11.2 层次聚类法1011.2 层次聚类法1011.2 层次聚类法1111.2 层次聚类法1111.2 层次聚类法1211.2 层次聚类法1211.2 层次聚类法1311.2 层次聚类法1311.2 层次聚类法Pindex _ Revise=各地区居民消费价格指数-100反映了消费价格当年净增长的百分点，使得CPI在各省市的分布有着明显的差异。聚类1411.2 层次聚类法Pindex _ Revise=各11.2 层次聚类法1511.2 层次聚类法1511.2 层次聚类法Agglomeration Schedule（凝聚状态表）第一步中，第3个样本（河北）和第17个样本（湖北）首先合并，其平方欧氏距离为0.111，该小类将在第2步用到；第二步中，第一步聚成的小类（用该小类中第一个样本的记号3表示）和第12个样本（安徽）合并，其Ward距离为0.246，该小类将在第15步用到。Dendrogram（树状图、谱系图）最终类数的确定1611.2 层次聚类法Agglomeration Sched11.2 层次聚类法原则各类的重心间距离应较大各类所包含的个体数不应过多分类数目应符合分析的目的方法距离类数散点图（距离由凝聚状态表获得）由下图知，随着类的不断凝聚、类数目的不断减少，类间距离在逐渐增大。在聚成6类之前，类间距离增大的幅度较小，形成极为“陡峭的山峰”，但到3类后，类间的距离迅速增大，形成极为“平坦的碎石路”。1711.2 层次聚类法原则1711.2 层次聚类法根据类间距离小形成类的相似性大，类间距离大形成类的相似性小的原则，可找到“山脚”下的“拐点”碎石，将它作为确定分类数目的参考。所以，本例可考虑聚成2类 6类，综合考虑分成5类较合适（类不大也不小，Frequency）。1811.2 层次聚类法根据类间距离小形成类的相似性大，类间距11.2 层次聚类法1911.2 层次聚类法1911.2 层次聚类法最终类差异的显著性判断（Means）各类别在5个变量上差异显著2011.2 层次聚类法最终类差异的显著性判断（Means）211.2 层次聚类法最终类的特征描述第一类高生活水平省市上海、北京、天津等3个直辖市；人均GDP、城镇居民和农村居民家庭平均每人全年消费支出远高于其它类别。第二类人口最多、生活水平一般省市河北、湖北、安徽、湖南、江苏、山东、四川、河南等8省市；平均人口远高于其它类别。2111.2 层次聚类法最终类的特征描述2111.2 层次聚类法第三类人口较少、生活水平一般省市广西、陕西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏等13省市。第四类生活水平较高，平均物价水平降低的省市浙江、广东、福建等3省市第五类人口稀少、生活水平低的省市青海、宁夏、甘肃、新疆等4省市2211.2 层次聚类法第三类2211.2 层次聚类法例11.2 现有7国裁判员以及热心观众分别给300名运动员的平均打分的数据，试分析各裁判员的打分标准是否有相似性。R型聚类分析2311.2 层次聚类法例11.2 现有7国裁判员以及热心观11.2 层次聚类法由冰柱图知，韩国和法国裁判员的打分相似性最强；其次是中国和罗马尼亚。若聚成3类，则热心观众自成一类，美国、法国、韩国一类，俄罗斯、中国、罗马尼亚、意大利一类。若要从上述裁判中选出3名具有代表性的裁判，则应从上述三类中各选一名代表。即计算决定系数，选择其最大的作为代表。所以可从热心观众、韩国、俄罗斯中各选一名代表。2411.2 层次聚类法由冰柱图知，韩国和法国裁判员的打分相似11.2 层次聚类法2511.2 层次聚类法2511.3 K-均值聚类法基本思想分析前首先确定具体的类别数，整个分析过程使用迭代的方式进行；然后起步于一个初始的分类，通过不断的迭代把数据在不同类别间移动，直到最后达到一定的标准为止。整个计算过程中不需要存储基本数据或者距离矩阵，因此不会出现多个互相嵌套的聚类结果，而计算速度也要快得多。2611.3 K-均值聚类法基本思想2611.3 K-均值聚类法K-Means聚类法的优缺点优点速度明显快于层次聚类，被称为快速聚类法。事先指定了类别数（远远小于样本数）计算量小，能有效处理多变量、大样本数据；能将以前的聚类分析结果作为初始位置引入分析，这在有前人工作可借鉴时非常有用。缺点用户必须事先知道需要将样品分为多少类2711.3 K-均值聚类法K-Means聚类法的优缺点2711.3 K-均值聚类法只能对样本聚类，而不能对变量聚类所使用的变量必须是连续变量基本操作Analyze Classify K-Means Cluster输入参与聚输入参与聚类的变量类的变量输入标输入标记变量记变量指定聚类数目用户自行指定类中心点指定是否调整类中心点：Iterate and classify表示每一步都重新确定类中心点；Classify only表示聚类过程中类中心点始终为初始类中心点。确定终止确定终止聚类条件聚类条件2811.3 K-均值聚类法只能对样本聚类，而不能对变量聚类输11.3 K-均值聚类法输入最大迭代次数输入收敛标准选中表示每当一个样本被分配到一类时便立即重新计算新的类中心点，此时类中心点与样本分配的前后顺序有关；不选中表示只有当完成了所有样本的类分配后再计算类中心，该方式可节省运算时间。保存样本所属类的类号保存样本距各自类中心点的距离输出初始类中心点分析聚类结果中各类别是否有显著差异以及各个变量对聚类结果的重要程度。输出样本分类信息及距所属中心点的距离2911.3 K-均值聚类法输入最大迭代次数输入收敛标准选中表11.3 K-均值聚类法例11.3 试对移动用户进行细分，以了解他们不同的手机消费习惯。根据前期调研，研究者认为移动用户应当被分为5个主要群体，现希望得到相应的定量聚类结果。数据的初步分析3011.3 K-均值聚类法例11.3 试对移动用户进行细分11.3 K-均值聚类法虽然数据的量纲一致，都是反映通话时长的数据，但数据取值有很大差异。均值从4.12671064.3168，标准差从3.804560.801需要标准化。快速聚类Initial Cluster Centers若由SPSS自动生成初始类中心，则中心点与样本的排列顺序有关，因此要尽量避免样本出现有规律的排列，必要时可用随机数排序来打乱顺序。3111.3 K-均值聚类法虽然数据的量纲一致，都是反映通话时11.3 K-均值聚类法Iteration History每次迭代后，类中心点变化越来越小，直到最终趋于0。整个迭代过程在第35步终止，可认为各类中心已经收敛。Final Cluster Centers最终类中心也就是各类别在各个变量上的平均值。3211.3 K-均值聚类法Iteration History11.3 K-均值聚类法ANOVA所以，各变量对聚类结果的重要程度排序为：总通话时长工作日上班时期通话时长工作日下班时期通话时长平均每次通话时长国际电话时长周末电话时长。Number of Cases in each Cluster表明各类的样本数。各类人数的高低有时可为最终类特性的确定起辅助作用。3311.3 K-均值聚类法ANOVA3311.3 K-均值聚类法通常人数最多的群体往往就是“人民群众”。最终类的特征描述第一类高端商用客户3411.3 K-均值聚类法通常人数最多的群体往往就是“人民群11.3 K-均值聚类法443人总通话时长、工作日上班时期通话时长（占全部通话平均之比的77.69%）、国际电话时长最高的用户。第二类低端少使用客户1239人总通话时长最短、各时段通话时长均最短、平均通话时间最短的用户。第三类中端商用客户831人3511.3 K-均值聚类法443人3511.3 K-均值聚类法总通话时长居中，工作日上班时间通话比例较高（占全部通话平均之比的79.01%）用户。第四类中端日常用客户806人总通话时长居中，工作日下班时间通话比例较高（占全部通话平均之比的47.57%）用户。第五类长聊客户76人平均每次通话时间最长，是其它类别的5倍以上。3611.3 K-均值聚类法总通话时长居中，工作日上班时间通话

展开阅读全文

聚类分析课件

最新文档