聚类分析的SPSS应用

资源描述

聚类分析的 SPSS 应用摘要：本文本主要结合实例讲述SPSS这个软件在聚类分析中的应用。包括SPSS的一些基本操作，在聚类分析中的相关参数设置，数据的录入，操作步骤等。本文重点是SPSS在聚类分析中的应用方法，不对聚类分析相关知识做过多阐述，相关知识点参见本组对聚类分析的详细讲解。文中结合2006年全国各省6 项经济指标数据对各省进行简单分类这个实例，讲述两种最常用聚类分析方法，即系统聚类分析(Hierarchical Cluster)和K-均值聚类分析。本文用到的软件是 SPSS19 汉化版，各个版本操作基本一样，文中相关选项均有英文注释，方便非汉化版同学识读操作。一.SPSS数据的录入打开 SPSS 软件是下面图1 的界面：图1上图 1 所示是数据视图(见上图左下角黄色框框)，点击数据视图右边蓝色框框进入变量视图，如下图 2：言回C 镰电園鬻裁国辔3ES礎值列SN开1j2J4E6Te91011121314劇&担图査量视曲；1即3F1储彌11创G5 P耐日苗B.麻堵图2在变量视图中设置我们需要的变量名，并填写约束条件，填写完成后如下图3：柱呦歼年医SfiEHS经话胆馳走w 逛虚幫1| dBMSPS&Siadnlin眩5鸟#吁號瑙叵I 4flE H4fl(D)轻曲口)曲聊迥Z：W：i阱世)工用師辿鬲口輕Wil密场EJ r圜程憲H 蘭簫圉吧越3EK桁遵1碱3 刊対齐島否1沪:.了0亍JgT=d-當池阿、V 2Ai5F3DP5firfKN)808一討扌E:创、K-3:齐-，T=数值训J无无垂呂中冷 r口 si、 :4厨走说产投按值S2无无SSE4：壽JK.I.司、P -5年来社人口80无无8三禹中#度1罔、V .&=5 1S0无1S一討誉 rl：sj、辛7社孟衿费品帛2无无帛垂宙中护JOTI卸 -0g101112-1-47 卄两債祝匪I亶昼磋|lQMSPSShljliC Proc KDFJRJt图3其中，我们需要7 个变量，见名称一栏，变量中地区是字符型变量，所以度量标准是名义。其他设置默认即可。其他变量是数值型，度量标准是度量，其他设置同为默认。设置好后回到数据视图，如下图 4：图4 可见，变量视图中设置的变量均列入数据视图中頂栏。（注：图4 已经录入数据）以上是SPSS录入数据的基本操作，数据录入完成后开始两种聚类分析设置和得出结果。二系统聚类分析和 K 均值聚类分析1.系统聚类分析（1）在数据视图点击分析（Analyze）-分类（Classify）-系统聚类（Hirarchical Cluster）, 如下图 5：垢中at点店数解垢器孑寸分祈凶销囲图形回实用程序包窗（里帮助Lk?111S2i.34：81；盘人.万居民消费水平元每人社会消费品零售总颔亿元zT-5811&7703275.20075106641356.30；89849453397.40137548431613.40乌9了58001595.30-27169253434.601F7 SO描述统计卜表E卜比较均值廻）卜般线性模型迫卜广巽线性模型卜混合模型0卜相冥卜回归但）对敎线性複型（2、111T11八ii丨丨丨ii j1571G5强两歩聚类（D 爾K-均值恶类K1294-2!5430;136師度量侶）非参敷检验迥预测生存函敎鱼）參重响应9）网駛失值分祈0參重归园Q厨鄭绒聚粪也.ISI判别9）1997.70S3G0.40工3 20JW5.30029.40704.201428.0070257122.5046323880.50最近邻元秦迥）图5 进入如下图6 界面：图6回到我们的出发点，我们希望通过六项指标对全国各省进行分类，那么分析的变量是这六项指标，分类标准是不同省份，即地区。于是这两大类变量要进行不同归类，进行如下图 7 设置即可，把用于聚类的变量选入变量框(variables),把区分样本的标签变量(本例即为“地区”)选入标注个案(label case by)：图7(2)接下来在分群(cluster)栏中选择聚类类型：要进行R型聚类(变量聚类)分析，应指定“变量(variables)” ；要进行Q型聚类(样品聚类)，则指定“个案(case)”。系统默认 Q 型聚类。我们要将全国不同省份进行分类，很明显不同省份是不同的样品，对这些样品进行分类即样品聚类，所以进行 Q 型聚类，默认即可。输出栏输出我们需要的项目，这里统计量和图都选择。设置好后如下图 8：图8(3)单击“方法(method)”按钮，展开系统聚类分析的方法选择对话框，即hierarchical cluster analysis:method”。度量标准(Cluster methodO下拉框中给出了可以选择的计算类间距离的方法，系统默认是组间均链锁法(between-groups linkage)，本例选择 wards method;度量标准(measure)框中给出的是计算样品间距的方法，本例使用平方euclidean距离(squared euclidean distance),SPSS默认计算欧氏距离平方。在转换值(transform values)的标准化(standardize) 框中选择是否对原始数据进行标准化处理，本例选择z scores。点击继续(continue)回到主对话框。(注：类间距离和样品间距的选择在这里没有赘述，详见我们组讲课内容)设置好后如下图 9：哩至统聚粪分析:方法聚类方Ward法厂度呈标准转换度量更改符旨旦) 重新标度到0-1全距世图9(4) SPSS系统聚类分析默认输出的分析结果有凝聚状态表(agglomeration schedule)和冰柱图(icicle)。点击统计量(statistics)选中合并进程表(agglomeration schedule)。选择方案范围，最大聚类数设为4,最小聚类数设为2,点击继续(continue)回到主对话框，此时分析结果中就包含了凝聚状态表，如下图10：博系统据类分忻:统相似性矩阵吃)-黔类成員无世单一方案廉类数回;方案范围迟)晶小聚崟數迦丫叵杲犬黑类数谜；t图 10点击绘制树状图，冰柱图里选择所有聚类和方向垂直。点击继续回到主对话框。如下图 11：BiSSScgi冰柱所有聚奏色)酬李的指定全距爸开始聚类： 1-停止聚类巴)：排序标准旦)：11无迥)方向倉垂直世)水平但)1屢纂取消糾助图 11(5)回到主对话框点击确定(OK),得到所有的分类结果。结果以文档的形式导出，包括冰柱图，树状图，距离表。2.K 均值聚类分析依然取上一个例子作为分类样本说明这个方法。首先，如果原始变量取值差异较大，应先将原始数据进行标准化，以避免变量值差异较大对分类结果产生影响。从下图12 统计表中我们可以看出各省六项指标数量级有较大差异，所以有必要进行标准化处理。扌茜述颈计量N极小值极犬值均值标准差人均GDP元3057875769518984.5712351.335财政收入万兀30145607317946085977535.705346237.923固定資产投资忆元30231.1011111.40352S.36672747.59700年末总人万人3028193924154.932729.834居民消费水平无毎人3039152094441 2909.6737236.570社会消费品壽售总额忆元30S9.701 6008.00304S.37333262.17745有效的N (列裏狀态)30图 12过程如下：选择分析( analyze) -描述统计( descriptives statistics) -描述( descriptives) 进入主对话框，将需要标准化的变量选入“变量(variables)”框，然后勾选“将标准化得分另存为变量(save standardized values as variables)”，最后点击确定(OK),标准化后的数詁趴数尊fE琢说d諏捱编羅器)转换d|分析 |：销也图吃()实用程序世裔口世帮貝据将出现在原始数据表中。以上步骤见一下图13：描述统计护元11141；234：)8!0)5J5I481；455r124!38I1716512942!54WT出较均值邂股线性棋型0 广义线性模型混合棋型凶相黄(Q)回归因对数线性棋型側神经刚络分类鬥降维度 fi(S)菲参數棉验型预測Q)生存函数赛重响应也S交叉表Q 圍比率迟h g p-p圄 |T|a-Q图售总星327135二関91&11甜ua;SOUU27169263437235710r 1&7I823514119J81520944433 &5509.302B&298011151532；1104441r 2021558782E2703394173142)83CU图 13然后是 K 均值处理步骤：(1)选择分析(analyze)-分类-K均值聚类(K-means cluster),如下图14,进入主对话框图 15图 14(2) 在主对话框中讲用于聚类的所有标准化后的标量选入“变量(variables)”，将区分样本的标签变量(本例为地区)选入“label cases by”，在“number of clusters”下输入想要分类的数据，本里选为“4”。(3) 点击iterate并在“maximum iterations”中输入最大迭代次数(本例使用隐含的 10次)，点击“continue回到主对话框；点击“save”并选择“cluster membership”, 点击“continue”回到主对话框；点击 “options” 并选择 “initial cluster centers和“ANOVA table(本想可根据需要选择)。最后点击0K,即可得所有想要结果。以上步骤见下图：刼K-均信犀类笄析LSj葩 K-M-eansM.黑大迭代夹数卿:收皱性标准CQ）：归 |使用运行均值世继续取涓帮助图 15由于结果篇幅过大，截图无法截取完整，本文只列写操作步骤，未列写结果，请见谅！用 SPSS 进行聚类分析十分简单方便，以上两种方法是最常见的，按照文中提示一步步操作一遍即可掌握，当然处理不同类型数据可能相关设置要更改，这将是大家以后共同探讨的问题，希望我们可以相互学习，共同进步！谢谢大家的理解和配合！

展开阅读全文

聚类分析的SPSS应用

最新文档