聚类分析的SPSS应用

上传人:s****a 文档编号:171541931 上传时间:2022-11-27 格式:DOCX 页数:12 大小:824.10KB
返回 下载 相关 举报
聚类分析的SPSS应用_第1页
第1页 / 共12页
聚类分析的SPSS应用_第2页
第2页 / 共12页
聚类分析的SPSS应用_第3页
第3页 / 共12页
点击查看更多>>
资源描述
聚类分析的 SPSS 应用摘要:本文本主要结合实例讲述SPSS这个软件在聚类分析中的应用。包括SPSS的一些基本 操作,在聚类分析中的相关参数设置,数据的录入,操作步骤等。本文重点是SPSS在聚类 分析中的应用方法,不对聚类分析相关知识做过多阐述,相关知识点参见本组对聚类分析的 详细讲解。文中结合2006年全国各省6 项经济指标数据对各省进行简单分类这个实例,讲 述两种最常用聚类分析方法,即系统聚类分析(Hierarchical Cluster)和K-均值聚类分析。本 文用到的软件是 SPSS19 汉化版,各个版本操作基本一样,文中相关选项均有英文注释,方 便非汉化版同学识读操作。一.SPSS数据的录入打开 SPSS 软件是下面图1 的界面:图1上图 1 所示是数据视图(见上图左下角黄色框框),点击数据视图右边蓝色框框进入变量视 图,如下图 2:言回C 镰电園鬻裁国辔3ES礎值列SN开1j2J4E6Te91011121314劇&担图査量视曲;1即3F1储彌11创G5 P耐日苗B.麻堵图2在变量视图中设置我们需要的变量名,并填写约束条件,填写完成后如下图3:柱 呦歼年医SfiEHS经话胆馳走w 逛虚幫1| dBMSPS&Siadnlin眩5鸟#吁號瑙叵I 4flE H4fl(D)轻曲口)曲聊迥Z:W:i阱世)工用師辿鬲口輕Wil密场EJ r圜程憲H 蘭簫圉吧越3EK桁遵1碱3 刊対齐島否1沪:.了0亍JgT=d-當池阿、V 2Ai5F3DP5firfKN)808一討扌E:创、K-3:齐-,T=数值训J无无垂呂中冷 r口 si、 :4厨走说产投按值S2无无SSE4:壽JK.I.司、P -5年来社人口80无无8三禹中#度1罔、V .&=5 1S0无1S一討誉 rl:sj、辛7社孟衿费品帛2无无帛垂宙中护JOTI卸 -0g101112-1-47 卄两債祝匪I亶昼磋|lQMSPSShljliC Proc KDFJRJt图3其中,我们需要7 个变量,见名称一栏,变量中地区是字符型变量,所以度量标准是名义。 其他设置默认即可。其他变量是数值型,度量标准是度量,其他设置同为默认。设置好后回 到数据视图,如下图 4:图4 可见,变量视图中设置的变量均列入数据视图中頂栏。(注:图4 已经录入数据) 以上是SPSS录入数据的基本操作,数据录入完成后开始两种聚类分析设置和得出结果。 二系统聚类分析和 K 均值聚类分析1.系统聚类分析(1)在数据视图点击分析(Analyze)-分类(Classify)-系统聚类(Hirarchical Cluster), 如下图 5:垢中at点店数解垢器孑寸分祈凶销囲图形回实用程序包窗(里帮助Lk?111S2i.34:81;盘人.万居民消费水平 元每人社会消费品零 售总颔亿元zT-5811&7703275.20075106641356.30;89849453397.40137548431613.40乌9了58001595.30-27169253434.601F7 SO描述统计卜表E卜比较均值廻)卜般线性模型迫卜 广巽线性模型卜混合模型0卜相冥卜回归但)对敎线性複型(2、111T11八ii丨丨丨ii j1571G5强两歩聚类(D 爾K-均值恶类K1294-2!5430;136師度量侶)非参敷检验迥 预测 生存函敎鱼) 參重响应9)网駛失值分祈0參重归园Q厨鄭绒聚粪也.ISI判别9)1997.70S3G0.40工3 20JW5.30029.40704.201428.0070257122.5046323880.50最近邻元秦迥)图5 进入如下图6 界面:图6回到我们的出发点,我们希望通过六项指标对全国各省进行分类,那么分析的变量是这六项 指标,分类标准是不同省份,即地区。于是这两大类变量要进行不同归类,进行如下图 7 设置即可,把用于聚类的变量选入变量框(variables),把区分样本的标签变量(本例即为“地 区”)选入标注个案(label case by):图7(2)接下来在分群(cluster)栏中选择聚类类型:要进行R型聚类(变量聚类)分析,应指定“变量(variables)” ;要进行Q型聚类(样品聚类),则指定“个案(case)”。系统默认 Q 型聚类。我们要将全国不同省份进行分类,很明显不同省份是不同的样品,对这些样品进行分类即样 品聚类,所以进行 Q 型聚类,默认即可。输出栏输出我们需要的项目,这里统计量和图都 选择。设置好后如下图 8:图8(3)单击“方法(method)”按钮,展开系统聚类分析的方法选择对话框,即hierarchical cluster analysis:method”。度量标准(Cluster methodO下拉框中给出了可以选择的计算类间距离的方法,系统默认是组 间均链锁法(between-groups linkage),本例选择 wards method;度量标准(measure)框中 给出的是计算样品间距的方法,本例使用平方euclidean距离(squared euclidean distance),SPSS默认计算欧氏距离平方。在转换值(transform values)的标准化(standardize) 框中选择是否对原始数据进行标准化处理,本例选择z scores。点击继续(continue)回到主 对话框。(注:类间距离和样品间距的选择在这里没有赘述,详见我们组讲课内容)设置好 后如下图 9:哩至统聚粪分析:方法聚类方Ward法厂度呈标准转换度量更改符旨旦) 重新标度到0-1全距世图9(4) SPSS系统聚类分析默认输出的分析结果有凝聚状态表(agglomeration schedule)和冰 柱图(icicle)。点击统计量(statistics)选中合并进程表(agglomeration schedule)。选择方案范围, 最大聚类数设为4,最小聚类数设为2,点击继续(continue)回到主对话框,此时分析结 果中就包含了凝聚状态表,如下图10:博 系统据类分忻:统相似性矩阵吃)-黔类成員无世单一方案廉类数回;方案范围迟)晶小聚崟數迦丫叵 杲犬黑类数谜;t图 10点击绘制树状图,冰柱图里选择所有聚类和方向垂直。点击继续回到主对话框。如下图 11:BiSSScgi冰柱所有聚奏色)酬李的指定全距爸开始聚类: 1-停止聚类巴):排序标准旦):11无迥)方向倉垂直世)水平但)1屢纂取消糾助图 11(5)回到主对话框点击确定(OK),得到所有的分类结果。结果以文档的形式导出,包括 冰柱图,树状图,距离表。2.K 均值聚类分析依然取上一个例子作为分类样本说明这个方法。首先,如果原始变量取值差异较大,应先将原始数据进行标准化,以避免变量值差异 较大对分类结果产生影响。从下图12 统计表中我们可以看出各省六项指标数量级有较大差 异,所以有必要进行标准化处理。扌茜述颈计量N极小值极犬值均值标准差人均GDP元3057875769518984.5712351.335财政收入万兀30145607317946085977535.705346237.923固定資产投资忆元30231.1011111.40352S.36672747.59700年末总人万人3028193924154.932729.834居民消费水平无毎人3039152094441 2909.6737236.570社会消费品壽售总额忆元30S9.701 6008.00304S.37333262.17745有效的N (列裏狀态)30图 12过程如下:选择分析( analyze) -描述统计( descriptives statistics) -描述( descriptives) 进入主对话框,将需要标准化的变量选入“变量(variables)”框,然后勾选“将标准化得 分另存为变量(save standardized values as variables)”,最后点击确定(OK),标准化后的数詁趴数尊fE琢说d諏捱编羅器)转换d|分析 |:销也图吃()实用程序世裔口世帮貝据将出现在原始数据表中。以上步骤见一下图13:描述统计护元11141;234:)8!0)5J5I481;455r124!38I1716512942!54WT出较均值邂 股线性棋型0 广义线性模型 混合棋型凶 相黄(Q)回归因对数线性棋型側 神经刚络 分类鬥降维 度 fi(S)菲参數棉验型 预測Q)生存函数 赛重响应也S交叉表Q 圍比率迟h g p-p圄 |T|a-Q图售总星327135二関91&11甜ua;SOUU27169263437235710r 1&7I823514119J81520944433 &5509.302B&298011151532;1104441r 2021558782E2703394173142)83CU图 13然后是 K 均值处理步骤:(1)选择分析(analyze)-分类-K均值聚类(K-means cluster),如下图14,进入主对话框图 15图 14(2) 在主对话框中讲用于聚类的所有标准化后的标量选入“变量(variables)”,将区分样 本的标签变量(本例为地区)选入“label cases by”,在“number of clusters”下输入 想要分类的数据,本里选为“4”。(3) 点击iterate并在“maximum iterations”中输入最大迭代次数(本例使用隐含的 10次),点击“continue回到主对话框;点击“save”并选择“cluster membership”, 点击“continue”回到主对话框;点击 “options” 并选择 “initial cluster centers和“ANOVA table(本想可根据需要选择)。最后点击0K,即可得所有想要结果。以上步骤见下图:刼K-均信犀类笄析LSj葩 K-M-eansM.黑大迭代夹数卿:收皱性标准CQ): 归 |使用运行均值世继续取涓帮助图 15由于结果篇幅过大,截图无法截取完整,本文只列写操作步骤,未列写结果,请见 谅!用 SPSS 进行聚类分析十分简单方便,以上两种方法是最常见的,按照文中提示一步 步操作一遍即可掌握,当然处理不同类型数据可能相关设置要更改,这将是大家以 后共同探讨的问题,希望我们可以相互学习,共同进步! 谢谢大家的理解和配合!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!