多元统计分析我国主要城市的聚类分析课程设计

上传人:痛*** 文档编号:86534346 上传时间:2022-05-07 格式:DOC 页数:17 大小:299KB
返回 下载 相关 举报
多元统计分析我国主要城市的聚类分析课程设计_第1页
第1页 / 共17页
多元统计分析我国主要城市的聚类分析课程设计_第2页
第2页 / 共17页
多元统计分析我国主要城市的聚类分析课程设计_第3页
第3页 / 共17页
点击查看更多>>
资源描述
. .摘 要以我国31个主要城市为研究样本,选取平均气温、平均相对湿度、降水量、日照时数、4个反映生态气候情况的主要指标,对我国主要城市气候进展聚类分析。使用spss将全国主要城市的平均气温、平均相对湿度、降水量、日照时数,利用K均值聚类分析法和系统聚类分析法进展分类,并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。关键词:平均气温;平均相对湿度;降水量;日照时数;系统聚类;聚类分析;spss目录1. 设计目的42. 聚类分析的根本思想53. 实际问题分析54. 系统聚类分析64.1 实际操作64.2 结果分析65. K均值聚类分析115.1. 根本思想115.2. 操作步骤115.3. 结果分析126两种方法的结果比较167. 总结18参考文献19我国主要城市气候的聚类分析1. 设计目的了解系统聚类分析法,学会应用spss软件进展系统聚类分析。同时更好的了解应用多元统计分析的知识,熟练掌握应用多元统计分析在实际问题上的应用,并将所学的知识结合spss对数据的处理解决实际问题。本设计是利用spss软件我国31个城市的气候进展聚类分析。我国主要城市的气候利用K均值聚类分析法和系统聚类分析法进展分类,并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。2. 聚类分析的根本思想找出能够度量样品或指标之间相似程度的统计量以此作为划分类型的依据,把一些相似程度较大的聚合为一类另一些相似程度较大的聚合为一类,直到所有都聚合完毕形成一个由小到大的分类系统 3. 实际问题分析下表是某年我国31个主要城市平均气温、平均相对湿度、降水量、日照时数的数据,试使用系统聚类法对这些地区进展聚类分析。城市平均气温平均相对湿度降水量日照时数12.754.0 571.82667.2天津12.560.8 544.32247.814.258.8 517.12007.811.855.2 431.12438.7呼和浩特7.846.9 397.92741.17.467.7 690.32366.75.457.6 570.42711.54.658.1 524.42506.517.568.8 1164.51649.516.770.3 1062.31933.317.271.3 1454.61513.816.878.3 995.21704.521.168.3 1393.61449.518.967.7 1624.41712.314.961.3 672.72233.915.859.2 632.41880.417.166.8 12691752.218.769.6 1331.31295.922.970.8 1736.11609.222.675.5 1309.81478.225.480.0 1652.11800.019.181.1 1104.4961.117.776.7 927.51010.215.375.1 1117.71068.217.371.8 1011.31995.516.478.11033.21091.910.933.8 232.62672.97.553.3 311.72657.37.557.1 373.82534.210.652.3 240.12759.3乌鲁木齐8.656.0 286.32570.54. 系统聚类分析4.1 实际操作1.操作步骤1在spss将数据导入数据视图;2点击spss选择 分析、分类、系统聚类;选中系统聚类分析主页面,将城市选入标注个案,将变量平均气温至日照时数移入变量框中。单击定义组因为本案例是对样本进展聚类,所以在分群中勾选个案,在输出选项组中勾选统计量复选框和图复选框。3点击绘制按钮,选中树状图和冰柱栏中的无,点击继续按钮;4 点击保存按钮,在聚类成员框中选中方案围按钮,最小聚类数设为2,最大聚类书设为5,继续;5统计量和方法都选择系统默认值;6点击确认按,运行系统聚类过程。4.2 结果分析(1) 案例处理汇总表案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比31100.00.031100.0a. 平方 Euclidean 距离 已使用 b. 平均联结组之间案例处理汇总表中汇总了有效数据数量31个,占百分比百分之百,缺失数据0个,占百分之零。总计数量31个,占百分比百分之百。(2) 聚类过程的结果聚类表阶群集组合首次出现阶群集群集 1群集 2系数群集 1群集 2下一阶1172030.7000023210256472.4500024327286891.980008424267712.1500012511137879.7000010614218652.1200018729318976.36000198273011702.360301494813361.980001910112015090.71050201121516685.780001512222416946.05504171391721471.70000211452723973.1870822152626784.820110251631629527.570002517222330375.0431202918141933341.82060261942933759.970972220111841305.233100262191254576.15013024224566153.898191423231476408.073122282491096207.958212272523133658.538151628此表是对每一阶段聚类结果的反映,第四列表示聚合系数,第二列第三列表示聚合的类,例如,第一个阶段是把相似程度较大的第一个样品和第七个样品聚为一类,此时有30类,第二个阶段是把相似程度较大的第十个样品和第二十五个样品聚为一类,此时有29类,以此类推。此图为根据聚类表所制出的折线图3聚类成员表群集成员案例 5群集4群集3群集2群集1: 11112:天津22113: 22114: 11115:呼和浩特11116: 22117: 11118: 11119: 332210: 332211: 432212: 332213: 432214: 432215: 221116: 221117: 332218: 432219: 432220: 432221: 4322该表每个案例分别在分为五类、四类、三类、二类时所在的类别数,由表可知因为最小聚类数为2,最大聚类数为5 ,类别数分别为2, 3,4,5时样本的类别归属情况。可以结合后面的树状图、冰柱图及研究目的,确定具体的较为合理的类别数与成员归属。4冰柱图冰柱图也是反映样品聚类情况的图,比方我们希望分为3类,那么最左边的类数应选4,每个样品右边都有一列冰柱,如果某个样品右边的列冰柱长度小于三,那么他和前面冰柱长度大于三的样品聚为一类,如此下去直到找到全部三类为止,例如,案例二十二右边的列冰柱长度为2,那么它就与案例二十三和案例二十八为一类了,第九个案例右边的列冰柱长度为1,那么从案例十九到九为一类,其余为一类。由此,将此题分为了三类5树状聚类图* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 1 -+-+ 7 -+ | 27 -+ +-+ 28 -+ | | 30 -+ | | 呼和浩特 5 -+-+ | 29 -+ | 乌鲁木齐 31 -+ +-+ 4 -+ | | 8 -+ | | 天津 2 -+ | | 15 -+-+ | | 6 -+ +-+ | 3 -+-+ | 16 -+ | 24 -+ | 26 -+ | 22 -+-+ | 23 -+ | | 10 -+-+ | | 25 -+ +-+ +-+ 9 -+ | | |由上表可以由分类个数得到分类情况,如果我们选择分类数为5,就从距离大概为4的地方往下切,把地区分为5类,得到分类结果如下:第一类:、呼和浩特、乌鲁木齐第二类:天津、第三类:、第四类:、第五类:、如果我们选择分类数为4,就从距离大概为5的地方往下切,把地区分为4类,得到分类结果如下:第一类:、呼和浩特、乌鲁木齐第二类:天津、第三类:、第四类:、如果我们选择分类数为3,就从距离大概为6的地方往下切,把地区分为3类,得到分类结果如下:第一类:、乌鲁木齐、呼和浩特、天津、第二类:、第三类:、如果我们选择分类数为2,就从距离大概为20的地方往下切,把地区分为2类,得到分类结果如下:第一类:、乌鲁木齐、呼和浩特、天津、第二类:、5. K均值聚类分析5.1. 根本思想把样品粗略分成K个初始类,进展修改,逐个分派样品到其最近均值得类中。重新计算承受新样品的类和失去样品的类的均值,重复,直到各类无元素进出。5.2. 操作步骤1在菜单中依次单击分析,分类,K-均值聚类,翻开K-均值聚类对话框。将城市选入个案标记依据,将平均气温、平均相对湿度、降水量和日照时数选入变量,聚类数,本例中设为4,方法选项组中采用默认的迭代与分类选项。2输出结果设置:单击保存按钮,翻开K-Means群集:保存新变量对话框,勾选聚类成员和与聚类中心的距离复选框,单击继续。3选择统计量指标:单击选项按钮,翻开K均值聚类分析:选项对话框,勾选初始聚类中心、ANOVA表和每个个案的聚类信息,输出方差分析表和相应的个案信息。缺失值处理方式使用系统默认选项。4单击确定按钮,执行操作,输出结果。5.3. 结果分析1初始类中心初始聚类中心聚类1234平均气温10.6017.7017.3022.90平均相对湿度52.3076.7071.8070.80降水量240.10927.501011.301736.10日照时数2759.301010.201995.501609.20上表为初始聚类中心表,从上表中可以看出聚类数为4,所以表中给出了4个初始类中心点。因为是初始聚类中心,在后面的迭代过程中类中心会发生调整。(2) 迭代历史记录下表为迭代历史记录表,显示了聚类分析所经历的迭代过程,从中可以看出,聚类分析过程经历了3次迭代,前两次的变化较大,最后一次聚类中心的更改没有变化,所以表示迭代完成。初始中心间的最小距离为821.337。迭代历史记录a迭代聚类中心的更改12341203.671190.792156.579208.245264.882.00044.52382.4003.000.000.000.000a. 由于聚类中心没有改动或改动较小而到达收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 821.337。(3)聚类成员聚类成员案例号城市聚类距离11169.3682天津 1344.19533302.10441134.1415呼和浩特1171.72761331.33071196.54081114.50394287.494103248.519114106.912123312.151134180.329144196.627153309.464163199.182174224.272182310.696194285.826204200.245上表为聚类成员表,第三列为该地区所在的类别数,第四列为该案例距离类中心的距离。把地区分为4类时,第一类:、天津、呼和浩特、乌鲁木齐第二类:、第三类:、第四类:、我们可以对分类结果做分析,第一类的城市地处我国北部;其降雨量湿度与日照时数较低,气候多为干冷,第二类的城市地处我国西南部,第三类的城市地处我国东南部,第四类的城市地处我国最南,我国主要城市气候可根据地区的生态环境进展分类。(4)最终聚类中心最终聚类中心聚类1234平均气温8.9417.4415.9520.34平均相对湿度54.4076.1266.6271.15降水量431.231102.82815.171450.51日照时数2572.811085.461959.231620.59该表为最终聚类中心表,由此表,再比照上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进展了调整。(5)最终聚类中心间的距离最终聚类中心间的距离聚类123411632.112723.9361395.02021632.112919.955638.1893723.936919.955719.99041395.020638.189719.990该表为最终聚类中心间的距离表。例如第1类和第2类中心点坐标之间的距离为1632.112,第2类和第3类中心点坐标之间的距离为919.955。以此类推。(6)方差分析表ANOVA聚类误差均方df均方dfFSig.平均气温232.93736.1702737.752.000平均相对湿度759.884347.2012716.099.000降水量1764610.042333190.6452753.166.000日照时数3083306.950322847.20527134.953.000F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差异。观测到的显著性水平并未据此进展更正,因此无法将其解释为是对聚类均值相等这一假设的检验。该表是方差分析表,F值只能作为描述使用,不能根据该值判断各类均值是否有显著性差异,从方差分析表可以看出有三个变量:平均气温,平均相对湿度,降水量,对分类现象显著。(7)每个聚类中的案例数目每个聚类中的案例数聚类112.00025.00036.00048.000有效31.000缺失.000每个聚类中的案例数表,由表便可看出,类别1中的案例数为12个,类别2中的案例数为5个,类别3中的案例数为6个,类别4中的案例数为8个。有效个案数为31个。8QCL1为分类归属情况,QCL2为样本到类中心的距离。城市QCL1QCL211169.3682天津1344.19533302.10441134.1415呼和浩特1171.72761331.33071196.54081114.50394287.494103248.519114106.912123312.151134180.329144196.627153309.464163199.182174224.272182310.696194285.826204200.245214270.056222124.481232190.79224222.912253199.53026269.953271223.380281146.38429169.265301267.04931乌鲁木齐1144.953由表可知,相对于系统矩阵,K均值矩阵把地区分为5类时,第一类:、天津、呼和浩特、乌鲁木齐第二类:、第三类:、第四类:、6两种方法的结果比较我又分别做了K=3和K=5时的K均值聚类分析与系统聚类分析的3类、4类、5类相比较,结果如下表:(1) 把地区分为5类时,两种方法比较如下表所示系统聚类K均值聚类第一类、呼和浩特、乌鲁木齐、第二类天津、第三类、天津、第四类、第五类、呼和浩特、乌鲁木齐2把地区分为4类时,两种方法比较如下表所示:系统聚类K均值聚类第一类、呼和浩特、乌鲁木齐、天津、呼和浩特、乌鲁木齐第二类天津、第三类、第四类、3把地区分为3类时,两种方法比较如下表所示系统聚类K均值聚类第一类、乌鲁木齐、呼和浩特、天津、天津、呼和浩特、乌鲁木齐、第二类、第三类、1上图分别比较了k=3,4,5,将系统分为三类四类五类时K均值聚类法与系统聚类法的比较,可以看出,在K=3时,K均值聚类分析与系统聚类分析的结果差异最小,K均值聚类将样品聚类,而系统聚类将指标聚类。系统聚类过程较麻烦,此案例这种比系统聚类法大得多的数据组用K均值法更简单明了,但是在对案例进展分析时,选择几种算法进展反复检验,对于结果的分析是有好处的。当K均值聚类成五类时各类之间差异较小,无较大意义,强行把这些数据分成K个类会导致无意义的聚类。2K均值的优点:操作简便,K均值法得到的结果比较简单易懂。 K均值的缺点:K均值法只能产生指定类数结果。 系统聚类的优点:系统聚类可以对不同的类数产生一系列的聚类结果。 系统聚类的缺点:系统聚类法需要计算出不同样品或变量的距离,还要在 聚类的每一步都要及时类间距离,计算量比较大。7. 总结上面我已经分别用了系统聚类法和K均值法对我国主要城市气候进展了分类,结果也都已经展示在了上面。可以看出系统聚类法要计算出不同样品或变量的距离,计算量较大,较麻烦,而K均值法得到的结果比较明了简洁。系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。通过比照两种方法,我们可以发现比照两种算法更利于结果分析,找到更合理的分类。所以,在对案例进展分析时,选择几种算法进展反复检验,对于结果的分析是有好处的。 K均值法与系统聚类法一样之处都是以距离的远近进展聚类。K均值法与系统聚类法的不同之处是系统聚类是对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。需要计算出不同样品或变量的距离,还要在聚类的每一步都要及时类间距离,计算量比较大。而K均值法得到的结果比较简单易懂。通过这次课设,利用spss软件,我学会了系统聚类和K均值聚类的根本思想和步骤方法,了解到了K均值法和系统聚类法的区别以及优缺点,对聚类分析有了深刻的认识 。参考文献1. 红坡 海峰等. SPSS统计分析实用宝典. 清华大学 2021.62. 何超群.多元统计分析第四版.中国人民大学教育之通病是教用脑的人不用手,不教用手的人用脑,所以一无所能。教育革命的对策是手脑联盟,结果是手与脑的力量都可以大到不可思议。优选
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!