应用多元统计分析应用报告

资源描述

应用多元统计分析课程报告班级专业市调0901学号: 2009* _姓名:_CYQ成绩:2010 年 10月 7日我国部分城市主要经济指标统计官方与民间数据差异分析一、引言经济指标是反映一定社会经济现象数量方面的名称及其数值。本题主要经济指标包括人均 GDP x （元）、人均工业产值 x （元）、客运总量 x （万人）、货运 1 2 3总量x （万吨）、x （亿元）、固定资产投资总额x （亿元）、在岗职工占总人口4 5 6的比例x （%）、在岗职工人均工资额x （元）城乡居民年底储蓄余额x （亿7 8 9 元）。所以我们借助这一指标体系对我国部分城市的主要经济指标进行分析。二、数据分析过程1.在 SPSS 窗口中选择 AnalyzefClassifyHierachical Clusit!出系统聚类分析主界面，并将变量XX5移入Variables框中。在Cluster 栏中选择 Cases 单选按钮，即对样品进行聚类（若选择Variables,则对变量进行聚类）。在Display栏中选择Statistics和Plots 复选框，这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。2. 点击 Statistics 按钮，设置在结果输出窗口中给出的聚类分析统计量。这里我们选择系统默认值，点击Continue按钮，返回主界面。3. 点击Plots按钮，设置结果输出窗口中给出的聚类分析统计图。选中 Dendrogram 复选框和 Icicle 栏中的 None 单选按钮，即只给出聚类树形图，而不给出冰柱图。单击Continue按钮，返回主界面。Hierarchical Cluster Analysts: St. 必0 Agglorrieration schedule Proximity matrixCluster Membership NoneiQ Mingle solutionNumber of. clusters:闌nge of solutionsMinimum number of clust已r宫：Maximum nurnb已匚if clusters:CancelHelp4. 点击Method按钮，设置系统聚类的方法选项。这里我们仍然均沿用系统默认选项。单击 Continue 按钮，返回主界面。5. 点击Save按钮，指定保存在数据文件中的用于表明聚类结果的新变量。None表示不保存任何新变量；Single solution表示生成一个分类变量，在其后的矩形框中输入要分成的类数； Range of solutions 表示生成多个分类变量。这里我们选择 Range of solutions，并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量，分别表明将样品分为2 类、3 类和4类时的聚类结果。点击Continue，返回主界面。圜 Hierarchical Cluster Analysis: S.Cluster MembershipNoneQ Single solutionNumber of clusters: Range of solutionsMinimum number of clusters: l| 2Maximum number of cluster: 4 ontiriue.CancelHelp6. 点击OK按钮，运行系统聚类过程从上面的树状图可以直接的观察到，如果用聚类分析将这些地区分为三类，则 24 深圳独自为一类， 10 上海和 16 厦门为一类，剩下的城市为一类。三，K值聚类分析过程1.在 SPSS 窗口中选择 AnalyzeClassifyiK-Means Cluster，调出 K 均值聚类分析主界面，并将变量移入 Variables 框中，将标志变量 Region 移入 Label Case by 框中。在 Method 框中选择 Iterate classify，即使用K-means算法不断计算新的类中心，并替换旧的类中心（若选择Classify onl y,贝U根据初始类中心进行聚类，在聚类过程中不改变类中心）。如果不手工设置，则系统会自动设置初始类中心,这里我们不作设置。2. 1.在 SPSS 窗口中选择 AnalyzeClassifyK-Means Cluster,调出K 均值聚类分析主界面,并将变量移入 Variables 框中,将标志变量 Region 移入 Label Case by 框中。在 Method 框中选择 Iterate classify,即使用K-means算法不断计算新的类中心，并替换旧的类中心（若选择Classify onl y,贝U根据初始类中心进行聚类，在聚类过程中不改变类中心）。如果不手工设置，则系统会自动设置初始类中心,这里我们不作设置。3点击Save按钮，设置保存在数据文件中的表明聚类结果的新变量。其中 Cluster membership 选项用于建立一个代表聚类结果的变量, 默认变量名为 qcl_1；Distance from cluster center 选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中,单击 Continue 按钮返回。4点击Options按钮,指定要计算的统计量。选中Initial cluster centers 和 Cluster information for each case 复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离。单击Continue返回。5.点击OK按钮，运行K均值聚类分析程序2. K 值聚类分析 (1)给出初始类中心Initial Cluster CentersCluster1.2；3认均GDP191033M65S617914人均工业产值347519770S39209客运总里10989721272793货运总重67936306120790地方财政预算内收入29190固定资产投资总额375.227470S在岗理工占总&口的比例69.621.011.9在岗职工人均工资额31053273Q515：274城乡居民年底储蓄余额219960551494给出每次迭代结束后类中心的变动。由图看出本次类聚过程共经历了三次迭代ClusterMembershipCaseNumber城市ClusterDistance北京2.541E4天津2.128E43石家庄32.400E34太原31.067E45呼和浩特31.154E46沈阳31.005E47大连32.215E48长春39.707E39哈尔滨38.512E310上海24.708E411南京21.722E412杭州21.173E413宁波21.626E414合肥31.056E415福州31.078E416厦门25.114E417南昌31.020E418济南31.403E419青岛22.293E420郑州33.591E321武汉38.584E322长沙35.487E323广州21.896E424深圳1.00025南宁31.466E426海口37.824E327重庆35.234E428成都36.332E429贵阳31.049E430昆明37.426E331西安35.635E332兰州31.215E433西宁31.761E434银川31.428E435乌鲁木齐31.282E4给出各观测量所属的类及所属中心的距离。Final Cluster CentersCluster；i -3人均GDP19103.036020-1 6226人均工业产值3,47519532891璟3容运总重10989170191224货运总里6793263.441 0393地方财政预算内收入29128755固定资产投资总额8751017361在岗职工占总入口的比例69.621 ：514.2在岗职工人均工资额310532277514194城乡居民年底储蓄金额21992557794用 K 值聚类分析可以把这些城市被分为 3 类。第一类包括：深圳。第一类城市人均GDP和人均工业产值较高，属于较发达地区。第二类包括：北京，天津，上海，南京，杭州，宁夏，厦门，青岛，广州，南京，海口。这些地区的人均GDP 和人均工业产值属于三类中居中的位置，属于中等发达地区。剩下的城市被分为第三类，它们的各种数据显示，都表明它们属于欠发达地区。

展开阅读全文

应用多元统计分析应用报告

最新文档