资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,多元统计分析与,SPSS,实现,一,在,SPSS,中利用系统聚类法进行聚类分析,二,在,SPSS,中利用,K,均值法进行聚类分析,三,利用,SPSS,进行判别分析,四,利用,SPSS,进行主成分分析,五,利用,SPSS,进行因子分析,设有,20,个土壤样品分别对,5,个变量的观测数据如表所示,试利用系统聚类法对其进行样品聚类分析。,表,5.16,土壤样本的观测数据,一,在,SPSS,中利用系统聚类法进行聚类分析,(一)操作步骤,1.,在,SPSS,窗口中选择,AnalyzeClassifyHierachical,Cluster,,调出系统聚类分析主界面,并将变量,X,1,X,5,移入,Variables,框中。在,Cluster,栏中选择,Cases,单选按钮,即对样品进行聚类(若选择,Variables,,则对变量进行聚类)。在,Display,栏中选择,Statistics,和,Plots,复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。,图,系统聚类法主界面,2.,点击,Statistics,按钮,设置在结果输出窗口中给出的聚类分析统计量。这里我们选择系统默认值,点击,Continue,按钮,返回主界面。,3.,点击,Plots,按钮,设置结果输出窗口中给出的聚类分析统计图。选中,Dendrogram,复选框和,Icicle,栏中的,None,单选按钮,即只给出聚类树形图,而不给出冰柱图。单击,Continue,按钮,返回主界面。,图,Plots,子对话框,4.,点击,Method,按钮,设置系统聚类的方法选项。,Cluster Method,下拉列表用于指定聚类的方法,包括组间连接法、组内连接法、最近距离法、最远距离法等;,Measure,栏用于选择对距离和相似性的测度方法;剩下的,Transform Values,和,Transform Measures,栏用于选择对原始数据进行标准化的方法。这里我们仍然均沿用系统默认选项。单击,Continue,按钮,返回主界面。,图,Method,子对话框,5.,点击,Save,按钮,指定保存在数据文件中的用于表明聚类结果的新变量。,None,表示不保存任何新变量;,Single solution,表示生成一个分类变量,在其后的矩形框中输入要分成的类数;,Range of solutions,表示生成多个分类变量。这里我们选择,Range of solutions,,并在后面的两个矩形框中分别输入,2,和,4,,即生成三个新的分类变量,分别表明将样品分为,2,类、,3,类和,4,类时的聚类结果。点击,Continue,,返回主界面。,图,Save,子对话框,6.,点击,OK,按钮,运行系统聚类过程。,(二)主要运行结果解释,1.,在结果输出窗口中我们可以看到聚类树形图(,Dendrogram,)。,从树形图,5.12,可以清楚地看到,若将,20,个样品分为两类, 则样品,2,、,6,、,19,、,7,、和样品,1,为一类,其余的为另一类;若将样品分为三类,则样品,8,、,9,、,4,从第二类中分离出来,自成一类;依此类推。,图,系统聚类法树形图,2.,由于我们已经在,Save,子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的三个表示分类结果的新变量。变量名为,clu4_1,、,clu3_1,和,clu2-1,的三个分类变量分别表明了把样品分成,4,类、,3,类和,2,类的分类情况。,图,生成三个新的分类变量,我国各地区,2003,年三次产业产值如表所示,试根据三次产业产值利用,K,均值法对我国,31,个省、自治区和直辖市进行聚类分析。,二,在,SPSS,中利用,K,均值法进行聚类分析,(一)操作步骤,1.,在,SPSS,窗口中选择,AnalyzeClassifyK,-Means Cluster,,调出,K,均值聚类分析主界面,并将变量,移入,Variables,框中,将标志变量,Region,移入,Label Case by,框中。在,Method,框中选择,Iterate classify,,即使用,K-means,算法不断计算新的类中心,并替换旧的类中心(若选择,Classify only,,则根据初始类中心进行聚类,在聚类过程中不改变类中心)。,K,均值聚类分析主界面,(一)操作步骤,1,、,AnalyzeClassifyK,-Means Cluster,,调出,K,均值聚类分析主界面。,在,Number of Cluster,后面的矩形框中输入想要把样品聚成的类数,这里我们输入,3,,即将,31,个地区分为,3,类。至于,Centers,按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。,K,均值聚类分析主界面,2.,点击,Iterate,按钮,对迭代参数进行设置。,Maximum Iterations,参数框用于设定,K-means,算法迭代的最大次数,,Convergence Criterion,参数框用于设定算法的收敛判据,其值应该介于,0,和,1,之间。例如判据设置为,0.02,,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于,2,时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。这里我们选择系统默认的标准。单击,Continue,,返回主界面。,图,Iterate,子对话框,3.,点击,Save,按钮,设置保存在数据文件中的表明聚类结果的新变量。其中,Cluster membership,选项用于建立一个代表聚类结果的变量,默认变量名为,qcl_1,;,Distance from cluster center,选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中,单击,Continue,按钮返回。,图,Save,子对话框,4.,点击,Options,按钮,指定要计算的统计量。选中,Initial cluster centers,和,Cluster information for each case,复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离。单击,Continue,返回。,5.,点击,OK,按钮,运行,K,均值聚类分析程序。,图,Options,子对话框,(二)主要运行结果解释,1. Initial Cluster Centers,(给出初始类中心),2. Iteration History,(给出每次迭代结束后类中心的变动),从表中可以看到本次聚类过程共经历了三次迭代。由于我们在,Iterate,子对话框中使用系统默认的选项(最大迭代次数为,10,和收敛判据为,0,),所以在第三次迭代后,类中心的变化为,0,,从而迭代停止。,表,迭代过程中类中心的变化量,3. Cluster Membership,(给出各观测量所属的类及与所属类中心的距离),表中,Cluster,列给出了观测量所属的类别,,Distance,列给出了观测量与所属类中心的距离。(出于排版要求,此表经过加工,因此与原始输出表形态有一定差异)。,表,各观测量所属类成员表,4. Final Cluster Centers,(给出聚类结果形成的类中心的各变量值),最终的类中心表,结合上述两表看出,31,个地区被分成,3,类。第一类包括:江苏、浙江、山东和广东,4,个省。这类的类中心三个产业的产值分别为,1102.14,亿元、,6423.01,亿元和,4454.26,亿元,属于三个产业都比较发达的地区。第二类包括:天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆,16,个地区。这一类的类中心三个产业的产值分别为,307.61,亿元、,795.41,亿元和,673.63,亿元,属于欠发达地区。剩下的,11,个地区为第三类。这一类的类中心三个产业的产值分别为,713.28,亿元、,2545.20,亿元和,212.87,亿元,属于中等发达地区。,5.,由于我们已经在,Save,子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的两个表示分类结果的新变量。变量,qcl_1,和变量,qcl_2,分别代表分类号和观测量距所属类中心的距离。,利用,SPSS,对,Fisher,判别法和,Bayes,判别法进行计算机实现。,为研究某地区人口死亡状况,已按某种方法将,15,个已知地区样品分为,3,类,指标含义及原始数据如下。试建立判别函数,并判定另外,4,个待判地区属于哪类?,X,1,:,0,岁组死亡概率,X,4,:,55,岁组死亡概率,X,2,:,1,岁组死亡概率,X,5,:,80,岁组死亡概率,X,3,:,10,岁组死亡概率,X,6,: 平均预期寿命,三,利用,SPSS,进行判别分析,表,3.1,各地区死亡概率表,(,一,),操作步骤,1.,在,SPSS,窗口中选择,AnalyzeClassifyDiscriminate,,调出判别分析主界面,将左边的变量列表中的“,group”,变量选入分组变量中,将,变量选入自变量中,并选择,Enter independents together,单选按钮,即使用所有自变量进行判别分析。,判别分析主界面,2.,点击,Define Range,按钮,定义分组变量的取值范围。本例中分类变量的范围为,1,到,3,,所以在最小值和最大值中分别输入,1,和,3,。单击,Continue,按钮,返回主界面。,3.,单击,Statistics,按钮,指定输出的描述统计量和判别函数系数。选中,Function Coefficients,栏中的,Fishers,和,Unstandardized,。这两个选项的含义如下:,Fishers,:给出,Bayes,判别函数的系数。(注意:这个选项不是要给出,Fisher,判别函数的系数。这个复选框的名字之所以为,Fishers,,是因为按判别函数值最大的一组进行归类这种思想是由,Fisher,提出来的。这里极易混淆,请读者注意辨别。),Unstandardized,:给出未标准化的,Fisher,判别函数(即典型判别函数)的系数(,SPSS,默认给出标准化的,Fisher,判别函数系数)。,单击,Continue,按钮,返回主界面。,Statistics,子对话框,4.,单击,Classify,按钮,定义判别分组参数和选择输出结果。选择,Display,栏中的,Casewise,results,,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际组和预测组编号等。其余的均保留系统默认选项。单击,Continue,按钮。,Classify,子对话框,5.,单击,Save,按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为:,Predicted group membership,:存放判别样品所属组别的值;,Discriminant,scores,:存放,Fisher,判别得分的值,有几个典型判别函数就有几个判别得分变量;,Probabilities of group membership,:存放样品属于各组的,Bayes,后验概率值。,将对话框中的三个复选框均选中,单击,Continue,按钮返回。,6.,返回判别分析主界面,单击,OK,按钮,运行判别分析过程。,Save,子对话框,(二) 主要运行结果解释,1. Standardized Canonical,Discriminant,Function Coefficients,(给出标准化的典型判别函数系数),标准化的典型判别函数是由标准化的自变量通过,Fisher,判别法得到的,所以要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。,2. Canonical,Discriminant,Function Coefficients,(给出未标准化的典型判别函数系数),未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。见表,3.2,(,a,)。,表,3.2,(,a,) 未标准化的典型判别函数系数,由此表可知,两个,Fisher,判别函数分别为:,实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这两个函数式计算出各样品观测值的具体空间位置。,3. Functions at Group,Centroids,(给出组重心处的,Fisher,判别函数值),如表,3.2 (b),所示,实际上为各类别重心在空间中的坐标位置。这样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。,表,3.2,(,b,) 组重心处的,Fisher,判别函数值,4. Classification Function Coefficients,(给出,Bayes,判别函数系数),如表,3.3,所示,,GROUP,栏中的每一列表示样品判入相应列的,Bayes,判别函数系数。在本例中,各类的,Bayes,判别函数如下:,第一组:,第二组:,第三组:,表,3.3,Bayes,判别法的输出结果,将各样品的自变量值代入上述三个,Bayes,判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。例如,将第一个待判样品的自变量值分别代入函数,得到:,F,1,=3793.77,,,F,2,=3528.32,,,F,3,=3882.48,比较三个值,可以看出最大,据此得出第一个待判样品应该属于第三组。,5.,Casewise,Statistics,(给出个案观察结果),在,Casewise,Statistics,输出表针对每个样品给出了了大部分的判别结果,其中包括:实际类(,Actual Group,)、预测类(,Predicted Group,)、,Bayes,判别法的后验概率、与组重心的马氏距离(,Squared,Mahalanobis,Distance to,Centroid,)以及,Fisher,判别法的每个典型判别函数的判别得分(,Discriminant,Scores,)。出于排版要求,这里给出结果表的是经过加工的,隐藏了其中的一些项目,如表,4.4,所示。从表中可以看出四个待判样本依次被判别为第三组、第一组、第二组和第三组。,表,3.4,个案观察结果表,6.,由于我们在,Save,子对话框中选择了生成表示判别结果的新变量,所以在数据编辑窗口中,可以观察到产生的新变量。其中,变量,dis-1,存放判别样品所属组别的值,变量,dis1-1,和,dis2-1,分别代表将样品各变量值代入第一个和第二个判别函数所得的判别分数,变量,dis1-2,、,dis2-2,和,dis3-2,分别代表样品分别属于第,1,组、第,2,组和第,3,组的,Bayes,后验概率值。,四,利用,SPSS,进行主成分分析,SPSS,没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤,因子的提取最常用的方法就是“主成分法”。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量。即:,其中,,z,ij,为第,j,个特征向量的第,i,个元素;,a,ij,为因子载荷阵第,i,行第,j,列的元素;,j,为第,j,个因子对应的特征根。然后再利用计算出的特征向量来计算主成分。,以下是我国,2005,年第,1,、,2,季度分地区城镇居民家庭收支基本情况。通过这个例子,介绍如何利用,SPSS,软件实现主成分分析。,(一)利用,SPSS,进行因子分析,将原始数据输入,SPSS,数据编辑窗口,将,5,个变量分别命名为,X,1,X,5,。在,SPSS,窗口中选择,AnalyzeData,ReductionFactor,菜单项,调出因子分析主界面,并将变量,X,1,X,5,移入,Variables,框中,其他均保持系统默认选项,单击,OK,按钮,执行因子分析过程。,因子分析主界面,得到如表所示的特征根和方差贡献率表,表中,Total,列为各因子对应的特征根,本例中共提取两个公因子;,% of Variance,列为各因子的方差贡献率;,Cumulative %,列为各因子累积方差贡献率,由表中可以看出,前两个因子已经可以解释,79.31%,的方差,特征根和方差贡献率表,得到如下表所示的因子载荷阵:,因子载荷阵,(二)利用因子分析结果进行主成分分析,1.,将因子载荷阵中的数据输入,SPSS,数据编辑窗口,分别命名为,a,1,和,a,2,。,2.,计算第一个特征向量:点击菜单项中的,TransformCompute,,调出,Compute variable,对话框,在对话框中输入等式:,z,1=,a,1 /,SQRT,(2.576),点击,OK,按钮,即可在数据编辑窗口中得到以,z,1,为变量名的第一特征向量。,再次调出,Compute variable,对话框,在对话框中输入等式:,z,2=,a,2 /,SQRT,(1.389),点击,OK,按钮,得到以,z,2,为变量名第二特征向量。,Compute variable,对话框,根据上表可以得到主成分的表达式:,3.,再次使用,Compute,命令,就可以计算得到两个主成分。,表,特征向量矩阵,我们得到了如下表所示的特征向量矩阵:,五,利用,SPSS,进行因子分析,(一) 操作步骤,1.,在,SPSS,窗口中选择,AnalyzeData,ReductionFactor,,调出因子分析主界面,并将变量,X,1,X,13,移入,Variables,框中。,因子分析主界面,2.,点击,Descriptives,按钮,展开相应对话框,2.,点击,Descriptives,按钮,展开相应对话框。选择,Initial solution,复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击,Continue,按钮,返回主界面。,图,Descriptives,子对话框,3.,主界面中点击,Extraction,按钮,设置因子提取的选项。,在,Method,下拉列表中选择因子提取的方法,,SPSS,提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在,Analyze,栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。在,Display,栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在,Extract,栏中指定因子提取的数目,有两种设置方法:一种是在,Eigenvalues,over,后的框中设置提取的因子对应的特征值的范围,系统默认值为,1,,即要求提取那些特征值大于,1,的因子;第二种设置方法是直接在,Number of factors,后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项,单击,Continue,按钮,返回主界面。,Extraction,子对话框,4.,点击,Rotation,按钮,设置因子旋转的方法。这里选择,Varimax,(,方差最大旋转,),,并选择,Display,栏中的,Rotated solution,复选框,在输出窗口中显示旋转后的因子载荷阵。单击,Continue,按钮,返回主界面。,Rotation,子对话框,5.,点击,Scores,按钮,设置因子得分的选项。选中,Save as variables,复选框,将因子得分作为新变量保存在数据文件中。选中,Display factor score coefficient matrix,复选框,这样在结果输出窗口中会给出因子得分系数矩阵。单击,Continue,按钮返回主界面。,6.,单击,OK,按钮,运行因子分析过程。,图,7.5 Scores,子对话框,(二) 主要运行结果解释,1. Communalities,(给出变量共同度),变量共同度反映每个变量对所提取的所有公共因子的依赖程度,此数值是因子载荷阵中每一行的因子载荷量的平方和,提取的因子个数不同,变量共同度也不同。,2. Total Variance Explained,(给出各公因子方差贡献表),Initial,Eigenvalues,给出初始相关矩阵或协差阵矩阵的特征值,用于确定哪些因子应该被提取,共有三项:,Total,列为各因子对应的特征值,本例中共有四个因子对应的特征值大于,1,,因此应提取相应的四个公因子;,% of Variance,列为各因子的方差贡献率;,Cumulative %,列为各因子的累积方差贡献率,由表一可以看出,前四个因子已经可以解释,89.651%,的方差。,Rotation Sums of Squared Loadings,给出提取出的公因子经过旋转后的方差贡献情况。,表一 特征根与方差贡献率表,表二,旋转前因子载荷阵,表三,旋转后因子载荷阵,注意:在因子表达式中的各变量为进行标准化变换后的标准变量,均值为,0,,标准差为,1,。,7.,由于我们已经在,Scores,子对话框中选择了,Save as variables,复选框,因此,因子得分已经作为新的变量保存在数据文件中,变量名分别为,fac1_1,、,fac2_1,、,fac3_1,和,fac4_1,。此后,我们还可以利用因子得分进行其他的统计分析。,表四,因子得分系数矩阵,表,7.5,是研究消费者对购买牙膏偏好的调查数据。通过市场的拦截访问,用,7,级量表询问受访者对以下陈述的认同程度(,1,表示非常不同意,,7,表示非常同意)。,V,1,:购买预防蛀牙的牙膏是重要的;,V,2,:我喜欢使牙齿亮泽的牙膏;,V,3,:牙膏应当保护牙龈;,V,4,:我喜欢使口气清新的牙膏;,V,5,:预防坏牙不是牙膏提供的一项重要利益;,V,6,:购买牙膏时最重要的考虑是富有魅力的牙齿。,六,因子分析在市场研究中的应用,表,7.5,牙膏属性评分得分表,将表,7.5,中的数据通过,SPSS,进行因子分析,得到相关结果是:,1.,特征根和累计贡献率,表,7.6,方差贡献率表,从表,7.6,可以看出,提取两个因子累计方差贡献率就达到,82%,,第三个特征根相比下降较快,因此我们选取两个公共因子。,2.,因子的含义,为了得到意义明确的因子含义,我们将因子载荷阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下表,7.7,。,表,7.7,旋转后因子载荷矩阵,从因子载荷阵可以看出:因子,1,与,V,1,(预防蛀牙),,V,3,(保护牙龈),,V,5,(预防坏牙)相关性强,其中,V,5,的载荷是负数,是由于这个陈述是反向询问的;因子,2,与,V,2,(牙齿亮泽),,V,4,(口气清新),,V,6,(富有魅力)的相关系数相对较高。因此,我们命名因子,1,为“护牙因子”,是人们对牙齿的保健态度;因子,2,是“美牙因子”,说明人们“通过牙膏美化牙齿影响社交活动”的重视。从这两方面分析,对牙膏生产企业开发新产品都富有启发意义。,
展开阅读全文