第8章-因子分析与聚类分析(含SPSS)课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第八章,因子分析与聚类分析,本章内容,第一节因子分析,第二节聚类分析,第一节因子分析,一、因子分析的概念和特点,（一）因子分析的概念,因子分析（,factor analysis,）是利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。,在会计实证研究中，因子分析发挥着重要的作用，如变量构造、变量筛选和综合评价等。,（二）因子分析的特点,1,、因子变量的数量远少于原有指标变量的数量。,2,、因子变量并不是原有变量的简单取舍，而是对原有变量的重新组构。,3,、因子之间线性关系不显著。,4,、因子变量具有命名解释性。,二、因子分析的数学模型和相关概念,（一）因子分析的数学模型,因子分析的数学模型为：,（,8.1,）,写成矩阵形式为，其中为原始变量向量，为公因子载荷矩阵，为公共因子，为特殊因子。,（二）因子分析中的基本概念,1,、因子的含义,因子分析法中提到两种因子：公共因子和特殊因子。,公共因子是每个原有变量的线性表达式中都共同出现的因子，各公因子都是均值为,0,，方差为,1,的独立正态随机变量。其协方差矩阵为单位矩阵。,特殊因子表示原有变量不能被公共因子解释的部分，其均值为,0,。,各特殊因子之间以及特殊因子与所有公共因子之间都是互相独立的。,2,、因子载荷,模型中各公共因子的系数称为因子载荷，反映了第个变量在第个公共因子上的相对重要性，，的绝对值越大，表明与的相依程度越大。,3,、变量共同度,因子载荷矩阵中第行元素的平方和，称为变量的共同度，即变量方差。此值越接近,1,，表明该变量的几乎全部原始信息都被所选择的公共因子说明了。此值接近于,0,，说明公共因子对的影响很小，主要由特殊因子来描述。,4,、因子的方差贡献,因子的方差贡献是因子载荷矩阵中第列元素的平方和，反映了因子对原有变量总方差的解释能力，是衡量公共因子相对重要性的指标。此值越大，表明相应因子的重要性越高。计算出所有的指标，按其大小排序，就可以提炼出最有影响的公共因子。,三、因子分析的步骤,（一）因子分析的适合性检验,1,、相关矩阵和反映像相关矩阵,相关矩阵中大部分相关系数都小于,0.3,，那么原则上这些数据不适合做因子分析。另外，如果反映像相关矩阵中除对角元素外，其他大多数元素的绝对值均较小，对角线上元素的值较接近,1,，则适合进行因子分析。,2,、检验,检验统计量是用于比较变量间简单相关系数和偏相关系数的指标，取值在,0,和,1,之间。值越接近于,1,，意味着变量间的相关性越强，原有变量越适合做因子分析。,3,、巴特利特球度检验（,Bartlett test of,sphericity,）,巴特利特球度检验以原有变量的相关系数矩阵为出发点，其,零假设是：相关矩阵为单位阵，即相关系数矩阵为对角矩阵,。巴特利特球度检验的检验统计量是根据相关系数矩阵的行列式计算得到，且近似服从卡方分布。如果该统计量的观察值比较大且相伴概率值小于或等于给定的显著性水平，则应拒绝原假设；反之，如果该统计量的观察值比较小且相伴概率值大于给定的显著性水平，则不应拒绝原假设。,（二）因子提取和因子载荷矩阵的求解,因子分析的关键是根据样本数据求解因子载荷矩阵，,SPSS,提供了,7,种提取因子的方法，其中占主要地位且使用最为广泛的是主成分分析法。,因子提取通常有以下三种方法：（,1,）特征值准则，即取特征值大于等于,1,的主成分作为初始因子，放弃特征值小于,1,的主成分。（,2,）累积方差贡献率，因子累积解释的方差比例也是确定因子个数时可以参考的指标，一般应达到,70%-85%,或以上。（,3,）碎石检验准则，按照因子被提取的顺序，画出因子的特征值随因子个数变化的散点图，图形由陡变平，曲线开始变平的前一个点被认为是提取的最大因子数。,（三）因子命名,在因子分析模型中，公共因子与因子载荷阵的解不是唯一的。因子分析的目的不仅是找出主因子，更重要的是知道每个主因子的意义，以利于对公共因子命名和解释结果，便于进一步的分析。若每个公共因子的涵义不清，难以找到合理的解释，可对因子载荷矩阵实行旋转，使每个变量仅在一个公共因子上有较大的载荷，而在其他公共因子上的载荷较小。,SPSS,中有,5,种因子旋转的方式可供选择：,Varimax,选项，方差最大旋转；,Direct,Oblimin,选项，直接斜交旋转；,Quartimax,选项，四次最大正交旋转；,Equamax,选项，平均正交旋转；,Promax,选项，斜交旋转方法。,（四）计算因子得分，然后将它们用于各种进一步的分析中,当因子确定以后，便可以计算各因子在每个样本上的具体数值，这些数值称为因子得分，形成的变量称为因子变量。于是在以后的分析中就可以因子变量代替原有变量进行数据建模，或者利用因子变量对样本进行分类或评价等研究，进而实现降维和简化问题的目标。,由于因子得分函数中方程的个数小于变量的个数，因此不能精确的计算出因子得分，只能对因子得分进行估计。估计的方法很多，,SPSS,中列示了三种方法，常用的是,Regression,回归法。,用因子得分还可以计算因子总分，根据因子总分可对样本（变量）进行排序或归类，作为评价的依据。,四、因子分析在,SPSS,中的实现,1,、建立或打开数据文件后，进入,AnalyzeData,ReductionFactor,Analysis,主对话框，如图,8-1,所示。,图,8-1,因子分析主对话框,2,、把参与分析的变量选到,Variables,框中。,3,、,Selection Variable,选择变量栏，用于限制有特殊值的样本子集的分析，当一个变量进入该栏时，激活右侧的“,Value”,按钮。待“,Value”,按钮激活后，单击该键，打开,Set Value,对话框，如图,8-2,所示，可在该对话框键入标识参与分析的观测量所具有的该变量值。,图,8-2 Set Value,对话框,4,、单击“,Descriptivs,”,按钮，展开,Descriptives,对话框，如图,8-3,所示，可以选择单变量的描述统计量和初始分析结果。,图,8-3,Descriptives,对话框,（,1,）,Statistics,统计量框,Univariate,descriptive,复选项，单变量描述统计量。,Initial solution,复选项，初始分析结果。,（,2,）,Correlation Matrix,相关矩阵框,Coefficients,复选项，显示相关系数。,Significance levels,复选项，显示相关系数的显著性水平。,Determinant,复选项，显示相关系数矩阵的行列式。,Inverse,复选项，显示相关系数矩阵的逆矩阵。,Reproduced,选项，显示再生相关阵。,Anti-image,复选项，选择此项给出反映象相关矩阵。,and Bartletts test of,Sphericity,复选项，要求进行检验和球形,Bartlett,检验。,5,、单击“,Extraction”,按钮，进入,Extraction,对话框，如图,8-4,所示，可以选择不同的提取公因子的方法和控制提取结果的判据。,图,8-4 Extraction,对话框,（,1,）,Method,框，因子提取方法选择项,Principal components,选项，主成份法。,Unweighted,least Square,选项，不加权最小平方法。,Generalized least squares,选项，用变量值的倒数加权。,Maximum,Likelihoud,选项，最大似然法。,Principal Axis factoring,选项，使用多元相关的平方作为对公因子方差的初始估计。,Alpha factoring,选项，因子提取法。,Image factoring,选项，映象因子提取法。,（,2,）,Analyze,框，指定分析矩阵的选择项。,Correlation Matrix,选项，指定以分析变量的相关矩阵为提取因子的依据。,Covariance matrix,选项，指定以分析变量的协方差矩阵为提取因子的依据。,（,3,）,Display,框，指定与因子提取有关的输出项。,Unrotated,factor solution,复选项，要求显示未经旋转的因子提取结果。,Scree,plot,复选项，要求显示按特征值大小排列的因子序号，以特征值为两个坐标轴的碎石图。,（,4,）,Extract,框，控制提取进程和提取结果的选择项。,Eigenvalues,over,选项，指定提取的因子应该具有的特征值范围，在此项后面的矩形框中给出。,Number of factors,选项，指定提取公因子的数目。,（,5,）,Maximum iterations for Convergence,参数框，指定因子分析收敛的最大迭代次数。,6,、单击“,Rotation”,按钮，展开,Rotation,对话框，如图,8-5,所示，可以选择因子旋转方法。,图,8-5 Rotation,对话框,（,1,）,Method,框，选择旋转方法。其中，,None,表示不进行旋转，,Varimax,为方差最大旋转法，,Direct,Oblilmin,为直接斜交旋转法，,Quartmax,为四次最大正交旋转法，,Equamax,为平均正交旋转法，,Promax,为斜交旋转法。,（,2,）,Display,框，选择有关输出的选项。其中：,Rotated solution,选项，显示旋转结果；,Loading,plot(s,),选项，显示因子载荷散点图。,（,3,）,Maximum iterations for Convergence,参数框，指定旋转收敛的最大迭代次数。,7,、单击“,Scores”,按钮，进入,Factor Scores,对话框，如图,8-6,所示，可以要求计算因子得分，选择显示或作为新变量保存。,图,8-6 Factor Scores,对话框,（,1,）,Save as variables,复选项，将因子得分作为新变量保存在数据文件中。,（,2,）,Method,栏，指定计算因子得分的方法。其中，,Regression,选项为回归法，,Bartlett,选项为巴特利特法，,Anderson-Rubin,选项是为了保证因子的正交性而对,Bartlett,因子得分的调整。,（,3,）,Display factor score coefficient matrix,复选项，选择此项将在输出窗中显示因子得分系数矩阵，是标准化的得分系数。原始变量值进行标准化后，可以根据该矩阵给出的系数计算各观测量的因子得分，还显示协方差矩阵。,8,、单击“,Options”,按钮，进入,Options,对话框，可以进一步选择各种输出项。如图,8-7,所示。,图,8-7 Options,对话框,（,1,）,Missing Values,栏，选择处理缺失值方法。,Exclude cases,listwise,选项，在分析过程中对那些指定的分析变量中有缺失值的观测量一律剔除。,Exclude cases,pairwise,选项，成对剔除带有缺失值的观测量。,Replace with mean,选项，用该变量的均值代替该变量的所有缺失值。,（,2,）,Coefficient Display Format,栏，决定载荷系数的显示格式。,Sorted by size,复选项，选中此项载荷系数按其数值的大小排列并构成矩阵。,Suppress absolute values less than,复选项，选中此项，不显示那些绝对值小于指定值的载荷系数。,第二节聚类分析,一、聚类分析概述,（一）聚类分析的概念,聚类分析是一种建立分类的多元统计分析方法，它能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类，将所有的样本或变量分别聚合到不同的类中，使同一类中的个体有较大的相似性，不同类中的个体差异较大。,所谓“没有先验知识”是指没有事先指定分类标准；所谓“亲疏程度”是指在各变量（特征）取值上的总体差异程度。,（二）层次聚类和,K-Means,聚类,1,、层次聚类,层次聚类又称分层聚类、系统聚类，是指聚类过程是按照一定层次进行的。层次聚类按照不同特征分为以下两种：,（,1,）按照对象类型分为型聚类和型聚类,型聚类是对样本进行分类，主要作用为：可综合利用多个变量的信息对样本进行分类；分类结果直观，聚类谱系图非常清楚地表现分类结果；所得结果比传统分类方法更细致、全面、合理。,型聚类是对变量进行分类处理，主要作用为：可了解个别变量之间及变量组合之间的亲疏程度；根据变量的分类结果以及它们之间的关系，可以选择主要变量进行回归分析或型聚类分析。,（,2,）根据聚类过程不同分为凝聚法和分解法。,分解法：聚类开始把所有个体,(,观测量或变量,),都视为属于一大类，然后根据距离和相似性逐层分解，直到参与聚类的每个个体自成一类为止。,凝聚法：聚类开始把参与聚类的每个个体,(,观测量或变量,),视为一类，根据两类之间的距离或相似性逐步合并，直到合并为一个大类为止。,无论哪种方法，其聚类原则都是近似的聚为一类，即距离最近或最相似的聚为一类。实际上以上两种方法是方向相反的两种聚类过程。,2,、,K-Means,聚类,K-Means,聚类也称快速聚类，它仍将数据看成维空间上的点，仍以距离作为测度个体“亲疏程度”的指标，并通过牺牲多个解为代价换得高的执行效率。,K-Means,聚类的核心步骤为：第一步，指定聚类数目；第二步，确定个初始类中心；第三步，根据距离最近原则进行分类；第四步，重新确定个类中心；第五步，判断是否已满足终止聚类分析的条件。,从上述分析过程可以看出，,K-Means Cluster,快速聚类是一个反复迭代的分类过程。在聚类过程中，样本所属的类会不断调整，直到最终达到稳定为止。快速聚类适用于大样本的聚类分析。它能快速的把各观测量分到各类中去。,（三）聚类分析的几点说明,1,、所选择的变量应符合聚类的要求,可根据实际工作经验和所研究问题的特征人为的选择变量，这些变量应该和分析的目标密切相关，反映分类对象的特征。,2,、各变量的变量值不应有数量级上的差异,为了避免对变量单位选择的依赖，数据应当标准化。,3,、各变量间不应有较强的线性相关关系,如果所选变量之间存在较高的线性关系，有两种处理方法：（,1,）首先进行变量聚类，从每类中选一代表性变量，再进行样本聚类；（,2,）进行主成分分析或因子分析，降维，使之成为不相关的新变量，再进行样本聚类。,二、聚类分析中“亲疏程度”的度量,（一）个体间“亲疏程度”的度量,聚类分析中，对“亲疏程度”的测度一般有两个角度：第一，个体之间的相似程度；第二，个体之间的差异程度。在,SPSS,中，对不同度量类型的数据采用了不同的测定亲疏程度的统计量。,1,、定距型变量个体间距离的计算方式,通常有欧式距离（,Euclidean distance,）、平方欧式距离（,Squared Euclidean distance,）、夹角余弦（,Cosine,）距离、相关系数距离（,Pearson correlation,）、切比雪夫距离（,Chebychev,：,Chebychev,）、,Block,距离（,City-Block,）或,Manhattan,距离、明考斯基距离（,Minkowski,）、用户自定义距离（,Customized,）等,8,种方法。这些方法分别适用于型聚类和型聚类,2,、计数变量个体间距离的计算方式,如果所涉及的个变量都是计数（,Count,）的非连续变量，对计数变量的不相似性测度方法，是根据被计算的两个观测量或两个变量总频数计算其不相似性。期望值来自观测量或变量的独立模型。个体间距离的定量通常有卡方距离（,Chi-Square measure,）,Phi,方距离（,Phi-Square measure,）两种方式：,3,、二值变量个体间距离的计算方式,如果所涉及的个变量都是二值（,Binary,）变量，那么个体间距离的定义通常有简单匹配系数（,Simple matching,和雅科比系数（,Jaccard,）两种方式。,（二）个体与小类、小类与小类间亲疏程度的度量,在,SPSS,中提供了多种度量个体与小类、小类与小类间亲疏程度的方法，如最短距离法（,Nearest neighbor,）、最长距离法（,Furthest neighbor,）、中间距离法（,Median clustering,）、组间平均链锁法（,Between-groups linkage,）、组内平均链锁法（,Within-groups linkage,）、重心法（,Centroid,clustering,）、离差平方和法（,Wards method,）。,在一般情况下，用不同的方法聚类的结果是不会完全一致的。在实际应用中，一般采用以下两种处理方法：根据分类问题本身的专业知识结合实际需要来选择分类方法，并确定分类个数；多用几种分类方法去作，把结果中的共性提出来，对有争议的样本用判别分析去归类。,三、层次聚类在,SPSS,中的实现,1,建立或打开数据文件后，进入,AnalyzeClassify-,Hierachical,Cluster Analysis,主对话框，如图,8-9,所示。,图,8-9,层次聚类对话框,2,、把参与分析的变量选到,Variable,（,s,）框中。,3,、把一个字符型变量作为标记变量选到,Label Cases,框中，它将大大增加聚类分析结果的可读性。,4,、在,Cluster,框中选择聚类类型。其中,Cases,项表示进行型聚类，,Variables,项表示进行型聚类。,5,、在,Display,框中选择输出内容。其中,Statistics,表示输出聚类分析的相关统计量，,Plots,表示输出聚类分析的相关图形。,6,、单击,Statistics,按钮，选择要求输出的统计量，如图,8-10,所示。,图,8-10 Statistics,对话框,(1) Agglomeration schedule,复选项，表示输出聚类分析的凝聚状态表。,(2) Proximity Matrix,复选项，表示输出个体间的距离矩阵。产生什么类型的矩阵取决于在,Method,对话框中,Measure,栏中的选择。,(3) Cluster Membership(,类成员栏,),选项，显示每个观测量被分派到的类或显示若干步凝聚过程。其中：,None,选项，不显示类成员表，是系统默认值。,Single solution,选项，要求列出聚为一定类数的各观测量所属的类。,Range of solutions,选项，要求列出某个范围中每一步各观测量所属的类。,7,、单击,Plots,按钮，选择输出统计图表，如图,8-11,所示。,图,8-11 Plots,对话框,(1),Dendrogram,复选项，表示输出聚类分析的树形图。,(2) Icicle,复选项，表示输出聚类分析的冰柱图，其中：,All clusters,选项，聚类的每一步都表现在图中。,Specified range of clusters,选项，指定显示的聚类范围。,None,，不生成冰柱图。,(3) Orientation,栏指定如何显示冰柱图，其中,Vertical,表示纵向显示，,Horizontal,表示横向水平的冰柱图。,8,、单击“,Method”,按钮，展开,Method,分层聚类分析的方法选择对话框，如图,8-12,所示。,图,8-12 Method,对话框,（,1,）,Cluster Method,表中列出可以选择的聚类方法有,Between-groups linkage,（类间平均链锁）、,Within-groups linkage,（类内平均链锁法）、,Nearest neighbor,（最近邻居法）、,Furthest neighbor,（最远邻居法）、,Centroid,clustering,（重心法）、,Median clustering,（中间距离法）、,Wards method,（离差平方和法）。,(2) Measure,框中给出的是不同变量类型下的个体距离的计算方法，其中,Interval,框中的方法适用于连续性定距变量，,Counts,框中的方法适用于计数型变量，,Binary,框中的方法适用于二值变量。,（,3,）单击,Transform Values,框中的,Standardize,右侧向下的箭头按钮，展开标准化方法列表，只有选择了,Interval,或,Counts,后才可以进行标准化。,By variable,适用于型聚类分析；,By case,适用于型聚类分析。,对数据进行标准化的可选择的方法有：,None,选项，不进行标准化；,scores,选项，把数值标准化到分数；,Range -1 to 1,选项，把数值标准化到,-1,到,+1,的范围内；,Range 0 to l,选项，把数值标准化到,0,到,+1,的范围内；,Maximum magnitude of 1,选项，把数值标准化到最大值,1,；,Mean of 1,选项，把数值标准化到一个均值的范围内；,Standard deviation of 1,选项，把数值标准化到单位标准差。,(4) Transform Measure,框为测度的转换方法选择栏。其中：,Absolute Values,复选项，把距离值取绝对值。当数值符号表示相关方向，且只对负相关关系感兴趣时，使用此方法进行变换。,Change sign,复选项，把相似性值变为不相似性值或相反，用求反的方法使距离顺序颠倒。,Rescale to 01 range,复选项，通过首先减去最小值然后除以范围的方法使距离标准化。,9,、聚类分析的结果可以用新变量保存在工作数据文件中。单击主对话框的“,Save”,按钮，展开相应的对话框，如图,8-13,所示。,图,8-13 Save New Variables,对话框,（,1,）,None,选项，不建立新变量。,（,2,）,Single solution,选项，即单一结果。,（,3,）,Range of solutions,选项，即指定范围内的结果。,10,、执行,Cluster,过程，点击主对话框中的“,OK”,按钮即可。,四、快速样本聚类在,SPSS,中的实现,1,建立或读入数据文件后，进入,Analyze-Classify- K-Means Cluster Analysis,对话框，如图,8-15,所示。,图,8-15 K-Means Cluster Analysis,对话框,2,、指定参与,K-Means,聚类的变量放入,Variables,框中。,3,、把一个字符型变量作为标记变量选到,Label Cases,框中，它将大大增加聚类分析结果的可读性。,4,、在,Number of Clusters,框中输入聚类数目，该数应小于样本数。,5,、在,Method,框中指定聚类过程是否调整类中心点。其中，,Iterate and classify,表示在聚类分析的每一步都重新确定类中心点；,Classify only,表示聚类分析过程中类中心点始终为初始类中心点，此时仅进行一次迭代。,6,、,Cluster Centers,栏内。,Read initial from,复选框要求使用指定数据文件中的观测量作为初始类中心。,Write final as,复选框要求把聚类结果中的各类中心数据保存到指定的文件中。,7,、控制聚类分析过程的选项。在对话框中单击,Iterate,按钮，展开设置迭代参数的对话框，如图,8-16,所示。,图,8-16,指定迭代参数对话框,（,1,）,Maximum Iterations,参数框：限定,K-Means,算法的迭代次数。,（,2,）,Convergence Criterion,参数框：指定限定,K-Means,算法的收敛判据。,（,3,）,Use running means,复选框：选中该框，限定在每个观测量被分配到一类后，即刻计算新的类中心。,8,、在对话框中单击,Save,按钮，展开,Save New Variables(,保存新变量,),对话框，如图,8-17,所示。,图,8-17 Save New Variables,对话框,（,1,）选择,Cluster Member,复选框，要求在当前工作数据文件中（数据窗口中）建立一个新变量，系统默认变量名为,qxl_1,。,（,2,）选择,Distance from cluster center,复选框，要求在当前工作数据文件中（数据窗口中）建立一个新变量，系统默认变量名为,qcl_2,。,9,、在对话框中单击,Options,对话框，打开如图,8-18,的选择对话框。,图,8-18 Options,对话框,（,1,）在,Statistics,栏中可以选择要求计算和输出的统计量有：,Initial cluster centers,复选框，表示输出初始类中心；,ANOVA table,复选框，表示以聚类分析产生的类为控制变量，以个变量为观测变量进行单因素分析，并输出各个变量的方差分析表；,Cluster information for each case,复选框，表示输出每个观测量的分类信息及距所属类中心的距离。,（,2,）在,Missing Values,栏中选择一种处理带有缺失值观测量的方法。,Exclude cases,listwise,选项，将出现在,Variables,变量表中变量带有缺失值得观测量从分析中剔除；,Exclude cases,pairwise,选项，只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除，否则，根据所有其他非缺失变量值把它分配到最近的一类中去。,谢谢！,

展开阅读全文

第8章-因子分析与聚类分析(含SPSS)课件

最新文档