主成分分析与因子分析课件

上传人:hknru****knru 文档编号:250623141 上传时间:2024-11-03 格式:PPT 页数:67 大小:851.79KB
返回 下载 相关 举报
主成分分析与因子分析课件_第1页
第1页 / 共67页
主成分分析与因子分析课件_第2页
第2页 / 共67页
主成分分析与因子分析课件_第3页
第3页 / 共67页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,主成分分析与因子分析,辽宁工程技术大学,L.N TECHNICAL UNIVERSITY,主成分分析与因子分析辽宁工程技术大学L.N TECHNICA,1,英国统计学家,Moser Scott,1961,年在对英国,157,个城镇发展水平进行调查时,,,原始测量的变量有,57,个,,,而通过因子分析发现,,,只需要用5个新的综合变量,(,它们是原始变量的线性组合,),,就可以解释,95,的原始信息。对问题的研究从,57,维度降低到,5,个维度,,,因此可以进行更容易的分析。,著名的因子分析研究,英国统计学家Moser Scott 1961年在对英国157,2,美国统计学家,Stone,在,1947,年关于国民经济的研究,,,它根据美国,1927,年到,1938,年的数据,,,得到,17,个反映国民收入与支出的变量要素,,,经过因子分析,,,得到了,3,个新的变量,,,可以解释,17,个原始变量,97.4,的信息。根据这,3,个因子变量和,17,个原始变量的关系,,,Stone,将这,3,个变量命名为,:,Z,1,总收入,。,Z,2,总收入率。,Z,3,经济发展或衰退的趋势(时间,t,的线性部分)。,美国统计学家Stone在1947年关于国民经济的研究,它根据,3,根据这,3,个变量的命名含义,,,可以看出这,3,个新的变量是可以测量的。,Stone,把实际测量,3,个变量的值,(,C,1,,实际测量总收入,;,C,2,,实际测量总收入率,;,C,3,,时间因素,),和因子分析得到的,3,个变量值进行相关性分析,,,得到的结果如下表所示。,Z1,Z2,Z3,C1,C2,C3,Z1,1,Z2,0,1,Z3,0,0,1,C1,0.995,0.041,0.057,1,C2,0.056,0.948,0.124,0.102,1,C3,0.369,0.282,0.836,0.414,0.112,1,根据这3个变量的命名含义,可以看出这3个新的变量是可以测量的,4,在社会、政治、经济和医学等领域的研究中往往需要对反映事物的多个变最进行人量的观察,,,收集大量的数据以便进行分析,,,寻找规律。在大多数情况下,,,许多变量之间存在一定的相关关系。因此,,,有可能用较少的综合指标分析存在于各变量中的各类信息,,,这些被抽象出来的综合指标之间彼此,不相关,,,且能反映原来众多变量的主要信息,,,称之为,因子,。,因子分析,就是用少数几个因子来描述许多指标或因素之间的联系,,,以较少几个因子反映原资料的大部分信息的统计学方法。即是一种通过,显在,变量来测评,潜在,变量,通过,具体指标,测评,抽象因子,的统计分析方法。,在社会、政治、经济和医学等领域的研究中往往需要对反映事物的多,5,因子分析的特点,因子变量的数量远少于原有的指标变量的数量,,,对因子变量的分析能够减少分析中的计算工作量。,因子变量,不是,对原有变量的取舍,,,而是根据原始变量的信息进行重新组构,,,它能够反映原有变量,大部分,的信息。,因子变量之间,不,存在线性相关关系,,,对变量的分析比较方便。,因子变量具有命名解释性,,,即该变量是对某些原始变量信息的综合和反映。,因子分析的特点 因子变量的数量远少于原有的指标变量的数量,对,6,因子分析的数学模型,因子分析的出发点是用较少的相互独立的因子变量来代替原来变量的大部分信息,,,可以通过下面的数学模型来表示,:,原有变量,是均值为零、标准差为,1,的标准化变量,e,i,特殊因子,,,表示了原有变量不能被因子变量所解释的部分,,,相当于多元回归分析中的残差部分。,因子分析的数学模型 因子分析的出发点是用较少的相互独立的因子,7,因子分析中的几个概念,因子载荷,:,在各个因子变量不相关情况下,,,因子载荷,a,ij,就是第,i,个原有变量和第,j,个因子变量的相关系数,,,即,x,i,在第,j,个公共因子变量上的相对重要性。,因此,,,a,ij,绝对值越大,,,则公共因子,F,j,和原有变量,x,i,关系越强。,变量共同度,:,也称公共方差,,,反映全部公共因子变量对原有变量,x,i,的,总方差,解释说明的比例。原有变量,x,i,的共同度是因子载荷矩阵,A,中第,i,行元素第平方和,,,即,:,因子分析中的几个概念 因子载荷:在各个因子变量不相关情况下,8,公共因子,F,j,的方差贡献,:,为因子载荷矩阵,A,中第,j,列各元素的平方和,,,即,:,公共因子的方差贡献反映了该因子对所有原始变总方差的解释能力,,,其值越高,,,说明因子重要程度越高。,因子分析有两个,核心问题,:,一是如何构造因子变量,;,二是如何对因子变量进行命名解释。,公共因子Fj的方差贡献:为因子载荷矩阵A中第j列各元素的平方,9,因子分析的个基本步骤,确定待分析的原有若干变量,是否适合,于因子分析,构造因子变量,利用旋转使得因子变量更具有可解释性,计算因子变量的得分,因子分析的个基本步骤 确定待分析的原有若干变量是否适合于因子,10,确定待分析的原有若干变量是否适合于因子分析,因子分析的,潜在要求,是原有变量之间要具有比较强的,相关性,。如果原有变量之间不存在较强的相关关系,,,那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。,对原有变量作相关分析的方法是计算变量之间的,相关系数矩阵,。如果相关系数矩阵在进行统计检验中,,,大部分相关系数都小于,0.3,且,未,通过统计检验,,,那么这些变量就,不适合,进行因子分析。,SPSS,在因子分析过程中提供了如下几种检验方法来判断变量,是否适,作因子分析。,确定待分析的原有若干变量是否适合于因子分析 因子分析的潜在要,11,1、巴特利特球形检验,(,Bartlett Test of Sphericity,),巴特利特球形检验是以变量的相关系数矩阵为出发点的。,零假设,相关系数矩阵是一个单位阵。,巴特利特球形检验的统计量是根据相关系数矩阵的,行列式,得到的。如果该值较大,,,且其对应的相伴概率值小于用户心中的显著性水平,,,那么应该,拒绝,零假设,,,认为相关系数据不可能是单位阵,,,也即原始变量之间存在相关性,,,适合,作因子分析,;,相反,,,不宜于作因子分析。,1、巴特利特球形检验(Bartlett Test,12,反映像相关矩阵检验以变量的,偏相关系数矩阵,为出发点,,,将偏相关系数矩阵的每个元素,取反,,,得到反映像相关矩阵。偏相关系数是在控制了其他变量对两变量影响的条什下计算出来的相关系数,,,如果变量之间存在较多的重叠影响,,,那么偏相关系数就会较小。因此,,,如果,反映像相关矩阵,中有些元素的,绝对值,比较大,,,那么说明这些变量,不适合,作因子分析。,2,反映像相关矩阵检验,(,Anti- image COrrelation matriX,),反映像相关矩阵检验以变量的偏相关系数矩阵为出发点,将偏相关,13,3,KMO,(,Kaiser-Meyer-Olkin,),检验,KMO,统计量用于比较变量间简单相关和偏相关系数,,,计算公式如下,:,KMO,的取值范围在,0,和,1,之间。,越接近于,1,,,则所有变量之间的简单相关系数平方和远大于偏相关系数平方和,,,因此,,,越,适合,作因子分析。如果,KMO,越小,,,越不适合作因子分析。,3KMO(Kaiser-Meyer-Olkin)检验 KM,14,Kaiser,给出了一个,KMO,的标准,:,0.9,KMO,:,非常适合,;,0.8,KMO,0.9:,适合,;,0.7,KMO,0.8:,一般,;,0.6,KMO,0.7:,不太适合,;,KMO,0.5:,极不适合。,Kaiser给出了一个KMO的标准:,15,构造因子变量,基于主成分模型的,主成分,分析法,;,基于,因子分析模型,的,主轴因子法,极大似然法,最小二乘法,构造因子变量 基于主成分模型的主成分分析法;,16,主成分,分析通过坐标变换手段,,,将原有的,p,个相关变量,x,i,,,作线性变化,,,转换为另外一组不相关的变量,y,i,,,可以表示为,:,其中,k,=,1,、,2、3、,、,p,主成分分析通过坐标变换手段,将原有的p个相关变量xi,作线性,17,主成分,分析放在一个多维坐标轴中看,,,是对,x,1,、,x,2,、,x,3,x,p,组成的坐标系进行平移变换,,,使得新的坐标系原点和数据群点的重心重合,,,新坐标系的第一个轴与数据变化最大方向对应,(,占的方差最大,,,解释原有变量的能力也最强,),,新坐标的第二个轴与第一个轴正交,(,不相关,),,并且对应数据变化的第二个方向,因此称这些新轴为第一主轴,u,1,、,第二主轴,u,2,若经过舍弃少量信息后,,,原来的,p,维空间降成,m,维,,,仍能够十分有效的表示原数据的变化情况。生成的空间,L,(,u,1,,,u,2,,,u,m,),称为,“,m,维主超平面,”,。用原样本点在主超平面上的投影近似地表示原来的样本点。,主成分分析放在一个多维坐标轴中看,是对x1、 x2、 x3,18,主成分分析的步骤,数据的标准化处理,i,=,1,、,2、3、,、,n,,,n,为样本数。,j,=,1,、,2、3、,、,p,,,p,为样本原变量数目。,其中,记,主成分分析的步骤 数据的标准化处理 i =1、2、3、 、,19,计算数据 的协方差矩阵,R,求,R,的前,m,个特征值,:,以及对应的特征向量,u,1,,,u,2,,,,,u,m,,,它们标准正交。,求,m,个变量的因子载荷矩阵,计算数据 的协方差矩阵R 求R的前m个特征值:,20,确定,m,有两种方法,:,一是,,,根据特征值的大小确定,,,一般取大于,l,的特征值,;,二是,,,根据因子的,累计方差贡献率,来确定。,主成分分析产生的,m,维主超平面,,,能使,数据信息,损失尽可能小。,数据信息,,,主要反映在数据方差上,,,方差越大,,,数据中所包含的信息就越多,,,若一个事物一成不变,,,则无需对其进行研究。,前,m,个因子的,累计方差贡献率,计算方法为,:,确定m有两种方法: 主成分分析产生的m维主,21,如果数据已经标准化,,,则,:,一般方差的累计贡献率应在,80,以上,。,如果数据已经标准化,则:一般方差的累计贡献率应在80以上。,22,因子变量的命名解释,经过主成分分析得到的,u,1,,,u,2,,,u,m,,,是对原变量的综合,,,原变量都是有物理含义的变量。对它们进行线性变换后,,,得到的新综合变量物理含义即是因子变量的命名解释,,,它可以进一步说明影响原变量系统构成的主要因素和系统特征。,实际分析时,,,主要通过对载荷矩阵,A,的值进行分析,,,得到因子变量和原变量的关系,,,从而对新的因子变量进行命名。,因子变量的命名解释 经过主成分分析得到的u1,u2,um,23,载荷矩阵,A,中,某一行,中可能有多个,a,ij,比较大,,,说明某个原有变量,x,i,可能同时与几个因子有比较大的相关关系。,载荷矩阵,A,中,某一列,中也可能有多个,a,ij,比较大,,,说明某个因子变量可能解释多个原变量的信息。但它只能解释某个变量一小部分信息,,,不是任何一个变量的典型代表。,会使某个因子变量的含义模糊不清。在实际分析中,,,希望对因子变量的含义有比较清楚的认识。这时,,,可以通过,因子矩阵,的,旋转,来进行。,正交旋转、斜交旋转、方差极大法,,,其中最常用的是方差极大法。,载荷矩阵A中某一行中可能有多个aij比较大,说明某个原有变量,24,计算因子得分,因子变量确定后,,,对每一样本数据,,,我们希望得到它们在不同因子上的具体数据值,,,这些数值就是,因子得分,,,它和原变量的得分相对应。有了因子得分,,,在以后的研究中,,,就可以针对维数少的因子得分来进行。,计算因子得分首先将因子变量表示为原有变量的线性组合,,,即,:,j,=,1、2、3,、 、,m,计算因子得分 因子变量确定后,对每一样本数据,25,估计因子得分的方法有,:,回归法,Bartlette,法,Anderson-Rubin,法,SPSS,中实现步骤,:,下表为,20,名大学生关于价值观的,9,项测验结果,,,包括合作性、对分配的看法、行为出发点、工作投入程度、对发展机会的看法、社会地位的看法、权力距离、对职位升迁的态度、以及领导风格的偏好。要求根据这,9,项内容进行因子分析,,,得到维度较少的几个因子。,估计因子得分的方法有: SPSS中实现步骤: 下表,26,合作性,分配,出发点,工作投入,发展机会,社会地位,权力距离,职位升迁,领导风格,16,16,13,18,16,17,15,16,16,18,19,15,16,18,18,18,17,19,17,17,17,14,17,18,16,16,16,17,17,17,16,19,18,19,20,19,16,15,16,16,18,18,15,16,16,20,17,16,17,18,18,17,19,18,18,16,16,20,15,16,19,14,17,20,18,18,17,18,19,18,19,18,14,16,15,19,19,19,18,19,14,19,19,20,14,18,20,19,17,20,19,19,14,14,16,17,16,17,18,15,15,18,16,18,18,19,17,18,16,17,15,17,15,18,16,14,13,17,14,12,14,14,18,15,15,13,14,16,14,15,16,16,17,16,17,10,11,13,18,17,20,17,16,20,16,17,15,16,14,16,14,15,17,15,16,15,17,16,16,16,15,16,16,19,18,15,17,12,19,18,18,16,16,13,18,16,17,15,16,16,合作性分配出发点工作投入发展机会社会地位权力距离职位升迁领导,27,主成分分析与因子分析课件,28,Statistics,:,Univariate descriptives,:,要求输出各变量的均数与标准差。,Initial solulion,:,表示输出初始分析结果。输出的是因子提取前分析变量的公因子方差,,,是一个中间结果。对主成分分析来说,,,这些值是要进行分析变量的相关或协方差矩阵的对角元素,;,对因子分析模型来说,,,输出的是每个变量用其他变量作预测因子的载荷平方和。,Statistics:,29,Correlation Matrix,:,Coefficients,:,要求计算相关系数矩阵。,Significance levels,:,显著性水平。选择此项给出每个相关系数的单尾假设检验的水平。,Determinant,:,相关系数矩阵的行列式。,Inverse,:,相关系数矩阵的逆矩阵。,Reproduced,:,此项给出因子分析后的相关阵,,,还给出残差,,,即原始相关与再生相关之间的差值。,Anti-image,:,反映像相关矩阵检验。反映像相关阵,,,包括偏相关系数的取反,;,反映像协方差阵,,,包括偏协方差的取反。一个好的因子中,,,除了对角线上系数较大外,,,其他元素应该比较小。,KMO and Bartletts test of sphericity,:,KMO,检验,,,检验变量间的偏相关是否很小,;,巴特利特球形检验,,,检验相关阵是否是单位阵。,Correlation Matrix:,30,Method,下拉框中,:,Principal components,:,主成分分析法。该方法假定原变量是因子变量的线性组合。第一主成分有最大的方差,,,后续成分可解释的方差越来越少。,Unweighted least squares,:,未加权最小平方法,,,该方法使得观测的和再生的相关矩阵之差的平方和最小,,,不记对角元素。,Generalized least squares,:,综合最小平方法,,,用变量的倒数值加权,,,使得测的和再生的相关矩阵之差的平方和最小。,Maximum likelihood,:,极大似然估计法,,,此方法不要求多元正态分布。,Method下拉框中:,31,Method,下拉框中,:,Principal aXis factoring,:,主轴因子法,,,用多元相关的平方作为对公因子方差的初始估计。初始估计公因子方差是多元相关系数的平方置于对角线上。这些因子载荷用于估计新公因子方差,,,替换对角线上的前一次公因子方差估计。迭代持续到公因子方差的变化满足提取因子的收敛判据为止。,Alpha factoring,:,a,因子法。,Image factoring,:,映像因子提取法,,,也称多元回归法。由,Guttman,提出,,,根据映像学原理提取公因子的方法。把一个变量看出其他各个变量的多元回归。,Method下拉框中:,32,Analyze,框用于选择提取因子变量的依据,:,correlation matrix,:,表示依据相关系数矩阵。,Covariance matrix,:,表示依据协方差矩阵。,Extract,框用于指定因子个数的标准,,,其中,:,Eigenvaluse over,:,表示该选项后面可以输入一个特征值,,,SPSS,将提取特征值大于该值的因子,,,SPSS,默认为,1,。,指定特征值提取因子个数是,SPSS,默认的方法。,Number of factors,:,表示该选项后面可以输入要提取因子的个数。,SPSS,将提取指定个数的因子。理论上有多少个变量,,,就可以有多少个因子,,,因此输入的数值应该介于,O,和分析变量数之间的整数。,Analyze框用于选择提取因子变量的依据:Extract框,33,Display,栏,,,指定与因子提取有关的输出项,Unrotated factor solution,:,要求显示未经旋转的因子提取结果,,,此项为系统默认的输出方式。,Scree plot,:,要求显示按特征值大小排列的因子序号,,,以特征值为两个坐标轴的陡坡图,,,可以有助于确定保留多少个因子,,,典型的陡坡图会有一个明显的拐点,,,在该点之前是与大因子连接的陡峭的折线,,,之后是与小因子相连的缓坡折线。,Display栏,指定与因子提取有关的输出项 Unrot,34,Method,框用于选择因子旋转方法,,,其中,:,None,:,不作因子旋转。,Varimax,:,方差极大法旋转,,,又称正交旋转。它使得每个因子上的具有最高载荷的变量数目最小,,,因此可以简化对因子的解释。,Direct Oblimin,:,直接斜交旋转,,,指定该项,,,可以在下面的矩形框中输入,Delta,值,,,该值在,01,之间,。,0,值产生最高的相关系数。,Quartimax,:,四分最大正交旋转,,,对变量作旋转,,,该方法使得每个变量中需要解释的因子数最少。,Equamax,:,平均正交旋转,,,是,Varimax,方法和,Quartimax,方法的结合,,,对变量和因子均作旋转。,Promax,:,斜交旋转方法,,,允许因子间相关。它比直接斜交旋转更快,,,适用于大数据的因子分析。,Method框用于选择因子旋转方法,其中:,35,Display,框用于选择输出哪些与因子旋转有关的信息,,,其中,:,Rotated solution,:,输出旋转后的因子载荷矩阵,,,对于正交旋转方法,,,给出的旋转以后的因子矩阵模式和因子转换矩阵,;,对于斜交旋转显示旋转以后的因子矩阵模式、因子结构矩阵和因子间的相关矩阵。,Loading plot,:,输出载荷散点图。指定该项将给出两两因子为坐标的各个变量的载荷散点图。如果有两个因子,,,则给出各原始变量在因子1和因子,2,坐标系中的散点图。如果多于两个,,,则给出前,3,个因子的三维因子载荷散点图。如果只提取出了一个因子,,,则不会输出散点图。选择此项,,,给出的旋转以后的因子载荷图。,Display框用于选择输出哪些与因子旋转有关的信息,其中:,36,该对话框选择对因子得分进行设置,,,其中,:,Save as variables,:,将因子得分作为新变量保存在数掘文什中。程序运行结束后,,,存数据编辑窗口中将显示出新变量。可在,Method,框中选择,3,种估计因子得分系数的方法,:,Regression,:,其因子得分均值为,0,,,方差等于估计因子得分与实际因子得分之间的多元相关的平方。,Bartlett,:,巴特立特法。因子得分均值为,0,,,超出变量范围的各因子平方和被最小化。,AndersonRubin,:,因子得分均值为,0,,,标准差为,1,,彼此不相关。,Display factor score coefficient matrix,:,显示因子得分系数矩阵。,该对话框选择对因子得分进行设置,其中:,37,该对话框可以指定输出其他因子分析的结果,,,并选择对缺失数据的处理办法。其中,:,Missing Values,框用于选择缺失值处理方法,:,Regression Exclude cases listwise,:,去除所有含缺失值的个案后再进行分析。,Exclude cases pairwise,:,当分析计算涉及到含有缺失值的变量,,,则去掉在该变量上是缺失值的个案。,Replace with mean,:,当分析计算涉及到含有缺失值的变量时,,,用平均值代替该缺失值。,该对话框可以指定输出其他因子分析的结果,并选择对缺失数据的处,38,Coefficient Display Format,框用于选择载荷系数的显示格式,:,Sorted by size,:,载荷系数按照数值的大小排列,,,并构成矩阵,,,使得在同一因子上具有较高载荷的变量排列在一起,,,便于得到结论。,Suppress absolute values less than,:,不显示哪些绝对值小于指定值的载荷系数。选中此项,,,需要在后面的框中输入一个,01,之间的数,,,系统默认该值为,O.1,。选择该项可以突出载荷较大的变量。,Coefficient Display Format框用于,39,主成分分析与因子分析课件,40,相关系数矩阵,相关系数矩阵,41,若,X,服从,标准正态,分布,,,那么,:,a,z,a,P,(,X,z,a,/2,),a,P,(,X,z,a,),a,一个总体,方差已知,时,均值,的置信区间,若 X 服从标准正态分布,那么:a za P( X za,42,定理,若随机变量,则有如下定理成立:,(1),(2),因为 服从,标准,正态,分布,,,所以:,P,(,z,a,),a,P,(,z,a,/2,),a,定理若随机变量则有如下定理成立:(1)(2)因为,43,这是一个双尾检验问题,设定假设:,则拒绝,反之接受。,(二)等级相关系数的检验。同积矩相关系数。,这是一个双尾检验问题设定假设:则拒绝反之接受。(二)等级相关,44,相关系数矩阵的逆矩阵,KMO,检验和,Bartlett,球度检验结果,相关系数矩阵的逆矩阵KMO检验和Bartlett球度检验结果,45,反映像相关矩阵,反映像相关矩阵,46,因子分析初始结果,因子分析初始结果,47,因子提取和因子旋转结果表,因子提取和因子旋转结果表,48,陡坡图(公共因子碎石图),陡坡图(公共因子碎石图),49,因子载荷矩阵,因子载荷矩阵,50,因子载荷旋转矩阵,因子载荷旋转矩阵,51,因子转换矩阵,因子转换矩阵,52,载荷散点图,载荷散点图,53,因子得分矩阵,因子得分矩阵,54,因子变量的协方差矩阵,因子变量的协方差矩阵,55,主成分分析与因子分析课件,56,现有沪、深两市证券交易所48家上市公司的13个财务指标数据:,流动比率,x,1,、速动比率,x,2,、总资产周转率,x,3,、存货周转率,x,4,、营运资本,x,5,、每股收益,x,6,、,净利润增长率,x,7,、每股收益增长率,x,8,、,主营业务毛利率,x,9,、主营业务利润率,x,10,、,成本费用利润率,x,11,、净资产收益率,x,12,、,总资产利润率,x,13,。,分析结果如下:,现有沪、深两市证券交易所48家上市公司的13个财务指标数据:,57,主成分分析与因子分析课件,58,主成分分析与因子分析课件,59,主成分分析与因子分析课件,60,主成分分析与因子分析课件,61,主成分分析与因子分析课件,62,主成分分析与因子分析课件,63,主成分分析与因子分析课件,64,主成分分析与因子分析课件,65,主成分分析与因子分析课件,66,主成分分析与因子分析课件,67,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!