ch8主成分和因子分析

上传人:xia****ai 文档编号:243135358 上传时间:2024-09-16 格式:PPT 页数:55 大小:229KB
返回 下载 相关 举报
ch8主成分和因子分析_第1页
第1页 / 共55页
ch8主成分和因子分析_第2页
第2页 / 共55页
ch8主成分和因子分析_第3页
第3页 / 共55页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第八章,因子分析,变量的相关性,公共因子?,将多个实测变量转换成少数几个不相关的综合指数,汇报什么?,假定你是一个公司的财务经理,掌握了公司的所有数据,这包括,众多的变量,,,如:,固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等,。,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都,原封不动地摆出去吗,?,需要高度概括,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的,少数“代表”,来对它们进行描述。,需要把这种有,很多变量,的数据进行高度概括。,本章介绍两种把变量维数降低以便于描述、理解和分析的方法:,主成分分析,(,principal component analysis,),和,因子分析,(,factor analysis,)。,实际上,主成分分析可以说是因子分析的一个特例,。在引进主成分分析之前,先看下面的例子。,主成分分析,成绩数据(,student.txt,),100,个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分,)。,从本例可能提出的问题,目前的问题是,能否把这个数据的,6,个变量用一两个综合变量来表示呢?,这一两个综合变量包含有多少原来的信息呢?,能否利用找到的综合变量来对学生排序或据此进行其他分析呢?,空间的点,例中数据点是六维的;即每个观测值是,6,维空间中的一个点。希望把,6,维空间用低维空间表示。,先假定只有二维,即只有两个变量,由横坐标和纵坐标所代表;,每个观测值都有相应于这两个坐标轴的两个坐标值;,空间的点,如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少;,在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。,椭圆的长短轴,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。,但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。,如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。,椭圆的长短轴相差得越大,降维也越有道理。,主轴和主成分,多维变量的情况和二维类似,也有高维的椭球,只不过不那么直观罢了。,首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。,正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主轴。,和二维情况类似,高维椭球的主轴也是互相垂直的。,这些互相正交的新变量是原先变量的线性组合,叫做,主成分,(principal component),。,主成分之选取,选择越少的主成分,降维就越好。什么是标准呢?,那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。,有些文献建议,所选的主轴总长度占所有主轴长度之和的,大约,85%,即可,其实,,这只是一个大体的说法,;具体选几个,要看实际情况而定。,主成分分析的数学,要寻找方差最大的方向。,即,使,向量,X,的线性组合,a,X,的方差最大的方向,a.,而,Var(,a,X,)=,a,Cov(X),a,;,由于,Cov(X,),未知;,于是用,X,的,样本相关阵,R,来近似,.,要寻找向量,a,使得,a,R,a,最大,(,注意相关阵和协方差阵差一个常数),这涉及相关阵和特征值。,回顾,选择几个主成分呢,?,要看“贡献率,.”,对于我们的数据,,SPSS,输出为,这里的,Initial,Eigenvalues,就是这里的六个主轴长度,又称特征值(数据相关阵的特征值,)。,头两个成分特征值累积占了总方差的,81.142%,。后面的特征值的贡献越来越少。,特征值的贡献还可以从,SPSS,的,”,碎石,”,图看出,怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为,-0.806, -0.674, -0.675, 0.893, 0.825, 0.836,。,如用,x,1,x,2,x,3,x,4,x,5,x,6,分别表示原先的六个变量,而用,y,1,y,2,y,3,y,4,y,5,y,6,表示新的主成分,那么,第一和第二主成分为,这些系数称为主成分载荷(,loading,),,它表示主成分和相应的原先变量的相关系数。,比如,y,1,表示式中,x,1,的系数为,-0.806,,这就是说第一主成分和数学变量的相关系数为,-0.806,。,相关系数,(,绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。,可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。,该图,左面三个点是数学、物理、化学三科,,,右边三个点是语文、历史、外语三科。,图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。,因子分析,主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量,就有几个主成分。,而因子分析是事先确定要找几个成分,这里叫因子(,factor,)(,比如两个),那就找两个。,这使得在数学模型上,因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道工序:因子旋转(,factor rotation,);,这个步骤可以使结果更好。,对于计算机,因子分析并不费事。,从输出的结果来看,因子分析也有因子载荷(,factor loading,),的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。,因子分析也给出了二维图;其解释和主成分分析的载荷图类似。,主成分分析与因子分析的公式上的区别,主成分分析,因子分析,(mp),因子得分,因子分析的数学,因子分析需要许多假定才能够解,.,具体公式,.,对于我们的数据,,SPSS,因子分析输出为,这个表说明六个变量和因子的关系。为简单记,我们用,x,1,x,2,x,3,x,4,x,5,x,6,来表示,math,(,数学),,phys,(,物理),,chem,(,化学),,literat,(,语文),,history,(,历史),,english,(,英语)等变量。,这样因子,f,1,和,f,2,与这些原变量之间的关系是(注意,和主成分分析不同,这里把成分(因子)写在方程的右边,把原变量写在左边;但相应的系数还是主成分和各个变量的线性相关系数,也称为因子载荷):,这里,,第一个因子主要和语文、历史、英语三科有很强的正相关;,而第二个因子主要和数学、物理、化学三科有很强的正相关,。,因此可以给第一个因子起名为,“文科因子”,,而给第二个因子起名为,“理科因子”,。,从这个例子可以看出,因子分析的结果比主成分分析解释性更强。,这些系数所形成的散点图(在,SPSS,中也称载荷图)为,可以直观看出每个因子代表了一类学科,计算因子得分,可以根据输出,算出每个学生的第一个因子和第二个因子的大小,即算出,每个学生,的因子得分,f,1,和,f,2,。,该输出说明第一和第二主因子为(习惯上用字母,f,来表示因子)可以按照如下公式计算,该函数称为因子得分(,factor score,)。,人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子得分只是,SPSS,软件的一个选项。,因子分析和主成分分析的一些注意事项,可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。,另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。,在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系,在用因子得分进行排序时要特别小心,特别是对于敏感问题。由于原始变量不同,因子的选取不同,排序可以很不一样。,附录,的,pp,矩阵,.,而对于观测值,X=(x,1,x,p,),其中,x,i,=(x,1i,x,ni,), i=1,p,的样本相关阵第,(,ij,)-,元素为,X=(X,1,X,p,),的,相关阵为第,(,ij,)-,元素为,的,pp,矩阵,其中,s,ij,为第,i,和第,j,观测的样本相关系数,关于特征值和特征向量,特征方程,|,R-,l,I,|=0,的解为特征值,l,这里,B,为,一个,p,维正定方阵,.,l,通常有,p,个根,l,1,l,2, ,l,p,.,满足,(,R-,l,i,I,),x,i,=0,的向量,x,i,为,l,i,的,特征向量,.,对任意向量,a,有性质,头,m,个主成分的累积贡献率,:,这里,R,为,X,的样本相关阵,第,i,个特征值,l,i,=,a,i,R,a,i,=,V(,a,i,x,);,a,i,为第,i,个特征向量,.,Cov(,a,i,x,a,j,x,)=0.,这里,a,ij,为第,i,个特征向量的第,j,个分量,;,第,i,个主成分的载荷平方和为该主成分的方差,等于其特征值,l,i,.,所选的,m,个主成分对变量,x,j,的,总方差贡献,为,主成分负荷,(,载荷,loading):,Y,i,与,X,j,的,相关系数,:,正交因子模型:,X-,m,=AF+,e,m,i,=,变量,i,的均值,e,i,=,第,i,个特殊因子,F,i,=,第,i,个公共因子,a,ij,=,第,i,个变量在,第,j,个因子上的载荷,不能观测的值满足下列条件:,F,和,e,独立,E(F)=0,Cov(F,)=I,E(,e,)=0,Cov(,e,)=,Y,Y,是对角矩阵,F,为公共因子向量,每个公共因子,(,如,F,i,),是对模型中每个变量都起作用的因子,;,而,e,为特殊因子向量,每个特殊因子,(,如,e,i,),只对一个变量,(,第,i,个,),起作用,.,因子分析的方法在于估计,S,=AA+,Y,和,Y,再分解以得到,A.,X,的协方差阵,S,可以,分解成,这里,l,1,l,2, ,l,p,为,S,的特征值,;,而,e,1,e,p,为相应的特征向量,(,e,1,e,p,为主成分的系数,因此称为主成分法,),.,上面分解总是取和数的重要的头几项来近似,.,X,的协方差阵,S,可以近似为,(,如,Y,忽略,),如,Y,不忽略,S,可以近似为,应用中, S,可以用样本相关阵,R,代替,.,正交模型,X=,m,+AF+,e,的协方差结构,根据前面模型,可得出下面结果:,上面,s,ii,2,=,S,j,a,ij,2,+,y,i,2,中,S,j,a,ij,2,称为,共性方差,(,公共方差,或,变量共同度,common variance, communalities,),,而,y,i,2,称为,特殊方差,.,变量共同度刻画全部公共因子对变量,X,i,的总方差所做的贡献,.,的统计意义就是第,i,个变量与第,j,个公共因子的相关系数,表示,X,i,依赖,F,j,的,份量,这里,e,ij,是相应于特征值,l,i,的特征向量,e,i,的第,j,个分量,.,因子载荷阵中各列元素的平方和,S,j,=,S,i,a,ij,2,称为公共因子,F,j,对,X,诸变量的方差贡献之总和,因子载荷,除主成分法外还有最大似然法来估计,A,m,和,Y,(,在多元正态分布的假定下,),.,当然,还有其他方法,(,有些互相类似,).,令,T,为,任意,m,正交方阵,(TT=TT=I),则,X-,m,=AF+,e=,ATTF+,e=A,*,F,*,+,e,这里,A,*,=,AT, F,*,=,TF.,因此,S,=AA+,Y,=ATTA+,Y,=(A,*,)(A,*,)+,Y,因此,因子载荷,A,只由一个正交阵,T,决定,.,载荷,A,*,=,AT,与,A,都给出同一个表示,.,由,AA= (A,*,)(A,*,),对角元给出的共性方差,也不因,T,的选择而改变,.,正交变换,T,相当于,刚体,旋转,(,或反射,),因子载荷,A,的正交变换,AT,称为,因子旋转,估计的协方差阵或相关阵,残差阵,特殊方差及共性方差都不随旋转而变,.,这里“残差阵”为协方差阵或相关阵与估计的,AA+,Y,之差,.,因子旋转的,一个,准则为最大方差准则,.,它使旋转后的因子载荷的总方差达到最大,.,如,即要选变换,T,使下式最大,(,计算机循环算法,),需要由,X=AF,变成,F=,b,X,.,或,F,j,=,b,j1,X,1,+,b,jp,X,p,j=1,m,称为,因子得分,(,函数,),.,这通常用加权最小二乘法或回归法等来求得,.,总结,模型,X=,m,+AF+,e,因子分析的步骤,1,根据问题选取原始变量;,2,求其相关阵,R,探讨其相关性;,3,从,R,求解初始公共因子,F,及因子载荷矩阵,A(,主成分法或最大似然法,) 4,因子旋转;,5,由,X=AF,到,F=,bX,(,因子得分函数,) 6,根据因子得分值进行进一步分析,.,回到数值例子,回到我们成绩例子,.,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!