统计学-主成分分析和因子分析.ppt

资源描述

统计学,从数据到结论,第十章主成分分析和因子分析,汇报什么？,假定你是一个公司的财务经理，掌握了公司的所有数据，这包括众多的变量，如：固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。如果让你向上级或有关方面介绍公司状况，你能够把这些指标和数字都原封不动地摆出去吗？,需要高度概括,在如此多的变量之中，有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括。,本章介绍两种把变量维数降低以便于描述、理解和分析的方法：主成分分析（principalcomponentanalysis）和因子分析（factoranalysis）。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前，先看下面的例子。,10.1主成分分析,成绩数据（student.txt）,100个学生的数学、物理、化学、语文、历史、英语的成绩如下表（部分）。,SPSS数据形式,从本例可能提出的问题,目前的问题是，能否把这个数据的6个变量用一两个综合变量来表示呢？这一两个综合变量包含有多少原来的信息呢？能否利用找到的综合变量来对学生排序或据此进行其他分析呢？,空间的点,例中数据点是六维的；即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。先假定只有二维，即只有两个变量，由横坐标和纵坐标所代表；每个观测值都有相应于这两个坐标轴的两个坐标值；,空间的点,如果这些数据形成一个椭圆形状的点阵（这在二维正态的假定下是可能的）该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少；在极端的情况，短轴如退化成一点，长轴的方向可以完全解释这些点的变化，由二维到一维的降维就自然完成了。,椭圆的长短轴,当坐标轴和椭圆的长短轴平行，那么代表长轴的变量就描述了数据的主要变化，而代表短轴的变量就描述了数据的次要变化。但是，坐标轴通常并不和椭圆的长短轴平行。因此，需要寻找椭圆的长短轴，并进行变换，使得新变量和椭圆的长短轴平行。,椭圆的长短轴,如果长轴变量代表了数据包含的大部分信息，就用该变量代替原先的两个变量（舍去次要的一维），降维就完成了。椭圆的长短轴相差得越大，降维也越有道理。,主轴和主成分,多维变量的情况和二维类似，也有高维的椭球，只不过不那么直观罢了。首先把高维椭球的主轴找出来，再用代表大多数数据信息的最长的几个轴作为新变量；这样，主成分分析就基本完成了。,主轴和主成分,正如二维椭圆有两个主轴，三维椭球有三个主轴一样，有几个变量，就有几个主轴。和二维情况类似，高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合，叫做主成分(principalcomponent)。,主成分之选取,选择越少的主成分，降维就越好。什么是标准呢？那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议，所选的主轴总长度占所有主轴长度之和的大约85%即可，其实，这只是一个大体的说法；具体选几个，要看实际情况而定。,主成分分析的数学,要寻找方差最大的方向。即，使向量X的线性组合aX的方差最大的方向a.而Var(aX)=aCov(X)a;由于Cov(X)未知；于是用X的样本相关阵R来近似.要寻找向量a使得aRa最大(注意相关阵和协方差阵差一个常数）这涉及相关阵和特征值。回顾一下吧!选择几个主成分呢?要看“贡献率.”,对于我们的数据，SPSS输出为,这里的InitialEigenvalues就是这里的六个主轴长度，又称特征值（数据相关阵的特征值）。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。,特征值的贡献还可以从SPSS的所谓碎石图看出,怎么解释这两个主成分。主成分是原始六个变量的线性组合。这由下表给出。,这里每一列代表一个主成分作为原来变量线性组合的系数（比例）。比如第一主成分为数学、物理、化学、语文、历史、英语这六个变量的线性组合，系数（比例）为-0.806,-0.674,-0.675,0.893,0.825,0.836。,如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量，而用y1,y2,y3,y4,y5,y6表示新的主成分，那么，第一和第二主成分为,这些系数称为主成分载荷（loading），它表示主成分和相应的原先变量的相关系数。,比如y1表示式中x1的系数为-0.806，这就是说第一主成分和数学变量的相关系数为-0.806。相关系数(绝对值）越大，主成分对该变量的代表性也越大。可以看得出，第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。,可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。,该图左面三个点是数学、物理、化学三科，右边三个点是语文、历史、外语三科。图中的六个点由于比较挤，不易分清，但只要认识到这些点的坐标是前面的第一二主成分载荷，坐标是前面表中第一二列中的数目，还是可以识别的。,10.2因子分析,主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量，就有几个主成分。而因子分析是事先确定要找几个成分，这里叫因子（factor）（比如两个），那就找两个。这使得在数学模型上，因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点，它还多一道工序：因子旋转（factorrotation）；这个步骤可以使结果更好。,10.2因子分析,对于计算机，因子分析并不费事。从输出的结果来看，因子分析也有因子载荷（factorloading）的概念，代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。因子分析也给出了二维图；其解释和主成分分析的载荷图类似。,主成分分析与因子分析的公式上的区别,主成分分析,因子分析(mp),因子得分,因子分析的数学,因子分析需要许多假定才能够解.具体公式.,对于我们的数据，SPSS因子分析输出为,这个表说明六个变量和因子的关系。为简单记，我们用x1,x2,x3,x4,x5,x6来表示math（数学），phys（物理），chem（化学），literat（语文），history（历史），english（英语）等变量。这样因子f1和f2与这些原变量之间的关系是（注意，和主成分分析不同，这里把成分（因子）写在方程的右边，把原变量写在左边；但相应的系数还是主成分和各个变量的线性相关系数，也称为因子载荷）：,这里，第一个因子主要和语文、历史、英语三科有很强的正相关；而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”，而给第二个因子起名为“理科因子”。从这个例子可以看出，因子分析的结果比主成分分析解释性更强。,这些系数所形成的散点图（在SPSS中也称载荷图）为,可以直观看出每个因子代表了一类学科,计算因子得分,可以根据输出,算出每个学生的第一个因子和第二个因子的大小，即算出每个学生的因子得分f1和f2。,该输出说明第一和第二主因子为（习惯上用字母f来表示因子）可以按照如下公式计算，该函数称为因子得分（factorscore）。,人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子得分只是SPSS软件的一个选项。,10.3因子分析和主成分分析的一些注意事项,可以看出，因子分析和主成分分析都依赖于原始变量，也只能反映原始变量的信息。所以原始变量的选择很重要。另外，如果原始变量都本质上独立，那么降维就可能失败，这是因为很难把很多独立变量用少数综合的变量概括。数据越相关，降维效果就越好。,10.3因子分析和主成分分析的一些注意事项,在得到分析的结果时，并不一定会都得到如我们例子那样清楚的结果。这与问题的性质，选取的原始变量以及数据的质量等都有关系在用因子得分进行排序时要特别小心，特别是对于敏感问题。由于原始变量不同，因子的选取不同，排序可以很不一样。,SPSS实现(因子分析与主成分分析),拿student.sav为例，选AnalyzeDataReductionFactor进入主对话框；把math、phys、chem、literat、history、english选入Variables，然后点击Extraction，在Method选择一个方法（如果是主成分分析，则选PrincipalComponents），下面的选项可以随意，比如要画碎石图就选Screeplot，另外在Extract选项可以按照特征值的大小选主成分（或因子），也可以选定因子的数目；之后回到主对话框（用Continue）。然后点击Rotation，再在该对话框中的Method选择一个旋转方法（如果是主成分分析就选None），在Display选Rotatedsolution（以输出和旋转有关的结果）和Loadingplot（以输出载荷图）；之后回到主对话框（用Continue）。如果要计算因子得分就要点击Scores，再选择Saveasvariables（因子得分就会作为变量存在数据中的附加列上）和计算因子得分的方法（比如Regression）；要想输出ComponentScoreCoefficientMatrix表，就要选择Displayfactorscorecoefficientmatrix；之后回到主对话框（用Continue）。这时点OK即可。,附录,的pp矩阵.而对于观测值X=(x1,xp),其中xi=(x1i,xni),i=1,p,的样本相关阵第(ij)-元素为,X=(X1,Xp)的相关阵为第(ij)-元素为,的pp矩阵,其中sij为第i和第j观测的样本相关系数,关于特征值和特征向量特征方程|R-lI|=0的解为特征值l,这里B为一个p维正定方阵.l通常有p个根l1l2lp.满足(R-liI)xi=0的向量xi为li的特征向量.对任意向量a有性质,头m个主成分的累积贡献率:,这里R为X的样本相关阵,第i个特征值li=aiRai=V(aix);ai为第i个特征向量.Cov(aix,ajx)=0.,这里aij为第i个特征向量的第j个分量;第i个主成分的载荷平方和为该主成分的方差,等于其特征值li.所选的m个主成分对变量xj的总方差贡献为,主成分负荷(载荷,loading):Yi与Xj的相关系数:,正交因子模型：X-m=AF+e,mi=变量i的均值ei=第i个特殊因子Fi=第i个公共因子aij=第i个变量在第j个因子上的载荷不能观测的值满足下列条件：F和e独立E(F)=0,Cov(F)=IE(e)=0,Cov(e)=Y,Y是对角矩阵,F为公共因子向量,每个公共因子(如Fi)是对模型中每个变量都起作用的因子;而e为特殊因子向量,每个特殊因子(如ei)只对一个变量(第i个)起作用.,因子分析的方法在于估计S=AA+Y和Y,再分解以得到A.,X的协方差阵S可以分解成,这里l1l2lp为S的特征值;而e1,ep为相应的特征向量(e1,ep为主成分的系数,因此称为主成分法).上面分解总是取和数的重要的头几项来近似.,X的协方差阵S可以近似为(如Y忽略),如Y不忽略,S可以近似为,应用中,S可以用样本相关阵R代替.,正交模型X=m+AF+e的协方差结构根据前面模型，可得出下面结果：,上面sii2=Sjaij2+yi2中,Sjaij2称为共性方差(公共方差或变量共同度commonvariance,communalities)，而yi2称为特殊方差.变量共同度刻画全部公共因子对变量Xi的总方差所做的贡献.,的统计意义就是第i个变量与第j个公共因子的相关系数,表示Xi依赖Fj的份量,这里eij是相应于特征值li的特征向量ei的第j个分量.因子载荷阵中各列元素的平方和Sj=Siaij2称为公共因子Fj对X诸变量的方差贡献之总和,因子载荷,除主成分法外还有最大似然法来估计A,m和Y(在多元正态分布的假定下).当然,还有其他方法(有些互相类似).,令T为任意m正交方阵(TT=TT=I),则X-m=AF+e=ATTF+e=A*F*+e,这里A*=AT,F*=TF.因此S=AA+Y=ATTA+Y=(A*)(A*)+Y因此,因子载荷A只由一个正交阵T决定.载荷A*=AT与A都给出同一个表示.由AA=(A*)(A*)对角元给出的共性方差,也不因T的选择而改变.,正交变换T相当于刚体旋转(或反射),因子载荷A的正交变换AT称为因子旋转估计的协方差阵或相关阵,残差阵,特殊方差及共性方差都不随旋转而变.这里“残差阵”为协方差阵或相关阵与估计的AA+Y之差.,因子旋转的一个准则为最大方差准则.它使旋转后的因子载荷的总方差达到最大.如,即要选变换T使下式最大(计算机循环算法),需要由X=AF变成F=bX.或Fj=bj1X1+bjpXpj=1,m,称为因子得分(函数).这通常用加权最小二乘法或回归法等来求得.,总结模型X=m+AF+e因子分析的步骤1根据问题选取原始变量；2求其相关阵R,探讨其相关性；3从R求解初始公共因子F及因子载荷矩阵A(主成分法或最大似然法)4因子旋转；5由X=AF到F=bX(因子得分函数)6根据因子得分值进行进一步分析.,回到数值例子,回到我们成绩例子.,

展开阅读全文

统计学-主成分分析和因子分析.ppt

最新文档