资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,主成分分析,主成分分析,主成分回归,立体数据表的主成分分析,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,1,主成分分析原理,1.引例,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率,I,以及时间t因素做相关分析,得到下表:,F1,F2,F3,i,i,t,F1,1,F2,0,1,F3,0,0,1,i,0.995,-0.041,0.057,l,i,-0.056,0.948,-0.124,-0.102,l,t,-0.369,-0.282,-0.836,-0.414,-0.112,1,新变量:总收入F1、总收入变化率F2和经济发展或衰退的趋势F3,实际测量的总收入I、总收入变化率,I,以及时间t因素,在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。见书54。,为克服相关性、重叠性,且达到用较少的变量来代替原来较多的变量(少量变量能反映原来多个变量的大部分信息,这实际上是一种“降维”的思想),主成分分析通过对原多变量进行线性组合,形成若干个线性无关的简洁指标变量,并从这些指标变量中,尽可能多地提取信息,。,当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止(一般要求主成分的累计贡献率达到80-90%)。这就是主成分分析的思想。,2. 主成分分析原理,由于线性无关,就使得分析与评价指标变量时,可切断相关的干扰,找出主导因素,作出更准确的估量。,将彼此相关的指标变量转化为彼此不相关的指标变量,(u,i,与u,j,两两正交,ij),;,将个数较多的指标变量转化为个数较少的指标变量。,将意义单一的指标变量转化为意义综合的指标变量。,主成分分析的要点?,在力求数据信息丢失最少的原则下(如何实现?),对高维的变量空间降维。,数据信息丢失最少,即F尽可能反映X的p个变量的信息。最简单的方法就是令,由此可得到U必须是正交矩阵。,故主成分分析满足如下的条件:,主成分之间相互独立,即无重叠的信息。即,主成分的方差依次递减,重要性依次递减,即,每个主成分的系数平方和为1。即,2,数学模型与几何解释,假设我们所讨论的实际问题中,原来有p个指标,我们把这p个指标看作p个随机变量,记为X,1,,X,2,,,,X,p,,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F,1,,F,2,,,,F,k,(kp,实际只取80-90%贡献率),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,在保证尽可能反映原指标信息的前提下,寻求原指标的线性组合,F,i,。,F,i,与F,j,线性无关。,主成分分析的几何解释,平移、旋转坐标轴,考虑两种极端的情形:,一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50的信息,这显然是不可取的。造成它的原因是,原始变量,X,1,和,X,2,的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用一个一维的综合变量来代替。,另一种是椭圆扁平到了极限,变成,y,1,轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然没有信息损失。,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的数学模型是,设,p,个变量构成的,p,维随机向量为,X =,(,X,1,,X,p,),在尽可能表征原指标变量X信息的情况下,求线性无关的,线性组合变量,F,i,= u,i,X,。为此,U须为正交阵。,此外,主成分分析要求,F,的各分量是不相关的,并且,F,的第一个分量的方差是最大的,第二个分量的方差次之,等等。为了保持信息不丢失,,F,的各分量方差和与,X,的各分量方差和相等。,3 主成分的推导及性质,一、两个线性代数的结论,1、若U为p维正交阵,则存在p阶实对称阵A,其中 是,A,的特征根。,p,个变量构成的,p,维随机向量为,X =,(,X1,Xp,),。令,F = UX,,其中U为正交阵。,根据正交阵性质,2、,这里U的向量u,j,,为,实对称阵A的特征向量,(即求A的特征向量,共有p个线性无关的特征向量,即共有p个,T,),,且对应,特征根为,j,则实对称阵 属于不同特征根所对应的特征向量是正交的,即有,令,如何找,实对称阵 A?,二、主成分的推导,(一),第一主成分,设X的协方差阵为,由于,x,为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得,其中,1,, ,2,,,, ,p,为,x,的特征根,不妨假设,1, ,2,p,。而U恰好是由,协方差矩阵,x的,特征根相对应的特征向量单位化后所组成的正交阵。,例如特征向量为y,则单位化特征向量为y/|y|,已知X的协方差矩阵,x为,(1,-2,0;-2,5,0;0,0,2),求X的各主成分。,1.求x的特征值及其相应的单位化特征向量,1=5.83,e1=(0.383,-0.924,0),2=2.00,e2=(0,0,1),3=0.17,e2=(0.924,0383,0),主成分为:y1,y2,y3,若只取第一主成分,则贡献率为73%,若取前两主成分,则累计贡献率98%。因此取前两。,三、实际应用中主成分分析的出发点,故由Y的相关矩阵求特征值和单位化特征向量U uX或者,已知X的协方差矩阵,x为,(1,-2,0;-2,5,0;0,0,2),相关矩阵,为( 4,7,0; 3,2,1;0,0,8 )求X的各主成分。,1.求x的特征值及其相应的单位化特征向量,1=5.83,e1=(0.383,-0.924,0),2=2.00,e2=(0,0,1),3=0.17,e2=(0.924,0383,0),主成分为:z1= 0.383x1-0.924x2,z2=x3,,z3= 0.924x1 + 0.383x2,2.,求,的特征值及其相应的单位化特征向量,1=3.22,e1=(0.432,-0.734,0),2=1.54,e2=(0,1,0),3=1.07,e2=(0.724,0.23,0),主成分为:z1= 0.432(x1-.)-0.734(x2-.) ,z2=(x2-.),,z3= 0.724(x1-.) + 0.23(x2-.),三、如何利用主成分分析进行综合评价,人们在对某个单位或某个系统进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难。一般情况下,选择评价指标体系后通过对各指标加权的办法来进行综合。但是,如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性,指标在评价中的重要性判断难免带有一定的主观性,这影响了综合评价的客观性和准确性。由于主成分分析能从选定的指标体系中归纳出大部分信息,根据主成分提供的信息进行综合评价,不失为一个可行的选择。这个方法是根据指标间的相对重要性进行客观加权,可以避免综合评价者的主观影响,在实际应用中越来越受到人们的重视。,对所有p个主成分进行加权综合。各主成分的权数由它们的方差贡献率来确定,注意是所有主成分加权。,第五节 实例分析与计算机实现,一,主成分分析实例,二,利用SPSS进行主成分分析,一、主成分分析实例,表3.2是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:,X1:年末固定资产净值,单位:万元;,X2:职工人数据,单位:人;,X3:工业总产值,单位:万元;,X4:全员劳动生产率,单位:元/人年;,X5:百元固定资产原值实现产值,单位:元;,X6:资金利税率,单位:%;,X7:标准燃料消费量,单位:吨;,X8:能源利用效果,单位:万元/吨。,表3.2 某市工业部门13个行业8项指标,我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序?,我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表3.3和表3.4分别是特征根(累计贡献率)和特征向量的信息。,利用主成分得分进行综合评价时,从特征向量我们可以写出所有8个主成分的具体形式:,表3.3 特征根和累计贡献率,表3.4 特征向量,我们以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表3.5。,综合得分的计算公式是:,根据上式可计算出各工业部门的综合得分,并可据此排序。,从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。,表3.5 各行业主成分得分及排序,二、利用SPSS进行主成分分析,例1:实验案例数据来自某汽车制造商,1980年这个汽车制造商从竞争对手中选择了17种车型,访问了25个顾客,要求他们根据自己的偏好对这17种车型打分。10分满分。25个顾客的评分为25个变量,即v1-v25,每种车型的25个分数即是一个观测量,17种车型表示有17个观测量(样本)。,运用SPSS进行主成分分析,1.输入数据(先在variable view中定义变量,再在data view输入数据),如qichezhizao.sav;,2.analyze/data reduction/factor(主成分分析属于“因子分析”的一个分支),选择原始变量。,3.点extraction,选principle components,Continue返回主界面,选scores,碎石图,未旋转因子,Scree,Plot,特征值碎石图,等同方差图,Continue回主界面,点击OK。,Component Matrix(载荷矩阵,即各主成分与原变量的相关系数),Total Variance Explained:特征值与方差解释能力Extraction Sums of Squared Loadings,特征值,散点图,得到散点图,由散点图可知各主成分反映的信息,顶端多为欧洲车与日本车,故主成分1,低端多为美国车,反映产地;左端林肯和凯迪拉克,左端为雪佛龙等,故主成分2反映质量等车特性。,由于SPSS没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤因子的提取最常用的方法就是“主成分法”。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量。即:,其中,,z,ij,为第,j,个特征向量的第,i,个元素;,a,ij,为因子载荷阵第,i,行第,j,列的元素;,j,为第,j,个因子对应的特征根。然后再利用计算出的特征向量来计算主成分。,为了计算第一个特征向量,点击菜单项中的TransformCompute,调出Compute variable对话框,在对话框中输入等式:,z,1=,a,1 /,SQRT,(1的值),点击OK按钮,即可在数据编辑窗口中得到以,z,1为变量名的第一特征向量。,再次调出Compute variable对话框,在对话框中输入等式:,z,2=,a,2 /,SQRT,(2的值),点击OK按钮,得到以,z,2为变量名第二特征向量。,同理得到,z,3为变量名第三特征向量,。,二、利用SPSS进行主成分分析,例子2:,我国2005年第1、2季度分地区城镇居民家庭收支基本情况。通过这个例子,再次熟悉SPSS软件实现主成分分析。,表6.5 分地区城镇居民家庭收支基本情况,表6.5 分地区城镇居民家庭收支基本情况,(一)利用SPSS进行主成分分析,将原始数据输入SPSS数据编辑窗口,将5个变量分别命名为,X,1,X,5,。在SPSS窗口中选择AnalyzeData ReductionFactor菜单项,调出因子分析主界面,并将变量,X,1,X,5,移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程,得到如,表6.6,所示的特征根和方差贡献率表和,表6.7,所示的因子载荷阵。,表6.6中Total列为各因子对应的特征根,本例中共提取两个公因子;% of Variance列为各因子的方差贡献率;Cumulative %列为各因子累积方差贡献率,由表中可以看出,前两个因子已经可以解释79.31%的方差,图6.2 因子分析主界面,表6.6 特征根和方差贡献率表,返回,(二)利用因子分析结果进行主成分分析,1. 将表6.7中因子载荷阵中的数据输入SPSS数据编辑窗口,分别命名为,a,1和,a,2。,表6.7 因子载荷阵,返回,2. 为了计算第一个特征向量,点击菜单项中的TransformCompute,调出Compute variable对话框,在对话框中输入等式:,z,1=,a,1 /,SQRT,(2.576),点击OK按钮,即可在数据编辑窗口中得到以,z,1为变量名的第一特征向量。,再次调出Compute variable对话框,在对话框中输入等式:,z,2=,a,2 /,SQRT,(1.389),点击OK按钮,得到以,z,2为变量名第二特征向量。这样,我们得到了如表6.8所示的特征向量矩阵。,图6.3 Compute variable对话框,根据表6.8可以得到主成分的表达式:,表6.8 特征向量矩阵,
展开阅读全文