厦门大学《应用多元统计分析》第06章--主成分分析

上传人:zuime****idai 文档编号:243320908 上传时间:2024-09-20 格式:PPT 页数:48 大小:523.50KB
返回 下载 相关 举报
厦门大学《应用多元统计分析》第06章--主成分分析_第1页
第1页 / 共48页
厦门大学《应用多元统计分析》第06章--主成分分析_第2页
第2页 / 共48页
厦门大学《应用多元统计分析》第06章--主成分分析_第3页
第3页 / 共48页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,厦门大学应用多元统计分析第06章-主成分分析,第一节 引言,多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。,主成分分析也称主分量分析,是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。,我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。,主成分分析的数学模型是,设,p,个变量构成的,p,维随机向量为,X =,(,X,1,,X,p,),。对,X,作正交变换,令,Y = T,X,,其中T为正交阵,要求,Y,的各分量是不相关的,并且,Y,的第一个分量的方差是最大的,第二个分量的方差次之,等等。为了保持信息不丢失,,Y,的各分量方差和与,X,的各分量方差和相等。,第二节 主成分的几何意义及数 学推导,一,主成分的几何意义,二,主成分的数学推导,一、主成分的几何意义,主成分分析数学模型中的正交变换,在几何上就是作一个坐标旋转。因此,主成分分析在二维空间中有明显的几何意义。假设共有,n,个样品,每个样品都测量了两个指标(,X,1,,,X,2,),它们大致分布在一个椭圆内如图6.1所示。事实上,散点的分布总有可能沿着某一个方向略显扩张,这个方向就把它看作椭圆的长轴方向。显然,在坐标系,x,1,O,x,2,中,单独,看这,n,个点的分量,X,1,和,X,2,,它们沿着,x,1,方向和,x,2,方向都具有,较大的离散性,其离散的程度可以分别用的,X,1,方差和,X,2,的方,差测定。如果仅考虑,X,1,或,X,2,中的任何一个分量,那么包含在,另一分量中的信息将会损失,因此,直接舍弃某个分量不是“降维”的有效办法。,图6.1 主成分的几何意义,易见,,n,个点在新坐标系下的坐标,Y,1,和,Y,2,几乎不相关。称它,们为原始变量,X,1,和,X,2,的综合变量,,n,个点,y,1,在轴上的方差达,到最大,即在此方向上包含了有关,n,个样品的最大量信息。,因此,欲将二维空间的点投影到某个一维方向上,则选择,y,1,轴方向能使信息的损失最小。我们称,Y,1,为第一主成分,称,Y,2,为第二主成分。第一主成分的效果与椭圆的形状有很大的关,系,椭圆越是扁平,,n,个点在,y,1,轴上的方差就相对越大,在,y,2,轴上的方差就相对越小,用第一主成分代替所有样品所造成,的信息损失也就越小。,考虑两种极端的情形:,一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50的信息,这显然是不可取的。造成它的原因是,原始变量,X,1,和,X,2,的相关程度几乎为零,也就是说,它们所包含的信息几乎不重迭,因此无法用一个一维的综合变量来代替。,另一种是椭圆扁平到了极限,变成,y,1,轴上的一条线,第一主成分包含有二维空间点的全部信息,仅用这一个综合变量代替原始数据不会有任何的信息损失,此时的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍弃它当然没有信息损失。,二、主成分的数学推导,第三节 主成分的性质,一,主成分的一般性质,二,主成分的方差贡献率,一、主成分的一般性质,二、主成分的方差贡献率,第四节 主成分方法应用中应注 意的问题,一,实际应用中主成分分析的出发点,二,如何利用主成分分析进行综合评价,一、实际应用中主成分分析的出发点,这里我们需要进一步强调的是,从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用,R,代替,。对于研究经济问题所涉及的变量单位大都不统一,采用,R,代替,后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。,二、如何利用主成分分析进行综合 评价,人们在对某个单位或某个系统进行综合评价时都会遇到如何选择评价指标体系和如何对这些指标进行综合的困难。一般情况下,选择评价指标体系后通过对各指标加权的办法来进行综合。但是,如何对指标加权是一项具有挑战性的工作。指标加权的依据是指标的重要性,指标在评价中的重要性判断难免带有一定的主观性,这影响了综合评价的客观性和准确性。由于主成分分析能从选定的指标体系中归纳出大部分信息,根据主成分提供的信息进行综合评价,不失为一个可行的选择。这个方法是根据指标间的相对重要性进行客观加权,可以避免综合评价者的主观影响,在实际应用中越来越受到人们的重视。,对主成分进行加权综合。我们利用主成分进行综合评价时,主要是将原有的信息进行综合,因此,要充分的利用原始变量提供的信息。将主成分的权数根据它们的方差贡献率来确定,因为方差贡献率反映了各个主成分的信息含量多少。,第五节 实例分析与计算机实现,一,主成分分析实例,二,利用SPSS进行主成分分析,一、主成分分析实例,表6.1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:,X1:年末固定资产净值,单位:万元;,X2:职工人数据,单位:人;,X3:工业总产值,单位:万元;,X4:全员劳动生产率,单位:元/人年;,X5:百元固定资产原值实现产值,单位:元;,X6:资金利税率,单位:%;,X7:标准燃料消费量,单位:吨;,X8:能源利用效果,单位:万元/吨。,表6.1 某市工业部门13个行业8项指标,我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序?,我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表6.2和表6.3分别是特征根(累计贡献率)和特征向量的信息。,利用主成分得分进行综合评价时,从特征向量我们可以写出所有8个主成分的具体形式:,表6.2 特征根和累计贡献率,表6.3 特征向量,表6.4 各行业主成分得分及排序,我们以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体数据见表6.4。,综合得分的计算公式是:,根据上式可计算出各工业部门的综合得分,并可据此排序。,从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。,二、利用SPSS进行主成分分析,SPSS没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤因子的提取最常用的方法就是“主成分法”。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量。即:,其中,,z,ij,为第,j,个特征向量的第,i,个元素;,a,ij,为因子载荷阵第,i,行第,j,列的元素;,j,为第,j,个因子对应的特征根。然后再利用,计算出的特征向量来计算主成分。,以下是我国2005年第1、2季度分地区城镇居民家庭收支基本情况。通过这个例子,介绍如何利用SPSS软件实现主成分分析。,表6.5 分地区城镇居民家庭收支基本情况,表6.5 分地区城镇居民家庭收支基本情况,(一)利用SPSS进行因子分析,将原始数据输入SPSS数据编辑窗口,将5个变量分别命名为,X,1,X,5,。在SPSS窗口中选择AnalyzeData ReductionFactor菜单项,调出因子分析主界面,并将变量,X,1,X,5,移入Variables框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参见第7章实例)。得到如表6.6所示的特征根和方差贡献率表和表6.7所示的因子载荷阵。,表6.6中Total列为各因子对应的特征根,本例中共提取两个公因子;% of Variance列为各因子的方差贡献率;Cumulative %列为各因子累积方差贡献率,由表中可以看出,前两个因子已经可以解释79.31%的方差,图6.2 因子分析主界面,表6.6 特征根和方差贡献率表,(二)利用因子分析结果进行主成分分析,1. 将表6.7中因子载荷阵中的数据输入SPSS数据编辑窗口,分别命名为,a,1和,a,2。,表6.7 因子载荷阵,2. 为了计算第一个特征向量,点击菜单项中的TransformCompute,调出Compute variable对话框,在对话框中输入等式:,z,1=,a,1 /,SQRT,(2.576),点击OK按钮,即可在数据编辑窗口中得到以,z,1为变量名的第一特征向量。,再次调出Compute variable对话框,在对话框中输入等式:,z,2=,a,2 /,SQRT,(1.389),点击OK按钮,得到以,z,2为变量名第二特征向量。这样,我们得到了如表6.8所示的特征向量矩阵。,图6.3 Compute variable对话框,根据表6.8可以得到主成分的表达式:,3. 再次使用Compute命令,就可以计算得到两个主成分。,表6.8 特征向量矩阵,本章结束,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!