应用多元分析第三版PPT(第七章)课件

上传人:29 文档编号:242824395 上传时间:2024-09-04 格式:PPT 页数:55 大小:821.54KB
返回 下载 相关 举报
应用多元分析第三版PPT(第七章)课件_第1页
第1页 / 共55页
应用多元分析第三版PPT(第七章)课件_第2页
第2页 / 共55页
应用多元分析第三版PPT(第七章)课件_第3页
第3页 / 共55页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第七章 主成分分析,7.1,引言,7.2,总体的主成分,7.3,样本的主成分,.,第七章 主成分分析7.1 引言.,1,7.1,引言,主成分分析,(或称,主分量分析,,,principal component analysis,)由皮尔逊(,Pearson,1901,)首先引入,后来被霍特林(,Hotelling,1933,)发展了。,主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。,主成分分析的,一般目的,是:,(1),变量的降维;,(2),主成分的解释。,.,7.1 引言主成分分析(或称主分量分析,principa,2,寻找主成分的正交旋转,旋转公式:,.,寻找主成分的正交旋转 旋转公式:.,3,7.2,总体的主成分,一、主成分的定义及导出,二、主成分的性质,三、从相关阵出发求主成分,.,7.2 总体的主成分一、主成分的定义及导出.,4,一、主成分的定义及导出,设 为一个,p,维随机向量,,E,(,x,)=,,,V,(,x,)=,。考虑如下的线性变换,希望在约束条件 下寻求向量,a,1,,使得,达到最大,,y,1,就称为,第一主成分,。,设,1,2,p,0,为,的特征值,,,,i=,1,2,p,为相应的单位特征向量,且相互正交。则可求得第一主成分为,它的方差具有最大值,1,。,.,一、主成分的定义及导出设,5,如果第一主成分所含信息不够多,还不足以代表原始的,p,个变量,则需考虑再使用一个综合变量 ,为使,y,2,所含的信息与,y,1,不重叠,应要求,Cov(,y,1,y,2,) =0,我们在此条件和约束条件 下寻求向量,a,2,,使得 达到最大,所求的 称为,第二主成分,。求得的第二主成分为,其方差为,2,。,一般来说,,x,的,第,i,主成分,是指:在约束条件 和,Cov(,y,k,y,i,)=0,k=,1,2,i,1,下寻求,a,i,,使得,达到最大。第,i,主成分为,.,如果第一主成分所含信息不够多,还不足以代表原始的p个变量,则,6,主成分的几何意义,在几何上,,t,i,表明了第,i,主成分的方向,,y,i,是,x,在,t,i,上的投影值(其绝对值即为投影长度),,i,是这些值的方差,它反映了在,t,i,上投影点的分散程度。,.,主成分的几何意义在几何上,ti表明了第i主成分的方向,yi是,7,x,投影到,t,i,上的值,其中,𝛉,i,是,t,i,与,x,的夹角。,.,x投影到ti上的值.,8,主成分向量与原始向量之间的关系式,.,主成分向量与原始向量之间的关系式.,9,.,.,10,主成分与原始变量之间的关系式矩阵,y,1,y,2,y,p,x,1,t,11,t,12,t,1,p,x,2,t,21,t,22,t,2,p,x,p,t,p,1,t,p,2,t,pp,.,主成分与原始变量之间的关系式矩阵y1y2ypx1t11t1,11,正交变换 的几何意义,正交变换 的几何意义是将,R,p,中由,x,1,x,2, ,x,p,构成的原,p,维坐标轴作一正交旋转,一组正交单位向量,t,1,t,2, ,t,p,表明了,p,个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。,.,正交变换 的几何意义正交变换,12,二、主成分的性质,1.,主成分向量的协方差矩阵,2.,主成分的总方差,3.,原始变量,x,i,与主成分,y,k,之间的相关系数,4.,m,个主成分对原始变量的贡献率,5.,原始变量对主成分的影响,.,二、主成分的性质1.主成分向量的协方差矩阵.,13,1.,主成分向量的协方差矩阵,V,(,y,)=,其中,=diag(,1,2,p,),,即,V,(,y,i,)=,i,i=,1,2,p,,且,y,1,y,2, ,y,p,互不相关。,.,1.主成分向量的协方差矩阵V(y)=.,14,2.,主成分的总方差,由于,所以,或,.,2.主成分的总方差 由于.,15,总方差中属于第,i,主成分,y,i,(或被,y,i,所解释)的比例为,称为主成分,y,i,的,贡献率,。,第一主成分,y,1,的贡献率最大,表明它解释原始变量,x,1,x,2, ,x,p,的能力最强,而,y,2,y,3, ,y,p,的解释能力依次递减。,主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有,p,个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。,.,总方差中属于第i主成分yi (或被yi所解释)的比例为.,16,前,m,个主成分的贡献率之和,称为主成分,y,1,y,2, ,y,m,的,累计贡献率,,它表明,y,1,y,2, ,y,m,解释,x,1,x,2, ,x,p,的能力。,通常取(相对于,p,)较小的,m,,使得累计贡献达到一个较高的百分比(如,80,90,)。此时,,y,1,y,2, ,y,m,可用来代替,x,1,x,2, ,x,p,,从而达到降维的目的,而信息的损失却不多。,.,前m个主成分的贡献率之和.,17,3.,原始变量,x,i,与主成分,y,k,之间的相关系数,x,=,Ty,即,x,i,=,t,i,1,y,1,+,t,i,2,y,2,+,t,ip,y,p,所以,Cov(,x,i,y,k,)=Cov(,t,ik,y,k,,,y,k,)=,t,ik,k,在实际应用中,通常我们只对,x,i,(,i=,1,2,p,),与,y,k,(,k=,1,2,m,),的相关系数感兴趣。,.,3.原始变量xi与主成分yk之间的相关系数 x=,18,4.,m,个主成分对原始变量的贡献率,m,个主成分,y,1,y,2,y,m,从原始变量,x,1,x,2,x,p,中提取的信息,量,可度量为,x,i,与,y,1,y,2,y,m,的复相关系数的平方,称为,m,个主成分,y,1,y,2,y,m,对原始变量,x,i,的,贡献率,。其值为,当,m,=,p,时,,.,4.m个主成分对原始变量的贡献率m个主成分y1,y2,y,19,例,7.2.1,设,x,=(,x,1,x,2,x,3,),的协方差矩阵为,其特征值为,1,=5.83,,,2,=2.00,,,3,=0.17,相应的特征向量为,若只取一个主成分,则贡献率为,5.83/(5.83+2.00+0.17)=0.72875=72.875%,.,例7.2.1 设x=(x1,x2,x3)的协方差矩阵为.,20,可见,,y,1,对第三个变量的贡献率为零,这是因为,x,3,与,x,1,和,x,2,都不相关,在,y,1,中未包含一点有关,x,3,的信息,这时仅取一个主成分就显得不够了,故应再取,y,2,,此时累计贡献率为,(5.83+2.00)/8=97.875%,(,y,1,,,y,2,),对每个变量,x,i,的贡献率分别为,,,都比较高,。,表,7.2.1,y,1,及,(,y,1,y,2,),对每个原始变量的贡献率,i,(,y,1,x,i,),(,y,2,x,i,),1,0.925,0.855,0.000,0.855,2,0.998,0.996,0.000,0.996,3,0.000,0.000,1.000,1.000,.,表7.2.1 y1及(y1,y2)对每个原始变量的贡献率,21,5.,原始变量对主成分的影响,y,k,=,t,1,k,x,1,+,t,2,k,x,2,+,t,pk,x,p,称,t,ik,为第,k,主成分,y,k,在第,i,个原始变量,x,i,上的,载荷,,它度量了,x,i,对,y,k,的重要程度。,在解释主成分时,我们需要考察载荷,同时也应考察一下相关系数。,方差大的那些变量与具有大特征值的主成分有较密切的联系,而方差小的另一些变量与具有小特征值的主成分有较强的联系。通常我们取前几个主成分,因此所取主成分会过于照顾方差大的变量,而对方差小的变量却照顾得不够。,.,5.原始变量对主成分的影响 yk=t1kx1+t2kx,22,例,7.2.2,设,x,=(,x,1,x,2,x,3,),的协方差矩阵为,经计算,,的特征值及特征向量为,1,=109.793,,,2,=6.469,,,3,=0.738,相应的主成分分别为,.,例7.2.2 设x=(x1,x2,x3)的协方差矩阵为,23,y,1,=0.305,x,1,+0.041,x,2,+0.951,x,3,y,2,=0.944,x,1,+0.120,x,2,0.308,x,3,y,3,=0.127,x,1,+0.992,x,2,0.002,x,3,可见,方差大的原始变量,x,3,在很大程度上控制了第一主成分,y,1,,方差小的原始变量,x,2,几乎完全控制了第三主成分,y,3,,方差介于中间的,x,1,则基本控制了第二主成分,y,2,。,y,1,的贡献率为,这么高的贡献率首先归因于,x,3,的方差比,x,1,和,x,2,的方差大得多,其次是,x,1,x,2,x,3,相互之间存在着一定的相关性。,y,3,的特征值相对很小,表明,x,1,x,2,x,3,之间有这样一个线性依赖关系:,0.127,x,1,+0.992,x,2,0.002,x,3,c,其中,c,=0.127,1,+0.992,2,0.002,3,为一常数。,.,y1=0.305x1+0.041x2+0.951x3.,24,三、从相关阵出发求主成分,最常用的标准化变换是令,。,显然,,的协方差矩阵正是,x,的相关矩阵,R,。,从,R,出发求主成分,主成分分析将均等地对待每一个原始变量。,从,R,出发求得主成分的方法与从,出发是完全类似的,并且主成分的一些性质具有更简洁的数学形式。设,为,R,的,p,个特征值,,为相应的单位特征向量,且相,互正交,则,p,个主成分为,。记,,于是,y,*=,T,*,x,*,.,三、从相关阵出发求主成分最常用的标准化变换是令,25,从,R,出发,的主成分性质,(1),E,(,y,*)=,0,,,V,(,y,*)=,*,,其中,(2),。,(3),变量,与主成分,之间的相关系数,即有,.,从R出发的主成分性质(1)E(y*)=0,V(y*)=*,,26,因此,在解释主成分,时,由相关矩阵,R,求得的载荷,和相关系数,所起的作用是完全相同的,只需选其一用来作主成分解释即可。,(4),主成分,对变量,的贡献率,(5),。,.,因此,在解释主成分 时,由相关矩阵R求得的载荷,27,例,7.2.3,在例,7.2.2,中,,x,的相关矩阵,R,的特征值及特征向量为,相应的主成分分别为,.,例7.2.3 在例7.2.2中,x的相关矩阵.,28,的贡献率为,和,累计贡献率为,现比较本例中从,R,出发和例,7.2.2,中从,出发的主成分计算结果。从,R,出发的 的贡献率,0.705,明显小于从,出发的,y,1,的贡献率,0.938,,事实上,原始变量方差之间的差异越大,这一点也就倾向于越明显。,可用标准化前的原变量表达如下:,.,的贡献率为.,29,可见, 在原变量,x,1,x,2,x,3,上的载荷相对大小与例,7.2.2,中,y,i,在,x,1,x,2,x,3,上的载荷相对大小之间有着非常大的差异。这说明,标准化后的结论完全可能会发生很大的变化,因此标准化不是无关紧要的。,.,.,30,7.3,样本的主成分,我们可以从协差阵,或相关阵,R,出发求得主成分。但在实际问题中,,或,R,一般都是未知的,需要通过样本来进行估计。设数据矩阵为,则样本协差阵和样本相关阵分别为,.,7.3 样本的主成分我们可以从协差阵或相关阵R出发求得,31,7.3,样本的主成分,一、样本主成分的定义,二、从,S,出发求主成分,三、从 出发求主成分,四、主成分分析的应用,五、若干补充及应用中需注意的问题,.,7.3 样本的主成分一、样本主成分的定义.,32,一、样本主成分的定义,若向量,a,1,在约束条件 下,使得的样本方差,达到最大,则称线性组合 为,第一样本主成分,。若向量,a,2,在约束条件 和,的样本协方差,.,一、样本主成分的定义若向量a1在约束条件,33,下,使得 的样本方差,达到最大,则称线性组合 为,第二样本主成分,。一般地,若向量,a,i,在,约束条件 和,的样本协方差,.,.,34,下,使得的样本方差,达到最大,则称线性组合 为,第,i,样本主成分,,,i=,1,2,p,。,需要指出的是,样本主成分是使样本方差而非方差达到最大,是使样本协方差而非协方差为零。,.,下,使得的样本方差.,35,二、从,S,出发求主成分,用类似于上一节的方法,以,S,代替,即可求得样本主成分。设,为,S,的特征值,,为相应的单位特征向量,且彼此正交。则第,i,样本主成分为,,它具有样本方差,i,=1,2,p,,各主成分之间的样本协方差为零。在几何上,,p,个样本主成分的方向为,所在的方向,且彼此垂直。,n,个样品点在,上的投影点最为分散,在其余,上投影点的分散程度依次递减。,.,二、从S出发求主成分用类似于上一节的方法,以S代替即可求得,36,总样本方差,x,i,与,的样本相关系数,其中,,,k,=1,2,p,。,.,总样本方差.,37,主成分得分,在实际应用中,我们常常让,x,j,减去 ,使样本数据中心化。这不影响样本协差阵,S,,在前面的论述中惟一需要变化的是,将第,i,主成分改写成中心化的形式,即,若将各观测值,x,j,代替上式中的观测值向量,x,,则第,i,主成分的值,称之为观测值,x,j,的,第,i,主成分得分,。所有观测值的平均主成分得分,.,主成分得分在实际应用中,我们常常让xj 减去 ,使样本数,38,三、从 出发求主成分,设样本相关阵 的,p,个特征值为 ,,为相应的正交单位特征向量,则第,i,样本主成分,其中,x,*,是各分量经(样本)标准化了的向量,即,.,三、从 出发求主成分设样本相关阵 的p个特征值为,39,标准化后的主成分得分,令,这是,x,j,的各分量数据经标准化后的数据向量,将其代替上述样本主成分公式中的,x,*,,即得观测值,x,j,在第,i,主成分上的得分,所有观测值的平均主成分得分,.,标准化后的主成分得分令.,40,四、主成分分析的应用,在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平,其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释。,主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数,m,通常应明显小于原始变量个数,p,(除非,p,本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。,.,四、主成分分析的应用在主成分分析中,我们首先应保证所提取的前,41,如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计贡献率通常就能达到一个较高水平,也就是说,此时的累计贡献率通常较易得到满足。,主成分分析的困难之处主要在于要能够给出主成分的较好解释,所提取的主成分中如有一个主成分解释不了,整个主成分分析也就失败了。,主成分分析是变量降维的一种重要、常用的方法,简单的说,该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。,.,如果原始变量之间具有较高的相关性,则前面少数几个主成分的累计,42,例,7.3.1,在制定服装标准的过程中,对,128,名成年男子的身材进行了测量,每人测得的指标中含有这样六项:身高(,x,1,)、坐高(,x,2,) 、胸围(,x,3,) 、手臂长(,x,4,) 、肋围(,x,5,)和腰围(,x,6,) 。所得样本相关矩阵列于表,7.3.1,。,x,1,x,2,x,3,x,4,x,5,x,6,x,1,1.000,x,2,0.79,1.000,x,3,0.36,0.31,1.000,x,4,0.76,0.55,0.35,1.000,x,5,0.25,0.17,0.64,0.16,1.000,x,6,0.51,0.35,0.58,0.38,0.63,1.000,表,7.3.1,男子身材六项指标的样本相关矩阵,.,例7.3.1 在制定服装标准的过程中,对128名成年男子,43,经计算,相关阵 的前三个特征值、相应的特征向量以及贡献率列于表,7.3.2,。,表,7.3.2,的前三个特征值、特征向量以及贡献率,特征向量,:身高,0.469,0.365,0.092,:坐高,0.404,0.397,0.613,:胸围,0.394,0.397,0.279,:手臂长,0.408,0.365,0.705,:肋围,0.337,0.569,0.164,:腰围,0.427,0.308,0.119,特征值,3.287,1.406,0.459,贡献率,0.548,0.234,0.077,累计贡献率,0.548,0.782,0.859,.,经计算,相关阵 的前三个特征值、相应的特征向量以及贡献率,44,前三个主成分分别为,从表,7.3.2,中可以看到,前两个主成分的累计贡献率已达,78.2,,前三个主成分的累计贡献率达,85.9,,因此可以考虑只取前面两个或三个主成分,它们能够很好地概括原始变量。,第一主成分 对所有(标准化)原始变量都有近似相等的正载荷,故称第一主成分为(,身材,),大小成分,。,.,前三个主成分分别为.,45,第二主成分 在 上有中等程度的正载荷,而在 上有中等程度的负载荷,称第二主成分为,形状成分,(或,胖瘦成分,)。,第三主成分 在 上有大的正载荷,在 上有大的负载荷,而在其余变量上的载荷都较小,可称第三主成分为,臂长成分,。,由于第三主成分的贡献率不高(,7.65,)且实际意义也不太重要,因此我们一般可考虑取前两个主成分。,由于 非常小,所以存在,共线性关系,:,.,第二主成分 在 上有中等程度的正载,46,例,7.3.2,在习题,6.5,中,如下八项男子径赛运动记录:,x,1,:,100,米(秒),x,5,:,1500,米(分),x,2,:,200,米(秒),x,6,:,5000,米(分),x,3,:,400,米(秒),x,7,:,10000,米(分),x,4,:,800,米(秒),x,8,:马拉松(分),表,7.3.3,八项男子径赛运动记录的样本相关矩阵,x,1,x,2,x,3,x,4,x,5,x,6,x,7,x,8,x,1,1.000,x,2,0.923,1.000,x,3,0.841,0.851,1.000,x,4,0.756,0.807,0.870,1.000,x,5,0.700,0.775,0.835,0.918,1.000,x,6,0.619,0.695,0.779,0.864,0.928,1.000,x,7,0.633,0.697,0.787,0.869,0.935,0.975,1.000,x,8,0.520,0.596,0.705,0.806,0.866,0.932,0.943,1.000,.,例7.3.2 在习题6.5中,如下八项男子径赛运动记录:,47,表,7.3.4,的前三个特征值、特征向量以及贡献率,特征向量,:,100,米,0.318,0.567,0.332,:,200,米,0.337,0.462,0.361,:,400,米,0.356,0.248,0.560,:,800,米,0.369,0.012,0.532,:,1500,米,0.373,0.140,0.153,:,5000,米,0.364,0.312,0.190,:,10000,米,0.367,0.307,0.182,:,马拉松,0.342,0.439,0.263,特征值,6.622,0.878,0.159,贡献率,0.828,0.110,0.020,累计贡献率,0.828,0.937,0.957,.,表7.3.4 的前三个特征值、特征向量以及贡献率特征,48,例,7.3.3,对例,6.3.3,中的数据从相关矩阵出发进行主成分分析。经计算,,x,1,x,2, ,x,8,的样本相关矩阵,列于表,7.3.5,。,的前三个特征值、特征向量以及贡献率列于表,7.3.6,。,表,7.3.5,消费性支出八个变量的样本相关矩阵,x,1,x,2,x,3,x,4,x,5,x,6,x,7,x,8,x,1,1.000,x,2,0.247,1.000,x,3,0.698,0.258,1.000,x,4,0.468,0.423,0.621,1.000,x,5,0.828,0.086,0.585,0.531,1.000,x,6,0.769,0.255,0.856,0.684,0.708,1.000,x,7,0.670,0.201,0.569,0.314,0.800,0.647,1.000,x,8,0.877,0.349,0.667,0.628,0.776,0.745,0.525,1.000,.,例7.3.3 对例6.3.3中的数据从相关矩阵出发进行主,49,表,7.3.6,的前三个特征值、特征向量以及贡献率,特征向量,:,食品,0.401,0.077,0.415,:,衣着,0.132,0.749,0.332,:,家庭设备用品及服务,0.375,0.065,0.442,:,医疗保健,0.320,0.345,0.478,:,交通和通讯,0.388,0.232,0.279,:,娱乐教育文化服务,0.406,0.027,0.310,:,居住,0.326,0.496,0.034,:,杂项商品和服务,0.396,0.096,0.345,特征值,5.098,1.352,0.574,贡献率,0.637,0.169,0.072,累计贡献率,0.637,0.806,0.878,.,表7.3.6 的前三个特征值、特征向量以及贡献率特,50,表,7.3.7,按第一主成分排序的,31,个地区,地区,地区,江西,2.234,1.867,新疆,0.697,0.647,河南,1.947,0.388,四川,0.533,0.041,黑龙江,1.927,0.636,广西,0.251,2.058,吉林,1.859,0.151,山东,0.147,0.983,山西,1.848,0.404,福建,0.201,1.337,内蒙古,1.826,0.509,湖南,0.219,0.203,安徽,1.796,0.519,江苏,0.407,0.311,甘肃,1.549,0.526,云南,0.435,0.479,宁夏,1.501,0.906,西藏,0.437,2.365,辽宁,1.313,0.844,重庆,1.115,0.409,贵州,1.298,0.341,天津,2.006,0.044,海南,1.157,1.913,浙江,3.583,0.531,青海,1.045,0.426,北京,5.426,2.466,陕西,0.859,0.501,广东,5.583,3.072,河北,0.769,0.580,上海,5.866,0.195,湖北,0.717,0.247,.,表7.3.7 按第一主成分排序的31个地区地区,51,表,7.3.8,按第二主成分排序的,31,个地区,地区,地区,广东,5.583,3.072,山西,1.848,0.404,广西,0.251,2.058,重庆,1.115,0.409,海南,1.157,1.913,青海,1.045,0.426,江西,2.234,1.867,云南,0.435,0.479,福建,0.201,1.337,内蒙古,1.826,0.509,安徽,1.796,0.519,甘肃,1.549,0.526,陕西,0.859,0.501,浙江,3.583,0.531,河南,1.947,0.388,河北,0.769,0.580,贵州,1.298,0.341,黑龙江,1.927,0.636,江苏,0.407,0.311,新疆,0.697,0.647,湖北,0.717,0.247,辽宁,1.313,0.844,湖南,0.219,0.203,宁夏,1.501,0.906,上海,5.866,0.195,山东,0.147,0.983,四川,0.533,0.041,西藏,0.437,2.365,天津,2.006,0.044,北京,5.426,2.466,吉林,1.859,0.151,.,表7.3.8 按第二主成分排序的31个,52,.,.,53,.,.,54,五、若干补充及应用中需注意的问题,1.,关于时间序列数据,2.,主成分用于聚类分析,3.,关于不同时期的主成分分析,4.,对综合得分方法的质疑,.,五、若干补充及应用中需注意的问题1.关于时间序列数据.,55,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!