1第一章 主成分分析

上传人:hjk****65 文档编号:245266087 上传时间:2024-10-08 格式:PPT 页数:46 大小:803KB
返回 下载 相关 举报
1第一章 主成分分析_第1页
第1页 / 共46页
1第一章 主成分分析_第2页
第2页 / 共46页
1第一章 主成分分析_第3页
第3页 / 共46页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,江西理工大学理学院,第一章 主成分分析,2024/10/8,主成分分析的重点,1,、掌握什么是主成分分析,;,2、理解主成分分析的基本思想,;,3、理解主成分求解方法:协方差矩阵与相,关系数矩阵的差异,;,4、掌握运用数学软件求解主成分,;,5、对软件输出结果进行正确分析,.,2024/10/8,一、,主成分分析的,基本思想,主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。,主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。,2024/10/8,主成分分析得到的主成分与原始变量之间的关系:,1、主成分保留了原始变量绝大多数信息。,2、主成分的个数大大少于原始变量的数目。,3、各个主成分之间互不相关。,4、每个主成分都是原始变量的线性组合。,2024/10/8,主成分分析的运用:,1、,对一组内部相关的变量作简化的描述,2、,用来削减回归分析或群集分析(,Cluster),中变量的数目,3、,用来检查异常点,4、用来作多重共线性鉴定,5、,用来做原来数据的常态检定,2024/10/8,二、数学模型,假设我们所讨论的实际问题中,有,p,个指标,我们把这,p,个指标看作,p,个随机变量,记为,X,1,,,X,2,X,p,,,主成分分析就是要把这,p,个指标的问题,转变为讨论,p,个指标的线性组合的问题,而这些新的指标,F,1,F,2,F,k,(,k,p,),,按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。,2024/10/8,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合,F,i,。,2024/10/8,满足如下的条件:,1、每个主成分的系数平方和为1。即,2、主成分之间相互独立,即无重叠的信息。即,3、主成分的方差依次递减,重要性依次递减,即,F,1,F,2,F,p,分别称为原变量的第一、第二、,、第,p,个主成分。,2024/10/8,了解了主成分分析的基本思想、数学模型后,问题的关键:,1、如何进行主成分分析?(主成分分析的方法),基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。,2、如何确定主成分个数?,主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。,3、如何解释主成分所包含的经济意义?,2024/10/8,四、总体,主成分的求解及其性质,矩阵知识回顾:,(1)特征根与特征向量,A、,若对任意的,k,阶方阵,C,,,有数字 与向量 满足:,则称 为,C,的特征根,为,C,的相应于 的特征向量。,B、,同时,方阵,C,的特征根 是,k,阶方程 的根。,(2)任一,k,阶方阵,C,的特征根 的性质:,2024/10/8,(3)任一,k,阶的实对称矩阵,C,的性质:,A、,实对称矩阵,C,的非零特征根的数目,C,的秩,B、,k,阶的实对称矩阵存在,k,个实特征根,C、,实对称矩阵的不同特征根的特征向量是正交的,D、,若 是实对称矩阵,C,的单位特征向量,则,若矩阵 ,是由特征向量 所构成的,则有:,2024/10/8,主成分分析的目标:,1、从相关的,X,1,X,2,X,k,求出相互独立的新综合变量(主成分),Y,1,Y,2,Y,k,。,2、,Y,(,Y,1,Y,2,Y,k,),所反映信息的含量无遗漏或损失的指标,方差,等于,X,(,X,1,X,2,X,k,),的方差,。,X,与,Y,之间的计算关系是:,如何求解主成分?,2024/10/8,一、从协方差矩阵出发求解主成分,(一)第一主成分,:,设,X,的协方差阵为,由于,x,为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵,U,,使得,2024/10/8,其中,1,,,2,,,p,为,X,的特征根,不妨假设,1,2,p,。,而,U,恰好是由特征根相对应的特征向量所组成的正交阵。,下面我们来看,是否由,U,的第一列元素所构成为原始变量的线性组合是否有最大的方差。,2024/10/8,证明:设有,P,维正交向量,2024/10/8,当且仅当,a,1,=u,1,时,即 时,有最大的方差,1,。因为,Var(F,1,)=U,1,x,U,1,=,1。,如果第一主成分的信息不够,则需要寻找第二主成分。,2024/10/8,(二)第二主成分,在约束条件 下,寻找第二主成分,因为,所以,则,对,p,维向量 ,有,2024/10/8,所以如果取线性变换:,则 的方差次大。,类推,2024/10/8,写为矩阵形式:,2024/10/8,例:设的协方差矩阵为:,从协方差矩阵出发,求解主成分,()求协方差矩阵的特征根,依据求解,2024/10/8,()求特征根对应的特征向量,2024/10/8,()主成分:,()各主成分的贡献率及累计贡献率:,第一主成分贡献率:,第二主成分贡献率:,第三主成分贡献率:,2024/10/8,第一和第二主成分的累计贡献率:,由此可将以前三元的问题降维为两维问题第一和,第二主成分包含了以前变量的绝大部分信息,97.875%,2024/10/8,从协方差矩阵出发求解主成分的步骤:,1、求解各观测变量 的协方差矩阵。,2、,由,X,的协方差阵,,,求出其特征根,即解方程 ,可得特征根,。,3、求解 可得各特征根对应的特征向量,U,1,,,U,2,,,,U,p,。,其中最大特征根的特征向量对应第一主成分的系数向,量;第二大特征根对应的特征向量是第二大主成分的系,数向量,2024/10/8,4,、,计算累积贡献率,给出恰当的主成分个数。,5、计算所选出的,k,个主成分的得分。将原始数据的中心化值:,代入前,k,个主成分的表达式,分别计算出各样本,k,个主成分的得分。,6,、,对结果进行正确分析和合理解释,.,2024/10/8,二、由相关矩阵求解主成分,当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。,量纲对于主成分分析的影响及消除方法,对数据进行标准化处理,以使每一个变量的,均值为0,方差为1,。,2024/10/8,数据标准化后,总体的协方差矩阵与总体的相,关系数相等.,2024/10/8,主成分与原始变量的关系式为:,2024/10/8,从相关系数矩阵出发求解主成分的步骤:,1、标准化各观测变量数据。,2、求解标准化各观测变量的相关系数矩阵。,2、根据矩阵知识 求解相关系数矩阵的特征根。,3、求解各特征根对应的特征向量。,其中最大特征根的特征向量对应第一主成分的系数向,量;第二大特征根对应的特征向量是第二大主成分的系,数向量,2024/10/8,三、主成分性质,1、主成分,的协方差阵为对角阵,2、,p,个随机变量的总方差为,协方差矩阵,的,所有,特征根之和,说明主成分分析把,p,个随机变量的总方差分解,成为,p,个不相关的随机变量的方差之和。,当进行相关系数矩阵求解主成分,各变量标准化,后,则,p,个主成分总的方差之和等于,p,。,2024/10/8,3,、,贡献率:,第,i,个主成分的方差在全部方差中所占比重,称为贡献率,反映了原来,p,个指标多大的信息,有多大,的综合能力。,4、累积贡献率:,前,k,个主成分共有多大的综合能力,用这,k,个主成分,的方差和在全部方差中所占比重,来描述,称为累积贡献率。,2024/10/8,5,.,原始变量与主成分之间的相关系数(因子负荷量),和 的相关密切程度与对应线性组合系数向量成正比,与主成分标准差成正比,与原始变量的标准差成反比。,当原始变量标准化后,标准化变量与主成分的相关关系:,2024/10/8,五、,样本主成分求解,变量,X,样本协方差为总体协方差的无偏估计,相关矩阵,R,为总体相关矩阵的估计,2024/10/8,若,X,已标准化,则可用相关矩阵代替协方差矩阵,2024/10/8,2024/10/8,为相关矩阵的特征值,2024/10/8,将,R,的特征根依大小顺序排列,其对应的特征向量记为,U,1,,U,2,U,n,说明,y,1,有最大方差,,y,2,有次大方差,2024/10/8,说明新的综合指标即主成分彼此不相关,2024/10/8,样本主成分的性质,:,1、第,K,个主成分,y,k,的系数向量是第,K,个特征根,k,所对应的标准化特征向量。,2、第,K,个主成分的方差为第,K,个特征根,k,,,且任意两个主成分都是不相关的,也就是,y,1,y,2,y,p,的样本协方差矩阵是对角矩阵,3、样本主成分的总方差等于原变量样本的总方差,为,p,4、,第,K,个样本主成分与第,j,个变量样本之间的相关系数为:(因子载荷量),2024/10/8,六、,主成分个数的确定以及主成分分析的实现,一、主成分个数的选取,1.累积贡献率达到85%以上,2.根据特征根的变化来确定,数据标准化情况下:,3.作碎石图,描述特征值的贡献,2024/10/8,二、主成分分析的步骤,1、根据研究问题选取初始分析变量;,2、根据初始变量特性判断用协方差矩阵求主成分还是用相关矩阵求主成分;(量纲不一致则,将原始数据进行标准化处理用相关矩阵求主成分),3、求协方差矩阵或相关矩阵的特征根与相应的特征向量;,4、判断是否存在明显的多重共线性,若存在,返回至第1步;,5、得到主成分表达式并确定主成分个数,依据方差贡献率选取主成分;,6、对主成分作出合理解释,并结合其他研究法对研究问题进行深入分析。,2024/10/8,Matlab,里的主成分分析函数,1.princomp,功能:主成分分析,格式:,PC=,princomp(X,),PC,SCORE,latent,tsquare,=,princomp(X,),说明:,PC,SCORE,latent,tsquare,=,princomp(X,),对数据矩阵,X,进行主成分分析,给出各主成分,(PC),、所谓的,Z-,得分,(SCORE),、,X,的方差矩阵的特征值,(latent),和每个数据点的,HotellingT,2,统计量,(,tsquare,),。,2024/10/8,2.pcacov,功能:运用协方差矩阵进行主成分分析 格式:,PC=,pcacov(X,),PC,latent,explained,=,pcacov(X,),说明:,PC,latent,explained,=,pcacov(X,),通过协方差矩阵,X,进行主成分分析,返回主成分,(PC),、协方差矩阵,X,的特征值,(latent),和每个特征向量表征在观测量总方差中所占的百分数,(explained),。,3.pcares,功能:主成分分析的残差,格式:,residuals=,pcares(X,ndim,),说明:,pcares(X,ndim,),返回保留,X,的,ndim,个主成分所获的残差。注意,,ndim,是一个标量,必须小于,X,的列数。而且,,X,是数据矩阵,而不是协方差矩阵。,2024/10/8,4.barttest,功能:主成分的巴特力特检验,格式:,ndim,=,barttest(X,alpha,),ndim,prob,chisquare,=,barttest(X,alpha,),说明:巴特力特检验是一种等方差性检验。,ndim,=,barttest(X,alpha,),是在显著性水平,alpha,下,给出满足数据矩阵,X,的非随机变量的,n,维模型,,ndim,即模型维数,它由一系列假设检验所确定,,ndim,=1,表明数据,X,对应于每个主成分的方差是相同的;,ndim,=2,表明数据,X,对应于第二成分及其余成分的方差是相同的。,2024/10/8,例题,2024/10/8,2024/10/8,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!