主成分分析与因子分析法

上传人:cel****303 文档编号:243798929 上传时间:2024-09-30 格式:PPT 页数:37 大小:297.50KB
返回 下载 相关 举报
主成分分析与因子分析法_第1页
第1页 / 共37页
主成分分析与因子分析法_第2页
第2页 / 共37页
主成分分析与因子分析法_第3页
第3页 / 共37页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,主成分分析与因子分析法,主要内容,主成分分析法,因子分析法,附:主成分分析法与因子分析法的区别,主成分分析法Principal Components Analysis,PCA,主成分分析法概述,主成分分析的根本原理,主成分分析的计算步骤,一、主成分分析概述,假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,比方固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?,引子,当然不能。汇报什么?,发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表来对它们进展描述。,需要把这种有很多变量的数据进展高度概括,用少数几个指标简单明了地把情况说清楚。,主成分分析法 Principal Components Analysis 和因子分析法Factor Analysis就是把变量维数降低以便于描述、理解和分析的方法。,主成分分析也称为主分量分析,是一种通过降维来简化数据构造的方法:如何把多个变量化为少数几个综合变量综合指标,而这几个综合变量可以反映原来多个变量的大局部信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。,这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量,只是几个指标的综合。,在引入主成分分析之前,先看下面的例子。,什么是主成分分析法?,成绩数据,53个学生的数学、物理、化学、语文、历史、英语的成绩如下表局部。,从本例可能提出的问题,能不能把这个数据表中的,6,个变量用一两个综合变量来表示呢?,这一两个综合变量包含有多少原来的信息呢?,事实上,以上问题在平时的研究中,也会经常遇到。它所涉及的问题可以推广到对企业、对学校、对区域进展分析、评价、排序和分类等。,比方对n个样本进展综合评价,可选的描述样本特征的指标很多,而这些指标往往存在一定的相关性既不完全独立,又不完全相关,这就给研究带来很大不便。假设选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对样本影响较大的指标,影响结果的可靠性。,这就需要我们在相关分析的根底上,采用主成分分析法找到几个新的相互独立的综合指标,到达既减少指标数量、又能区分样本间差异的目的。,二、主成分分析的根本原理,一主成分分析的几何解释,二主成分分析的根本思想,一主成分分析的几何解释,例中数据点是六维的;即每个观测值是6维空间中的一个点。希望把6维空间用低维空间表示。,先假定只有二维,即只有两个变量,语文成绩x1和数学成绩x2,分别由横坐标和纵坐标所代表;,每个学生都是二维坐标系中的一个点。,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化。为了实现样本数据的标准化,应求样本数据的平均和方差。对数据矩阵Y作标准化处理,即对每一个指标分量作标准化变换,变换公式为:,其中,,样本均值:,样本标准差:,原始变量 经规格化后变为新变量 ,其均值为零,方差为1。,对二维空间来讲n个标准化后的样本在二维空间的分布大体为一椭圆形,,该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少,,,极端的情况,下,,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。,假定语文成绩 X1 和数学成绩 X2分别为标准化后的分数,右图为其散点图,椭圆倾斜为45度。,如果将坐标轴 X1 和 X2 旋转45 ,那么点在新坐标系中的坐标Y1,Y2与原坐标X1,X2有如下的关系:,Y,1,和,Y,2,均是,X,1,和,X,2,的线性组合,在新坐标系中,可以发现:虽然散点图的形状没有改变,但新的随机变量 Y1 和 Y2 已经不再相关。而且大局部点沿 Y1 轴散开,在 Y1 轴方向的变异较大即 Y1的方差较大,相对来说,在 Y2轴方向的变异较小即 Y2 的方差较小。,在上面的例子中 Y1 和 Y2 就是原变量 X1和 X2的第一主成分和第二主成分。实际上第一主成分 Y1 就根本上反映了 X1 和X2 的主要信息,因为图中的各点在新坐标系中的 Y1 坐标根本上就代表了这些点的分布情况,因此可以选 Y1 为一个新的综合变量。当然如果再选 Y2也作为综合变量,那么 Y1 和 Y2 那么反映了 X1 和 X2的全部信息。,22,(二)主成分分析的根本思想,假设对某一问题的研究涉及 p 个指标,记为X1,X2,Xp,由这 p 个随机变量构成的随机向量为X=(X1,X2,Xp),设 X 的均值向量为,协方差矩阵为。设Y=(Y1,Y2,Yp)为对 X 进展线性变换得到的合成随机向量,即,(1),设i=(i1,i2,ip),A=(1,2,p),那么有,(2),23,且,3,由是式(1)(2)能够看出,可以对原始变量进展任意的线性变换,不同线性变换得到的合成变量Y的统计特征显然是不一样的。每个Yi 应尽可能多地反映 p 个原始变量的信息,通常用方差来度量“信息,Yi 的方差越大表示它所包含的信息越多。由式3可以看出将系数向量i 扩大任意倍数会使Yi 的方差无限增大,为了消除这种不确定性,增加约束条件:,24,为了有效地反映原始变量的信息,Y的不同分量包含的信息不应重叠。综上所述,式1的线性变换需要满足下面的约束:,(1)即 ,i=1,2,p。,(2)Y1在满足约束(1)即的情况下,方差最大;Y2是在满足约束(1),且与Y1不相关的条件下,其方差到达大;Yp是在满足约束(1),且与Y1,Y2,Y p-1不相关的条件下,在各种线性组合中方差到达最大者。,满足上述约束得到的合成变量Y1,Y2,Yp分别称为原始变量的第一主成分、第二主成分、第 p 主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以到达简化系统构造的目的。,三、主成分分析的计算步骤,(一)计算相关系数矩阵,(二)计算特征值与特征向量,(三)计算主成分奉献率及累计奉献率,(四)计算主成分载荷,一计算相关系数矩阵,riji,j=1,2,p为原变量xi与xj标准化后的相关系数,rij=rji,其计算公式为,二计算特征值与特征向量,1、解特征方程,求出特征值,并使其按大小顺序排列,2,、分别求出对应于特征值 的特征向量,,要求,=1,,即,其中表示向量 的第,j,个分量,也就是说 为单位向量。,29,三计算主成分奉献率及累计奉献率,主成分分析是把 p 个随机变量的总方差分解为 p 个不相关随机变量的方差之和1 2 P,那么总方差中属于第 i 个主成分被第 i 个主成分所解释的比例为,称为第 i 个主成分的奉献率。定义,称为前 m 个主成分的累积奉献率,衡量了前 m 个主成份对原始变量的解释程度。,四计算主成分载荷,在主成分之间不相关时,主成分载荷就是主成 分zi与变量xj之间的相关系数,因子分析法Factor Analysis,FA,因子分析法概述,因子分析法的模型,附:主成分分析与因子分析的区别,一因子分析法概述,因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。主成分分析是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性组合。而因子分析法是要构造因子模型,将原始观察变量分解为因子的线性组合。因此因子分析法是主成分分析法的开展。,二因子分析法的模型,狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵。其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型构造。,其步骤为:,将原始数据标准化求标准化数据的相关矩阵求相关矩阵的特征值和特征向量计算方差奉献率与累计方差奉献率确定因子因子旋转用原始的线性组合求各因子得分求综合得分得分排序,因子模型的表达式为:,其矩阵形式为:,其中 为因子载荷。数学上可以证明,因子载荷 就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。,F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。,附、主成分分析与因子分析的区别,主成分分析法与因子分析法的区别,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!