主成分分析课件

上传人:文**** 文档编号:241730701 上传时间:2024-07-19 格式:PPT 页数:59 大小:463.40KB
返回 下载 相关 举报
主成分分析课件_第1页
第1页 / 共59页
主成分分析课件_第2页
第2页 / 共59页
主成分分析课件_第3页
第3页 / 共59页
点击查看更多>>
资源描述
主成分分析主成分分析主成分分析1主成分的基本思想主成分的基本思想主成分的数学原理主成分的数学原理主成分分析的应用主成分分析的应用内容提要:内容提要:主成分的基本思想内容提要:2一、主成分分析的基本思想一、主成分分析的基本思想一、主成分分析的基本思想3在多数实际问题中,不同指标之间是有一定相关性。在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。分析问题的复杂性。主成分概念首先由主成分概念首先由 Karl Parson Karl Parson在在19011901年引进,当年引进,当时只对非随机变量来讨论的。时只对非随机变量来讨论的。19331933年年HotellingHotelling将这将这个概念推广到随机变量。个概念推广到随机变量。1 1、主成分分析产生背景、主成分分析产生背景在多数实际问题中,不同指标之间是有一定相关性。由于指标较多及4主成分分析就是设法将原来指标重新组合成一组主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。尽可能多地反映原来的指标的信息。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个5导出几个主成分,使它们尽可能多地保留原导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间不相关始变量的信息,且彼此间不相关。主成分分析是通过考察多个数值变量间相关主成分分析是通过考察多个数值变量间相关性,研究如何通过少数几个主成分来解释多性,研究如何通过少数几个主成分来解释多变量的方差变量的方差协方差结构的一种统计方法。协方差结构的一种统计方法。导出几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间62、主成分分析的基本思想、主成分分析的基本思想以两个指标为例,信息总量以总方差表示:以两个指标为例,信息总量以总方差表示:原指标:原指标:特点:具有相关性特点:具有相关性新指标:新指标:特点:新变量是原变量的函数,特点:新变量是原变量的函数,且新变量之间不具有相关性且新变量之间不具有相关性要求:要求:将原来众多具有一定相关性的指标重新组合成一将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标。组新的相互无关的综合指标来代替原来指标。2、主成分分析的基本思想以两个指标为例,信息总量以总方差表示7主成分分析就是通过适当的变量替换,使新变量主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分来分析事成为原变量的线性组合,并寻求主成分来分析事物的一种方法物的一种方法。其中其中y y1 1、y y2 2分别都是分别都是x x1 1、x x2 2的线性组合,并且信息的线性组合,并且信息尽可能地集中在尽可能地集中在y y1 1上。在以后的分析中舍去上。在以后的分析中舍去y y2 2,只,只用主成分用主成分y y1 1来分析问题,起到了降维的作用。来分析问题,起到了降维的作用。主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组83、几何解释、几何解释x1x2y1y23、几何解释x1x2y1y29y y1 1称为第一主成分,称为第一主成分,y y2 2称为第二主成分。称为第二主成分。旋转变换的目的是为了使得旋转变换的目的是为了使得n n个样本点在个样本点在y y1 1轴方向轴方向上的离散程度最大,即上的离散程度最大,即y y1 1的方差最大,变量的方差最大,变量y y1 1代表了代表了原始数据的绝大部分信息,在研究某经济问题时,原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量即使不考虑变量y y2 2也损失不多的信息。也损失不多的信息。y y1 1与与y y2 2除起了浓缩作用外,还具有不相关性。除起了浓缩作用外,还具有不相关性。y1称为第一主成分,y2称为第二主成分。旋转变换的目的是为了10推广开来,对于推广开来,对于p p维总体维总体 ,寻求正交变换,寻求正交变换 ,使得使得推广开来,对于p维总体 11二、主成分分析的数学原理二、主成分分析的数学原理二、主成分分析的数学原理12正交变换中,所选正交矩阵正交变换中,所选正交矩阵A A,使,使两两不相关两两不相关第一主成分第一主成分第二主成分第二主成分正交变换中,所选正交矩阵A,使两两不相关第一主成分第二主成分13要求:要求:对原有变量作坐标变换对原有变量作坐标变换:要求:对原有变量作坐标变换:14 则称则称y y1 1为为x x的第一主成的第一主成分分y y2 2为第二主成分为第二主成分 则称y1为x的第一主成分y2为第二主成分15对于对于P P维总体维总体 ,其主成,其主成分总体分总体 存在的必要条件是,相应正存在的必要条件是,相应正交矩阵交矩阵A A满足条件满足条件 其中其中1 1、主成分总体存在的必要条件、主成分总体存在的必要条件1、主成分总体存在的必要条件16证明:证明:证明:17主成分分析课件18从公式的计算推导可以发现,主成分方程中的从公式的计算推导可以发现,主成分方程中的系数向量系数向量A A恰好是原有变量协方差矩阵的特征恰好是原有变量协方差矩阵的特征向量,其特征根是主成分的方差。向量,其特征根是主成分的方差。从公式的计算推导可以发现,主成分方程中的系数向量A恰好是原有19只要证明其他任意存在的一个正交矩阵只要证明其他任意存在的一个正交矩阵L L,使得,使得 中中 ,那么,那么2 2、主成分总体存在的充分条件、主成分总体存在的充分条件由由L L矩阵所产生的主成分方差永远都比相应的矩阵所产生的主成分方差永远都比相应的U U矩阵产生的方差小矩阵产生的方差小只要证明其他任意存在的一个正交矩阵L,使得 203、量纲对于主成分分析的影响及消除方法、量纲对于主成分分析的影响及消除方法 对数据进行标准化处理,以使每一个变量的均对数据进行标准化处理,以使每一个变量的均值为值为0 0,方差为,方差为1 1。3、量纲对于主成分分析的影响及消除方法 对数据进行标准化处理21数据标准化后数据标准化后,总体的协方差矩阵与总体的相总体的协方差矩阵与总体的相关系数相等关系数相等.主成分分析课件224、样本主成分、样本主成分变量X样本协方差为总体协方差的无偏估计样本协方差为总体协方差的无偏估计相关矩阵相关矩阵R R为总体相关矩阵的估计为总体相关矩阵的估计4、样本主成分变量X23主成分分析课件24若若X X已标准化,则可用相关矩阵代替协方差矩阵已标准化,则可用相关矩阵代替协方差矩阵若X已标准化,则可用相关矩阵代替协方差矩阵25主成分分析课件261为相关矩阵为相关矩阵R的特征值的特征值同理,同理,i为相关矩阵为相关矩阵R的特征值,的特征值,i=1,2,1为相关矩阵R的特征值同理,i为相关矩阵R的特征值,i=27将将R R的特征根依大小顺序排列的特征根依大小顺序排列其对应的特征向量记为其对应的特征向量记为A A1 1,A A2 2,A,Ap p说明说明y1y1有最大方差,有最大方差,y2y2有次大方差。有次大方差。将R的特征根依大小顺序排列28主成分分析课件29主成分分析课件30说明新的综合指标即主成分彼此不相关说明新的综合指标即主成分彼此不相关说明新的综合指标即主成分彼此不相关315、样本主成分的性质、样本主成分的性质1 1、第、第K K个主成分个主成分y yk k的系数向量是第的系数向量是第K K个特征根个特征根k k所对应所对应的标准化特征向量。的标准化特征向量。2 2、第、第K K个主成分的方差为第个主成分的方差为第K K个特征根个特征根 k k,且任意两个,且任意两个主成分都是不相关的,也就是主成分都是不相关的,也就是y y1 1,y,y2 2,y,yp p的样本协方差的样本协方差矩阵是对角矩阵矩阵是对角矩阵3 3、样本主成分的总方差等于原变量样本的总方差,为、样本主成分的总方差等于原变量样本的总方差,为p p4 4、第、第K K个样本主成分与第个样本主成分与第j j个变量样本之间的相关系数为个变量样本之间的相关系数为:(因子载荷量)(因子载荷量)5、样本主成分的性质1、第K个主成分yk的系数向量是第K个特326、主成分模型中各统计量的意义、主成分模型中各统计量的意义、主成分的方差贡献率:、主成分的方差贡献率:这个值越大,表明第这个值越大,表明第i i主成分综合信息的能力越主成分综合信息的能力越强。强。2 2、主成分的累计贡献率、主成分的累计贡献率 表明取前几个主成分基本包含了全部测量指标所表明取前几个主成分基本包含了全部测量指标所具有信息的百分率具有信息的百分率.6、主成分模型中各统计量的意义、主成分的方差贡献率:337、主成分个数的选取、主成分个数的选取1.1.累积贡献率达到累积贡献率达到85%85%以上以上 2.2.根据特征根的变化来确定根据特征根的变化来确定 7、主成分个数的选取1.累积贡献率达到85%以上348 8、主成分分析的基本步骤及、主成分分析的基本步骤及spssspss实现实现 1.1.将原始数据进行标准化处理将原始数据进行标准化处理 2.2.计算样本相关矩阵计算样本相关矩阵R R 3.3.求相关矩阵求相关矩阵R R的特征值与特征向量的特征值与特征向量,并计算贡并计算贡献率献率 4.4.选择主成分选择主成分 5.5.对所选主成分做经济解释对所选主成分做经济解释8、主成分分析的基本步骤及spss实现 1.将原始数据进35Spss实现:1.analyze-description statistic-description-save standardized as variables 2.analyze-data reduction-factor 3.指定参与分析的变量 4.运行factor 过程Spss实现:36例例3.1 3.1 某主管局管辖某主管局管辖2020个工厂个工厂,现要对每个工厂作现要对每个工厂作经济效益分析经济效益分析,经研究确定从所取得的生产成果同所经研究确定从所取得的生产成果同所消耗的人力消耗的人力,物力物力,财力的比率财力的比率,选取五个指标作分析选取五个指标作分析x1-x1-固定资产产值率固定资产产值率,X2-,X2-净产值劳动生产率净产值劳动生产率,X3-,X3-百元百元产值流动资金占用率产值流动资金占用率,X4-,X4-百元产值利润率百元产值利润率,X5-,X5-百元百元资金利润率资金利润率.(.(数据见数据见spssex/ex301spssex/ex301)Y1=0.5031*zx1+0.4994*zx2-0.4731*zx3+0.0690*zx4+0.5183*zx5Y2=-0.3451*zx1+0.2871*zx2+0.3833*zx3+0.7460*zx4+0.3093*zx5F=0.5365*y1+0.34302*y2例3.1 某主管局管辖20个工厂,现要对每个工厂作经济效379、解析主成分的实际意义、解析主成分的实际意义从系数的大小、系数的符号上进行分析。从系数的大小、系数的符号上进行分析。系数绝对值较大,则表明该主成分主要综合了系数绝对值较大,则表明该主成分主要综合了绝对值大的变量。绝对值大的变量。正号表示变量与主成分作用同方向,负号表示正号表示变量与主成分作用同方向,负号表示原变量与主成分作用反方向。原变量与主成分作用反方向。如果变量分组较有规则,则从特征向量各分量如果变量分组较有规则,则从特征向量各分量数值作出组内组间对比分析。数值作出组内组间对比分析。9、解析主成分的实际意义从系数的大小、系数的符号上进行分析。38例例3.2 3.2 在企业经济效益的评价中在企业经济效益的评价中,涉及的指标往往涉及的指标往往很多很多.为了简化系统结构为了简化系统结构,抓住经济效益评价中的主抓住经济效益评价中的主要问题要问题,我们可由原始数据矩阵出发求主成分我们可由原始数据矩阵出发求主成分.在对在对我国部分省我国部分省,市市,自治区独立核算的工业企业的经济自治区独立核算的工业企业的经济效益评价中效益评价中,涉及到涉及到9 9项指标项指标,x1-100,x1-100元固定资产原值元固定资产原值实现产值实现产值,X2-100,X2-100元固定资产原值实现利税元固定资产原值实现利税,X3-100,X3-100元资金实现利税元资金实现利税,X4-100,X4-100元工业总产值实现利税元工业总产值实现利税,X5-,X5-100100元销售收入实现利税元销售收入实现利税,X6-,X6-每吨标准煤实现工业产每吨标准煤实现工业产值值,X7-,X7-每千瓦时电力实现工业产值每千瓦时电力实现工业产值,X8-,X8-全员劳动生全员劳动生产率产率,X9-100,X9-100元流动资金实现产值元流动资金实现产值(数据见数据见spssex/ex302spssex/ex302)例3.2 在企业经济效益的评价中,涉及的指标往往很多.为了39Y1=0.928*zx1+0.977*zx2+0.935*zx3+0.232*zx4+0.460*zx5+0.934*zx6+0.894*zx7+0.959*zx8+0.904*zx9Y2=-0.329*zx1+0.150*zx2+0.310*zx3+0.873*zx4+0.568*zx5-0.210*zx6-0.288*zx7-0.01679*zx8-0.174*zx9Y1=0.928*zx1+0.977*zx2+0.935*z40职工健康职工健康(数据见数据见spssex/spssex/职工健康情况分析职工健康情况分析)Y1=0.3369*zx1+0.371*zx2+0.4029*zx3-Y1=0.3369*zx1+0.371*zx2+0.4029*zx3-0.0013*zx4+0.3771*zx5+0.3876*zx6+0.2202*zx7+0.30.0013*zx4+0.3771*zx5+0.3876*zx6+0.2202*zx7+0.3933*zx8+0.3015*zx9933*zx8+0.3015*zx9Y2=0.2983*zx1-0.0596*zx2-0.2184*zx3+0.5998*zx4-Y2=0.2983*zx1-0.0596*zx2-0.2184*zx3+0.5998*zx4-0.0141*zx5-0.2603*zx6+0.55*zx7+0.2113*zx8-0.0141*zx5-0.2603*zx6+0.55*zx7+0.2113*zx8-0.2904*zx90.2904*zx9Y3=-0.354*zx1+0.4649*zx2-Y3=-0.354*zx1+0.4649*zx2-0.0129*zx3+0.5038*zx4+0.4085*zx5+0.0419*zx6-0.0129*zx3+0.5038*zx4+0.4085*zx5+0.0419*zx6-0.3774*zx7-0.1303*zx8-0.2762*zx90.3774*zx7-0.1303*zx8-0.2762*zx9职工健康(数据见spssex/职工健康情况分析)Y1=0.341三、主成分分析在指标综合评价中的三、主成分分析在指标综合评价中的应用应用三、主成分分析在指标综合评价中的应用42核心:通过主成分分析,选择核心:通过主成分分析,选择m m个主成分个主成分y y1 1,y,y2 2,y,ym m,以每个,以每个主成分主成分y yi i的方差贡献率的方差贡献率i i作为权数,构造综合评价函数,作为权数,构造综合评价函数,其中其中 为第为第i i个主成分的得分(求出主成分的表达式后,将个主成分的得分(求出主成分的表达式后,将标准化后的数据再代入标准化后的数据再代入y yi i中)中)当把当把m m个主成分得分代入个主成分得分代入F F函数后,即可得到每个样本的综合评函数后,即可得到每个样本的综合评价函数得分,以得分的大小排序,可排列出每个样本的经济效价函数得分,以得分的大小排序,可排列出每个样本的经济效益的名次。益的名次。核心:通过主成分分析,选择m个主成分y1,y2,ym,以43一、选用一个主成分的排序一、选用一个主成分的排序二、选用多个主成分的排序二、选用多个主成分的排序一、选用一个主成分的排序44例例3.8 3.8 全国重点水泥企业某年的经济效益分析全国重点水泥企业某年的经济效益分析.X1.X1为固定资产利税率为固定资产利税率,X2,X2为资金利税率为资金利税率,X3,X3为销售收入为销售收入利税率利税率,X4,X4为资金利润率为资金利润率,X5,X5为固定资产产值率为固定资产产值率,X6-,X6-流动资金周转天数流动资金周转天数,X7-,X7-万元产值能耗万元产值能耗,X8-,X8-全员劳动全员劳动生产率生产率.(.(数据见数据见spssex/ex308spssex/ex308)Y1=0.431*zx1+0.4052*zx2+0.3768*zx3+0.4186*zx4+0.3999*zx5+0.1392*zx6-0.2962*zx7+0.2558*zx8Y2=-.0097*zx1+0.2828*zx2-0.1057*zx3+0.2476*zx4+0.1894*zx5+0.7393*zx6+0.0555*zx7-0.5111*zx8Y3=.2227*zx1-.1108*zx2+.3510*zx3-.0293*zx4-.0217*zx5+.3314*zx6+.7378*zx7+.3988*zx8例3.8 全国重点水泥企业某年的经济效益分析.X1为固定资45用主成分分析综合评价经济效益的优点用主成分分析综合评价经济效益的优点:1.1.可比性可比性:由于主成分分析过程中,对各个指标进行由于主成分分析过程中,对各个指标进行了标准化处理,所以使各种不同度量的指标化成了同了标准化处理,所以使各种不同度量的指标化成了同度量的指标,同时也消除了原始数据数量级上的差别,度量的指标,同时也消除了原始数据数量级上的差别,使得各个指标间具有可比性及可加性。使得各个指标间具有可比性及可加性。2.2.全面性:通过正交变换寻找主成分,克服了原始全面性:通过正交变换寻找主成分,克服了原始指标相关性的影响。指标相关性的影响。3.3.合理性:在综合评价过程中,权数的确定是客观合理性:在综合评价过程中,权数的确定是客观合理的,克服了某些评价方法中人为确定权数的缺陷。合理的,克服了某些评价方法中人为确定权数的缺陷。用主成分分析综合评价经济效益的优点:46主成分回归分析主成分回归分析一、主成分估计一、主成分估计主成分估计是以主成分估计是以P P个主成分中的前个主成分中的前q q个贡献大的个贡献大的主成分为自变量建立回归方程,估计参数的一主成分为自变量建立回归方程,估计参数的一种方法。种方法。它可以消除变量间的多重共线性它可以消除变量间的多重共线性。主成分回归分析一、主成分估计47回归方程回归方程对各变量进行标准化处理对各变量进行标准化处理对于解释变量对于解释变量X*X*,使得,使得z=X*Uz=X*U回归方程48主成分分析课件491 1、给定、给定c c,2 2、删去、删去 的特征根所对应的主的特征根所对应的主成分。成分。3 3、1、给定c,50SPSSSPSS实现实现1 1、对所有变量进行标准化、对所有变量进行标准化(Analyse-description)(Analyse-description)2 2、对所有标准化后的自变量求主成分、对所有标准化后的自变量求主成分Z(factor)Z(factor)3 3、选择前几个主成分、选择前几个主成分4 4、计算主成分得分、计算主成分得分(transform-compute)(transform-compute)5 5、y y与主成分进行回归与主成分进行回归(analyse-regression)(analyse-regression),求出,求出系数系数值。值。6 6、compute ,compute ,求出求出系数,即可得出消除多系数,即可得出消除多重共线性的标准回归方程。重共线性的标准回归方程。SPSS实现1、对所有变量进行标准化(Analyse-des51例3.9 经济工作者希望通过国内总产值x1,存储量x2,消费总量x3,去预测进口总额y,为此收集了某地区共计十一年的有关数据,利用主成分估计建立回归方程。(数据见spssex/ex309)Z1=0.7066*zx1+0.0435*zx2+0.7066*zx3Z2=-0.0357*zx1+0.9990*zx2-0.0258*zx3例3.9 经济工作者希望通过国内总产值x1,存储量x2,52例例3.10 3.10 影响电的需求量的指标有影响电的需求量的指标有:(1)(1)钢的产量钢的产量x1;(2)x1;(2)生铁生铁产量产量x2;(3)x2;(3)钢材产量钢材产量x3;(4)x3;(4)有色金属产量有色金属产量x4;(5)x4;(5)原煤产量原煤产量x5;(6)x5;(6)水泥产量水泥产量x6;(7)x6;(7)机械工业总产值机械工业总产值x7;(8)x7;(8)化肥产量化肥产量x8;(9)x8;(9)硫酸产量硫酸产量x9;(10)x9;(10)烧碱产量烧碱产量x10;(11)x10;(11)棉纱产量棉纱产量x11x11共共1111个指标。收集了个指标。收集了2323年的指标值,建立发电站需求模型。年的指标值,建立发电站需求模型。(数据数据见见spssex/ex310spssex/ex310)Z1=0.3145*zx1+0.3027*zx2+0.3100*zx3+0.2782*zx4+0.2518*zx5+0.3110*zx6+0.3116*zx7+0.3075*zx8+0.3034*zx9+0.3145*zx10+0.3050*zx11Z2=-0.0522*zx1+0.2949*zx2-0.0469*zx3+0.3696*zx4+0.7199*zx5-0.1919*zx6-0.1391*zx7-0.2421*zx8-0.3361*zx9-0.1481*zx10-0.0536*zx11例3.10 影响电的需求量的指标有:(1)钢的产量x1;(531 1、将原始样本数据标准化后,作主成分变换、将原始样本数据标准化后,作主成分变换Z=X*UZ=X*U2 2、剔除、剔除U Up p中绝对值最大的中绝对值最大的u ui1pi1p所对应的变量所对应的变量具有较小特征根对应的主成分含有较少的信息。具有较小特征根对应的主成分含有较少的信息。主成分分析筛选变量法主成分分析筛选变量法1、将原始样本数据标准化后,作主成分变换主成分分析筛选变量法543 3、将剩余、将剩余p-1p-1个标准化变量个标准化变量X*(1)X*(1)再作主成分分再作主成分分析析 Z(1)=X*(1)U(1)Z(1)=X*(1)U(1)4 4、再考虑最小特征根对应的特征向量,找出绝、再考虑最小特征根对应的特征向量,找出绝对值最大的特征向量,剔除与之对应的变量。对值最大的特征向量,剔除与之对应的变量。直至满足给定条件时停止。直至满足给定条件时停止。5 5、将因变量与剩余变量作回归、将因变量与剩余变量作回归3、将剩余p-1个标准化变量X*(1)再作主成分分析 Z(55先将原始变量作主成分估计,得到标准化后的先将原始变量作主成分估计,得到标准化后的y y与主成分的回归方程。与主成分的回归方程。离差平方和分解:离差平方和分解:三、主成分回归法三、主成分回归法先将原始变量作主成分估计,得到标准化后的y与主成分的回归方程56主成分分析课件57任一构成任一构成 是主成分是主成分Z Zj j 对对Y*Y*的的偏回偏回归平方和归平方和。找出偏回归平方和最小的主成分,其系数向量找出偏回归平方和最小的主成分,其系数向量中,最大的中,最大的U Uijij所对应的自变量被剔除。所对应的自变量被剔除。找出次小的偏回归平方和,类似做之找出次小的偏回归平方和,类似做之最后将最后将y*y*与剩下自变量做回归。与剩下自变量做回归。任一构成 是主成分Zj 对Y*的偏回归平58下课喽!下课喽!59
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!