2015数模提高班专题3--多元统计分析.ppt

资源描述

2015数学建模提高班多元统计分析之主成分分析专题梦想点燃激情激情成就未来李有梅2015 4 12 大数据分析无处不在 Datamining美剧纸牌屋是美国视频网站Netflix基于大数据投资拍摄的电视剧随着这个经典案例被越来越频繁地提及人们开始意识到数据分析对于影视创作的价值无论从剧本选择导演演员选择还是拍摄后期制作乃至营销都会产生深刻的影响近期谷歌也发布了基于搜索大数据的票房预测报告海量数据的新时代正在改变电影业原有的游戏规则如何应用大数据提升行业运营效率开始成为关键当然也有反方的声音比如梦工厂CEO卡森伯格就表示电影创作要靠创造力不能仅靠数据分析再比如金融产品的精确营销对潜在客户的定位分析数据分析的目的分类或聚类图形图像的恢复与识别综合评价等从2014美赛题谈起体育画报一个体育爱好者杂志正在寻找上个世纪的最优秀的大学男女教练建立数学模型来选择以下体育项目校园曲棍球曲棍球橄榄球棒球或垒球篮球足球中最好的大学男女教练以前或者现在在你的模型中时间因素是否对挑选产生影响比如1913年和2013年的指教是否会有不一样的评价请清楚的表述你的评选标准讨论你的模型应用的广泛性比如在性别上和运动项目上给出用你的模型得到的3个不同运动项目中最好的5个教练如何选择评价体系客观性准确性指标的重要性加权的依据统计分析是数据分析的主要工具完整的数据分析过程包括数据的采集数据可靠性完备性相关性各种数据类型如极大型指标极小型指标居中型指标时变的或静态的等等数据的整理数据的分析模型的适用性统计学为数据分析过程提供了一套完整的科学的方法论统计软件为数据分析提供了手段数据分析整理研究对象的复杂性需要通过各种方式来收集数据希望能从大量的数据中发现研究对象的本质特征调查收集到的原始统计资料常常是大量的它必须经过加工整理如分类归并汇总按时间前后或按数值大小重新排列等才容易发现数据的规律性并便于做进一步的统计分析格式标准化异常数据清除错误纠正缺损值处理整理好的数据具有如下结构对象的观察值样本指标属性 x11x21x31 xn1 数据是信息载体需要分析数据的主要特征一些简单的统计指标可以对研究对象的做一些定量刻画大数据云计算希望从数据中验证某种推断或提炼某种特征一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标另一方面随着考虑指标的增多增加了问题的复杂性同时由于各指标均是对同一事物的反映不可避免地造成信息的大量重叠这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律主成分分析概述在地区或企业经济效益的评价中涉及的指标往往很多如给定30个地区的经济发展8项指标 GDP 居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指数工业总产值如何研究经济发展状况和地区差异变量太多增加问题的复杂性也给合理分析问题和解决问题带来困难虽然每个变量都提供了一定的信息但其重要性有所不同在很多情况下变量间有一定的相关性从而使得这些变量所提供的信息有一定的重叠大的化学和药品公司生产过程要测量100多个过程变量包括不同场合下的温度压力及重量等如何形象化显示重要变量又能够灵敏检测变异的发生所有这些应用背景归结为研究中经常会遇到多指标的问题这些指标间往往存在一定的相关直接纳入分析不仅复杂变量间难以取舍而且可能因多元共线性而无法得出正确结论问题实质均为数据化简信息浓缩或者说降维即将分散在多个变量中的同类信息集中提纯从而便于分析解释和利用高维数据如何降维且尽可能少损失信息降维最简单的方法就是保留一个变量舍弃其余的变量对所有变量平均加权除非所有变量具有同样方程否则不合理基于某种标准做加权平均何种标准主成分分析是解决这些问题一种有效途径主成分分析的目的就是通过线性变换将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标便于进一步分析尽可能保留原始变量的信息且彼此不相关主成分分析 PrincipalComponentAnalysis PCA 用于辨识数据中模式的一种方法模式识别目的是突出数据间的相似和差异而这些特征在高维数据中难以得到无法给出图形表示 PCA的主要优势是能够处理高维数据通过减少数据维数实现数据压缩同时不损失过多的信息能有效处理维数灾难 CurseofDimensionality 问题在图像处理经济学统计学等各个领域得到了广泛应用专题主成分分析 1预备知识基本概念复习2主成分分析数学原理3用MatlabSPSS做主成分分析实例 4用SPSS做主成分分析实例 5作业基于样本的统计指标 1 单变量的均值 mean 均值作为一组数据的代表反映该组数据平均水平计算公式如下性质1 Matlab命令 mean x 2 方差 variance 方差用于衡量数据的集中或分散程度公式为 Matlab命令 var x 标准差 standarddeviation 是观测值与均值间的平均距离公式为 Matlab命令 std x 图1 不同方差数据示意图变异性越大说明指标对各种场景的遍历性越强提供的信息越充分信息量越大 3 两个变量的协方差 covariance 协方差用于衡量数据的协变趋势公式为记为若若X和Y的均值为零协方差如果X与Y是不相关的二者之间的协方差就是0matlab命令 cov x y P个变量时的协方差矩阵 C 4 相关系数 correlationcoefficient 相关系数是对于变量而言第j个和第k个变量之间的相关系数公式为相关系数大小在区间 1 1 之间也可写为标准化变换不改变相关系数数据预处理标准化假定有n组样本 m个变量其原始数据矩阵X为对矩阵进行标准化其公式为从而使得矩阵的每一列均值为0 方差为1标准化2 标准化的优点消除数据量纲的影响例如杭州市的温度 10 45 大气压力 105Pa湿度 0 100 怎么分析温度大气压力和湿度对心情的影响矩阵代数1 特征向量向量 3 2 T表示二维平面中从原点 0 0 指向点 3 2 的一个箭头而矩阵可以认为是转移矩阵经转移矩阵变换后还是自身倍数的向量称为矩阵的特征向量一般对单位特征向量进行处理 2 特征值与特征向量成对出现协方差矩阵是非负定存在正交矩阵由单位正交化特征向量组成使其与对角矩阵相似 PCA的数学原理假定我们有p个相关变量X1 X2 Xp的n次观察值 PCA的主要目标是寻找m个变量Xi的线性组合Fi m p 来解释Xi的方差协方差结构并且Fi之间不相关即用少量的p个变量说明原变量组的大部分变异性正像前面所讲一般目的是数据压缩数据解释或其他研究的中间步骤先从二维情形讲起二维时如何提取主成分以最简单的二元正态变量来说明主成分的几何意义其n个样本点的散布大致为一个椭圆 n个点的在平面上作一个坐标变换即按坐标X1和X2呈现某种线性相关性逆时针方向旋转角度在坐标系X1OX2中取新坐标轴在椭圆长轴方向取F1 短轴方向取F2 根据旋轴变换公式新老坐标之间有关系 n个点的坐标F1和F2几乎不相关在坐标系F1OF2中在F1轴上的方差达到最大在此方向上所含的有关n个样品间差异的信息是最多的故称F1为第一主成分在和F1正交的轴F2上方差较小称F2为第二主成分因此用一维空间代替二维空间时选用F1可使信息的损失降到最小这种系统简化方法体现了抓事物主要矛盾的哲学思维 Good Better F TX 1X1 2X2 pXp其中 1 2 p T是一组权重向量单位向量 1 2 p 1标准极大化观测值在F变量上投影的方差即即寻找使得F的方差最大给定原始数据矩阵最大目标值恰好是 1 即此时F方差是 1 因此PCA的目标就是寻找可以证明就是矩阵的具有最大特征值 1的特征向量方向a1 新变量称为第一主成分 PrincipalComponent 由于一个主成分不足以代表原来的p个变量的信息因此需要寻找第二个乃至第三四个主成分原则上第二个主成分不应该再包含第一个主成分的信息统计上的描述就是让这两个主成分的协方差为零几何上就是这两个主成分的方向正交可证第二个向量就是具有第二大特征值 2的特征向量方向a2 以此类推新变量按其重要性的降序排列设原始样本点变量型数据资料阵其中求线性组合主成分 Fi表示第i个主成分也即 PCA的数学模型满足条件主成分分析和因子分析的关系主成分的几个性质矩阵为的特征值为单位特征向量为令相应的说明主成分就是以协方差矩阵的单位特征向量之间互不相关主成分的名次是按特征根取值大小的顺为系数的线性组合主成分方差为的特征值主成分序排列的主成分分析将原始p个变量的方差和表示为p个相互独立的变量的方差和推论1 推论2 主成分的总方差若是相关系数矩阵对角元都为1 推论4 推论5 推论3 原始变量与主成分之间的相关系数因子载荷载荷矩阵的列向量是特征向量的若干倍主成分系数大未必相关系数大解释主成分时可同时考虑二者按照行来看载荷矩阵第i个变量的方差能够被所有主成分载荷的平方和解释若取部分主成分该平方和被称为变量共同度指变量方差被主成分解释的比例特征根它可以被看成是主成分影响力度的指标代表引入该主成分后可以解释多大程度的原始变量的信息主成分FK的方差贡献率表明主成分的方差在总方差中的比重这个值越大表明这个主成分携带的原始变量的信息越多方差贡献率在进行综合评价时解决了各变量的权重问题具备客观性主成份的选取与使用条件方差贡献率第k个主成分的方差贡献率前k个主成分的累积方差贡献率在解决实际问题时一般不是取p个主成分而是根据累计贡献率的大小取前k个累计贡献率达到85 这样就基本包含了全部测量指标所具有的信息这样即减少了变量的个数有便于对实际问题的分析和研究使用条件主成分分析适宜用于大样本的场合主成分分析要求变量之间有一定的相关关系特征向量可正可负具体情况具体分析还要注意是否存在反向因子比如奔跑得分取值越小得分越高若存在在综合评价中要取倒数方法用途主成分评价当进行多指标的综合评价时应用主成分方法将多指标中的信息集中为若干个主成分然后加权求和得到综合评价指数主成分回归通过对存在共线性的自变量进行主成分分析从而在提取多数信息的同时解决共线性问题降维作为复杂研究的中间步骤 2020年2月21日文彤老师 37 在建立多元线性回归方程时由于自变量间存在多重共线性常常会发现某些自变量的系数极不稳定当增减变量时其值会出现很大变化甚至出现与实际情况相悖的符号以致难以对所建回归方程给予符合实际的解释主成分回归分析PrincipalComponentRegression PCR 是一种多元回归分析方法旨在解决自变量间存在多重共线性问题它通过主成分变换将高度相关的变量的信息综合成相关性低的主成分然后以主成分代替原变量参与回归主成分分析的算法设有n个样品每个样品观测p项指标将原始数据写成矩阵将原始数据标准化这里为了书写方便不妨设上边矩阵已标准化了建立变量的相关系数阵求得特征根及相应的单位特征向量写出主成分包括对主成分的解释 5 Matlab和SPSS实例分析例1 在企业经济效益的评价中涉及的指标往往很多为了简化系统结构抓住经济效益评价中的主要问题我们可由原始数据矩阵出发求主成分在对我国部分省市自治区独立核算的工业企业的经济效益评价中涉及到9项指标原始数据见表3 1 即样品数n 28 变量数p 9 续表 clearloadczsr2003 txt n p size czsr2003 MEAN mean czsr2003 求各变量的均值STD std czsr2003 求各变量的标准差MEAN ones n p diag MEAN STD ones n p diag STD x czsr2003 MEAN STD 原始数据标准化原始数据标准化 R cov x 注释由于数据已经过标准化处理故x的协方差矩阵等于其相关系数矩阵即R corrcoef x 2 建立变量的协方差矩阵 V D eig R 注释函数eig的功能是对矩阵R进行正交对角化变换矩阵D是以R的特征值为对角元的对角矩阵对角元按从小到大的顺序排列矩阵V是正交变换矩阵 3 求得特征根及相应的单位特征向量计算主成份的方差贡献率和累计方差贡献率DD 将特征值对角矩阵D改写为列向量DDfori p 1 1 此处要注意eig函数的输出D中特征值的排列顺序DD DD D i i endOFFER DD sum DD 计算特征值的方差贡献率cumOFFER cumsum DD sum DD 计算特征值的方差累计贡献率OUTCOME DD OFFER cumOFFER 综合输出计算结果PCACOV V end 1 end 2 输出正交单位化的特征向量矩阵V的前3列 OUTCOME 6 14990 68330 68331 47290 16370 84700 69740 07750 92450 31780 03530 95980 19000 02110 98090 11600 01290 99380 02910 00320 99700 02430 00270 99970 00240 00031 0000 OUTCOME DD OFFER cumOFFER 综合输出计算结果选取主成分根据特征值的方差累计贡献率取前2个贡献率达84 70 或前3个贡献率达92 45 主成分即可 PCACOV V end 1 end 2 输出正交单位化的特征向量矩阵V的后3列 PCACOV 0 37560 2595 0 01410 3934 0 1344 0 08530 3753 0 2653 0 10740 0935 0 7113 0 52230 1746 0 49130 80220 37210 1650 0 22460 36160 22540 04240 35130 05240 08300 36260 12680 0747 3 分析并命名主成分对所选主成分作经济解释主成分分析的关键在于能否给主成分赋予新的意义给出合理的解释这个解释应根据主成分的计算结果结合定性分析来进行主成分是原来变量的线性组合在这个线性组合中各变量的系数有大有小有正有负有的大小相当因而不能简单地认为这个主成分是某个原变量的属性的作用线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量有几个变量系数大小相当时应认为这一主成分是这几个变量的总和这几个变量综合在一起应赋予怎样的经济意义要结合经济专业知识给出恰如其分的解释才能达到深刻分析经济成因的目的第一主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外其余变量的系数相当所以第一主成分可看成是x1 x2 x3 x6 x7 x8 x9的综合变量可以解释为第一主成分反映了工业生产中投入的资金劳动力所产生的效果它是投入与产出之比第一主成分所占信息总量为68 3 在我国目前的工业企业中经济效益首先反映在投入与产出之比上其中固定资产的有效所产生的经济效益更大一些第一主成分的系数取为0 37560 39340 37530 09350 17460 37210 36160 35130 3626 第二主成分是把工业生产中所得总量即工业总产值和销售收入与局部量即利税进行比较反映了产出对国家所作的贡献这样在抓企业经济效益活动中就应注重投入与产出之比和产出对国家所作的贡献抓住了这2个方面经济效益就一定会提高第二主成分的系数取为0 2595 0 1344 0 2653 0 7113 0 49130 16500 22540 05240 1268 第三主成分又如何解释呢第三主成分的系数取为 0 0141 0 0853 0 1074 0 52230 8022 0 22460 04240 08300 0747 如何解释第二三主成分主成份系数的负号可能需要更多的经济学理论的支持主成分分析本质上是一种矩阵变换过程并不要求各主成分都具有实际意义含义也未必十分明确有一定的主观性更进一步需要学习因子分析理论通常为了分析各样品在主成分所反映的经济意义方面的情况还将标准化后的原始数据带入主成分表达式计算出各样品的主成分得分由各样品的主成分得分当主成分个数为2时就可在二维空间中描出各样品的分布情况按照方差贡献率标准选择k 3个主成分下图给出各样本的主成分得分按照方差贡献率加权求综合评分按照综合评分排序评价 ZZ I sort Z descend Scatter ZZ I 对主成分综合加权本质上等同于对原始指标加权 MatlabStatisticsToolbox主成分分析函数及应用用原始数据进行主成份分析函数与语法 PC princomp x PC SCORE latent tsquare princomp x 参数说明 x 原始数据矩阵样本点变量 PC 主成分系数向量列 SCORE 样本点的主成分得分latent x的协方差矩阵的特征值tsquare 每一个样本点的HotellingT2统计量的值注意 princomp函数没有数据标准化的功能应用czsr2003 txt PC SCORE latent tsquare princomp x 2 用原始标准化数据的协方差矩阵进行主成分分析函数与语法 PC pcacov R PC latent explained pcacov R 参数说明 R 原始数据相关系数矩阵样本点变量 PC 主成分系数向量列 latent 相关矩阵R的特征值explained 每一个主成分的方差贡献率应用czsr2003 txt PC latent explained pcacov R 二利用SPSS进行主成分分析 SPSS没有提供主成分分析的专用功能只有因子分析的功能但是因子分析和主成分分析有着密切的联系因子分析的重要步骤因子的提取最常用的方法就是主成分法利用因子分析的结果可以很容易地实现主成分分析具体来讲就是利用因子载荷阵和相关系数矩阵的特征根来计算特征向量即其中 zij为第j个特征向量的第i个元素 aij为因子载荷阵第i行第j列的元素 j为第j个因子对应的特征根然后再利用计算出的特征向量来计算主成分下面用spss对前例做主成分分析图3 下面学习选项设置 3 1设置Descriptives选项单击Descriptives按钮弹出Descriptives对话框在Statistics栏中选中Univariatedescriptives复选项则输出结果中将会给出原始数据的抽样均值方差和样本数目这一栏结果可供检验参考选中Initialsolution复选项则会给出主成分载荷的公因子方差这一栏数据分析时有用在CorrelationMatrix栏中选中Coefficients复选项则会给出原始变量的相关系数矩阵分析时可参考设置完成以后单击Continue按钮完成设置 3 2设置Extraction选项打开Extraction对话框图6 因子提取方法主要有7种在Method栏中可以看到系统默认的提取方法是主成分 Principalcomponents 因此对此栏不作变动就是认可了主成分分析方法按需修改在Analyze栏中选中Correlationmatirx复选项则因子分析基于数据的相关系数矩阵进行分析如果选中Covariancematrix复选项则因子分析基于数据的协方差矩阵进行分析对于主成分分析而言由于数据标准化了这两个结果没有分别因此任选其一即可选中ScreePlot 山麓图则在分析结果中给出特征根按大小分布的折线图形如山麓截面故得名以便我们直观地判定因子的提取数量是否准确需要注意的是主成分计算是利用迭代 Iterations 方法系统默认的迭代次数是25次但是当数据量较大时 25次迭代是不够的需要改为50次 100次乃至更多对于本例而言变量较少 25次迭代足够故无需改动 3 3Scores设置选中Saveasvariables栏则分析结果中给出标准化的主成分得分在数据表的后面至于方法复选项对主成分分析而言三种方法没有分别采用系统默认的回归 Regression 法即可选中Displayfactorscorecoefficientmatrix 则在分析结果中给出因子得分系数矩阵及其相关矩阵设置完成以后单击Continue按钮完成设置选中Displayfactorscorecoefficientmatrix 则在分析结果中给出因子得分系数矩阵及其相关矩阵设置完成以后单击Continue按钮完成设置对于主成分分析而言旋转项 Rotation 可以不必设置对于数据没有缺失的情况下 Option项可以不必理会全部设置完成以后点击OK确定 SPSS很快给出计算结果其中Communalities 变量共同度给出了该次分析从每个原始变量中提取的信息表格下面的注示表明该次分析是用Factoranalysis模块默认的信息提取方法即主成分分析完成的可以看到x8外主成分几乎包含了各个原始变量至少80 的信息输出结果1 69 输出结果2 TotalVarianceExplained表则显示了各主成分解释原始变量总方差的情况 SPSS默认保留特征根大于1的主成分在本例中修改设置保留3个主成分这3个主成分集中了原始9个变量信息的92 447 可见效果是比较好的由输出结果2看到前面2个主成分的方差和占全部方差的比例为84 7 我们就可以选取为第一主成分为第二主成分且这两个主成分之方差和占全部方差的84 7 即基本上保留了原来指标的信息这样由原来的9个指标转化为2个新指标起到了降维的作用当我们选择3个主成分时就保留了原变量信息的92 4 输出结果3 主成分矩阵因子载荷矩阵标准X1 0 931 标准prin1 0 315 标准prin2 0 012 标准prin3事实上这里的主成分是解释原变量的公因子如果选择所有的主成分就得到如上的成分矩阵载荷矩阵行平方和为变量的共同度列平方和为主成分公因子的方差贡献特征值只取前三个因子时的变量共同度输出结果4 因子得分系数矩阵未标准化第一二主成分与原始变量的关系式如下如何还原未标准化的主成分系数操作步骤将因子得分系数矩阵中的数据输入SPSS数据编辑窗口分别命名为a1 a2 a3 2 为了计算一个特征向量点击菜单项中的Transform Computer 调出Computervariable对话框在对话框中输入等式 prin1 a1 SQRT 1 1是第一个主成分相应的特征根点击OK按钮即可在数据编辑窗口中得到以prin1为变量名的第一特征向量再次调出Computervariable对话框在对话框中输入等式 prin2 a2 SQRT 2 点击OK按钮得到以prin2为变量名第二特征向量将各个主成分得分乘以相应的sqrt 即特征根的二次方根可以将其还原为未经标准化的主成分得分这里同样使用compute命令还原为主成分得分pscore1 FAC1 1 SQRT 1 输出结果5 标准化主成分得分得分在原始数据所在的SPSS当前数据栏中给出综合评价重新进入Compute对话框在TargetVariable栏中输入Z 在Numericexpression栏中输入表达式如下 0 68332 pscore1 0 16365 pscore2 0 07749 pscore3 0 92447点击OK 分别按pscore1 pscore2 pscore3 Z进行排序整理结果二主成分分析实例下表是某市工业部门13个行业的8项重要经济指标的数据这8项经济指标分别是 X1 年末固定资产净值单位万元 X2 职工人数据单位人 X3 工业总产值单位万元 X4 全员劳动生产率单位元人年 X5 百元固定资产原值实现产值单位元 X6 资金利税率单位 X7 标准燃料消费量单位吨 X8 能源利用效果单位万元吨表1 某市工业部门13个行业8项指标我们要考虑的是如何从这些经济指标出发对各工业部门进行综合评价与排序我们先计算这些指标的主成分然后通过主成分的大小进行排序表6 2和表6 3分别是特征根累计贡献率和特征向量的信息利用主成分得分进行综合评价时从特征向量我们可以写出所有8个主成分的具体形式表2特征根和累计贡献率表3特征向量表4各行业主成分得分及排序我们以特征根为权对8个主成分进行加权综合得出各工业部门的综合得分具体数据见表6 4 综合得分的计算公式是根据上式可计算出各工业部门的综合得分并可据此排序从上表可以看出机器行业在该地区的综合评价排在第一原始数据也反映出机器行业存在明显的规模优势另外从前两个主成分得分上看该行业也排在第一位同样存在效益优势而排在最后三位的分别是皮革行业电力行业和煤炭行业作业全国重点水泥企业经济效益综合评价例利用主成分综合评价全国重点水泥企业的经济效益原始数据数据来自1984年中国统计年鉴见表5 10 表5 10 1 利用一般的Matlab命令将数据标准化 2 利用Matlab命令计算出相关矩阵的方差及特征值 3 写出主成分的线性表达式 4 利用统计工具箱中命令得到如上结果 5 利用SPSS进行主成分分析 6 对得到的结果作出解释需要完成作业2 文件pcaexe xls是世界上55个国家和地区某年7个田径项目上的女子记录要求1 分别用matlab和spss做主成分分析并解释第一主成分和第二主成分的意义 2 基于第一主成分对个国家和地区排序 3 基于主成分综合评价排序因子分析的几个概念有m个公因子的正交因子模型返回系数矩阵称为载荷矩阵此时变量的方差被分解成两部分谢谢

展开阅读全文