资源描述
多元统计分析,中国人民大学:何晓群,苏州大学:马学俊,基于,R,语言,多元统计分析中国人民大学:何晓群基于R语言,主成分分析,学习目标:,1.理解主成分分析的基本理论与方法;,2.了解主成分的性质;,3.理解主成分的求解方法;,4.掌握用R软件求解主成分的方法;,5.正确理解软件输出结果并对结果进行分析,0,5,主成分分析学习目标:05,5.1,主成分分析的基本原理,主成分分析,主成分分析是利用,降维,的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。,通常把转化生成的综合指标称为,主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,。,5.1 主成分分析的基本原理主成分分析主成分分析是利用降维的,5.1,主成分分析的基本原理,5.1.1,主成分分析的基本思想,思想:,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),可以在保留原始变量主要信息的前提下起到降维与简化问题的作用,主成分与原始变量之间有如下基本关系:,每一个主成分都是各原始变量的线性组合;,主成分的数目大大少于原始变量的数目;,主成分保留了原始变量的绝大多数信息;,各主成分之间互不相关,5.1 主成分分析的基本原理5.1.1 主成分分析的基本思想,5.1,主成分分析的基本原理,5.1.2 主成分分析的基本理论,5.1 主成分分析的基本原理5.1.2 主成分分析的基本理论,5.1,主成分分析的基本原理,5.1.2 主成分分析的基本理论,5.1 主成分分析的基本原理5.1.2 主成分分析的基本理论,5.1,主成分分析的基本原理,念,5.1.3 主成分分析的几何意义,5.1 主成分分析的基本原理念5.1.3 主成分分析的几何意,5.2 总体主成分及其性质,本节导论,5.2 总体主成分及其性质本节导论,5.2.,1,从协方差矩阵出发求解主成分,结论,5.2 总体主成分及其性质,引论,5.2.1 从协方差矩阵出发求解主成分结论5.2 总体主成分,5.2.,1,从协方差矩阵出发求解主成分,结论,5.2 总体主成分及其性质,结论,5.2.1 从协方差矩阵出发求解主成分结论5.2 总体主成分,5.2.,2,主成分的性质,5.2 总体主成分及其性质,定义,5.1,5.2.2 主成分的性质5.2 总体主成分及其性质定义5.1,5.2.,2,主成分的性质,5.2 总体主成分及其性质,定义,5.2,因子负荷量是主成分解释中非常重要的解释依据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因;因子负荷量与系数向量成正比。,5.2.2 主成分的性质5.2 总体主成分及其性质定义5.2,5.2.,2,主成分的性质,5.2 总体主成分及其性质,定义,5.3,5.2.2 主成分的性质5.2 总体主成分及其性质定义5.3,5.2.,2,主成分的性质,性质,1,5.2 总体主成分及其性质,性质,2,性质,3,性质,4,性质,5,5.2.2 主成分的性质性质15.2 总体主成分及其性质性质,5.2.,3,从相关矩阵出发求解主成分,5.2 总体主成分及其性质,5.2.3 从相关矩阵出发求解主成分5.2 总体主成分及其性,5.2.4,由相关阵求主成分时主成分性质的简单形式,性质,5.2 总体主成分及其性质,5.2.4 由相关阵求主成分时主成分性质的简单形式性质5.2,5.3 样本主成分的导出,符号定义,5.3 样本主成分的导出符号定义,5.3 样本主成分的导出,由相关阵,R,求解主成分,5.3 样本主成分的导出,5.3 样本主成分的导出,由相关阵,R,求解主成分,5.3 样本主成分的导出,5.4 有关问题的讨论,5.4.1,关于由协方差矩阵或相关矩阵出发求解主成分,1.,相同之处,2.,如何选择,求主成分的过程是一致的,实际就是对矩阵结构进行分析的过程,也就是求解特征根的过程。,对于度量单位不同的指标或取值范围彼此差异非常大的指标,不直接由其协方差矩阵出发进行主成分分析而应该考虑将数据标准化,对同度量或取值范围在同量级的数据,直接从协方差矩阵求解主成分为宜。,对于从什么出发求解主成分,现在还没有一个定论,要考虑实际情况,5.4 有关问题的讨论5.4.1 关于由协方差矩阵或相关矩阵,5.4 有关问题的讨论,5.4.2 主成分分析不要求数据来自正态总体,与很多多元统计方法不同,主成分分析不要求数据来自正态总体,主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理我们都可以尝试用主成分分析而不用花太多精力考虑其分布情况,。,5.4 有关问题的讨论5.4.2 主成分分析不要求数据来自正,5.4 有关问题的讨论,5.4.,3,主成分分析与重叠信息,5.4 有关问题的讨论5.4.3 主成分分析与重叠信息,5.5 主成分分析步骤及框图,5.5.1 主成分分析步骤,step1:,根据研究问题选取初始分析变量,;,step2:,根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分,;,step3:,求协方差阵或相关阵的特征根与相应标准特征向量,;,step4:,判断是否存在明显的多重共线性,若存在,则回到第步,;,step5:,得到主成分的表达式并确定主成分个数,选取主成分,;,step6:,结合主成分对研究问题进行分析并深入研究。,5.5 主成分分析步骤及框图5.5.1 主成分分析步骤ste,5.6,主成分分析的上机实现,【,例,5-1】,为掌握我国各地区主要行业的城镇私营企业就业人员的平均工资水平,选取,2016,年我国,30,个省、直辖市、自治区,(,西藏地区数据缺失,)9,个行业就业人员的平均工资数据,(,数据来源于,2017,年,中国统计年鉴,),。我们用主成分分析方法处理该数据,以期用较少的变量描述这些行业各地区就业人员的工资水平。本例中各变量的量纲差别不大,为了保留各变量自身的变异,选择从协方差阵出发求解主成分。主要分为以下三步:,Step1,:读入数据,计算特征值,Step2,:计算特征向量和因子负荷量,Step3,:第,3,步,:,进一步分析主成分的选择,5.6 主成分分析的上机实现 【例5-1】为掌握我,5.6,主成分分析的上机实现,Step1,:读入数据,计算特征值,输入如下:,1.rm(list=ls(),2.ex5.1dat51rownames(dat51)#,协方差矩阵,6.sigm my51#,特征值,9.lamp#,方差贡献率,12.cumlamVEcolnames(VE)print(VE),5.6 主成分分析的上机实现Step1:读入数据,计算特征值,5.6,主成分分析的上机实现,Step1,:读入数据,计算特征值,我们使用,eigen,函数对协方差矩阵进行特征值分解。第一主成分的方差贡献率为,82.302%,是保留的特征根占所有特征根的和的比值,由此可见第一主成分解释原始变量总差异的效果比较好。第二个主成分的方差贡献率为,8.857%,这个相对第一主成分贡献率低很多。碎石图显示选择,2,个主成分比较好。,16.1,特征根 贡献率 累计贡献率,17.2,768365315,0.823019789,0.8230198,18.2,82685252,0.088566724,0.9115865,19.3,29249216,0.031329738,0.9429163,20.4,17215863,0.018440442,0.9613567,21.5,14296274,0.015313180,0.9766699,22.6,7511072,0.008045341,0.9847152,23.7,6169207,0.006608028,0.9913232,24.8,5030735,0.005388576,0.9967118,25.9,3069824,0.003288183,1.0000000,26.#,碎石图,27.plot(lam,type=o,xlab=,主成分序号,ylab=,特征值,),5.6 主成分分析的上机实现Step1:读入数据,计算特征值,5.6,主成分分析的上机实现,Step2,:计算特征向量和因子负荷量。,1.#,特征向量,2.gamcolnames(gam)print(gam,1:2),5.vec1 vec2,6.,1,-0.1191864,-0.31997109,7.,2,-0.2320962,-0.35693452,8.,3,-0.1694318,-0.35315311,9.,4,-0.1452976,-0.38420063,10.,5,-0.1302961,-0.27546205,11.,6,-0.7438316,0.51064145,12.,7,-0.4091319,0.07373654,13.,8,-0.2533333,-0.12321860,14.,9,-0.2833341,-0.37501342,5.6 主成分分析的上机实现Step2:计算特征向量和因子负,5.6,主成分分析的上机实现,Step2,:计算特征向量和因子负荷量。,15.#,因子负荷量,16.lam_masigmai#,特征向量*特征根的算数平方根,19.gamslaloadcolnames(load)print(load,1:2),23.load1 load2,24.,1,-0.6478731,-0.57056382,25.,2,-0.8469924,-0.42729737,26.,3,-0.6590387,-0.45061871,27.,4,-0.6636656,-0.57567732,28.,5,-0.7368664,-0.51103336,29.,6,-0.9717312,0.21883548,30.,7,-0.9320512,0.05510478,31.,8,-0.9099041,-0.14518100,32.,9,-0.8757826,-0.38025452,5.6 主成分分析的上机实现Step2:计算特征向量和因子负,5.6,主成分分析的上机实现,Step3,:进一步分析主成分的选择。第一主成分和第二主成分对原始各变量方差贡献率的和,即,0.412+0.145+=7.483,以及该主成分占所有主成分对原始变量方差贡献率总和,(,等于,9),的比值为,0.832,。这说明前面选择两个主成分比较合适。,1.#,定义,5.3,第一和二主成分对,X1-X9,的方差贡献率,2.VVprint(VV,1:2),4.load1 load2,5.,1,0.4197396,0.325543073,6.,2,0.7173962,0.182583046,7.,3,0.4343320,0.203057225,8.,4,0.4404520,0.331404379,9.,5,0.5429721,0.261155094,10.,6,0.9442615,0.047888965,11.,7,0.8687194,0.003036536,12.,8,0.8279255,0.021077522,13.,9,0.7669951,0.144593498,14.sum(VV,1:2)/9,15.10.8314592,5.6 主成分分析的上机实现Step3:进一步分析主成分的选,5.6,主成分分析的上机实现,【,例,5-2】,在工业企业经济效益的评价中,设计的指标往往较多。为了简化系统结构,抓住经济效益评价中的主要方面,我们可由原始数据出发求主成分。在对我国各地区规模以上工业企业的经济效益评价中,包含,8,项指标,原始数据如表,5-2,所示,(,数据来源于,2017,年,中国工业统计年鉴,),其中,前,7,项指标的单位是亿元,最后一项指标的单位是万人。由于原始数据量纲差别较大,需要对数据进行标准化。步骤和程序与前面差不多,分为以下三步:,Step1,:读入数据,并输出变量之间的相关性,St
展开阅读全文