资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,因子分析,(Factor analysis),因子分析是主成分分析的推广和发展,它也是多元统计中处理降维的一种方法。因子分析是研究相关阵或协差阵的内部依赖关系,将多个变量综合为少数几个因子,再现原始变量与因子之间的关系。,形成和发展:,1904,年,Charles Spearman,的论文,对智力测验得分进行的统计分析,早期主要用于心理学和教育学方面的问题,目前:经济学、社会学、考古学、生物学、医学及体育科学,实例,1,(1),为了解学生的学习能力,观测了,n,个学生,p,个科目的成绩,用,X,1,X,2, ,X,p,表示科目(例如代数、几何、语文、英语,,)可以认为各科目有两部分组成:,其中,F,是对所有的,X,i,都起作用的公共因子,它表示智能高低的因子;系数,a,i,称为因子载荷,表示第,i,各科目在智能高低上的体现;,i,是科目变量特有的特殊因子,描述原始变量,.,这就是一个最简单的因子模型;,(2).,推广到,m,个因子,如数学因子、记忆因子、计算因子等,分别记为,F,1,F,2,F,m,。,这就是一个因子分析模型,.,实例,2,调查青年对婚姻家庭的态度,抽取,n,个青年回答了,50,个问题的答卷,这些问题可归纳为如下的几个方面:如对相貌的重视,对孩子的观点、对老人的态度等,实例,3,考察人体的五项生理指标:收缩压、舒张压、心跳间隔、呼吸间隔和舍下温度。从生理学知识,这五项指标是受植物神经支配的,植物神经又分为交感神经和副交感神经,因此这五项指标也可以用因子分析模型去处理,因子分析的主要应用,(1).,寻求基本结构,简化观测系统,将具有错综复杂关系的对象(变量或样本)综合为少数几个因子(不可观测的随机变量),以再现因子与原始变量之间的内在联系,(2).,用于分类,对变量或样本进行分类,.,R,型和,Q,型因子分析,(1).,R,型,从变量的相关阵出发,找出控制所有变量的几个公共因子,用以对变量或样本进行分类。,(2).,Q,型,从样本的相相似据阵出发,找出控制所有样本的几个主要因素。,因子分析与主成分分析的区别,(1).,主成分分析不能作为一个模型,只是变量变换,而因子分析需要构造模型,(2).,主成分的个数和变量的个数相同,它是将一组具有相关的关系的变量变换为一组互不相关的变量,而因子分析是要用尽可能少的的公因子,以便构造一个简单的因子模型,(3).,主成分表示为原始变量的线性组合,而因子分析是将原始变量表示为公因子和特殊因子的线性组合。,R,型因子分析的数学模型,用矩阵表示,因子分析的数学模型,简记为,且满足,为任一个,m,阶的正交阵,上式仍满足约束条件,因子分析每个相应的系数不是唯一的,即因子载荷阵不是唯一的,通过模型 以,F,代替,X,,由于,m,p,或,m,n,从而达到简化变量维数目的,因子分析的目的,正交因子模型中各统计量的意义,因子载荷的统计意义,第,i,个变量与第,j,个公共因子的相关系数。用统计学术语叫权重,表示,X,i,依赖,F,j,的分量,因子载荷据阵,A,中各行元素的平方和记为,称为变量,X,i,的,共同度,公共因子方差,剩余方差,变量共同度的统计意义,因子载荷据阵,A,中各列元素的平方和记为,表示第,j,个因子对所有分量的总影响,称为第,j,个因子对,X,的贡献,它是衡量第,j,个因子相对重要性的指标,公共因子,F,j,方差的统计意义,因子载荷阵的估计方法,主成分法,主因子法 极大似然法,设样本的协差阵的特征值和特征向量分别为:,则协差阵可分解为,其中分量,A,和,D,就是因子模型的一个解,,A,中的第,j,列和,X,中的第,j,个主成分的系数相差一个倍数。故此解常称为因子模型的主成分解。,当最后,p,-,m,个特征值较小时,协差阵可以近似的分解为,公因子个数的确定方法,1,)根据实际问题的意义或专业理论知识,2,)用确定主成分个数的原则,因子旋转,用一个正交阵右乘,A,,,使旋转后的因子载荷阵结构简化,即使得每个变量仅在一个公共因子上有较大的载荷,而在其余的因子上载荷比较小。,方差最大的正交旋转,使得旋转后的所得到的因子载荷阵的总方差达到最大值,.,因子得分,Thomson,回归法,因子分析的步骤,计算所选原始变量的相关系数矩阵,相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系,这对因子分析是非常重要的,因为如果所选变量之间无关系,做因子分析是不恰当的。并且相关系数矩阵是估计因子结构的基础。,选择分析的变量,用定性分析和定量分析的方法选择变量,因子分析的前,提条件是观测变量间有较强的相关性,因为如果变量之间,无相关性或相关性较小的话,他们不会有共享因子,所以,原始变量间应该有较强的相关性。,提取公共因子,这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于,1(,或特征值大于,1),的那些因子,因为方差小于,1,的因子其贡献可能很小;按照因子的累计方差贡献率来确定,一般认为要达到,60,才能符合要求;,因子旋转,通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。,计算因子得分,求出各样本的因子得分,有了因子得分值,则可以在许多分析中使用这些因子,例如以因子的得分做聚类分析的变量,做回归分析中的回归因子。,因子分析计算步骤与实例分析,对我国,30,个省市自治区的农业生产情况作因子分析。从农业生产条件和生产结果及,效益,出发,选取六项指标分别为:,X,1,乡村劳动力人口(万人)、,X,2,人均经营耕地面积(亩)、,X,3,户均生产性固定资产原值(元)、,X,4,家庭基本纯收入(元)、,X,5,人均农业总产值(千元,/,人)、,X,6,增加值占总产值比重(,%,),原始资料数据如下页表,:,序号,地,区,X,1,X,2,X,3,X,4,X,5,X,6,1,北,京,66.9,0.93,2972.41,3290.73,2.525,49.7,2,天,津,80.2,1.64,4803.54,2871.62,1.774,49.6,3,河,北,1621.8,2.03,4803.54,2871.81,0.8004,54,4,山,西,635.4,2.76,2257.66,1499.14,0.555,56.2,5,内蒙古,514.1,10.17,5834.94,1550.15,0.9051,66.4,6,辽,宁,605.1,2.96,3108.86,2059.35,1.4752,53.1,7,吉,林,534.2,4.73,4767.51,1940.46,1.1154,63.1,8,黑龙江,494.8,8.24,5573.02,2075.42,1.6283,57.8,9,上,海,66,1.02,1660.03,4571.81,3.0448,35.6,10,江,苏,1530.2,1.26,2826.86,2868.33,1.1921,50.6,11,浙,江,1123.1,0.94,5494.23,3289.07,0.8565,63.3,12,安,徽,1953.6,1.44,3573.62,1508.24,0.5756,59.2,13,福,建,775.8,0.82,2410.05,2295.19,1.1496,62.8,14,江,西,1103.2,1.3,2310.98,1804.93,0.6649,59.9,15,山,东,2475.1,1.44,3109.11,1989.53,0.8809,55,16,河,南,2815.8,1.5,3782.26,1508.36,0.5823,58.5,17,湖,北,1296.5,1.6,2291.6,1754.13,0.8799,62.8,18,湖,南,2089.3,1.42,2348.72,1719.18,0.587,64.7,19,广,东,1439.8,0.88,3249.61,2928.24,1.096,59.7,20,广,西,1579.9,1.43,3090.17,1590.9,0.5694,64.5,21,海,南,165.9,1.35,4454.77,1575.49,0.3535,65.2,22,四,川,3903.7,1.08,2870.45,1340.61,0.4443,64.1,23,贵,州,1376.6,1.18,2282.27,1206.25,0.2892,65.4,24,云,南,1642.2,2.42,4025.06,1096.73,0.3456,64.2,25,西,藏,88.6,2.51,11559.83,1257.71,0.4349,70.4,26,陕,西,1046.1,2.6,2228.55,1091.96,0.4383,59.7,27,甘,肃,672,5.86,2879.36,1037.12,0.4883,57.2,28,青,海,137.1,2.62,6725.11,1133.06,0.4096,70.3,29,宁,夏,139.1,4.01,5607.97,1346.89,0.4973,62.5,30,新,疆,288.5,3.96,7438.13,1161.71,1.4939,57.8,因子分析计算步骤与实例分析,第一步 将原始数据标准化,第二步 建立指标间的相关系数阵,R,:,因子分析计算步骤与实例分析,第三步 求,R,的特征值和特征向量。,序,号,特征值,贡献率,累积贡献率(,%,),1,2.7765,46.2756,46.2756,2,1.7409,29.0160,75.2917,3,0.7116,11.8612,87.1529,4,0.4334,7.2248,94.3778,5,0.2369,3.9484,98.3263,6,0.1004,1.6736,100,因子分析计算步骤与实例分析,由于前三个特征值累积贡献率已达,87.15%,,所以取前三个特征值所对应的特征向量如下:,u,1,u,2,u,3,0.1460,-0.6242,-0.1854,0.1631,0.5270,0.7547,0.2421,0.5272,0.5369,-0.5463,0.0153,0.2325,-0.5455,0.2317,-0.0422,0.5453,0.0225,0.2276,因子分析计算步骤与实例分析,第四步 列出因子载荷矩阵表。,因子,指标,a,1,a,2,a,3,X,1,0.2433,-0.8236,-0.1564,0.7621,X,2,0.2718,0.6954,0.6366,0.9629,X,3,0.4035,0.6957,0.4529,0.8520,X,4,-0.9103,0.0202,0.1961,0.8675,X,5,-0.9089,0.3057,-0.0356,0.9210,X,6,0.9086,0.0296,0.192,0.8634,因子分析计算步骤与实例分析,第五步 对因子载荷阵实行方差最大正交旋转,旋转后的矩阵如下:,由上表可见,每个因子只对应少数几个指标的因子载荷较大,因此可根据上表对指标进行分类。,因子指标,F,1,F,2,F,3,X,1,-0.3793,-0.7252,-0.3036,X,2,-0.1046,0.2178,0.9510,X,3,-0.2957,0.8698,0.0890,X,4,0.8862,0.0265,-0.2852,X,5,0.9499,0.1206,0.0645,X,6,-0.8976,0.2402,-0.0009,因子分析计算步骤与实例分析,第六步 将六项指标按高载荷分成三类,并结合专业知识给出各因子的命名如下:,高载荷指标,命 名,因子一,X,4,-,家庭基本纯收入,X,5,-,人均产值,X,6,-,增加值占总产值比重,产出及效益因子,因子二,X,1,-,乡村劳动力人口,X,3,-,户均生产性固定资产原值,人为投入条件因子,因子三,X,2,-,人均经营耕地面积,自然条件因子,因子分析计算步骤与实例分析,在第一因子中,,X,4,、,X,5,、,X,6,三项指标有较大的载荷,这些都从产出效益方面描述农业情况的,所以称为产出及效益因子。,在第二个因子中,,X,1,、,X,3,有较大的载荷,这主要是人们对农业的生产工具、人力等的投入,所以称为人为投入条件因子。,在第三个因子中,,X,2,有较大的载荷,这主要从自然条件方面刻划农业的生产条件状况,所以称为自然条件因子。,30,人均要素变量因子分析,。,对我国,31,个省市自治区的要素状况作因子分析。指标体系中有如下指标:,X1,:人口(万人),X2,:面积(万平方公里),X3,:,GDP,(亿元),X4,:人均水资源(立方米,/,人),X5,:人均生物量(吨,/,人),X6,:万人拥有的大学生数(人),X7,:万人拥有科学家、工程师数(人),Rotated Factor Pattern,FACTOR1 FACTOR2 FACTOR3,X1 -0.21522 -0.27397,0.89092,X2,0.63973,-0.28739 -0.28755,X3 -0.15791 0.06334,0.94855,X4,0.95898,-0.01501 -0.07556,X5,0.97224,-0.06778 -0.17535,X6 -0.11416,0.98328,-0.08300,X7 -0.11041,0.97851,-0.07246,31,高载荷指标,因子命名,因子,1,X2,;面积(万平方公里),X4:,人均水资源(立方米,/,人),X5:,人均生物量(吨,/,人),自然资源因子,因子,2,X6,:万人拥有的大学生数(人),X7,:万人拥有的科学家、工程师数(人),人力资源因子,因子,3,X1;,人口(万人),X3:GDP(,亿元,),经济发展总量因子,X1=-0.21522F1-0.27397F2+0.89092F3+,X2=0.63973F1-0.28739F2-0.28755F3+,X3=-0.15791F1+0.06334F2+0.94855F3+,X4=0.95898F1-0.01501F2-0.07556F3,X5=0.97224F1-0.06778F2-0.17535F3,X6=-0.11416F1+0.98328F2-0.08300F3,X7=-0.11041F1+0.97851F2-0.07246F3,32,Standardized Scoring Coefficients,FACTOR1,FACTOR2,FACTOR3,X1 0.05764,-0.06098,0.50391,X2 0.22724,-0.09901,-0.07713,X3 0.14635,0.12957,0.59715,X4 0.47920,0.11228,0.17062,X5 0.45583,0.07419,0.10129,X6 0.05416,0.48629,0.04099,X7 0.05790,0.48562,0.04822,F1=0.05764X1+0.22724X2+0.14635X3+0.47920X4+0.45583X5+0.05416X6+0.05790X7,F2=-0.06098X1-0.09901X2+0.12957X3+0.11228X4+0.07419X5+0.48629X6+0.48562X7,F3=0.50391X1-0.07713X2+0.59715X3+0.17062X4+0.10129X5+0.04099X6+0.04822X7,33,REGION,FACTOR1,FACTOR2,FACTOR3,beijing,-0.08169,4.23473,-0.37983,tianjin,-0.47422,1.31789,-0.87891,hebei,-0.22192,-0.35802,0.86263,shanxi1,-0.48214,-0.32643,-0.54219,neimeng,0.54446,-0.66668,-0.92621,liaoning,-0.20511,0.46377,0.34087,jilin,-0.21499,0.10608,-0.57431,heilongj,0.10839,-0.11717,-0.02219,shanghai,-0.20069,2.38962,-0.04259,前三个因子得分,
展开阅读全文