资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第九章 因子分析,第一节 因子分析方法,一、因子分析及基本思想,因子分析起源于20世纪早期,用于研究心理学和教育学方面的问题,但是由于计算量大,又缺乏强有力的计算工具,使因子分析的应用和发展受到了很大的限制,甚至停滞了很长一段时间。高速计算机的出现,使因子分析的理论研究和计算有了很大的进展。目前,这一方法在经济学、社会学、考古学、生物学、医学、地质学及体育科学等领域都得到了广泛的应用,并取得了显著的成绩。,(一)什么是因子分析,因子分析,是主成分分析的推广和发展,它是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以显示原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,是多元统计分析中处理降维的一种统计分析方法。,举例:,比如通过考试得到若干名学员的语文、数学、物理、化学、外语等几门课程的考试成绩,把每门功课的成绩作为一个变量,显然,这些变量必定受到一些公共因素的影响,比如:逻辑思维能力、形象思维能力和记忆力等,都是影响这些课程成绩的公共因素。另外,每门功课,的成绩还可能受自身特点的影响,如语文的写作能力,化学的动手能力等。,这里的公共因素,称为,公共因子,,是事物的基本因子或本质因子,是不可直接观测到的潜在变量。因子分析就是利用少数几个潜在变量或公共因子去解释较多个显在变量或可观测变量中存在的复杂关系。也就是说:,因子分析就是把每个原始变量(可观测变量)分解为两部分因素:一部分是由所有变量共同具有的少数几个公共因子构成,另一部分是每个原始变量独自具有的因素,即特殊因素或特殊因子部分。,正是特殊因子的存在,才使某一原始变量有别于其它原始变量。,某 公司对100名招聘人员的知识和能力进行测试,出了50道试题的试卷,其内容包括的面较广,但总的来讲可归纳为6个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度,思想修养、兴趣爱好、生活常识等,我们将每一个方面称为一个因子。假设这100个人测试的分数为,( (Q,型因子分子,),可以用上述6个因子表示成线性函数:,i=1,2,100,其中: 表示6个公共因子,它们的系数,称为因子载荷,表示第,i,个应试人员在6个因子方面的能力,,是第,i,个应试人员的能力和知识不能被前6个因子包括的部分,称为特殊因子,通常假定 。这个模型与回归模型在形式上相似,但实质很不同。这里的 值是未知的,有关参数的统计意义更不一样。,因子分析的任务就是先估计出,F,i,赋予有实际背景的解释。,二、因子分析的基本思想,因子分析,是通过对事物可观测变量 的分析,挖掘出影响这些变量的公共因素, ,同时将各个变量剩余的属性特征归为一类,统称为剩余因子或特殊因子,这样,p,个原始变量就可表述,为 ,,i=1,2,P(R,型因子分析,),其中: 为公共因子, 为第,i,个变量的特殊因子。,由于,q,个公共因子中的每一个都说明影响变量的一种基本特征,所以各个公共因,子一定是相互独立的。而,p,个特殊因子,不仅与各公共因子独立,而且他们之间也一定是相互独立的。,将原始变量表述为,q,个公共因子的线性组合,即将原始变量置于,q,个公共因,子组成的空间下进行分析研究是因子分析的实质,这必然涉及到公共因子,个数,q,的多少问题。一般说,公共因子的个数,q,,要小于等于变量的个数,p,,且,q,越小越好,这样就可以将高维空间的问题化为低维空间处理。这样,因子分析方法一方面可用少数几个因子去描述多个变量之间的关系;另一方面,可对原始变量进行分类,把相关性较高即联系紧密的变量归为同一类,而不同类的变量之间的相关性较低。,因子分析的基本思想是通过对变量(或样品)的相关系数矩阵(样品为距离矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(或相似)关系,在这里,这少数几个随机变量是不可观测的,通常称为因子。然后再根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量(或样品)相关性(或相似性)较低。,第二节 因子分析的数学模型,一、因子分析模型,如果:,1.,是可观测的随机向量,且均值向量,协方差阵,协方差阵与相关系数矩阵相等;,是不可观测的随机向量,为公共因子,且均值向量,协方差阵,即向量的各个分量是相互独立的,;,2.,3.,与,F,相互独立,即,且,则,称为因子模型,称为因子载荷,表示,i,个变量在第,j,个公共因子上的负荷,矩阵,A,称为因子载荷矩阵,二、因子分析模型的性质,性质,1,:,的协方差阵,的一个分解式是,但这种分解并不是唯一的。,假设,是一个,的正交矩阵,令,性质,2,:,模型不受单位的影响,这个型仍满足,三、因子模型中公共因子、因子载荷和变量共同度的统计意义,(一)因子载荷的统计意义,由假设,知,(二)变量共同度的统计意义,的共同度定义为因子载荷矩阵中第,i,行元素的平方和,即,X,i,*,的方差由两部分构成,第一部分为共,h,i,2,,它刻划全部公共因子对变量,X,i,*,的总方差贡献,,h,i,2,越接近于,1,,说明该变量的几乎全部原始信息都被所选取的公共因子说明了;越接近,0,,说明公共因子对,X,i,*,的影响很小,主要由特殊因子所描述;第二部分,i,2,为特殊因子方差,仅与变量,X,i,*,本身的变化有关。,(三)公共因子,F,j,的方差贡献及统计意义,将因子载荷矩阵中第,j,列元素平方相加称为公共因子,F,j,的方差贡献。即:,它表示同一公共因子,F,j,对诸变量所提供的方差贡献之和,是衡量公共因子相对重要程度的指标。,第三节 因子载荷矩阵的估计方法,对,A,的估计方法很多:如主成分法、主因子法、重心法、因子分析法、最大似然法等。,一、主成分法,(一)主成分分析与因子分析的区别与联系,区别,(,1,)主成分分析是通过正交旋转,将一组有相关性的原变量,转化为一组不相关的新变量,主成分;而因子分析是根据变量之间相关系数矩阵内部结构的研究,找出影响这些变量的公共因素,。,(,2,)主成分分析中把主成分表示为原变量的线性组合,而因子分析中把原变量表示成因子的线性组合,。,(,3,)主成分分析中每个主成分相应的系数是唯一确定的;但因子分析中,每个因子相应的系数不是唯一的。,联系,在求解过程中二者都是从一个协方差阵(相关系数矩阵)出发来研究问题。,(二)因子载荷阵的求法,设标准化随机向量,的协差阵为 ,,根据线性代数的知识:,所以,这时的因子模型为:,X*=AF,因子载荷矩阵,A,的第,j,列元素是除常数外第,j,个主成分的系数,故这种方法称为主成分法。,如果考虑特殊因子,则协方差阵,其中,在实际运用中如何确定公共因子个数?,例题:,35,家上市公司资料,(,原始资料),.,sav,二、主轴因子法,如果标准化随机向量满足因子模型,X=AF+,则,X,的相关矩阵,令,则称,R*,为,X,的约相关矩阵,或称为调整相关矩阵 。,求解,R*,的特征根与特征向量,进而可求出因子载荷矩阵,A,。,R*,有,q,个正特征根 ,设为,相应的标准正交特征向量为,则,上面的分析是以,R*,为基础的,,,而,R*,的计算是以共同度,h,i,2,为前提的,,,事实上,,h,i,2,是未知的,需要进行估计。其估计方法有:,(,1,)取,其中:,为,R,-1,的第,i,个对角元素,此时,(,2,)取,X,i,与其它原始变量,的最大值,此时,(,3,)取,h,i,2,1,,得到的,是一个主成分解。,第四节 因子旋转,一、因子旋转的目的,建立因子分析模型的目的不仅在于要找出公共因子,更重要的是要知道每个公共因子的意义,以便对实际问题做出科学的分析。如果得到的初始因子解各主因子的典型代表变量不很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。根据因子载荷矩阵的不唯一性,可以对因子载荷矩阵实施旋转,使旋转之后的载荷矩阵在每一列上元素的绝对值尽量地拉开大小距离,也就是说尽可能地使其中的一些元素接近于,0,,另一些元素接近于,1,,这样就可以得到令人满意的公共因子,从而达到对公共因子进行合理解释的目的。,二、方差最大正交旋转,方差最大正交旋转,就是选择适当的正交变换矩阵,T,,在其左面乘载荷矩阵,A(,即,AT),,使旋转后得到的因子载荷阵的总方差达到最大。如果第,i,个变量在第,j,个公共因子上的载荷,经过方差极大旋转后其值增大,意味着这个变量在其他因子上的载荷要缩小,所以方差最大旋转是使载荷按列向,0,、,1,两极分化,同时也包含着按行向两极分化。,假设公因子,F,j,的解释能力能够以其因子载荷平方的方差来度量,考虑两个因子的平面正交旋转,设因子载荷矩阵为,:,正交阵,记,经过旋转要求,两组数据的方差达到最大。,即,将,V,对,求,导,并令其为零,经过计算,其旋转角度可按下面公式求得,其中,由此就可以得出,的取值范围。,分子取值符号,分母取值符号,4,的,取值范围,的,取值范围,+,+,-,-,+,-,-,+,公共因子个数多于两个,可以每次取两个,全部配对旋转,,q,个因子的两两配对旋转共需进行,这样就完成第一轮旋转,对第一轮所得结果用上述方法继续进行旋转,得到第二轮旋转的结果,如此进行下去,每一次旋转之后,载荷矩阵各列平方的相对方差之和总会比上一次有所增加,即,在实际应用中,当,V,(S),的值变化不大时,即可停止旋转。,一、汤姆森(,Thompson,)因子得分(回归法),因子得分可以通过多元回归的方法估计,其具体做法是首先把公共因子表示为变量的线性组合,即:,j=1,,,2,,,,,q,由于变量和公共因子都已标准化,所以,,第五节 因子得分,实际上,当因子分析模型建立之后,我们需要反过来考察样品之间的相互关系。比如当关于企业经济效益的因子模型建立后,我们希望知道每一个企业经济效益的优劣,或者把企业划分归类,如哪些企业经济效益好,哪些企业经济效益一般,哪些企业经济效益较差,这就需要计算因子得分。因子得分就是公共因子在每一个样品上的得分。,这时,可先求出回归系数,然后给出因子得分的计算公式。,由因子载荷的意义可知:,即,所以,因此,记,二、巴特莱特(,Bartlett,)因子得分,这种方法是把个体,P,个变量的取值,当作因变量,把载荷矩阵,Apq,作为自变量数据阵,把,Fq1,当作未知参数,而特殊因子的取值(未知)看作误差,于是得到如下的线性回归模型:,即 :,我们采用与求解线性回归模型相同的方法求得因子得分,最小二乘估计法,也就是寻找,由于,p,个个性方差不相等,因此,应采用加权的,的一组取值,使得加权的残差平方和,达到最小,这样求得的,解就称为巴特莱特(,Bartlett,)因子得分,例:,35,家上市公司,2000,年年报资料:,35,家上市公司资料,(,原始资料),.,sav,
展开阅读全文