第13章 主成分分析和因子分析

上传人:fgh****35 文档编号:245296106 上传时间:2024-10-08 格式:PPT 页数:108 大小:1.58MB
返回 下载 相关 举报
第13章 主成分分析和因子分析_第1页
第1页 / 共108页
第13章 主成分分析和因子分析_第2页
第2页 / 共108页
第13章 主成分分析和因子分析_第3页
第3页 / 共108页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1,第十三章 主成分分析和因子分析,在建立多元回归模型时,为了更准确地反映事物的特征,人们经常会在模型中包含较多相关解释变量,这不仅使得问题分析变得复杂,而且变量之间可能存在多重共线性,使得数据提供的信息发生重叠,甚至会抹杀事物的真正特征。为了解决这些问题,需要采用降维的思想,将所有指标的信息通过少数几个指标来反映,在低维空间将信息分解为互不相关的部分以获得更有意义的解释。本章介绍的主成分分析和因子分析可用于解决这类问题。,2,主成分分析(,principal components analysis,,简称,PCA,)是由霍特林(,Hotelling,)于,1933,年首先提出的。它通过投影的方法,实现数据的降维,在损失较少数据信息的基础上把多个指标转化为几个有代表意义的综合指标。,13.1,主成分分析,3,13.1.1,主成分分析的基本思想,假如对某一问题的研究涉及,p,个指标,记为,X,1,,,X,2, ,X,p,,由这,p,个随机变量构成的随机向量为,X,=(,X,1,X,2, ,X,p,),,设,X,的均值向量为,,协方差矩阵为,。设,Y,=(,Y,1,Y,2, ,Y,p,),为对,X,进行线性变换得到的合成随机向量,即,(,13.1.1,),设,i,=(,i,1,i,2, ,ip,),,,( ),A,=(,1,2,p,),,则有,(,13.1.2,),4,且,(,13.1.3,),由式(,13.1.1,)和式(,13.1.2,)可以看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量,Y,的统计特征显然是不一样的。每个,Y,i,应尽可能多地反映,p,个原始变量的信息,通常用方差来度量“信息”,,Y,i,的方差越大表示它所包含的信息越多。由式(,13.1.3,)可以看出将系数向量,i,扩大任意倍数会使,Y,i,的方差无限增大,为了消除这种不确定性,增加约束条件:,5,为了有效地反映原始变量的信息,,Y,的不同分量包含的信息不应重叠。综上所述,式(,13.1.1,)的线性变换需要满足下面的约束:,(1),,即 ,,i,=1, 2, ,p,。,(2),Y,1,在满足约束,(1),即的情况下,方差最大;,Y,2,是在满足约束,(1),,且与,Y,1,不相关的条件下,其方差达到最大;,;,Y,p,是在满足约束,(1),,且与,Y,1,,,Y,2,,,,,Y,p-,1,不相关的条件下,在各种线性组合中方差达到最大者。,满足上述约束得到的合成变量,Y,1,Y,2, ,Y,p,分别称为原始变量的第一主成分、第二主成分、,、第,p,主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。,6,13.1.2,总体主成分求解及其性质,13.1.1,节中提到主成分分析的基本思想是考虑合成变量的方差大小及其对原始变量波动,(,方差,),的贡献大小,而对于原始随机变量,X,1,,,X,2,,,,,X,p,,其协方差矩阵或相关矩阵正是对各变量离散程度和相关程度的度量。在实际求解主成分时,一般从原始变量的协方差矩阵或相关矩阵的结构分析出发。,7,1,从协方差矩阵出发求解主成分,设,1,是任意,p,1,向量,求解主成份就是在约束条件 下,求,X,的线性函数 使其方差 达到最大,即达到最大,且 ,其中,是随机变量向量,X,=(,X,1,X,2, ,X,p,),的协方差矩阵。设,1,2, ,p, 0,为,的特征值,,e,1,e,2,e,p,为,矩阵各特征值对应的标准正交特征向量,则对于任意的,e,i,和,e,j,,有,(,13.1.4,),且,(,13.1.5,),8,因此,(,13.1.6,),当,1,=,e,1,时有,(,13.1.7,),此时 达到最大值为,1,。同理有 并且,(,13.1.8,),9,由上述推导得,(,13.1.9,),可见,Y,1,Y,2, ,Y,p,即为原始变量的,p,个主成份。因此,主成分的求解转变为求,X,1,X,2, ,X,p,协方差矩阵,的特征值和特征向量的问题。,10,主成份的性质,性质,1,Y,的协方差矩阵为对角阵,,即,(,13.1.10,),性质,2,设,=(,ij,),p,p,是随机变量向量,X,的协方差矩阵,可得,即,11,由此可见,主成分分析是把,p,个随机变量的总方差分解为,p,个不相关随机变量的方差之和,1,2,P,,则总方差中属于第,i,个主成分(被第,i,个主成分所解释)的比例为,(,13.1.12,),称为第,i,个主成分的贡献度。定义,(,13.1.13,),称为前,m,个主成分的累积贡献度,衡量了前,m,个主成份对原始变量的解释程度。,12,性质,3,记第,k,个主成分,Y,k,与原始变量,X,i,的相关系数为,r,(,Y,k,,,X,i,),,称为因子载荷,或者因子负荷量,则有,(,13.1.14,),13,3,从相关矩阵出发求解主成分,在实际应用时,为了消除原始变量量纲的影响,通常将数据标准化。考虑下面的标准化变化,令,(,13.1.15,),其中,i,,,ii,分别表示随机变量,X,i,的期望与方差,则,14,原始变量的相关矩阵就是原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与由协方差矩阵求主成分的过程是一致的。如果仍然采用(,i,,,ei,)表示相关矩阵,R,对应的特征值和标准正交特征向量,根据式(,13.1.9,)有:,(,13.1.17,),由相关矩阵求得的主成分仍然满足性质,1,3,。性质,3,可以进一步表示为:,(,13.1.18,),15,13.1.3,样本的主成分,1,样本统计量,在实际工作中,我们通常无法获得总体的协方差矩阵,和相关矩阵,R,。因此,需要采用样本数据来估计。设从均值向量为,,协方差矩阵为,的,p,维总体中得到的,n,个样本,且样本数据矩阵为,(,13.1.19,),16,则样本协方差矩阵为:,(,13.1.20,),其中,:,(,13.1.21,),样本相关矩阵为:,(,13.1.22,),样本协方差矩阵,S,是总体协方差矩阵,的无偏估计量,样本相关矩阵 是总体相关矩阵,R,的估计量。,17,2,样本主成份及其性质,由于采用相关矩阵和协方差矩阵求解主成分的过程基本一致,因此本节仅介绍基于样本相关矩阵求解主成分的过程。设样本相关矩阵 的特征值为 ,且,与特征值相对应的标准正交特征向量为 ,根据式(,13.1.17,)第,i,个样本主成分可表示为:,(,13.1.23,),而且,(,13.1.24,),(,13.1.25,),18,且由式(,13.1.16,)和性质,2,可得,(,13.1.26,),则第,i,个样本主成分的贡献度为 ,前,m,个样本主成份的累计贡献度为,另外,(,13.1.27,),19,3,主成份个数的确定,主成分分析的目的之一是减少变量的个数,但是对于应保留多少个主成分没有确切的回答。通常需要综合考虑样本总方差的量、特征值的相对大小以及各成分对现实的阐述。一般所取,m,使得累积贡献率达到,85%,以上为宜。,另一个比较常用的可视的方法是碎石图,首先将特征值 按照从大到小的顺序进行排列,碎石图是特征值与相应序号,i,的(,i,, )图形,其中横轴表示序号,纵轴表示特征值 。为了确定主成分的合适个数,选择碎石图斜率变化较大的拐弯点,通常在此序号之后的特征值取值比较小,则此序号作为主成分的个数。例如,图,13.1,所示的碎石图在,i,=2,处拐弯,则,m,选择,2,。第三个经验的判断方法是只保留那些方差大于,1,的主成分。,20,例,13.1,宏观经济景气波动的主成分分析,本例从一批对景气变动敏感,有代表的指标中筛选出,5,个反应宏观经济波动的一致指标组:工业增加值增速(,iva,)、工业行业产品销售收入增速(,sr,)、固定资产投资增速(,if,)、发电量增速(,elec,)和货币供应量,M1,增速(,m,1,),样本区间从,1998,年,1,月,2006,年,12,月,为了消除季节性因素和不规则因素,采用,X-12,方法进行季节调整。常用的方法是美国商务部采用的计算合成指数,CI,的方法。特别的,本例利用主成分分析降维的思想,提取主成分(,PCA,),并与合成指数,CI,的结果进行比较。,21,13.3.1,EViews,软件中主成分分析的计算,本节以例,13.1,的数据为例,介绍,EViews,软件中主成分分析的实现过程。首先将所涉及的变量建成一个组,(g1),,选择组菜单的,View/Principal Components.,,出现如图,13.6,所示的窗口。在窗口中有两个切换钮:第一个钮标着,Components,,第二个钮标着,Calculation,,控制着组中各序列离差矩阵的计算和估计。默认的,,EViews,完成主成分分析使用普通的(,Pearson,)相关矩阵,也可以在这个菜单下重新设定主成分的计算。,22,1,Components,选择纽,Components,按钮用于设定显示主成分和保存方差的特征值和特征向量。在,Display,对话框中可以以表的形式显示特征值和特征向量,或者按照特征值的大小以线性图的形式显示,或者是载荷、得分的散点图,或者两个都显示(,biplot,)。选择不同的显示方式,对话框中其余的内容也会发生相应的改变。,23,图,13.6,主成分估计对话框,(1),24,25,表头描述了观测值的样本区间、计算离差矩阵的方法以及保留成分的个数(在这个例子中显示了所有的,5,个主成分)。,表的第一部分概括了特征值(,Value,)、相应特征值与后一项的差(,Difference,)、对总方差的累积解释比例(,Cumulative Proportion,)等等。由于上述结果的计算采用相关矩阵,所以,5,个特征值之和等于,5,。第一个成分占总方差的,72.94%,,第二个成分占总方差的,19.22%,。前两个成分占总方差的,92.16%,。,表的第二部分描述了线性组合的系数,第一个主成分(标为“,PC1”,)大约等于所有,5,个一致指标的线性组合,它可以解释为一般的经济景气指数。,输出的第三部分表示计算的相关矩阵。,26,第,1,主成分,第,2,主成分,第,3,主成分,第,4,主成分,第,5,主成分,特,征,向,量,固定资产投资增速(,if,),0.449,-0.367,0.696,0.200,0.374,工业增加值增速(,iva,),0.510,-0.153,-0.078,0.312,-0.783,货币供应量增速(,m,1r,),0.204,0.913,0.285,0.208,0.009,产品销售收入增速(,sr,),0.490,0.023,-0.654,0.293,0.496,发电量增速(,elec,),0.508,0.088,-0.020,-0.857,-0.026,特 征 值,3.603,0.988,0.270,0.087,0.051,贡 献 率,0.721,0.197,0.054,0.018,0.01,累积贡献率,0.721,0.918,0.972,0.990,1.000,表,13.1,一致指标组的主成分分析结果,27,由表,13.1,可以看出,第,1,主成分的贡献率为,72.1%,,已能较好地反映,5,个一致指标的总体变动情况,而且根据它们的特征值可以发现第,2,个特征值开始明显变小,(,小于,1),,碎石图出现明显的拐弯,同时为了讨论方便,仅选择,m,=1,,提取第一个主成分反映经济变动。表,13.1,中已经给出对应的特征向量,根据式(,13.1.23,)可以得到对应的主成分序列。,28,图,13.7,主成分估计对话框(,2,),如果在主对话框的,Display,部分选择,Eigenvalues,plots,,则显示按顺序排列的特征值的线性图(碎石图)。在对话框的下面将发生改变,可以选择显示特征值(碎石图)、特征值的差、方差累积贡献率其中之一,或是全部。如图,13.7,所示可以选择任意的复选框。默认的,EViews,仅显示特征值排序的碎石图。,29,30,图,13.8,主成分估计对话框(,3,),变量载荷图(,Variable loadings plot,)给出对应主成分的变量载荷系数,从图中可以看出如何根据原始变量合成新的主成分;成分得分图(,Component scores plot,)显示对应于样本区间内的观测值成分的得分值;,biplot,(,Biplots,(scores & loadings),则表示在一个图中同时显示载荷系数和得分值。,31,32,图,13.10,计算得分序列的设置对话框,2. Calculation,选择钮,在,Type,下拉菜单中选择使用相关,(Correlation),还是协方差,(Covariance),矩阵。在,Method,下拉菜单中选择计算方法:,Ordinary, Ordinary (,uncentered,), Spearman rank-order or Kendalls,tau,-a, or Kendalls,tau-b,。在该对话框中,还可以设定计算使用的观测值样本。,33,图,13.9,保存得分序列的对话框,3,保存得分序列,如果想保存主成分得分序列,直接从组(,Group,)菜单中选择,Proc/Make Principal Components.,,则出现图,13.9,所示的对话框。,34,第一个选项是,Scaling,,用于选择得分序列和载荷计算的权重。有,4,个选项:,Normalize loadings,,,Normalize scores,,,Symmetric weights,和,User loading weight,,默认的,Normalize loadings,,表示标准化载荷,使得所有观测值得分对特征值有标准的比例;选择,Normalize scores,,所有变量标准化为,1,;选择,Symmetric weights,,将会有对称的权重;选择,User loading weight,,可以用户自己定义权重。,然后需要输入得分序列的名称,在例,13.1,中,我们输入第一主成分的名字“,PAC1”,,用于保存第一个主成分。也可以根据需要保存对应得分的载荷、特征值和特征向量。,35,图,13.2,中的实线给出了由主成分分析的第一主成分表示的一致景气指数(,PCA,),虚线给出的是由国际上常用的美国商务部计算合成指数的方法给出的一致合成指数(,CI,),可以发现二者的变化趋势和转折点几乎完全相同,只是波动的幅度略有差异。进一步表明:,PCA,指数不仅能够反映景气波动的变化趋势和峰谷的转折点,而且还能反映波动的幅度。,图,13.2,第一主成分,(PCA,,左坐标,),一致合成指数,(CI,,右坐标,),36,13.2,因子分析,因子分析(,factor analysis,,简称,FA,)是主成分分析的推广,相对于主成分分析,因子分析更侧重于解释被观测变量之间的相关关系或协方差之间的结构。因子分析的思想源于,1904,年查尔斯,斯皮尔曼(,Charles Spearman,)对学生考试成绩的研究。研究多指标问题时常常会发现,这些指标相关性形成的背景原因是各种各样的,其中共同的原因称为公共因子;每一个变量也含有其特定的原因,成为特定(特殊)因子。因子分析的实质就是用几个潜在的但不能观察的互不相关的随机变量去描述许多变量之间的相关关系(或者协方差关系),这些随机变量被称为因子。为了使得这些因子能很好的替代原始数据,需要对这些因子给出合理的解释。同时为了使用这些因子,还需要对提取结果进行评价。,37,因此,可以简单将因子分析的目标概括为以下几方面:,(,1,)首先考虑是否存在较少的不相关的随机变量可用于描述原始变量之间的关系;,(,2,)如果存在公共因子,那么究竟应该选择几个;,(,3,)对提取的公共因子的含义进行解释;,(,4,)评价每一个原始变量与公共因子之间的关系;,(,5,)可以将这些公共因子用于其他的统计分析。,本节将从这几个角度给出详细的介绍。需要注意的是因子分析从一系列高度相关的原始变量矩阵,X=,(,X,1,X,2, ,X,p,),中提取少数几个不相关的因子,所以如果原始变量之间不相关则没有必要进行因子分析。在实际研究和应用中,为了消除观察值之间由于量纲的差异而造成的影响,需要将观测值按照式(,13.1.15,)进行标准化处理。本节的讨论都是基于标准化后的序列,为了方便,把标准化后的随机变量矩阵仍记为,Z =,(,Z,1,Z,2, ,Z,p,),。,38,13.2.1,基本的因子分析模型,假如对某一问题的研究涉及,p,个指标,且这,p,个指标之间存在较强的相关性,则基本的因子模型可以表示为,(,13.2.1,),称式(,13.2.1,)中,F,1,F,2, ,F,m,为公共因子,,1,2, ,p,表示特殊因子,其中包含了随机误差,,i,只与第,i,个变量,Z,i,有关,,l,ij,称为第,i,个变量,Z,i,在第,j,个因子,F,j,上的载荷(因子载荷),由其构成的矩阵,L,称为因子载荷矩阵。,39,式(,13.2.1,)进一步可以表示为下面的矩阵形式,(,13.2.2,),其中,,F,= (,F,1,F,2, ,F,m,),;,= (,1,2, ,p,),。注意式(,13.2.1,)中的,F,1,F,2, ,F,m,是不可观测的随机变量,因此,必须对随机变量,F,和,做一些假定,使得模型具有特定的且能验证的协方差结构。,40,假设,(,13.2.3,),(,13.2.4,),且,F,与,独立,即,(,13.2.5,),满足式(,13.2.3,)式(,13.2.5,)假定的模型(,13.2.1,)(或(,13.2.2,)称为正交因子模型。,41,13.2.2,正交因子模型的性质,1,正交因子模型的协方差结构,假定随机变量,Z,的协方差矩阵为,,则有,(13.2.6),(13.2.7),42,2,因子载荷,l,ij,的意义,由式(,13.2.7,)可得,(,13.2.8,),由于假定,Z,i,和,F,j,都是方差为,1,的随机变量,因此,l,ij,即为变量,Z,i,与因子,F,j,的相关系数。,43,3,共同度与公因子的方差贡献,由式(,13.2.6,)可得,令,则有,(13.2.9),其中,h,i,2,反映了公共因子对,Z,i,方差的贡献,称为共性方差,或者变量共同度。,i,称为特殊方差,或者剩余方差。,44,式(,13.2.9,)表明,,h,i,2,接近,1,时,,i,接近,0,,说明,Z,i,包含的几乎全部信息都可以被公因子解释;当,h,i,2,接近,0,时,表明公共因子对 的影响不大,主要由特殊因子描述。因此,,h,i,2,也反映了变量,Z,i,对公共因子的依赖程度。与此类似,矩阵,L,的第,j,列元素反映了第,j,个因子,F,j,对所有变量,Z,的影响,记为,(13.2.10),称为公共因子,F,j,对原始变量向量,Z,的方差贡献,是衡量公共因子相对重要性的一个尺度,其值越大反映,F,j,对原始变量向量,Z,的方差贡献也越大。,45,13.2.3,因子载荷的估计方法,因子分析的首要步骤是先确定因子载荷,或估计得到因子载荷矩阵,L,,注意在式(,13.2.1,)和式(,13.2.2,)中的,F,1,F,2, ,F,m,是不可观测的随机变量,因此因子载荷矩阵,L,的估计方法都比较复杂,常用的方法有极大似然法、主成分法、迭代主成分方法、最小二乘法、,因子提取法等。,46,1,极大似然法,如果假设公共因子,F,和特殊因子,服从正态分布,即,F,N,m,(,0,I,),,,N,p,(,0,),,,X,1,X,2, ,X,p,的均值为,= (,1,2, ,p,),,则观测值,X,1,X,2, ,X,p,为来自正态总体,N,p,(,),的样本,可以采用极大似然法估计因子载荷矩阵和特殊方差,似然函数是,和,的函数,L,(,),。,由于,,因此似然函数可以更清楚地表示为,L,(,L,),,记,(,L,),的估计量为,,则有,(,13.2.11,),47,2,主成分方法,用主成分法确定因子载荷,就是对随机变量进行主成分分析,把前面几个主成分作为原始公共因子。其具体过程如下,设有,p,个变量,Z,=,(,Z,1,Z,2, ,Z,p,),,可以求得从大到小排序的,p,个主成分,Y,1,,,Y,2,,,,,Y,p,,根据,13.1,节的内容可知,原始变量与主成分之间存在如下的关系:,(,13.2.13,),48,由于,A =,(,1, ,p,),= (,e,1,e,2, ,e,p,),为正交矩阵,则有,(13.2.14),如果在式(,13.2.13,)中仅取前,m,个主成分,把其余的,p-m,个主成分用特殊因子,i,代替,则式(,13.2.13,)可以表示为,(,13.2.15,),式(,13.2.15,)与式(,13.2.1,)的形式一致,,Y,i,表示主成分,因此相互独立。,49,为了使,Y,i,符合式(,13.2.3,)假设的公共因子,需要将主成分,Y,i,的方差转变为,1,。由,13.1,节的介绍可知,主成分方差为特征根,i,,只需要将,Y,i,除以标准差 即可,令,, (,13.2.16,),则式(,13.2.15,)转变为:,(,13.2.17,),式(,13.2.15,)已与式(,13.2.1,)不仅在形式上一致,而且完全符合式(,13.2.3,)式(,13.2.5,)的假设。由此就得到因子载荷矩阵和一组初始公共因子。,50,3,迭代主成分方法(,Iterated Principal Factors,),迭代主成分方法也叫主因子法,或主轴因子方法,,,是对主成分法的一种修正。首先对原始变量进行标准化处理,其相关矩阵与协方差矩阵一致,使其因子模型满足式(,13.2.1,),根据式(,13.2.6,)有,(13.2.18),令,(13.2.19),称,R,*,为调整相关矩阵,或约相关矩阵。不妨设特殊因子,i,的方差的初始估计为,i,*,,则有,h,i,*2,= 1-,i,*,,且相应的样本相关矩阵为 ,则对应的约相关矩阵为,(13.2.20),51,设 的前,m,个特征值依次为,1,*,2,*, ,m,*,0,,相应的正交单位特征向量为,e,1,*,e,2,*,e,m,*,,则对应的因子载荷矩阵,L,的解为,(13.2.21,),根据式(,13.2.21,)和式(,13.2.18,),可以进一步得到特殊因子方差的最终估计量为,(13.2.22),如果希望得到拟合程度更好的解,则可以采用迭代的方法,即利用式(,13.2.22,)得到的特殊因子方差估计量带入式(,13.2.20,)重复上述步骤,直到所求解比较稳定为止。,52,下面介绍几种求特殊因子方差和公共因子方差初始估计的几种常用方法:,(,1,),复合相关系数,(,squared multiple correlations,,简称,SMC,)方法,SMC,是比较常用的一种方法,令,,其中,r,ii,是,的第,i,个对角元素,此时公共因子方差的估计值为,它表示,X,i,与其他,p-,1,个解释变量之间的复相关系数。,(,2,),最大相关系数方法,(,max absolute correlation,),最大相关系数方法是用第,i,个变量,X,i,与其他变量相关系数绝对值的最大值来估计,即令,,其中,r,ij,表示第,i,个变量,X,i,与第,j,个变量,X,j,的相关系数。,53,(,3,),对角线比例方法,(,fraction of diagonals,),该方法使用相关矩阵(或协方差矩阵)对角线元素的固定比例,。特殊的可以取,=1,,此时结果等同于主成分求解得到的结果。,(,4,)分块的协方差矩阵估计方法,(,partitioned covariance,,简称,PACE,),由于第,3,种方法,PACE,的估计量是非迭代的,因此,比较适合为迭代估计方法提供初值。,(,5,),特殊的直接取,,则,i,*,=0,,此时得到的,也是一个主成分解。,54,13.2.4,因子数目的确定方法及检验,上述求解过程中重要的是如何确定公因子数目,m,,这是因子分析中最重要的一步。本小节将列出其中几种常用的方法,1,因子数目的确定方法,(1),最小特征值,(,Kaiser-,Guttman,Minimum,Eigenvalue,),Kaiser-,Guttman,规则也叫做“特征值大于,1,”方法,是最常用的一种方法。只需要计算离差矩阵(相关矩阵、协方差矩阵)的特征值,特征值超过平均值的个数作为因子个数。特别地,对于相关矩阵,特征值的均值为,1,,所以通常取特征值大于,1,的数作为公因子数。,55,(2),总方差比例,(,Fraction of Total Variance,),选择公因子个数,m,使得前,m,个特征值的和超过公因子总方差的某一门限值。这种方法多用于主成分分析方法,比较典型的是这些成分构成总方差的,95%,(,Jackson, 1993,)。,(3) MAP,方法,(,Minimum Average Partial,),Velicer,(1976),提出的最小平均偏相关,(,简称,MAP),方法原理是:给定,m,个成分(,m,= 0,,,1,,,,,p,-1,),计算偏相关系数平方的平均值,应保留因子的个数是使得平均值最小化的个数,56,(4),分割线段,(,Broken Stick,),分割线段模型的基本原理是:首先,计算离差矩阵中第,j,个最大特征值对方差的贡献度,然后计算从分割线段分布得到的相应的期望值,。当前者超过后者时,所对应的,j,即为应该保留的因子个数(,Jackson, 1993,)。,(5),平行分析,(,Parallel Analysis,),平行分析模拟使用的数据与原始数据有着相同方差和观测值个数,是由随机生成器生成的独立随机变量数据集。计算模拟数据的,Pearson,协方差和相关矩阵及其特征值。只要原始数据的特征值超过模拟数据的对应值,相应的个数将作为保留因子数,57,2,公共因子个数的大样本检验,采用极大似然估计模型时,假设公共因子和特殊因子均服从正态分布,而正态分布的假定,可以帮助我们构造模型充分性的检验。设提取,m,个公共因子的模型成立,则检验,m,个公共因子的充分性等价于检验,(,13.2.27,),对应的备择假设,H,1,为,是任意其他的正定矩阵。,58,在原假设成立的条件下可以构造下面的似然比统计量,(,13.2.28,),其中,S,n,表示协方差矩阵的极大似然估计;,,其中,和,分别表示,L,和,的极大似然估计量,而,是,的极大似然估计量。式(,13.2.28,)的统计量服从,2,分布。,特别的,,Bartlett,在,1954,年证明了,-,2ln,抽样分布的,2,近似可以用多重因子(,n,-1- (2,p,+4,m,+5)/6,)代替式(,13.2.28,)中的,n,。,59,利用,Bartlett,修正,只要,n,和,n- p,大,若,(,13.2.29,),则在显著性水平,下拒绝原假设,H,0,,认为,m,个因子是不充分的。式(,13.2.29,)表示的,2,统计量也称为,Bartlett,2,统计量。由于式(,13.2.29,)中的自由度必须大于,0,,进一步化简可以得到,(,13.2.30,),在选择,m,时,必须根据上述方法进行判断模型的充分性。,60,例,13.2,纽约股票交易所股票收益率的因子分析(,1,),曾有学者研究了纽约票股交易所的,5,只股票(阿莱德化学(,allied,)、杜邦,(,dupont,),、联合碳化物,(union),、埃克森,(,exxon,),和德士古,(,texaco,),)从,1975,年,1,月到,1976,年,12,月期间周回报率之间的关系(数据见本章附录)。周回报率定义为(本周五收盘价,-,上周五收盘价),/,上周五收盘价,如有拆股或支付股息时进行相应调整。连续,100,周的观测值表现出独立同分布,但是各股之间的回报率受总体经济状况的影响,也存在相关关系。表,13.2,给出各指标的相关矩阵。,61,表,13.2,各指标的相关矩阵,allied,dupont,union,exxon,texaco,allied,1.00,0.58,0.51,0.39,0.46,dupont,0.58,1.00,0.60,0.39,0.32,union,0.51,0.60,1.00,0.44,0.43,exxon,0.39,0.39,0.44,1.00,0.52,texaco,0.46,0.32,0.43,0.52,1.00,从表,13.2,可以看出各股收益率之间存在一定的相关性,本例采用因子分析计算其因子载荷矩阵、公共方差、剩余方差以及相应的贡献度。,62,13.3.2,因子分析的实现,EViews,中因子分析的实现是通过因子对象完成的。从工作文件的窗口选择,Object/New Object,,选中,Factor,;或者选中相应的序列,单击右键,选择,Open/as Factor.,;或者打开一个已经存在的组对象,选择,Proc/Make Factor.,;或者在命令窗口输入关键词,factor,,都会弹出图,13.12,所示的因子分析设定对话框。从图中可以看出,因子设定对话框也包含两个切换钮:,Data,和,Estimation,。,63,图,13.12,因子设定对话框,64,1,Estimation,选择钮,Estimation,标签用于控制主要的估计设置(图,13.11,),其中主要包括估计方法、因子个数设定、初始贡献率以及其他属性,4,个方面的设置。,(1),估计方法(,Method,),在,Method,的下拉菜单中,,EViews,提供了多种估计方法:极大似然估计法、广义最小二乘法、不加权最小二乘法、主成分分析法、迭代主成分分析法以及非迭代的分区协方差估计方法(,PACE,)。选择不同的方法,在右边的属性部分将会显示不同的设置。,65,(2),因子数(,Number of factors,),EViews,提供了很多的方法选择因子数,各种方法的简要概括可参考,13.2.4,节的介绍。默认的,,EViews,使用,Velicer,的,minimum average partial,(,MAP,)方法。实证模拟结果表明:,MAP,和平行分析方法比起其他常用的方法来更精确。可以根据需要选择不同的方法,但是页面也会发生相应的改变。,(,3),公共方差的初值,(,Initial Communalities,),大部分估计方法都需要公共方差的原始估计。例如,对主成分估计方法,初始的公共方差是构建估计的基础。在,EViews,中可以从,Initial communalities,的下拉菜单中选择不同的方法。,66,(4),估计选项(,Opition,),估计属性主要包括对迭代控制、,scaling,、随机数生成器以及,Heywood,情况的选择和设置。选中,Scale estimates to match observed variances,复选框,可控制剩余方差和公共方差之和等于离差矩阵的对角元素。,在迭代主因子估计的过程中,可能会遇到被估计公因子方差暗含至少一个剩余方差小于等于,0,,这种情况就是通常所说的,Heywood,情况。当,EViews,在计算中遇到,Heywood,情况时,有几种方法是可选择的。默认的,,EViews,将停止迭代,并给出最后的估计,(Stop and report final),,同时指出结果可能是不适合的;或者,EViews,报告前一次的迭代结果(,Stop and report last,);或者结果为,0,,继续(,Set to zero, continue,);或者忽略负的方差,继续(,Ignore and continue,)。,67,2,Data,选择钮,点击,Data,按钮,出现图,13.13,所示的窗口,该窗口分为两部分,协方差设置和协方差属性。,图,13.13,因子分析的数据设定对话框,68,(1),类型(,Type,),协方差设置的第一项是,Type,下拉菜单,主要用于确定因子分析是基于协方差矩阵还是相关矩阵,或者采用用户已经根据相关测量方法定义的矩阵(,User-matrix,),(2),方法(,Method,),可以用,Method,下拉菜单设定计算相关矩阵(或协方差矩阵)的方法:普通,Pearson,协方差、非中心协方差、斯皮尔曼秩协方差(,Spearman rank-order,covariances,)和,Kendalls,tau,(肯德尔)相关测量。,69,(3),变量(,Variables,),在该框中应列出用于因子分析的序列名称,或包含这些序列的组名。,(4),样本(,Sample,),该项主要用于设定用于分析的观测值的样本,同时表明是否希望样本是均衡的。默认的,如果遇到缺失数据,,EViews,将删除相关变量中的缺失数据。,70,(5),偏相关或偏协方差(,Partialing,),偏相关和偏协方差可用于一对变量的分析,只需在相应的编辑框中列出变量名称。偏协方差或偏相关的分析不支持因子得分的计算,在这种选择下要计算因子得分,同样也需要使用用户设定矩阵估计模型。,(6),权重(,Weighting,),当选择使用加权方法时,将会提示需要输入权重序列的名称。有,5,种不同的权重选择:频率、方差、标准偏差、比例方差和比例标准偏差。,(7),自由度修正,可以选择使用极大似然估计量或者自由度修正规则计算协方差。默认的,,EViews,计算(没有自由度修正的),ML,估计的协方差。,71,(8),用户设定矩阵,如果在,Type,下拉菜单中选择,User-matrix,,对话框将会发生改变。依次输入矩阵名称,这个矩阵应该是方阵,并且是对称的,但是对称不是必须的;然后输入一个标量表示观测值的数,或者一个矩阵,它包含表示观测值数目的一对数;最后,列名(,Col.name,)主要是为结果提供标签,如果不填写此项,变量将以,“,V1”, “V2”,的形式显示,不需要为所有的列提供名字,默认地名字将按照提供的顺序被替代。,72,下面给出例,13.2,采用主成分方法求解,m,=2,时的结果,因子个数设置为,2,,其他选项都采用默认设置,其结果如下:,公共方差,,剩余方差,=1-0.50 =0.50,。其它相对应的公共方差和剩余方差以此类推。从表,13.3,中可以发现所有股票都高度依赖于,F,1,,且载荷都差不多相等,可称之为市场因子,代表总的经济条件。而在因子,F,2,上,化学类股票在此因子上均有负载荷,石油类股票在此因子上有正的载荷,表明因子,F,2,将不同行业股票加以区分,称为行业因子。,73,同时比较极大似然估计和主成分估计的结果可以发现:同样在因子,F,1,上有大的正的载荷,称为市场因子;而因子,F,2,的结果与主成分分析载荷的符号正好相反,同样也是区分了行业,因此也称为行业因子。我们需要进一步通过因子旋转才能发现有用的因子模式。,例,13.3,影响我国物价波动多因素的因子分析(,1,),随着我国市场化程度的深化以及经济全球化进程的加快,我国物价的波动不仅反映了国内市场中总供给和总需求的矛盾,而且受国际经济的影响,尤其是国际市场价格的影响也越来越大。受国内经济波动、居民收入及财富变化、生产成本价格上涨、国际石油、粮食等原材料价格的影响使得我国物价的波动变得极其复杂。由于物价的波动不是取决于某一种因素,或某几个指标,而是受多方面因素的影响,此时简单的多元回归分析已经无法满足分析的需要。,本例选择,15,个经济变量,采用因子分析方法分析各因素对物价波动的影响,样本区间为,2000,年,1,季度,2008,年,3,季度。采用主成分方法(,Principal Factors,)求解,按照特征根大于,1,的准则,选取因子数目,m,=4,,求解结果如表,13.5,。,剩余,方差,指标名称,F,1,载荷,l,i,1,F,2,载荷,l,i,2,F,3,载荷,l,i,3,F,4,载荷,l,i,4,剩余方差,CPI,居民消费价格指数,(CPI),0.84,-0.15,0.39,-0.15,0.09,成本,因素,原材料、燃料、动力购进价格指数,0.79,-0.54,-0.17,-0.14,0.03,工业品出厂价格指数,0.82,-0.51,-0.08,-0.14,0.04,农副产品类购进价格指数,0.76,-0.21,-0.21,-0.01,0.34,商品房销售价格指数,0.91,0.12,-0.06,-0.18,0.11,工业企业成本费用利润率,0.87,0.24,-0.18,0.06,0.16,需求,因素,全部从业人员人均报酬增速,0.27,0.37,0.77,-0.13,0.19,城镇家庭人均可支配收入增速,0.61,0.41,0.59,-0.05,0.11,货币,因素,外汇储备同比增速,0.48,0.58,-0.46,-0.23,0.17,货币乘数,0.44,0.44,-0.56,0.31,0.20,M2,增速,0.22,0.76,-0.19,-0.19,0.30,GDP,增长率,0.83,0.30,0.00,0.40,0.06,国际,因素,G7,工业品出厂价格指数,0.67,-0.56,0.19,-0.13,0.19,G7,支出法,GDP,同比增速,0.19,-0.50,-0.18,0.62,0.31,股价指数,上证收盘综合指数同比增速,0.25,0.20,0.40,0.79,0.12,特征值,6.35,2.86,2.09,1.58,贡献率,(%),42.33,19.08,13.92,10.56,累计贡献率,(%),42.33,61.41,75.33,85.89,表,13.5,影响物价波动多因素的因子分析结果,从表,13.5,中可以看出:,4,个公因子对原始变量方差的累计贡献率为,85.89%,,可见通过因子分析实现了将,15,维数据变量降至,4,维的目的。采用表,13.5,的信息还可以得到各变量对应的公共方差和剩余方差,如对于第一个变量,,=1-0.91 =0.09,。其它变量相对应的公共方差和剩余方差以此类推。同时,通过表,13.5,各公因子的载荷可以看出:代表成本因素的各上游价格指数在公因子,F,1,上有较高的载荷,可称为成本因子;而代表居民需求增长的两个收入变量在公因子,F,3,上有较高的载荷,可称为需求因子;而表示货币因素的,3,个变量在公因子,F,2,上有较高的载荷,可称为货币因子;而代表财富变化的股票指数在公因子,F,4,上有较高的载荷,称为财富因子。但还有一些变量的载荷并不是很明确,我们可以通过因子旋转得到实际意义更加明确的因子模式。,77,13.2.5,因子旋转,因子分析的目的不仅是求出公共因子,更重要的是知道每个公共因子的实际意义,以便对所研究的问题作出进一步的分析。公共因子是否容易解释,很大程度上取决于因子载荷矩阵,L,的元素结构。假设因子载荷矩阵,L,是基于相关矩阵得到的,则其所有元素均在,-1,到,1,之间,如果,L,的所有元素都接近,0,或,1,,公共因子的含义就容易解释了,否则公因子含义将含糊不清。,78,设,L,是通过某种方法估计得到的因子载荷矩阵,令,且,(13.2.31),(13.2.32),式(,13.2.31,)和式(,13.2.32,)表明因子载荷矩阵是不唯一的,对一任意正交阵,T,,,也是一个因子载荷矩阵。因此,实际中求得一个载荷矩阵,之后,可通过右乘正交阵,T,,使,更具有实际意义,这种变换载荷矩阵的方法称为因子轴旋转。因子的旋转方法有正交旋转和斜交旋转。正交旋转与斜交旋转区别就在于:正交旋转得到的新公共因子仍然是相互独立的,但斜交旋转则放宽了这一限制。,79,正交矩阵,T,的不同选取法构成了正交旋转的各种不同方法,如最大方差旋转法(,Varimax,)、全体旋转(变量和因子同时旋转,,Equamax,)、四分旋转(,Quartimax,)等。最常采用的是最大方差旋转法,其旋转目的是使得因子载荷矩阵的元素取值尽可能地向两极分化,部分元素取尽可能大的值,部分元素尽量接近零值。,本节主要介绍最大方差旋转法,其基本思想如下:,80,先考虑两个因子(,m,=2,)的平面正交旋转,设因子载荷矩阵为,(,13.2.33,),取正交矩阵为,其中,表示坐标平面上因子轴旋转的角度,则,(,13.2.34,),81,当公共因子个数大于,2,时,可以逐次对每两个进行上述的旋转,如果存在,m,个公共因子,则需要进行,次变换,这样就完成一轮旋转。如果旋转完毕,并不能认为已经达到预期的效果,可以在第一轮所得结果基础上继续上述旋转过程,可得第二轮旋转结果。每一次旋转以后,所得载荷矩阵各列平方的相对方差之和总会比上一次有所增加,而另一方面由于载荷矩阵每一个元素的绝对值均不大于,1,,因此,其方差最终一定会收敛于某一个极限。实际中,通常经过若干次旋转以后,如果总方差改变不大,则可以停止旋转。,82,13.3.3,因子旋转的操作,为了使得因子具有实际的意义,可以对初始回归的结果进行因子旋转。在,EViews,中简单地点击因子对象工具条中的,Rotate,按钮,或者选择,Proc/Rotate.,,都可以调用,Factor Rotation,对话框,如图,13.14,。,图,13.14,因子旋转设定对话框,83,Type,和,Method,下拉菜单可用于设定基本的选转类型和方法,其中的一些方法,可能需要输入一些参数值。默认的,在旋转前,,EViews,不列出载荷权重。为了标准化数据,可以点击,Row weight,下拉菜单选择,Kaiser,或者,Cureton-Mulaik,。,另外,如果没有旋转载荷,,EViews,自动使用单位矩阵作为旋转迭代的初值。也可以在,Starting values,下拉菜单中选择合适的方式,如,Random,或,User-specified,。如果已经完成一次旋转,也可以使用已经存在的结果作为下一次旋转的初值。,设置完毕单击,OK,即可。,EViews,的估计结果将列出旋转的载荷、因子相关关系、因子旋转矩阵、旋转后的载荷矩阵和旋转目标函数值。,EViews,会把结果保存在因子对象中,从因子对象中选择,View/Rotation Results,,可以随时查看旋转结果的输出表。,84,例,13.4,纽约股票交易所股票收益率的因子分析(,2,),从因子旋转后结果可以看出石油股票(德士古和埃克森)在因子,F,1,有较高的载荷,而化学股票(阿莱德化学、杜邦、联合碳化物)在因子,F,2,有较高的载荷。进一步表明正交化的因子旋转将行业区分开,因子,F,1,代表引起石油股票波动的独特的经济力量,因子,F,2,代表引起化学股票波动的独特的经济力量。在例,13.3,中表示一般市场因子的,F,1,被破坏了。,例,13.5,影响我国物价波动多因素的因子分析(,2,),本例对例,13.3,的结果采用方差最大化的正交旋转方法进行因子旋转,希望得到更好的结果,本例进行了两次旋转以后,总方差变化不大,结束旋转。旋转后的公共因子记为 (,i,=1,,,2,,,,,4,),相应的载荷记为 ,其结果如表,13.7,所示。,指标名称,F,1,载荷,l,i,1,F,2,载荷,l,i,2,F,3,载荷,l,i,3,F,4,载荷,l,i,4,CPI,居民消费价格指数,(CPI),0.77,0.08,0.54,0.12,成本,因素,原材料、燃料、动力购进价格指数,0.97,0.10,-0.10,0.01,工业品出厂价格指数,0.97,0.008,0.00,0.04,农副产品类购进价格指数,0.73,0.33,-0.03,0.13,商品房销售价格指数,0.69,0.55,0.32,0.03,工业企业成本费用利润率,0.54,0.67,0.21,0.24,需求,因素,全部从业人员人均报酬增速,-0.01,-0.04,0.90,0.09,城镇家庭人均可支配收入增速,0.23,0.25,0.86,0.22,货币,因素,外汇储备同比增速,0.11,0.88,0.08,-0.18,货币乘数,0.06,0.81,-0.20,0.30,M2,增速,-0.23,0.73,0.29,-0.16,GDP,增长率,0.41,0.59,0.29,0.58,国际,因素,G7,工业品出厂价格指数,0.87,-0.17,0.15
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!