主成分分析与因子分析详细的异同和SPSS软件.doc

上传人:最*** 文档编号:1579335 上传时间:2019-10-29 格式:DOC 页数:11 大小:173.50KB
返回 下载 相关 举报
主成分分析与因子分析详细的异同和SPSS软件.doc_第1页
第1页 / 共11页
主成分分析与因子分析详细的异同和SPSS软件.doc_第2页
第2页 / 共11页
主成分分析与因子分析详细的异同和SPSS软件.doc_第3页
第3页 / 共11页
点击查看更多>>
资源描述
主成分分析与因子分析详细的异同和SPSS软件摘要:主成分分析与因子分析(R-型)应用十分广泛,但一些论文和一些SPSS软件教科书(见附文)出错。本文指出了这些错误及其成因,指出了出错造成的危害,从原理上给出了主成分分析与R-型因子分析数学模型详细的异同,给出了避免出错的方法, 并对SPSS软件及有关教科书提出了一些建议。关键词:主成分分析;因子分析;SPSS软件;出错;避免设=(X1 ,XP为标准化随机向量(p2),R为相关系数矩阵, =(F1 ,Fm 为主成分向量,=(Z1 ,Zm 为因子向量,mp,为方便,因子、因子估计、因子得分用同一记号。一、问题的提出与结论主成分分析与R-型因子分析是多元统计分析中的两个重要方法,同是降维技术,应用范围十分广泛,但通过流行甚广的SPSS软件调用这两种方法的过程命令,使用者容易出错,是什么原因造成这些错误呢?主成分分析与R-型因子分析到底有何异同呢?出错会造成什么危害呢?由于SPSS软件在经济、医学、管理等领域中的广泛流行使用,解决这些问题尤其必要。经过对一些论文和一些SPSS软件教科书(见附文)仔细查证分析、比较、研究得出:出错原因:有些使用者和书作者对主成分分析与R-型因子分析的原理、异同与解题步骤掌握不透,现行SPSS软件及其书中没有完善这两种方法的研究(对高校师生出错影响很大)。结论:主成分分析与R-型因子分析有10处主要的不同,致使主成分分析与因子分析的定量综合评价体系不同,混淆在一起是不同定量值交替错误,综合评价必须分开进行。出错带来的危害:企业经济效益、竞争力等的综合评价会带来误评,医学诊断会带来误诊,决策会带来误断等。二、一些使用者出现的错误及其成因分析经过仔细查证分析,有下列错误:使用主成分分析时对主成分分析的原理没有掌握, 如叙述主成分分析概念出错。主成分F求解出错,如=中(为单位矩阵,的意义见表1)。不知主成分F的命名依据,对主成分F命名出错。解释变量某Xk 被丢失。对错误地进行旋转。错误地进行回归求F。把因子分析法(含没有旋转过程的)错误地当作主成分分析法。使用因子分析时对因子分析的原理没有掌握, 如将因子分析的思想叙述为主成分分析的思想。不知因子Zi的命名依据,对因子Zi 的命名出错,如用因子得分函数对因子Zi进行命名。解释变量某Xk 被丢失。将主成分或因子错误地表示为(的意义见表1)。不知相关系数矩阵特征值与因子贡献vi的区别,如综合因子得分函数Z综 =Zi中的vi错误地取为特征值。使用SPSS软件时由于SPSS软件本身无主成分分析模块,有些使用者就用因子分析中一些模块来制造主成分的结果,出现了混乱的定量过程。由于SPSS软件教科书中因子分析内容处混淆主成分分析与因子分析,致使有些使用者也混淆这两种方法出错。从以上可看出出错的原因是:有些使用者对主成分分析与R-型因子分析的原理(原理可见4)、异同与解题步骤掌握不透,现行SPSS软件及其书中没有完善这两种方法的研究。三、主成分分析与R-型因子分析数学模型的异同比较这里给出的主成分分析与R-型因子分析的异同,与现行观点相比,是内容与过程上的比较,更透彻、更准确,是认识的深入。相同之处:主成分分析与R-型因子分析都是对协差阵的逼近,都是打算降维解释数据集。具体为指标的正向化3, 指标的标准化(SPSS软件自动执行),通过相关系数矩阵判断变量间的相关性,求相关系数矩阵的特征值和特征向量, 主成分间、因子间线性无关,用累计贡献率(%)、变量不出现丢失确定主成分、因子个数m, 前m个主成分与前m个因子对X的综合贡献相同、是最大化的,命名依据都是主成分、因子与变量的相关系数。不同之处:方差, 最大化方向, 所处的坐标系(标准正交性), 应用上侧重等见表1。表1 主成分分析与R-型因子分析的不同区别项目主成分分析数学模型:R-型因子分析数学模型:表达式与系数矩阵=()=(,),是相应的特征值和单位特征向量, 0。 +(为特殊因子),因子载荷矩阵m = ()=,=( ,)为初等因子载荷矩阵*(同左)。 因变量方差最大化 Fi依次达到信息贡献最大化,Var Fi=。 Zi没有达到最大化,Var Zi=1。 矩阵方差最大化旋转无, 旋转后就不是主成分了,因为Var Fi i 。 有,为方差最大正交旋转矩阵,m达到方差最大化。标准正交性是,即(判据之一)。非,因为。因变量对X的贡献特征值。vi=,vi,通常 v1 。相关系数=。=。命名依据用(,)式中系数绝对值大的对应变量对Fj命名,有时命名清晰性低。将的第j列绝对值大的对应变量归为Zj一类并由此对Zj命名,命名清晰性高(精细)。回归过程无。有,因子得分函数综合评价函数及方差F综 = Fi ,Var F综 = (,或+, 通常VarF综 VarZ综,即F综 的取值范围通常比Z综 大。Z综 =Zi, vi(判据之一) Var Z综 = ((旋转后因子贡献从变为vi,因此权数应取为vi/),或v1 + v2 +vm 。应用上侧重信息贡献影响力综合评价。成因清晰性的综合评价。注意:主成分分析有时命名清晰, 此时既能达到信息贡献影响力综合评价效果, 又能达到成因清晰性的综合评价效果,此时主成分分析的结果多数优于因子分析的结果。以上说明:主成分分析与因子分析定量上不同的显著性标志是方差。事实上,VarFi ( VarZ综 ,即F综 的取值范围比Z综 的取值范围大(见表5、8),这些都肯定了主成分分析与因子分析的定量值评价体系不同。结论:主成分分析与因子分析两种方法方差、最大化方向不同,直接导致主成分值、因子得分值、综合评价值和应用侧重上不同,综合评价应该分开进行, 混淆在一起是不同定量值交替错误。出错带来的危害:如在企业的综合评价中,某行业通过样本搜集,可确定出主成分分析、因子分析各自优、良、中、一般的定量值范围,两种方法确定的定量值范围肯定不同,如果混用二种方法,那么就会带来二种方法定量值的误用, 甚至误评,使企业失去公平竞争机会。在医学诊断、经济竞争力等综合评价问题中也是如此。检验: 用实际结果、经验和原始数据做聚类分析对综合评价值进行检验。争议解决:用原始数据做判别分析解决综合评价中的争议。四、避免出错的方法步骤1.主成分分析法和SPSS软件应用时一对一的正确步骤:指标的正向化2。 指标数据标准化(SPSS软件自动执行)。 指标之间的相关性判定: 用SPSS软件中表“Correlation Matrix(相关系数矩阵)”判定。确定主成分个数m:用SPSS软件中表“Total Variance Explained(总方差解释)” 的主成分方差累计贡献率%、结合表“Component Matrix(初始因子载荷阵)”中变量不出现丢失确定主成分个数m。 主成分Fi表达式(这是SPSS软件及其教科书中没完善的地方):将SPSS软件中表“Component Matrix”中的第i列向量除以第i个特征根的开根后就得到第i个主成分函数Fi的系数(在“transform -compute”中进行计算),由此写出主成分Fi表达式。用的=检验之。主成分Fi命名:用SPSS软件中表“Component Matrix”中的第i列中系数绝对值大的对应变量对Fi命名(有时命名清晰性低)。主成分与综合主成分(评价)值(这是SPSS软件及其教科书中没完善的地方):综合主成分(评价)公式 F综 = Fi (在“transform -compute”中进行计算3), 在SPSS软件中表“Total Variance Explained”下“Initial Eigrnvalues(主成分方差)”栏的“% of Variance(方差率)”中。Var F综 = =(。检验:综合主成分(评价)值用实际结果、经验与原始数据做聚类分析进行检验(对有争议的结果,可用原始数据做判别分析解决争议)。综合实证分析。2. 因子分析法和SPSS软件应用时一对一的正确步骤:步骤同主成分分析步骤。确定因子个数m:用SPSS软件中表“Total Variance Explained”特征值累计贡献率%、结合表“Rotated Component Matrix(旋转后因子载荷阵)”中变量不出现丢失确定因子个数m。求因子载荷矩阵: SPSS软件中表“Rotated Component Matrix”。因子Zi的命名:将SPSS软件中表“Rotated Component Matrix”因子载荷矩阵的第i列绝对值大的对应变量归为Zi一类, 并由此对Zi命名(命名清晰性高)。 回归求因子得分函数Zi表达式:SPSS软件中表“Component Score Coefficient Matrix(因子得分系数矩阵)”的第i列向量为第i个因子得分函数Zi的系数,由此写出因子得分函数Zi表达式。求因子得分值与综合因子得分(评价)值:综合因子得分(评价)公式Z综=Zi (在“transform -compute”中进行计算),在SPSS软件中表“Total Variance Explained”下“Rotation Sums of Squared Loadings(旋转后因子对X的方差)”栏的“% of Variance”中。用vi=检验, 通常 v1 ,Var Z综 = (。检验:综合评价值用实际结果、经验与原始数据做聚类分析进行检验(对有争议的结果,可用原始数据做判别分析解决争议)。综合实证分析。五、对SPSS软件及其书中的建议应单列主成分分析这一重要内容。通过两种方法与软件相应结果一对一的步骤化, 完善软件研究和教科书的正确编写。因子分析中Component(成分)应写为factor(因子)。因子分析中将不应有“主成分分析”“主成分”的用词和内容删除。由于因子分析中旋转后的因子贡献与相关系数矩阵的特征值不等,应将两者区分使用。笔者对SPSS软件的教科书有一分详细的更正资料,需要者可来涵。六、应用例子。2002年16家上市公司4项指标的数据5见表2,定量综合赢利能力分析如下: 表2 公司销售净利率(X1)资产净利率(X2)净资产收益率(X3)销售毛利率(X4)歌华有线五粮液 用友软件太太药业浙江阳光烟台万华方正科技红河光明贵州茅台中铁二局红星发展伊利股份青岛海尔湖北宜化雅戈尔 福建南纸43.3117.1121.1129.5511.0017.632.7329.1120.293.9922.654.435.407.0619.827.267.3912.136.038.628.4113.864.225.449.484.6411.137.308.902.7910.532.998.7317.297.0010.1311.8315.4117.166.0912.979.3514.314.3612.535.2418.556.9954.8944.2589.377325.2236.449.9656.2682.2313.0450.5129.0465.519.7942.0422.721. 主成分分析的做法用SPSS软件输入数据,先对四个指标进行标准化处理,并把标准化后的数据保存在数据编辑窗口中然后利用SPSS的factor过程对数据进行主成分分析(指标之间的相关性判定略)。得出的相关系数矩阵的特征根及方差贡献率见表3,由于前2个主成分贡献率85%、结合表4中变量不出现丢失,所以提取的主成分个数m=2。表3主成分方差 表4初始因子载荷阵 初始因子载荷阵见表4,表4还不能得出主成分的表达式,还需要把表4中的每列的系数除以其相应的特征根的开根后才能得到主成分系数向量,于是主成分函数的表达式为: F1= 0.531zx1+0.594zx2+0.261zx3+0.546zx4 F2= -0.412zx1+0.404zx2+0.720zx3-0.383zx4 (其中,zxi为标准化后的数据)表4中每列表示相应主成分与对应变量的相关系数4,第一主成分F1反映的是销售净利率、资产净利率、销售毛利率的信息,而第二主成分F2则反映的是净资产收益率的信息。最后利用主成分函数、综合主成分公式:F=0.47429F1+0.3874F2求出16家上市公司的主成分值、综合主成分(赢利能力)值见表5。表5. 主成分、综合主成分(赢利能力)值 公司F1F2F烟台万华五粮液雅戈尔红星发展贵州茅台青岛海尔太太药业伊利股份浙江阳光歌华有线方正科技用友软件红河光明中铁二局福建南纸湖北宜化1.211.161.031.201.410.211.31-0.83-0.561.23-1.720.620.09-2.00-2.07-2.291.461.461.410.53-0.310.35-1.081.060.60-1.691.52-1.89-1.880.15-0.72-0.991.141.121.030.770.550.240.200.02-0.03-0.07-0.23-0.44-0.69-0.89-1.26-1.47 2. 因子分析法的做法表8. 因子得分、综合因子得分(赢利能力)值 公司Z1Z2Z烟台万华五粮液贵州茅台红星发展雅戈尔太太药业歌华有线用友软件青岛海尔红河光明浙江阳光伊利股份方正科技中铁二局福建南纸湖北宜化0.030.000.980.46-0.061.281.521.25-0.040.93-0.61-0.95-1.73-1.25-0.89-0.891.471.450.40.851.36-0.16-0.58-0.970.32-1.190.150.350.26-0.74-1.35-1.610.6260.6050.6010.5590.5410.5040.4320.1500.116-0.084-0.207-0.294-0.658-0.866-0.956-1.069用SPSS软件输入数据,先对四个指标进行标准化处理,并把标准化后的数据保存在数据编辑窗口中然后利用SPSS的factor过程对数据进行因子分析(指标之间的相关性判定略)。得出的相关系数矩阵的特征根及方差贡献率见表3,由于前2个因子贡献率85%、结合表7中变量不 表6旋转后因子对X的方差 表7 旋转后的因子载荷阵 出现丢失,所以提取的因子个数m=2。对主成分法提取的初始因子载荷阵(见表4)进行varimax (方差最大化正交旋转), 旋转后的因子贡献及贡献率见表6。旋转后的因子载荷阵见表7,依据表7,因子Z1看成是反映销售净利率和销售毛利率的销售能力指标,因子Z2看成是反映资产净利率和净资产收益率的资产获利能力指标。利用regression(回归法)求得各个单因子得分函数: Z1= 0.506zx1+0.161zx2-0.183zx3+0.502zx4 Z2= -0.045zx1+0.515zx2+0.581zx3-0.02zx4 (其中,zxi为标准化后的数据)利用单因子得分函数、综合因子得分公式:Z=0.44486Z 1+0.41.684Z2计算出16家上市公司因子得分值、综合因子得分(赢利能力)值见表8:有关同仁提过建议,在此表示感谢。使用本论文成果开发的软件产品,开发商须征得本论文作者的同意。
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!