《探索性因素分析及SPSS应用》

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2004-3-10,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2004-3-10,*,心理学研究方法,第十三章演示,数据简化技术,探索性因素分析及,SPSS,Data Reduction Technique,Exploratory Factor Analysis & SPSS Application,凤四海,提纲,第一节,因素分析原理概述,一、因素分析基本原理,二、因素分析模型及条件,三、,SPSS,因素分析功能选项,第二节因素分析的步骤,一、数据适当性考察和因素数确定,二、求解因素模式,三、因素的解释和命名,因子旋转,第三节斜交旋转和因子值应用,一、因子相关时的旋转,斜交旋转法,二、因子值的意义及应用,（可选讲）,因素分析的主要目的,心理学研究中的一些心理特质（如自我、人格、智力等）往往都是一些,“,潜在变量,”,，只能通过对一些可观测的,“,外显变量,”,的测量间接反应之。用一般的多元统计方法往往使得对数据的分析和描述陷入混乱。不仅如此，变量间的高度相关还会极大地削弱某些统计方法的效果。,数据化简技术：主成分分析,、对应分析、典型相关分析、多维量表法,等,。因素分析主要针对等距,尺度变量,。,其主要目的,：,1.,通过寻找或确定几个较少的假想,“,因子,”,来反映多个观测变量中蕴含的大部分信息，从而浓缩或化简观测数据。,2.,浓缩后的因子代表了数据间的基本结构，通过得到的因子估计值使研究者更方便地掌握数据的本质特质以及因子和观测变量之间的关系。,“,多重共线性,”,返回,因素分析的发展历程,思想基础：,包括启蒙运动,（,the Enlightenment,）,在内的思潮对绝对论（,absolutism,）的批判：任何实体都可能不是它表现出的,模样，而是对其潜在现象的反映；符号主义（,Symbolism,）、表现主义（,Expressionism,）。,19,世纪兴起的对机械唯物主义的批判，提倡宏观论。,发展历程：,最早由,Karl Pearson (1901),引入；,最早由,Charles Spearman,在创立其智力理论时应用；,Thurstone (1931),发展的,“,common factor theory”,是其重要的理论基础，,1940s-1960s,是其发展的辉煌期,。,返回,因素分析的发展历程,三种主要应用观点：,特质理论,（,Trait theory,）：,Spearman, Thurstone, Cattell,回答：一组观测变量背后潜在的基本特质是什么？,Dust bowl empiricism,：,Godfrey Thompson, Henry Kaiser,回避了内容和理论，而关注应用,聚类分析（,Cluster analysis,）：,Holzinger, Tyron, & Bailey,相信较低水平的观测（如项目）可以被整合成较高水平的具有理论价值的构念。,返回,第一节,因素分析原理概述,Common Factor Theory,及变异分解,题项,1:,我对我的薪水感到满意；,题项,2:,我对工作中的同事感到满意；,题项,3:,我对工作中的上司感到满意。,问题：我测量的是一个东西吗？,因素分析假设变量的变异可分解成三个部分：,公因子方差：各变量间的公共变异；,特殊因子方差：不能由公因子解释的、变量特有的变异；,误差方差：变量中不可信的、无法解释的变异；,三者间的关系,图示,：,1,- h,2,指变量的变异中无法被公因子模型解释的部分比例,因素分析使用变量间的相关（标准化数据的协方差）系数来估计公因子及连接因子和变量间的结构关系（因素负荷）。,一,因素分析基本原理,公因子方差特殊因子方差误差方差,“工作满意度” “上司人格特征” “情绪”,可信的变异或“共同度”,h,2,独特变异,（,1,- h,2,）,公因子,F1,X,1,X,2,X,3,X,4,l,41,l,31,l,21,l,11,因子,F1 “,引起”或解释了题项,1,到,4,中的公共变异,l,41,指“变量,4,在因子,1,上的负荷”,返回,主成分分析法（,principal component analysis,PCA,）,:,一种独立于因素分析的数据化简方法，,SPSS,默认的分析方法。用以寻找将变量以最优方式结合成少数几个成分，保持总变异，主成分数,=,变量数，主成分是变异的,几何抽象,，不一定复合真实情况。信息保留较多。,主因子分析法（,common factor analysis,PFA or CFA,）,:,假设公因子可以完全解释变量间的相关关系，而不一定能完全解释变量的变异（即不考虑特殊因子），用以确定变量背后的结构并估计因子得分，更符合实际情况。通常在主成分分析的基础上进行，只分析公共变异。常用于对变量方差不了解并不太考虑信息丢失的情况。,一,因素分析基本原理,简化数据,探索结构,一,因素分析基本原理,将一组,相关,的观测变量转换成少数几个,不相关,的公因子，变换不改变变量的总方差，第一个主成分具有最大方差，随后抽取的主成分解释的数据变异量逐渐递减，如图,13-1,。,第一、第二主成分分别是椭圆长轴、短轴；变量的变异用不相关的主成分表示。,观测变量,X,、,Y,可表示为因子空间,f,1,f,2,f,3,中的向量，向量长度即共同度，向量在三个因子轴上的投影称因素负荷，变量间相关系数等于两变量共同度与夹角余弦乘积,。,各变量的因素负荷、夹角由公因素方差、相关系数决定，所谓的,“,求因素解,”,无非是在空间中设置适当的坐标轴,二因素分析模型及条件,公因子理论：,p,个观测变量，相当于一份问卷中的,p,个题项，它是一个随机变量；不同被试都将有,p,个不同的数据；,m,个公因子，其值称因子值（,factor score,）；,代表残差，包括特殊因子和误差，是各变量中不能用公因子解释的部分；系数,l,ij,称为因子负荷,(,factor loading,),表示第,i,个变量在第,j,个因子上的相对重要性（权数）。,正交模型,因子间不相关，,斜交模型,因子间相关。,返回,观测,变量标准化，变量和因素的均值均为,0,，方差均为,1,；,公共因素和独特因素间不相关，各独特因素之间也不相关（尤其在公因子分析法中）；,观测变量间线性相关，一般绝大部分应不低于,0.3,；,正交模型要求公因子之间相互独立，尤其是主成分分析中；,等距型数据，一些特殊情况下等级型数据也可以接受；,最好是多元正态数据，尤其极大似然法；,样本量越小，样本数据的分布和线性关系越需要加以检验，最好是,100,以上。,二因素分析的假设条件,返回,子对话框,功,能,选,项,Descriptives,提供观测变量、初始解及相关矩阵有关统计量,Statistics,Correlation Matrix,Extraction,提供因子抽取有关选项,Method Analyze Extract,Display,Maximum iterations for convergence,Rotation,提供因子旋转有关选项,Method Display,Maximum iterations for Convergence,Scores,提供因子值计算及处理选项,Save as variables Method,Display factor score coefficient matrix,Options,提供缺失值处理及显示格式选项,Missing values,Coefficient Display Format,三,SPSS,因素分析功能选项,返回,第二节因素分析步骤,筛选观测变量,样本数据适当性考察,确定因子数,求解因素模式,因子旋转,返回,因素分析适合度检验,参数估计,正交旋转,1.,因素抽取,主成分法,主轴因子法,极大似然法,未旋转解,共同度,特征值,2.据碎石图,和特征值,确定因子数,3.,因素旋转,方差最大法,平均正交法,斜交旋转,4.,据简单结构解释或确定因子的含义,5.,报告因素模式和因素结构,6.,据结果调整旋转方法重复该过程至重复抽取过,程,例,13-1,某研究者收集了,100,名被试对六种政策的回答数据，其中六个变量,col1col6,分别表示,“,政府应当投入更多的教育经费,”,、,“,政府应当投入更多的经费减少失业,”,、,“,政府应当控制大企业,”,、,“,政府应当通过用校车送孩子上学加速废止种族隔离,”,、,“,政府应当增加少数民族的工作配额,”,和,“,政府应当扩展领先计划,”,。,例子讲解,分析之前，先要将原相关矩阵补齐，然后在相关阵前面增加两列标示变量,ROWTYPE_,和,VARNAME_,，取值分别为,CORR,和,6,个变量名，再增加第一行数据，,ROWTYPE_,列取值,N,，,VARNAME_,留空，其它,6,列变量取值,100,表明样本量。,打开数据,在,SPSS,因素分析菜单中按正常模式选择变量及其它选项后将命令粘贴到语句文件中，并将第二行语句改成：,/MATRIX=IN(COR=*),筛选观测变量,筛选观测变量是一个复杂的问题，它涉及到理论构想，,编制量表前开放式问卷项目的归纳整理和项目分析等。模型中包含了无关的变量或者剔除了相关的变量可能极大地影响分析的结果。,以下观测变量最好不选入模型：,1,、标准差低，,通常表现为观测变量中被试的反应趋同；,2,、重测信度低,(,建议,0.2),；,3,、最大负荷值,l,ij,小,(,建议,0.4),；,4,、共同度,h,i,2,小,(,建议,0.16),；,5,、最大负荷值,l,ij,与共同度,h,i,2,之比小,(,建议,0.5),；,6,、最大两个负荷值,l,ij,与共同度,h,i,2,之比小,(,建议,0.25),；,7,、取样适当性系数,(,MSA,),过小；,8,、多极变量，即一个变量在几个因子上的负荷都较大。,返回,样本数据适当性考察,Bartlett,球度检验,（,Bartletts test of sphericity,）,：,近似,2,检验，,H,o,：,“,相关矩阵是单位阵,”,，显然，其显著性水平要至少小于,0.05,，才能拒绝,H,o,，说明各个变量间存在相关，适宜进行因素分析。例子中，近似,2,统计量,=135.516,，,P80%,，实际中,40% 60%,也可做）；,在极大似然估计法中，使拟合度显著性水平不再减小；,理论构想及公因子的可解释性也可作为参考,返回,Extraction,子对话框,因素模式解法,PCA,：,对总体的分布没有什么假定，适用范围广，适合确定因子数作为初始解。初始共同度为,1,。,PFA,：需要估计初始共同度，常使用,PCA,的估计共同度。,用每个变量和其余变量的复相关系数的平方,R,2,（,squared multiple correlation,，,SMC,）代替相关阵对角线元素。,主轴因子法（,Principal axis factoring,）：类似主成分法；,a,因子法（,Alpha factoring,）：抽取,系数,0,的公因子；,映像分析法（,Image factoring,）：利用映像理论，受抽样影响较大；,最小二乘法（,Least Squares,）：剩余相关阵列向量元素的平方和达到最小；,极大似然法,(,Maximum likelihood,),：多维正态数据，,似然函数达到最大求得因子解,。,返回,对角线元素的其它处理方法如：反复迭代法、最大相关系数法，参见有关文献,越需要准确地探求因素的场合，对共同度估计的要求越高,，高共同度不一定高解释性,二者均利用,MINRES,原理，从模型拟合优度角度出发，回避了共同度估计问题,变量数较少，主成分法更好，随着变量数的增加，两种方法的差异越来越小，样本量很大时，后两类方法精度更高。可多种方法相互参照,例子求解和结果阅读,结果显示：,共同度,(,communality,),估计,:,观测变量,x,i,方差中被公因子所解释的部分比例，说明变量能被所有公因子解释的程度，信度；,等于,模型,/,因素负荷矩阵中,每行,公因子负荷的平方和，,记为,h,i,2,；,上图为,PCA,结果，初始共同度均为,1,，抽取共同度,1,，大多在,0.6,以上。,下图为,PAF,结果，初始共同度很低。,初始共同度,抽取共同度,返回,因子解特征值及因子贡献率,:,因子贡献反映的则是单个因子解释的数据总方差。所有公因子的累计贡献等于所有变量的共同度之和；如果公因子数等于变量数（主成分分析）则也等于原观测变量的总方差。公因子,j,的贡献记为,V,j,，,等于,所有模型,/,因素负荷矩阵中,每列,因子负荷的平方和；更常用,“,贡献率,”,指标（相等）；主成分特征值等于其因子贡献。,例子求解和结果阅读,初始解主成分数等于变量数，三列依次是特征值（解释变异量）、因子贡献率、累计贡献率。应当抽取,2,个因子,各公因子方差贡献可以用因素负荷平方和（,Sums of squared loadings,），因为它可以由因素负荷矩阵中列元素的平方和求得。,碎石图陡阶检验也显示抽取,2,因子,返回,因子负荷矩阵,:,表示第,i,个变量中第,j,个因子被反映的程度，衡量公因子相对重要性，相当于标准化回归系数，表示因子和变量间关系的密切程度。正交模型中，因素负荷矩阵（因素模式，,factor pattern,）等于因素结构矩阵（因素与变量相关矩阵，,factor structure,）。,例子求解和结果阅读,抽取后变量共同度,=,行,因子负荷平方和：,0.751,2,+,（,-0.410,）,2,= 0.732,，,0.735,2,+,（,-0.404,）,2,= 0.704,，,0.682,2,+,（,-0.369,）,2,= 0.601,，,因子,1,贡献,=,列因子负荷平方和：,0.751,2,+0.735,2,+0.682,2,+0.652,2,+0.554,2,+0.575,2,= 2.633,，,重新计算变量间相关系数：,r,12,= 0.7510.735+,（,-0.410,）,（,-0.404,）,= 0.718,，称为导出相关系数（,Reproduced,），看残差相关阵。,返回,因子的解释和命名,因子旋转,因素分析的目的不仅是求出公因子，更主要的是要知道每个因子的意义。根据主成分法计算的因素模式解释很麻烦，因为大多数因子都和许多变量,相关,。,因子旋转的目的：通过改变因子轴的位置，重新分配各因子所解释的方差比例，为了获得结构因子模式的,“,简单结构,”,（,simple structure,）：,在各因子上只有少数变量有较高的负荷，其它变量上的负荷（绝对值）很低；,每个变量只在少数因子上有很高的负荷；,任取两因子，负荷都低的变量尽量多一些；,任取两因子，每个变量只能在一个因子上有较高负荷。,简言之，就是调整因素负荷矩阵式中的行、列值向,0,和,1,极化，使某些变量的负荷尽可能往某个因子上集中，而另一些变量的负荷尽可能往另一个因子上集中，以此类推，使得每个因子上仅,“,负载,”,几个变量。,返回,正交旋转：因子轴之间保持,90,度角（因子不相关）,SPSS,提供三种基于,“,正交极大准则,”,的正交旋转法：,方差最大法（,Varimax,）：使各因子（列）上与该因子有关的负荷平方的方差最大，即拉开列上各变量的负荷差异，最常用；,四次方最大法（,Quartimax,）：使各变量（行）上因子负荷平方的方差达到最大，即拉开行上的负荷差异，易产生综合因子，大部分变量在该因子上都有较高负荷；,平均正交法（,Equamax,）：上两种方法综合。,在,Rotation,对话框选择,Varimax,旋转，选中复选框因素负荷图（,Loading plot,），在,Options,对话框选中将负荷较低（,1,。此法比直接斜交旋转法的计算速度快，因此常用于大数据集。,一因子相关时的旋转,斜交旋转法,“,强盗,”,旋转法，削足适履,因素模式几近标准简单结构,因素结构距离简单结构甚远,因素轴实际上斜交，确实,“,强盗,”,返回,二因子值意义及应用,某些情况下还要获得对因子的度量，如根据各因子得分对某个自变量或样本进行分类、评价。,因子得分不能简单地将变量值相加，因为各变量在因子上的负荷不同，所以应当赋予变量不同的权值，称为因子值（,factor score,）。,求因子值的过程就是求因素分析模型的逆过程，目的是用观测变量的线性组合来表达因子。计算案例,i,在因子,p,上的因子值是用该案例每个变量的标准化分数,x,ji,乘以相应的因子值系数（,components score coefficients,）,w,pj,之和。,对于主成分法未经旋转求得的因子解可以直接得到因子值系数。通常是相应的因素负荷比上该因素的特征值。因此若不计较因素值单位，此时因素负荷就是因素值的估计。,其它解法需要估计。,返回,SPSS,提供的三种因子值或因子值系数的估计方法：,都基于最小二乘原理，只是定义误差的方式不同。,二因子值意义及应用,回归法求解使真因子得分和因子得分估计值的误差平方和达到最小的因子值系数，这样得出的因子得分可能相关，是,SPSS,中默认的方法。,Bartlett,法的误差是独特因素得分估计值；,Anderson-Rubin,法在其基础上增加因素间相互正交的条件。,将标准化因子值作为新变量保存在当前数据文件中，计算出的因子值均值为,0,，默认的变量名为,FAC1_1,、,FAC2_1,、,FAC3_1,（分别对应因子,1,、,2,、,3,）等，其中第二个数字表示第一次分析过程。,返回,例,13-2,因子值应用（选讲）,一项消费者调查研究旨在了解消费者对谷类速食产品的态度和产品属性之间的关系。研究者调查了,116,名被试对,12,种品牌产品的,235,份评价，要求每位被试从,25,个方面评价几种喜爱的食物品牌，并在,5,点量表上标明每个品牌具有该属性的程度。调查数据见,data13-2,，,12,种品牌和,25,种属性如下，分别对应,25,个变量，数据中的前两个变量为被试编号和品牌编号。,经,PAF-Varimax,旋转后得,4,个因子，除个别变量外，简单结构良好。,返回,将回归法计算后保存的因子值按,12,种品牌分类并做出散点图（以任两个因子为坐标轴，品牌为标签变量）。,SPSS,过程：,Graphs Scatter Simple,，,图中看，,品牌,11,、,12,很类似，都是有益、天然和无趣，品牌,2,、,5,、,7,也属同类，都是有益、人工和有趣的，等等。,例,13-2,因子值应用（选讲）,返回,Thank you for presentation!,Now is question time!,

展开阅读全文

《探索性因素分析及SPSS应用》

最新文档