SPSS主成分分析与因子分析.ppt

上传人:sh****n 文档编号:6415400 上传时间:2020-02-25 格式:PPT 页数:71 大小:512KB
返回 下载 相关 举报
SPSS主成分分析与因子分析.ppt_第1页
第1页 / 共71页
SPSS主成分分析与因子分析.ppt_第2页
第2页 / 共71页
SPSS主成分分析与因子分析.ppt_第3页
第3页 / 共71页
点击查看更多>>
资源描述
第八章主成分分析与因子分析 PrincipleComponentAnalysis FactorAnalysis 8 1概述 在许多研究中 为了全面系统地分析问题 都尽可能完整地搜集信息 对每个观测对象往往需测量很多指标 变量 人们自然希望用较少的新变量代替原来较多的旧变量 而这些新变量应尽可能地反映旧变量的信息 主成分分析与因子分析正是满足这一要求的处理多变量问题的方法 由于它们能浓缩信息 使指标降维 简化指标的结构 使分析问题简单 直观 有效 故被广泛应用于医学 心理学 经济学等领域 参考文献 1 综合评价中如何运用主成分分析 作者 朱峰 统计教育 2005年第10期P45 472 对因子分析方法及其过程中几个问题的探讨 作者 马晓君 统计教育 2005年第8期P61 643 基于SPSS的主成分分析与因子分析的辨析 作者 唐功爽 统计教育 2007年第2期P12 144 主成分分析法在证券市场个股评析中的应用作者 江东明 数理统计与管理 2001年第2期P28 315 因子分析法在企业综合经济效益评价中的应用作者 王增民 数理统计与管理 2002年第1期P10 13 参考文献 6 甘肃省区域综合经济实力变动分析作者 魏奋子 开发研究 2003年第3期P43 457 江苏省区域经济实力的综合评价与实证分析作者 门可佩 江苏统计 2001年第12期P15 178 数理统计方法在河南经济发展水平和分区研究中的应用作者 刘钦普 数理统计与管理 2002年第3期P10 158 科技实力国际比较的因子分析作者 徐小阳 统计与决策 2003年第1期P15 17 8 1 1主成分分析的几何意义 1 1在P维总体中抽取了N个样品 可以得到在P维空间中的N个点 来研究这N个点之间的关系 首先以简单的低维空间说明 以二维空间 即平面的二个变量P 2为例 样品 指标 直线方程X2 2X1 X1 X2 样品 变量 Y1 将X1和X2轴同时逆时针旋转 X1 X2 Y1 Y2 8 1 2主成分分析的基本概念 主成分分析 PrincipleComponentAnalysis 也称主分量分析 是一种将多个指标化为少数几个综合指标的统计分析方法 基本思想 描述经济现象需要用很多指标 也称变量 来刻划 但是指标之间往往有一定的相关性 因而所得的统计数据在一定程度上反映的信息有重叠 主成分分析可将相关的指标化成一些不相关的指标 避免了信息重叠带来的虚假性 而且这些主成分可以尽可能地反映原来变量的绝大部分信息 2 主成分分析的一般数学模型 并且满足 其中eij由下列原则决定 1 任一两个主成分之间都不相关 i与Yj i j i j 1 2 p 2 Y1是X1 X2 Xp的一切线性组合中方差最大的 Y2是与Y1不相关的X1 X2 Xp的一切线性组合中方差最大的 Y2的方差小于Y1的方差 Yp是与Y1 Y2 Yp 1都不相关的X1 X2 Xp的一切线性组合中方差最大的 Yp的方差小于Y1 Y2 Yp 1的方差 这样确定的综合指标就称为原变量的第一主成分 第二主成分 第p主成分 3 主成分的求解 关键是求系数 而其正是观测变量相关矩阵的单位特征向量 因此通过求解观测变量相关矩阵的特征方程 得到P个特征根和P个单位特征向量 把P个特征根按从大到小的顺序排列 记作它们分别代表P个主成分所解释的观测变量的方差 相应的P个单位特征向量就是主成分的系数 主成分模型中的各统计量的意义 1 主成分Yi的方差贡献率主成分分析是把P个原始变量X1 X2 Xp总方差分解成P个不相关变量Y1 Y2 Yp的方差之和 而因此描述了第i个主成分反映的信息占总信息的份额 我们称它为第i主成分Yi的方差贡献率 第一主成分的方差贡献率最大 表明Y1综合原始变量X1 X2 Xp所含信息的能力最强 而Y2 Yp的综合能力依次减弱 主成分模型中的各统计量的意义 2 前k个主成分Yk i 1 2 k 的对原变量的贡献率 称为Y1 Y2 Yk的累计方差贡献率 它表明前K个主成分Y1 Y2 Yk综合提供X1 X2 Xp中信息的能力 实际应用中 通常选取K P 使前K个主成分的方差贡献率达到较高的比例 85 以上 这样用前K个主成分Y1 Y2 Yk 代替原始变量X1 X2 Xp 不仅减少了变量的个数 便于对实际问题的研究 而且对于原始变量中的信息损失减少 3 因子载荷量 前K个主成分Yk与原变量Xi的相关系数 3 主成分分析的步骤 对原 个变量的数据标准化 求观测变量的相关矩阵 求相关矩阵的特征根和单位特征向量 确定主成分 结合专业知识给各主成分所蕴藏的信息给予恰当的解释 并利用它们来判断样品的特性 5 主成分个数的确定 主成分分析的目的是为了减少变量的个数 以便对实际问题的研究 而且对于原始变量中的信息损失很少 故一般不用p个主成分 而用K p个主成分 K的选取要看前K个主成分累计方差贡献率达到85 以上 7 1 2因子分析 FactorAnalysis 因子分析 FactorAnalysis 是主成分分析的推广 它也是一种把多个相关变量 指标 化为少数几个不相关变量 因子的统计分析方法 在许多实际问题中 我们经常用多个指标 变量 来描述某一现象 由于这些指标之间往往具有一定的相关性 即很多指标反映的信息有重叠 并且指标太多给分析问题带来了不方便 这时我们总希望能用少数几个不相关指标 变量 来代替原来的指标 与主成分分析方法一样 因子分析也给我们提供了解决这个问题的另一种方法 例如 某市场调查公司为了帮助快餐店了解其市场竞争能力进行消费者调查 通过定性研究设计了30项有关快餐店及其产品和服务的调查项目 这30个指标对于我们评价快餐店市场竟争能力很不方便 事实上这30个指标可能反映了快餐的质量 价格 就餐环境和服务四个基本方面 通过因子分析我们能找出反映数据本质特征的这四个因子 并分析原来30个指标和这四个因子之间的关系 通过这四个因子能较方便地评价快餐店的市场竞争能力 一 因子分析模型 设p个可观测变量X1 X2 XP可表示为 称上式为因子分析模型 其中F1 F2 Fm称为公因子 称为特殊因子 他们都是不可观测的随机变量 正交因子模型满足的四个假定条件 解释因子分析模型 公因子F1 F2 Fm出现在每一个原始变量Xi i 1 2 p 的表达式中 可理解为原始变量共同具有的公共因素 每个公因子Fj j 1 2 m 至少对两个原始变量有作用 否则它将归入特殊因子 每个特殊因子仅仅出现在与之相应的第i个原始变量Xi的表达式中 它只对这个原始变量有作用 因子分析模型假设p个特殊因子之间是彼此独立的 特殊因子和公因子之间也是彼此独立的 在因子分析模型中 每一个观测变量由m个公因子和一个特殊因子的线性组合来表示 我们感兴趣的只是这些能够代表较多信息的公因子 公因子的个数最多可以等于观测变量数 因为在求因子解时 总是使第一个公因子代表了所有变量中最多的信息 随后的公因子代表性逐步减少 因此通常忽略掉最后几个公因子 所以 在因子分析模型中 公因子的个数 往往远远小于观测变量的个数 为什么公因子的个数远远小于变量个数 二 几个重要的概念 1 因子载荷在因子分析模型中 aij称为因子载荷 它反应了第i个原始变量Xi在第j个公因子Fj上的相对重要性 可以证明原始变量Xi与公因子Fj之间的相关系数等于aij 即aij的绝对值越大 表示原始变量Xi与公因子Fj之间关系越密切 因子载荷矩阵 由所有因子载荷构成的矩阵称为因子载荷矩阵 记作A 2 变量共同度 变量共同度也称公因子方差 原始变量Xi的方差由两部分组成 hi2 1第一部分由公因子决定的方差即公因子方差hi2公因子方差记作hi2 用公式表示为 hi2 ai12 ai22 aim2 i 1 2 p 第二部分由特殊因子决定的方差即特殊因子方差公因子方差表示了原始变量方差中能被公因子所解释的部分 公因子方差越大 变量能被公因子说明的程度越高 若公因子方差接近于1 这说明该变量的几乎全部原始信息都被所选取的公因子说明了 进一步解释 每个元素表明每个变量对公因子的依赖程度 解释公因子要根据每个公因子系数大小情况变量共同度 载荷矩阵行元素的平方和 表示的是所有公因子对Xi的方差贡献 特殊因子方差解释不足部分 3 载荷矩阵列元素的平方和 表示某一公因子对所有变量的方差贡献 3 公因子Fj的方差贡献 列 公因子Fj的方差贡献记作gj2 用公式表示为 gj2 a1j2 a2j2 apj2 j 1 2 p 公因子Fj的方差贡献gj2 是公因子Fj对诸原始变量所提供方差贡献的总和 它是衡量公因子相对重要性的指标 它等于公因子Fj所对应的特征值 即 所有公因子的方差总贡献 在实际问题中常用下列相对指标 每个公因子Fj的方差贡献率为 前k个公因子的累积方差贡献率为 根据前k个公因子的累积方差贡献率的大小达到一定的比例时 来决定选取多少个公因子 第二节求因子模型及因子得分 一 求解初始因子要求因子模型 关键是求出因子载荷矩阵A 对A的估计方法有很多 如主成分法 PrincipalComponents 主轴因子法 Principalaxisfactoring 最大似然法 Maximumlikelihood 因子提取法 Alphafactoring 映像分析法 Imageanalysis 最小二乘法 Leastsquares 应用较为普遍的是主成分法 主成分法 就是按主成分分析求出相关矩阵的特征根 j和单位特征向量 e1j e2j epj j 1 2 p 则 载荷矩阵A的估计就是原变量协方差矩阵的特征值的平方根与特征向量的乘积 二 因子旋转 因子分析的目的不仅是找出公因子 更重要的是知道每个公因子的意义 但是用上述方法所求出的公因子解 各因子的典型代表变量不很突出 因而容易使因子的意义含糊不清 不便于对因子进行解释 为此必须对因子载荷矩阵进行旋转 使得因子载荷的平方按列向0和1两级转化 达到其结构简化的目的 所谓结构简化就是使每个变量仅在一个公因子上有较大的载荷 而在其余公因子上的载荷比较小 这种变换因子载荷矩阵的方法称为因子旋转 为什么要进行旋转 如果初始因子在原变量上的载荷值都相差不大 就不便于解释各因子的意义 因子旋转的方法有很多种 最大方差旋转 Varimax 斜交旋转 Promax 四次方最大正交旋转 Quartimax 平均正交旋转 Equamax 直接斜交旋转 DirectObliminrotation 三 公因子得分 因子模型使将原变量表示为公因子的线性组合 由于公因子能反映原变量的相关关系 用公因子代表原变量时 有时更有利于描述研究对象的特征 因此 常常反过来将公因子表示为原变量的线性组合 即Fj bj1X1 bj2X2 bjpXp j 1 2 m 称上式为因子得分函数 用它来计算每个样品的公因子值 称为公因子得分 对于用主成分法求得的公因子解 可以直接得到因子得分函数 对于用其它方法得到的公因子解 只能得到因子得分函数系数的估计值 通常用回归法进行估计 四 因子分析的步骤 1 将原始数据标准化 2 计算变量的相关矩阵 根据计算的相关矩阵还应进一步判断应用因子分析方法是否合适 后面具体说明 3 计算相关矩阵的特征根和单位特征向量 4 提取因子 确定描述数据所需要的因子个数和求因子解的方程 5 进行因子旋转 集中于变换因子使因子解的实际意义更好解释 6 计算每一个样品Case的因子得分 然后将它们用于各种进一步的分析中 适合作因子分析的四个检验 包括三个统计量 A 相关矩阵检验 使用因子分析的前提条件是观测变量之间应该有较强的相关关系 相关程度很小 不可能享有公共因子 相关矩阵中的大部分r 0 3 则不适合做因子分析 B 反映象相关矩阵 Anti imagecorrelationmatrix 检验 其元素等于负的偏相关系数 偏相关是控制其他变量不变 一个自变量对因变量的独特解释作用 如果数据中确实存在公因子 变量间的偏相关系数应该很小 因为它与其他变量重叠的解释影响被消除掉了 故矩阵中诸元素的值比较大 应考虑观测数据可能不适合做因子分析 适合作因子分析的四个检验 包括三个统计量 C 巴特利特球体检验 Bartletttestofsphericity 检验 该统计量从检验整个相关矩阵出发 其零假设为相关矩阵是单位阵 如果不能拒绝该假设的话 应该重新考虑因子分析的使用 适合作因子分析的四个检验 包括三个统计量 D KMO K imagecorrelationmatrix 测度 该测试比较观测量之间简单相关系数和偏相关系数的相对大小出发 其值的变化范围从0 1 当所有变量之间的偏相关系数的平方和 远远小于简单相关系数的平方和时 KMO的值接近于1 KMO值较小时 表明观测变量不适合做因子分析 通常按以下指标解释该指标值的大小 0 9以上 非常好 0 8以上 好 0 7一般0 6差0 5很差0 5以下不能接受源自 JosephF Hair JR etc 1995 MultivariteDataAnalysiswithReadings 4thEdition Prentice HallInternational Inc 374 因子个数的确定 1 特征值准则 特征值大于等于1的主成分作为初始因子 放弃特征值小于1的主成分 因为每个变量的方差为1 该准则认为每个保留下来的因子应该能解释一个变量的方差 否则达不到精减的目的 2 碎石检验准则 按照因子被提取的顺序 画出因子的特征值随因子个数变化的散点图 根据图形来判断因子的个数 3 因子累积解释方差的比例 达到85 以上 实际中结合几个准则进行判断 7 1 3主成分分析与因子分析的区别 主成分是原观测变量的线性组合每个主成分相应的系数是唯一确定的特征向量因子分析模型是原观测变量表现为各新因子的线性组合每个因子相应系数不唯一 即因子载荷矩阵不唯一 主成分个数m P因子个数m P 为经济起见 总是越小越好 当时m P就不能考虑特殊因子 主成分分析是因子分析的一个特例 7 1 3主成分分析与因子分析的区别 区别 主成分分析是一种变量的变换不能作为一个模型一表述 因子分析需要构造因子模型 且其中的因子满足特定的条件 当这些条件不满足时因子分析就可能是虚假的 7 1 3主成分分析与因子分析的区别 区别 两种方法的侧重点有所不同 主成分分析重点在于从观测变量到主成分的变换上 而因子分析重点在公共因子和特殊因子到观测量的变换上 两者的实际应用范围有所不同 主成分分析主要应用在综合评价和指标筛选上 因子分析除这两个作用外 还可对样本或变量的分类 7 1 3主成分分析与因子分析的联系 联系 因子分析数学模型的特殊因子的影响微不足道可以忽略时 数学模型就变成 X AF 如果F中的各分量均为正交 就形成特殊形式的因子分析 即主成分分析 它的数学系模型为Y U X 这两个数学系模型的含义是不同的 但从因子分析求解主因子过程可以看到 当特殊因子变差贡献为零时 主因子分析和主成分分析完全是等价的 7 2因子分析过程 在SPSS13 0中进行主成分分析与因子分析的统计分析过程由主菜单的Analyze下拉菜单中的DataReduction功能中的Factor过程实现 FactorAnalysis 因子分析的主对话框 变量栏 选择变量值范围 选择项按钮 因子得分按钮 旋转方法选择按钮 因子提取按钮 选择描述统计量按钮 Descriptives 描述统计对话框 初始因子分析结果 相关矩阵 KMO和球形Bartlett检验因子模型是否适合 反映象 再生 相关系数矩阵的逆矩阵 行列式 Extraction 提取因子对话框 控制提取进程和提取结果的选择项 因子分析收敛的最大迭代次数 提取因子的方法 Rotation 因子旋转对话框 方差最大 斜交旋转 0 1之间 四次方最大正交旋转 平方正交 在正交最大方差旋转的基础上进行斜交旋转 因子载荷散点图 旋转收敛的最大迭代次数 FactorScores 因子得分对话框 因子得分作为新变量保存在数据文件中 因子得分作为新变量保存在数据文件中 均值为0 方差为估与实间多元相关的平方 均值为0 均值为0 方差为1 原始变量得分后的标准化系数矩阵 Options 选择项子对话框 变量中有缺失值的观测量一律删除 成对剔除带有缺失值的观测量 相关系数的显示格式 系数按其数值大小排列 不显示那些绝对值小于指定值的相关系数 案例分析1 主成分分析 某市15个大中型工业企业的经济效益分析 从有关经济效益指标中选取7个指标作分析 即固定资产产值率 固定资产利税率 资金利润率 资金利税率 流动资金周转天数 销售收入利税率和全员劳动生产率 对这15个大中型工业企业的经济效益的状况及差异进行分析 分析表1 相关矩阵表 各变量间存在着较强的相关关系 因此有必要进行主成分分析 表2 变量共同度 变量的共同度对所有变量都是 表明模型解释了每一个变量的全部方差 而不需要特殊因子 即特殊因子的方差为 表3 解释总方差 变量相关阵有两个最大特征根 即4 660和1 316 一起解释总方差的85 372 说明前两个主成分提供了原始数据足够的信息 碎石图 由图可以看出第一主成分与第二主成分的特征根大于1 而其它主成分的特征值小于1 可以认为前二个主成分能概括绝大部分信息 因子载荷矩阵 分析与小结 第一主成分 是由 确定的 因为它们在式中系数远远大于其他变量的系数 故标志着 是这 个指标的综合反映 说明企业经济效益盈利方面有能力 而且这 个指标的系数相当 进而说明这 项指标用于考核评价企业经济效益都是必不可少的 第二主成分 是依赖于 变量 这标志着 是反映企业资金和人力的利用水平 这两个主成分从影响经济效益的二个主要方面刻划分析企业经济效益 用它们考核企业经济效益具有 的可靠性 综合评价 从以上的输出信息与分析结果未能看出 个企业的综合经济效益的好坏 及企业在经营过程中的优势与不足 故要计算各企业在第一 二个主成分及综合经济效益方面的得分 以此作为评价的依据 操作步骤 1 原始变量标准化2 选择TransformCompute 求Z1 Z2和 0 66568Z1 0 18803Z2值3 分别按Z1 Z2和 排序 主成分得分值及排序表 案例分析2 对全国30个省 市自治区经济发展基本情况的八项指标作主成分分析 考核的指标有 GDP 居民消费水平 固定资产投资 职工平均工资 货物周转量 居民消费价格指数 商品零售价格指数 工业总产值 数据P150 分析 在第一主成分的表达式中第一 三 八项指标的系数较大 这三个指标起主要作用 我们可以把第一主成分看成是由国内生产总值 固定资产投资工业总产值所刻划的反映经济发展情况的综合指标 在第二主成分中 第二 第四 第五 第七项指标的影响大 且第四 第五项尤其大 可将之看成是反映物价指数 职工工资和货物周转量的综合指标 在第三主成分中 第六项指数影响最大 远远超过其他指标的影响可单独看成是居民价格指数的影响 案例分析3 因子分析 某公司欲招聘一批新员工 为了了解他 她 和知识水平 交际能力 自信心及应变能力等 为此人事部制定了 个方面考核指标 即 申请书形式 外貌X3 专业能力X4 讨人喜欢能力X5 自信程度X6 洞察力X7 诚实X8 推销能力X9 经验X10 驾驶汽车本领X11 志向X12 理解能力X13 潜在能力X14 对工作要求强烈程度X15 适应性对48名应聘者进行面试 并对每一方面考核指标按十分制打分 最好表现给予最高分 普普通通给予中间分数 不好表现给予低分 面试结果见数据 请综合评价48名应聘者的素质 从而找出最优挑选方案 因子得分及排序表 综合评价 1 a1 a2 a3 a4分别为旋转之后的方差贡献F a1 FAC1 1 a2 FAC2 1 a3 FAC3 1 a4 FAC4 1 a1 a2 a3 a4 38 176 FAC1 1 18 20 FAC2 1 15 99 FAC3 1 8 975 FAC4 1 81 35 2 分别对四个因子和F进行排序整理得下表 从因子得分表可以看出48名应聘者在综合素质方面 外露能力 经验及专业能力等方面的得分 作为公司主管可根据本公司及各部门的需要 并结合应聘者综合素质及特长 选择所需要的人员 案例4 对全国30个省 市自治区经济发展基本情况的八项指标作因子分析 考核的指标有 GDP 居民消费水平 固定资产投资 职工平均工资 货物周转量 居民消费价格指数 商品零售价格指数 工业总产值 数据P150第一个因子在X1 X3 X8有较大的载荷 这些是从GDP 固定资产投资 工业总产值三个方面反映经济发展善的 因此命名为总量因子 第二个因子在X2 X4 X5有较大的载荷 这些是从居民消费水平 职工平均工资 货物周转量这三方面反映经济发展状况的 因此 命名为消费因子 第三个因子在X6 X7有较大的载荷 因此命名为价格因子 案例分析5 抽取深圳 上海八家上市公司2001年中九天收盘价格资料 进行投资组合时 常常希望在相关性较大的一类股票中只选择一只或少数几只投资 试用因子分析法 确定投资方式 8种股票收盘价资料 小结 主成分分析与因子分析两者都是将多个指标转化为少数几个变量指标的一种实用多元统计分析方法 其用意在于重新组织数据 使变量的维数降低 而有关信息损失尽可能减少 以便在低维空间顺利地研究有关问题 两种方法通过因子分析过程 actor实现 但在运用 actor过程实现两种分析时 应注意以下几个问题 指标同趋势化 即为了评价分析方便 需将逆指标转化为正指标 小结 利用Factor过程实现主成分分析时 在确定公因子个数 要选择与原变量数目一样的公因子个数 即指定的数目NumberofFactors与原变量数目相等 因为此时因子模型中特殊因子方差为 形成特殊形式的因子分析 即主成分分析 3 利用Factor过程实现主成分分析时 产生的因子负荷矩阵表 不能直接依据表的数据 写出各主成分与原变量的线性组合 需对各主成分上的载荷值分别除以相应主成分的特征值的平方根 作业 以国家统计局网站上2007年任何一种类型企业的经济效益数据作主成分分析和因子分析 并提交实验报告
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!