《主成份与因子分析》PPT课件.ppt

上传人:za****8 文档编号:7250220 上传时间:2020-03-17 格式:PPT 页数:109 大小:1.48MB
返回 下载 相关 举报
《主成份与因子分析》PPT课件.ppt_第1页
第1页 / 共109页
《主成份与因子分析》PPT课件.ppt_第2页
第2页 / 共109页
《主成份与因子分析》PPT课件.ppt_第3页
第3页 / 共109页
点击查看更多>>
资源描述
2020 3 17 1 多元统计分析 主成份分析 华南农业大学理学院张国权 2020 3 17 2 主成份分析 多元统计分析处理的是多变量 多指标 问题 由于变量个数太多 并且彼此之间往往存在着一定的相关性 例如 随着年龄的增长 儿童的身高 体重会随着变化 具有一定的相关性 身高和体重之间为何会有相关性呢 因为存在着一个同时支配或影响着身高与体重的生长因子 变量之间存在的相关性使得所观测到的数据在一定程度上反映的信息有所重迭 而且当变量较多时 在高维空间中研究样本的分布规律比较复杂 人们自然希望用较少的综合变量来代替原来较多的变量 而这几个综合变量又能够尽可能多地反映原来变量的信息 而且彼此之间互不相关 利用这种降维的思想 产生了主成分分析 主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法 2020 3 17 3 总体的主成分 则有 定义 2020 3 17 4 如满足条件 主成份的推导 2020 3 17 5 结果2 对对称实矩阵 2020 3 17 6 2020 3 17 7 而且 当时有 因此 使 达最大 且 在实际应用中 一般主成份只取前K P个 2020 3 17 8 则有 性质 2020 3 17 9 2020 3 17 10 累计贡献率 2020 3 17 11 样本的主成分 2020 3 17 12 2020 3 17 13 2020 3 17 14 主成分的解释要根据实际问题给出 主成分的应用是多方面的 譬如利用主成分简化数据后 可以用直观的方法对样本或变量进行分类 当自变量间存在多重共线性时 可以利用自变量间的主成分 建立因变量关于主成分的回归方程以克服多重共线性等 2020 3 17 15 调用PRINCOMP过程进行主成分分析 用户可以使用下列语句来调用PRINCOMP过程 PROCPRINCOMP选项1选项2 VAR变量1变量2 WEIGHT变量 FREQ变量 PARTIAL变量1变量2 BY变量1变量2 2020 3 17 16 2020 3 17 17 2020 3 17 18 COV要求从协方差阵出发计算主分量 缺省为从相关阵出发计算 NOINT要求在模型中不使用截距项 这时统计量输出数据集类型为TYPE UCORR或UCOV STD要求在OUT 的数据集中把主成分得分标准化为单位方差 不规定时方差为相应特征值 用VAR语句指定原始变量 必须为数值型 区间变量 2020 3 17 19 应用举例 例1 一月和七月平均气温的主分量分析在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温 我们希望对这两个气温进行主成分分析 希望用一个统一的温度来作为总的可比的温度 所以进行主分量分析 程序如下 DATATEMPERAT INPUTCITY 1 15JANUARYJULY CARDS MOBILE51 281 6PHOENIX51 291 2LITTLEROCK39 581 4 MILWAUKEE19 469 9CHEYENNE26 669 1 PROCPRINCOMPCOVOUT PRIN VARJULYJANUARY RUN 2020 3 17 20 主要结果 2020 3 17 21 由上结果可知 第一个主成分的贡献率已达到了94 39 且可写出两主成分的表达式为 PRIN1 0 343532 JULY 75 61 0 939141 JANUARY 32 09 PRIN2 0 939141 JULY 75 61 0 343532 JANUARY 32 09 由系数可见 第一主分量是两个月份的加权平均 代表了一个地方的气温水平 第二主分量系数一正一负 反应了冬季和夏季的气温差别 2020 3 17 22 2020 3 17 23 SAS程序如下 datacities93 inputcity z1 z6 cards BJ863 50318 22130640532 86413 706144 756TJ536 10153 65518217227 42066 03065 080SY402 4573 50812729171 2662 70041 281 CQ399 6468 13314738165 6941 85524 246XA229 5754 7388406120 1101 13828 340 procstandarddata cities93out amean 0std 1 varz1 z6 procprincompdata aout score varz1 z6 procsortdata score bydescendingprin1 procprint idcity varprin1 prin6 run 2020 3 17 24 结果一 相关阵的特征值及主分量贡献率 EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative14 933481044 256410470 82220 822220 677070580 390856760 11280 935130 286213820 212433180 04770 982840 073780640 048563760 01230 995150 025216880 020979840 00420 999360 004237040 00071 0000可知第一主成分和第二主成分的累计贡献率达到了93 51 即这两个主成分提取了Z1 Z2 Z6中93 51 的信息 所以取两个主成分分析即可 结果二 相关阵的特征向量 即各主分量的组合系数 ThePRINCOMPProcedureEigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6z10 4400970 025954 159319 597376 640675 113732z20 433725 007878 438357 2484600 689352 287621z30 381275 3700920 810739 1213050 179096 116506z40 441793 192277 1566150 1634190 0320940 845923z50 2936190 9021450 2829480 0866740 0720420 084618z60 437532 107054 1434420 729709 275742 409903 主要结果 2020 3 17 25 由上结果写出这两个主成分的表达式 prin1 0 440097z1 0 433725z2 0 381275z3 0 441793z4 0 293619z5 0 437532z6prin2 0 025954z1 0 007878z2 0 370092z3 0 192277z4 0 902145z5 0 107054z6其中 z1 z6都为标准化的数据 第一主成分的各个系数都是正的 而且数值相差不多 如果各个变量的数值都增加 则第一主成分数值也会增加 而这正说明城市的规模较大 效益较高 从各个指标的具体含义可以看出 第一主成分代表的是各城市的 综合经济实力 其数值越大 代表综合经济实力越强 第二主成分中 Z5的系数高达0 9021 换言之 如果外贸出口强劲 则第二主成分取值一定变大 反之 当外贸出口较弱者 则第二主成分会取较小的值 因此可以说 第二主成分是 外向型经济 的度量 其数值取得越大 外向型经济越强 2020 3 17 26 结果三 各个城市在各主成分的得分值 cityPrin1Prin2Prin3Prin4Prin5Prin6SH6 703970 49659 0 96393 0 497040 01060 0 01087BJ4 16150 1 883350 016430 601370 128320 01356GZ2 498611 064971 229360 30773 0 311990 02199TJ1 054710 199550 491000 059040 12434 0 12704SZ0 120012 30772 0 417120 349400 096480 08498DL 0 144230 288691 10978 0 328790 32630 0 03075SY 0 47665 0 564220 11196 0 04089 0 128980 01124WH 0 57326 0 506450 04086 0 062590 063100 05287CQ 0 61603 0 615700 39074 0 371030 003150 13839HZ 0 73002 0 38548 0 18102 0 01214 0 35107 0 04342QD 0 738760 412560 25525 0 21686 0 01551 0 04803CD 0 76976 0 431640 02601 0 31648 0 129250 02211NJ 0 90278 0 18263 0 216790 04839 0 01394 0 04984XA 1 28904 0 31284 0 058780 097190 097870 01889HB 1 33266 0 15074 0 283990 231100 091930 07473JN 1 55961 0 14105 0 28990 0 10171 0 049580 05279CC 1 59056 0 14467 0 243430 03694 0 02420 0 09788FZ 1 748740 21761 0 571260 11506 0 06662 0 04974XM 2 066690 33109 0 445170 101290 14905 0 03399 2020 3 17 27 从各个城市的得分情况来看 这两个主成分的结果含义是准确清晰的 在第一主成分中 得分最高的是上海 得分为6 70397 第二名是北京 得分4 16150 第三名是广州 得分2 49861 第四名是天津 得分为1 05471 这与各城市综合经济实力的实际状况是一致的 在第二主成分中 得分最高的是深圳 得分2 30772 第二名是广州 得分1 06497 北京得分最低 为 1 88335 这与这些城市的对外开放程度是一致的 至于北京为何名列倒数第一 对外开放最差 这可以从外贸出口总额数看出 北京总的经济实力较强 但外贸出口总额确实落在很多城市之后了 2020 3 17 28 应用相关阵进行主成分分析为解决服装定型分类问题 对128个成年男子的身材进行测量 每人各测得16项指标 身高 X1 坐高 X2 胸围 X3 头高 X4 裤长 X5 下档 X6 手长 X7 领围 X8 前胸 X9 后背 X10 肩厚 11 肩宽 X12 袖长 X13 肋围 X14 腰围 X15 和腿肚 X16 16项指标的相关阵R见以下SAS程序的数据行 由相关阵为实对称距阵 数据行只给出相关阵的上三角部分 下半部分用缺失值代替 2020 3 17 29 由相关阵出发来进行主分量分析的SAS程序如下 dataa type corr input name x1 x16 cards x11 0 79 36 96 89 79 76 26 21 26 07 52 77 25 51 27x2 1 0 31 74 58 58 55 19 07 16 21 41 47 17 35 16x3 1 0 38 39 30 35 58 28 33 33 35 41 64 58 51x4 1 0 90 78 75 25 20 22 08 53 79 27 57 26x5 1 0 79 74 25 18 23 02 48 79 27 51 23x6 1 0 73 18 18 23 00 28 69 14 26 00 x7 1 0 24 29 25 10 44 67 16 38 12x8 1 0 04 49 44 30 32 51 51 38x9 1 0 34 16 05 23 21 15 18x10 1 0 23 50 34 15 29 16x11 1 0 24 10 31 28 31x12 1 0 26 17 41 18x13 1 0 26 50 24x14 1 0 63 50 x15 1 0 65x16 1 0 procprincompdata a type corr n 4 varx1 x16 run 2020 3 17 30 结果一 相关阵的特征值及主分量贡献率 EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative16 991709094 401298980 43700 437022 590410110 959786490 16190 598931 630623620 775543590 10190 700840 855080030 05340 7542 2020 3 17 31 菜单操作 2020 3 17 32 二 因子分析 因子分析是多元分析中数据缩减的一种主要方法 本章讨论基于统计软件的因子分析以及主成分分析方法和一般步骤 其中包括 1 因子分析的基本思想2 因子分析的过程3 SAS的因子分析4 因子分析的结果评述5 证券营业部客户满意度的因子分析6 因子分析的推广 2020 3 17 33 因子分析的基本思想 在实际中 人们往往希望收集到更多的有关研究对象的数据信息 进而能够得到一个更加全面的 完整的和准确的把握和认识 于是描述一个对象就会有许多指标 这些指标数量繁多 重复 类型复杂 给统计分析带来许多麻烦 因子分析正是基于信息损失最小化而提出的一种非常有效的方法 它把众多的指标综合成几个为数较少的指标 这些指标即因子指标 因子的特点是 第一 因子变量的数量远远少于原始变量的个数 第二 因子变量并非原始变量的简单取舍 而是一种新的综合 第三 因子变量之间没有线性关系 第四 因子变量具有明明解释性 可以最大限度地发挥专业分析的作用 2020 3 17 34 二 因子分析模型 一般地 设X x1 x2 xp 为可观测的随机变量 且有F F1 F2 Fm 为公共 共性 因子 commonfactor 简称因子 factor 2020 3 17 35 e e1 e2 ep 为特殊因子 specificfactor f和e均为不可直接观测的随机变量 1 2 p 为总体x的均值A aij p m为因子负荷 载荷 factorloading 矩阵 2020 3 17 36 2020 3 17 37 其中 表示两个因子 它对所有 是公有的因子 通常称为公共因子 它们的系数 表示第 个变量在第 个因子上的载荷 表示第 个变量不能被前两个因子包括的部分 称为特殊因子 通常假定 高度相关的观测变量 不管是正相关还是负相关 很可能是受同样的因子影响 而相对来说相关程度不是很高的观测变量很可能是受不同的因子影响的 而因子必须尽可能多地解释变量方差 每个变量在每个因子上都有一个因子载荷 因子的意义需由看哪些变量在哪个因子上载荷最大来决定 通过寻找潜在公共因子 并合理解释因子的意义 我们就能揭示错综复杂的事物的内部结构 2020 3 17 38 通常先对x作标准化处理 使其均值为零 方差为 这样就有假定 fi的均数为 方差为 ei的均数为 方差为 i fi与ei相互独立 则称x为具有m个公共因子的因子模型 2020 3 17 39 如果再满足 fi与fj相互独立 i j 则称该因子模型为正交因子模型 正交因子模型具有如下特性 x的方差可表示为设 2020 3 17 40 hi2是m个公共因子对第i个变量的贡献 称为第i个共同度 communality 或共性方差 公因子方差 commonvariance i称为特殊方差 specificvariance 是不能由公共因子解释的部分 2020 3 17 41 因子载荷 负荷 aij是随机变量xi与公共因子fj的相关系数 设称gj2为公共因子fj对x的 贡献 是衡量公共因子fj重要性的一个指标 2020 3 17 42 三 因子分析的步骤 输入原始数据xn p 计算样本均值和方差 进行标准化计算 处理 求样本相关系数矩阵R rij p p 求相关系数矩阵的特征根 i 1 2 p 0 和相应的标准正交的特征向量li 2020 3 17 43 确定公共因子数 计算公共因子的共性方差hi2 对载荷矩阵进行旋转 以求能更好地解释公共因子 对公共因子作出专业性的解释 因子得分 因子分析的数学模型是将变量表示为公共因子的线性组合 由于公共因子能反映原始变量的相关关系 用公共因子代表原始变量时 有时更利于描述研究对象的特征 因而往往需要反过来将公共因子表示为变量的线性组合 即因子得分 2020 3 17 44 四 因子分析提取因子的方法 主成分法 principalcomponentfactor 2020 3 17 45 每一个公共因子的载荷系数之平方和等于对应的特征根 即该公共因子的方差 2020 3 17 46 极大似然法 maximumlikelihoodfactor 假定原变量服从正态分布 公共因子和特殊因子也服从正态分布 构造因子负荷和特殊方差的似然函数 求其极大 得到唯一解 2020 3 17 47 主因子法 principalfactor 设原变量的相关矩阵为R rij 其逆矩阵为R 1 rij 各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数 i 1 rii 则共同度的初始值为 hi 2 1 i 1 1 rii 2020 3 17 48 以 hi 2代替相关矩阵中的对角线上的元素 得到约化相关矩阵 h1 2r12 r1pr21 h2 2 r2pR rp1rp2 hp 2R 的前m个特征根及其对应的单位化特征向量就是主因子解 2020 3 17 49 迭代主因子法 iteratedprincipalfactor 主因子的解很不稳定 因此 常以估计的共同度为初始值 构造新的约化矩阵 再计算其特征根及其特征向量 并由此再估计因子负荷及其各变量的共同度和特殊方差 再由此新估计的共同度为初始值继续迭代 直到解稳定为止 2020 3 17 50 Heywood现象残差矩阵 2020 3 17 51 五 因子旋转 目的 使因子负荷两极分化 要么接近于0 要么接近于1 常用的旋转方法 2020 3 17 52 1 方差最大正交旋转 varimaxorthogonalrotation 基本思想 使公共因子的相对负荷 lij hi2 的方差之和最大 且保持原公共因子的正交性和公共方差总和不变 可使每个因子上的具有最大载荷的变量数最小 因此可以简化对因子的解释 2020 3 17 53 2 斜交旋转 obliquerotation 因子斜交旋转后 各因子负荷发生了较大变化 出现了两极分化 各因子间不再相互独立 而彼此相关 各因子对各变量的贡献的总和也发生了改变 适用于大数据集的因子分析 2020 3 17 54 六 因子得分 Thomson法 即回归法回归法得分是由Bayes思想导出的 得到的因子得分是有偏的 但计算结果误差较小 2020 3 17 55 Bartlett法Bartlett因子得分是极大似然估计 也是加权最小二乘回归 得到的因子得分是无偏的 但计算结果误差较大 因子得分可用于模型诊断 也可用作进一步分析的原始资料 2020 3 17 56 七 因子分析应用实例 2020 3 17 57 八 因子分析应用的注意事项 应用条件 1 变量是计量的 能用线性相关系数 Pearson积叉相关系数 表示 2 总体的同质性 2020 3 17 58 样本量没有估计公式 至少要保证样本相关系数稳定可靠 因子数目一般认为 累积贡献要达到80 以上 但要注意Heywood现象 2020 3 17 59 基本思想使用 问题 假设我们要研究影响人们对生活满意度的潜在因子 为此对有关项目进行了问卷调查 其中各包括三项工作方面 WORK 1 WORK 2 WORK 3 和家庭方面 HOME 1 HOME 2 HOME 3 的满意度调查 下表为对100人调查后所计算的相关系数矩阵 Correlations n 100 由表可以看出 3项工作满意调查项目之间具有较高的相关性 3项家庭满意调查项目之间也具有较高的相关性 而工作满意调查项目与家庭满意项目之间相关性则较低 假定可用变量间的相关性把它们分组 也即假设在一个特定组内的所用变量之间是高度相关的 而与不同组内的变量却有较小的相关性 于是可以想象 各组变量可以找到潜在的单一因子对观察到的相关负责 2020 3 17 60 因而 上述相关性表明 一组变量存在一个潜在的因子 工作满意度 另一组变量对应另一潜在因子 家庭满意度 且两因子相对独立 对于问卷的回答显然有赖于所找到的两个潜在因子 而且 每一调查项目线性依赖于这两个潜在的因子 以及每一调查项目独有的特殊因子 据此 将这一分析推广至p个变量 存在m个潜在的公共因子 可建立以下数学模型 矩阵形式为 2020 3 17 61 且满足 F F1 Fm 称为X的公共因子 A为因子载荷矩阵 aij为因子载荷 数学上可以证明 因子载荷aij就是第i变量与第j因子的相关系数 反映了第i变量在第j因子上的重要性 2020 3 17 62 因子载荷的估计方法要建立实际问题的因子模型 关键是要根据样本数据估计因子的载荷矩阵 其中使用最为普遍的方法是主成分法 设随机向量X的协差阵为 为 的特征根 为对应的标准正交化特征向量 则根据线性代数知识 可分解为 当因子个数与变量个数一样多 特殊方差因子为0时 因子模型为 2020 3 17 63 因子载荷矩阵A的第j列为 也就是说出常数外 第j列因子载荷恰是第j个主成分的系数uj 因此该方法成为主成分提取法 实际应用时通常根据因子的累积贡献率达于80 或85 以上 决定所取因子的个数 2020 3 17 64 2020 3 17 65 2 正交因子模型中各个量的统计意义 2020 3 17 66 2020 3 17 67 2020 3 17 68 FACTOR 因子分析 过程简介 FACTOR过程用下列语句引用 PROCFACTOR选择项 VAR变量 PRIORS方法 PARTIAL变量表 FREQ变量 WEIGHT变量 BY变量 通常只有VAR语句必须跟随在PROCFACTOR语句后面 其余语句是可选择的 2020 3 17 69 1 PROCFACTOR语句的选项 可用于PROCFACTOR语句的任选项主要有下列几项 DATA SAS数据集 给出输入数据集的名字 它可以是普通的SAS数据集或者是特殊结构的SAS数据集 OUT SAS数据集 创建一个数据集 它包括来自DATA 的数据集中的全部数据 还包括被命名为FACTOR1 FACTOR2等变量的因子得分估计 2020 3 17 70 2020 3 17 71 2020 3 17 72 2020 3 17 73 ROTATE name R name 给出旋转的方法 缺省时ROTATE NONE PROCFACTOR可以进行下面几种旋转的方法 即的有效值 VARIMAX 正交的方差最大旋转 ORTHOMAX 权数为GAMMA的正交方差最大旋转 EQUAMAX 正交的均方最大旋转 QUARTIMAX 正交的四次方最大旋转 PARSIMAX 正交的PARSIMAX旋转 PROMAX 规定斜交的PROMAX旋转 PROCRUSTES 斜交Procurstes旋转 等 2 PRIORS语句该语句对每个变量规定0 0和1 0之间的数值作为先验公因子方差的估计 第一个数值对应于VAR语句中的第一个变量 第二个值对应于第二个变量 等等 数值的个数必须等于变量的个数 2020 3 17 74 6 3范例 2020 3 17 75 2020 3 17 76 运行结果 MeansandStandardDeviationsfrom12observationsPOPSCHOOLEMPLOYSERVICESHOUSEMean6241 6666711 44166672333 33333120 83333317000均值StdDev3439 994271 786544831241 21153114 9275136367 53128标准差Correlations相关矩阵POPSCHOOLEMPLOYSERVICESHOUSEPOP1 000000 009750 972450 438870 02241SCHOOL0 009751 000000 154280 691410 86307EMPLOY0 972450 154281 000000 514720 12193SERVICES0 438870 691410 514721 000000 77765HOUSE0 022410 863070 121930 777651 00000InitialFactorMethod PrincipalComponents主成份法的输出结果PriorCommunalityEstimates ONE初始共性方差估计值相关矩阵的特征值EigenvaluesoftheCorrelationMatrix Total 5Average 1特征值总和5 平均特征值112345Eigenvalue2 87331 79670 21480 09990 0153各特征值Difference1 07671 58180 11490 0847各相邻特征值之差Proportion0 57470 35930 04300 02000 0031被解释的方差的比例Cumulative0 57470 93400 97700 99691 0000被解释方差的累计比例2factorswillberetainedbytheMINEIGENcriterion 确定因子的数目为2 2020 3 17 77 FactorPattern因子模式阵FACTOR1FACTOR2POP0 580960 80642SCHOOL0 76704 0 54476EMPLOY0 672430 72605SERVICES0 93239 0 10431HOUSE0 79116 0 55818Varianceexplainedbyeachfactor每个因子所解释的方差FACTOR1FACTOR22 8733141 796660总体最终共性方差估计FinalCommunalityEstimates Total 4 669974POPSCHOOLEMPLOYSERVICESHOUSE0 9878260 8851060 9793060 8802360 937500每一各指标的最终共性方差估计InitialFactorMethod PrincipalFactors主因子法PriorCommunalityEstimates SMC先验共性方差估计POPSCHOOLEMPLOYSERVICESHOUSE0 9685920 8222850 9691810 7857240 847019 它们是用公因子预报原始变量的回归系数 第一主分量 因子 在所有五个变量上都有正的载荷 可见这个因子反应了城市规模的影响 第二主分量在人口 就业上有大的正载荷 在教育程度和住房价格上有大的负载荷 则第二个因子较大的城市人口多但是教育程度和住房价格低 这里给出了公因子对每一个原始变量的解释能力的量度 这是用原始变量对公因子的复相关系数平方 取0到1间值 来计算的 CommunalityEstimate是这些复相关系数平方的总和 因为每一个复相关系数平方都比较大 所以我们可以认为两个公因子可以很好地解释原始变量中的信息 但是我们得到的因子解释不够清楚 于是考虑用其它的因子分析方法 2020 3 17 78 EigenvaluesoftheReducedCorrelationMatrix 相关矩阵的特征值Total 4 39280116Average 0 87856023特征值总和5 平均特征值112345Eigenvalue2 73431 71610 0396 0 0245 0 0726Difference1 01821 67650 06410 0481Proportion0 62250 39070 0090 0 0056 0 0165Cumulative0 62251 01311 02211 01651 00002factorswillberetainedbythePROPORTIONcriterion InitialFactorMethod PrincipalFactorsFactorPatternFACTOR1FACTOR2SERVICES0 87899 0 15847HOUSE0 74215 0 57806EMPLOY0 714470 67936SCHOOL0 71370 0 55515POP0 625330 76621VarianceexplainedbyeachfactorFACTOR1FACTOR22 7343011 716069 2020 3 17 79 主因子法计算简约了的相关阵的特征值 相当于的估计 所以其特征值可能为负值 选取因子个数的缺省准则是PROPORTION 1 即累计特征值达到特征值总和的100 这样取了两个因子 结果与主分量分析相似 为了得到好的因子解释 我们在上面的PROCFACTOR语句中再加上一个ROTATE PROMAX旋转选项 这样将在得到主因子分析后先产生方差最大正交预旋转 VARIMAX 然后进行斜交旋转 并加了一个REORDER选项使输出时把原始变量受相同因子影响的放在一起 2020 3 17 80 InitialFactorMethod PrincipalFactorsFinalCommunalityEstimates Total 4 450370POPSCHOOLEMPLOYSERVICESHOUSE0 9781130 8175640 9719990 7977430 884950PrerotationMethod VarimaxOrthogonalTransformationMatrix1210 788950 614462 0 614460 78895PrerotationMethod VarimaxRotatedFactorPatternFACTOR1FACTOR2HOUSE0 94072 0 00004SCHOOL0 904190 00055SERVICES0 790850 41509POP0 022550 98874EMPLOY0 146250 97499VarianceexplainedbyeachfactorFACTOR1FACTOR22 3498572 100513 2020 3 17 81 可见第一因子反映了房价 教育水平 服务业人数 这些应该与发达程度有关 第二因子反映了人口和就业情况 与城市规模有关 这样得到的因子已经比较好用 我们再看斜交旋转的结果 这里只给出了旋转后的因子模式阵 2020 3 17 82 PrerotationMethod VarimaxFinalCommunalityEstimates Total 4 450370POPSCHOOLEMPLOYSERVICESHOUSE0 9781130 8175640 9719990 7977430 884950RotationMethod PromaxTargetMatrixforProcrusteanTransformationFACTOR1FACTOR2HOUSE1 00000 0 00000SCHOOL1 000000 00000SERVICES0 694210 10045POP0 000011 00000EMPLOY0 003260 96793RotationMethod PromaxProcrusteanTransformationMatrix1211 04117 0 098652 0 105720 96303NormalizedObliqueTransformationMatrix1210 738030 542022 0 705550 86528 2020 3 17 83 RotationMethod PromaxInter factorCorrelationsFACTOR1FACTOR2FACTOR11 000000 20188FACTOR20 201881 00000RotationMethod PromaxRotatedFactorPattern StdRegCoefs FACTOR1FACTOR2HOUSE0 95558 0 09792SCHOOL0 91842 0 09352SERVICES0 760530 33932POP 0 079081 00192EMPLOY0 047990 97509RotationMethod PromaxReferenceAxisCorrelationsFACTOR1FACTOR2FACTOR11 00000 0 20188FACTOR2 0 201881 00000 2020 3 17 84 RotationMethod PromaxReferenceStructure SemipartialCorrelations FACTOR1FACTOR2HOUSE0 93591 0 09590SCHOOL0 89951 0 09160SERVICES0 744870 33233POP 0 077450 98129EMPLOY0 047000 95501VarianceexplainedbyeachfactoreliminatingotherfactorsFACTOR1FACTOR22 2480892 003020RotationMethod PromaxFactorStructure Correlations FACTOR1FACTOR2HOUSE0 935820 09500SCHOOL0 899540 09189SERVICES0 829030 49286POP0 123190 98596EMPLOY0 244840 98478VarianceexplainedbyeachfactorignoringotherfactorsFACTOR1FACTOR22 4473492 202280RotationMethod PromaxFinalCommunalityEstimates Total 4 450370POPSCHOOLEMPLOYSERVICESHOUSE0 9781130 8175640 9719990 7977430 884950 2020 3 17 85 OBS TYPE NAME POPSCHOOLEMPLOYSERVICESHOUSE1MEAN6241 6711 44172333 33120 83317000 002STD3439 991 78651241 21114 9286367 533N12 0012 000012 0012 00012 004CORRPOP1 000 00980 970 4390 025CORRSCHOOL0 011 00000 150 6910 866CORREMPLOY0 970 15431 000 5150 127CORRSERVICES0 440 69140 511 0000 788CORRHOUSE0 020 86310 120 7781 009COMMUNAL0 980 81760 970 7980 8810PRIORS0 970 82230 970 7860 8511EIGENVAL2 731 71610 04 0 025 0 0712UNROTATEFACTOR10 630 71370 710 8790 7413UNROTATEFACTOR20 77 0 55520 68 0 158 0 5814PRETRANSFACTOR10 79 0 6145 15PRETRANSFACTOR20 610 7889 16PREROTATFACTOR10 020 90420 150 7910 9417PREROTATFACTOR20 988740 000550 974990 41509 0 0000418TRANSFORFACTOR10 738030 70555 19TRANSFORFACTOR20 542020 86528 20FCORRFACTOR11 000000 20188 21FCORRFACTOR20 201881 00000 22PATTERNFACTOR1 0 079080 918420 047990 760530 9555823PATTERNFACTOR21 00192 0 093520 975090 33932 0 0979224RCORRFACTOR11 00000 0 20188 25RCORRFACTOR2 0 201881 00000 26REFERENCFACTOR1 0 077450 899510 047000 744870 9359127REFERENCFACTOR20 98129 0 091600 955010 33233 0 0959028STRUCTURFACTOR10 123190 899540 244840 829030 9358229STRUCTURFACTOR20 985960 091890 984780 492860 0950 2020 3 17 86 程序解释及统计结论 2020 3 17 87 2020 3 17 88 基于因子分析法的工业现代化评价 本例选取了一定的指标 利用因子分析法对江苏省城市的工业现代化指标进行综合分析评价 试探讨江苏省各个城市的工业现代化程度 并找出各个城市工业化发展过程中出现的问题 为以后的改进和决策提供建议 1 指标的选取 选取了如下指标来评价江苏省各个城市的工业现代化程度 X1 人均国内生产总值X2 工业总产值X3 全社会固定投资额X4 进出口总额X5 工业用电X6 专业技术人员比重X7 大中型企业比重X8 二三产业对GDP贡献率X9 二三产业从业人员比重X10 人均可支配收入X11 利用外资额城市工业现代化的评价是一种多指标下的综合评价 多变量大样本无疑会为科学研究提供丰富的信息 但也在一定程度上增加了问题分析的复杂性 因此有必要寻找和设计一个或几个较少的综合指标来综合各方面的信息 抓住主要矛盾 使问题简化 而因子分析方法正是解决这一问题的理想工具 2020 3 17 89 2 对工业现代化指标的因子分析选取的具有代表性的一些指标工业现代化指标 其具体的数据如下表1 2020 3 17 90 本文的运算都是采用SAS统计分析软件 1 首先将数据进行标准化 求出六个指标的相关系数矩阵 由相关系数矩阵可以看出 十一个指标彼此之间存在一定的相关性 说明十一个指标反映的经济信息有一定的重叠 2020 3 17 91 2 计算矩阵 的特征值 求特征值的贡献率和累计贡献率 表3特征值 特征值贡献率 累计贡献率表 根据特征值大于1的提取原则 有两个因子符合原则 并且前两个因子的累计贡献率为84 33 即前两个公因子所解释的方差占总方差的84 33 用这两个公因子来反映城市的工业现代程度所损失的信息不多 所以这两个公因子能够综合反映江苏各城市的工业现代化水平 2020 3 17 92 3 采用主成分分析法计算出因子载荷矩阵表4 4 建立因子分析模型的目的不仅是找出主因子 更重要的是知道每个主因子的意义 然而用上述方法求出的公因子解 各主因子的典型代表变量不很突出 容易使因子的意义含糊不清 不便于对实际问题进行分析 因此用方差最大正交旋转法对因子进行旋转 得表5和表6 2020 3 17 93 2020 3 17 94 2020 3 17 95 由旋转后的因子载荷矩阵可以看出 第一主成分即公因子F1对人均国内生产总值 X1 工业总产值 X2 全社会固定投资额 X3 进出口总额 X4 工业用电 X5 人均可支配收入 X10 利用外资额 X11 有绝对值较大的负荷系数 所以F1是这七个指标的综合反映 其中人均国内生产总值 X1 工业总产值 X2 进出口总额 X4 人均可支配收入 X10 这四个指标反映了一个城市的工业产出水平 而全社会固定投资额 X3 工业用电 X5 利用外资额 X11 这三个指标主要反映了城市工业发展中的投入情况 所以综合因子F1主要反映一个城市的经济发展状况 F1得分越高说明城市的经济越发达 城市的工业现代化程度越高 2020 3 17 96 第二主成分即公因子F2对专业技术人员比重 X6 大中型企业比重 X7 二三产业对GDP贡献率 X8 二三产业从业人员比重 X9 有绝对值较大的负荷系数 是这四个因素的综合反映 专业技术人员比重 X6 反映工业人员素质的现代化程度 城市从业人员素质越高城市的现代化程度相应越高 大中型企业比重 X7 能反映一个城市的产业集中度 城市生产约是社会化 规模经济越是突出 产业的集中度就越高 城市工业现代化程度就越高 二三产业对GDP贡献率 X8 二三产业从业人员比重 X9 主要反映二三产业在城市经济结构中的比重 城市工业现代化的过程是工业不断地向农业和服务业等其他行业提供先进技术装备的过程 也是推动农业生产逐步实现机械化的过程 是农村剩余劳动力不断向城市聚集 向第二三产业转移的过程 因此一个城市的二 三产业越发达 在城市经济结构中的比重越大 说明城市的工业现代化程度越高 综合因子F2主要反映城市二 三产业的比重及产业的集中度 因此 因子F2得分越高城市的工业化程度越高 2020 3 17 97 2020 3 17 98 4 在图1对话框点击Extraction 按钮 出现图2对话框 选择主成分提取法 图2 5 在图1对话框点击Rotation 按钮 出现图3对话框 选择varimax方法进行因子载荷旋转 6 在图1对话框点击ok按钮 给出计算结果 见表1 表2 2020 3 17 99 让我们来看一看变量与两因子之间的相关性 因子载荷 由表1可以看出 第1因子 Factor1 与原始变量的相关系数均高于第二因子与原始变量的相关系数 这应该是预料之中的 因为 两个因子是连续提取 所能解释的方差渐次递减 我们可以绘制两因子载荷的散点图 在散点图中每一点代表一个变量 在图中可以从任何方向进行坐标轴旋转而不改变点之间的相对位置 但坐标值会发生改变 也就是因子载荷将发生变化 旋转之后 因子1在工作满意度调查项目上具有高载荷 而因子2在家庭满意度调查项目上具有高载荷 因此 可以得出这样的结论 生活满意度调查问卷包括两个方面 调查项目也可以分为两类 图3 2020 3 17 100 因子分析的几个相关概念 1 因子载荷2 变量共同度3 公共因子的方差贡献 2020 3 17 101 因子分析的基本步骤 因子分析的核心问题有两个 一是如何构造因子变量 二是如何对因子变量进行命名解释 因此 因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的 因子分析常常有以下四个基本步骤 1 确认待分析的原有干变量是否适合作因子分析 2 构造因子变量 3 利用旋转方法使因子变量更具有可解释性 4 计算因子变量得分 2020 3 17 102 巴特利特球度检验 Bartletttestofsphericity 巴特利特球度检验是以变量的相关系数矩阵为出发点 它的零假设是Ho 相关系数矩阵是一个单位阵 即相关系数矩阵对角线上的所有元素都为1 所有非对角线上的元素都为零 巴特利特球度检验的统计量根据相关系数矩阵的行列式计算得到 如果该统计量值比较大 且其对应的相伴概率值小于用户心中的显著性水平 则应拒绝Ho 认为相关系数矩阵不太可能是单位阵 适合作因子分析 相反 如果该统计量值比较小 且其对应的相伴概率值大于用户心中的显著性水平 则不能拒绝Ho 可以认为相关系数矩阵可能是单位阵 不适合作因子分析 2020 3 17 103 反映象相关矩阵检验 Anti imagecorrelationmatrix 反映象相关矩阵检验以变量的偏相关系数矩阵为出发点 将偏相关系数矩阵的每个元素相反 得到反映象相关阵 不难理解 由于偏相关系数是在控制了其他变量对两变量影响的条件下计算出来的净相关系数 如果变量之间确实存在的相互重叠传递影响 也就是说 如果变量中确实能够提取出公共因子 那么控制了这些影响后的偏相关系数必然很小 因此 如果反映象相关矩阵中的有些元素的绝对值较大 则说明这些变量可能不适合作因子分析 2020 3 17 104 KMO Kaiser Meyer Olkin KMO统计量是用于比较变量间简单相关系数和偏相关系数的一个指标 计算公式如下 式中 rij是变量和变量之间的简单相关系数 pij是它们之间的偏相关系数 可见 KMO统计量的取值在0和1之间 当所有变量之间的简单相关系数平方和远远大于偏相关系数平方和时 KMO值接近1 KMO值越接近1 则越适合作因子分析 KMO越小 则越不适合作因子分析 Kaiser给出了一个KMO的度量标准 0 9以上非常适合 0 8适合 0 7一般 0 6不太适合 0 5以下不适合 2020 3 17 105 SPSS的因子分析案例 2001年10月 我们为山西证券的一个营业部作了一次客户满意度研究 采用因子分析作了分析 调查的项目包括18项指标 基本上可以涵盖客户服务的各个方面 这些指标包括 技术 环境 人员 股市 服务等方面的多项指标 2020 3 17 106 因子分析的过程 单击Analyze DataReduction Factor 于是出现下面的窗口 2020 3 17 107 Extraction对话框 2020 3 17 108 小结 因子分析是数据缩减的一种多元分析方法 它是基于信息损失最小化而提出的一种非常有效的方法 它把众多的指标综合成几个为数较少的指标 这些指标即因子指标 因子的特点是 第一 因子变量的数量远远少于原始变量的个数 第二 因子变量并非原始变量的简单取舍 而是一种新的综合 第三 因子变量之间没有线性关系 第四 因子变量具有明明解释性 可以最大限度地发挥专业分析的作用 因子分析就是以最少的信息损失 将众多的原始变量浓缩成为少数几个因子变量 使得变量具有更高的可解释性的一种数据缩减方法 是多元分析的主干技术之一 2020 3 17 109 祝大家学习愉快
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!