厦门大学《应用多元统计分析》第08章-相应分析

上传人:san****019 文档编号:22823816 上传时间:2021-06-01 格式:PPT 页数:58 大小:1.82MB
返回 下载 相关 举报
厦门大学《应用多元统计分析》第08章-相应分析_第1页
第1页 / 共58页
厦门大学《应用多元统计分析》第08章-相应分析_第2页
第2页 / 共58页
厦门大学《应用多元统计分析》第08章-相应分析_第3页
第3页 / 共58页
点击查看更多>>
资源描述
第八章 相应分析 第一节 引 言 第二节 列联表 第三节 相应分析的基本理论 第四节 相应分析中应注意的问题 第五节 实例分析与计算机实现 第一节 引 言 相应分析 (correspondence analysis)也叫对应分析,其特点是 它所研究的变量可以是定性的。通常意义下的相应分析,是 指对两个定性变量(因素)的多种水平进行相应性研究,因 而它的应用越来越广泛,现在这种方法已经成为常用的多元 分析方法之一。 在社会、经济以及其他领域中,进行数据分析时经常要处理 因素与因素之间的关系,及因素内部各个水平之间的相互关 系。例如,评价某一个行业所属企业的经济效益,我们不仅 要研究因素 A,即企业按照经济效益好坏的分类情况,以及 要研究因素 B,即经济效益指标之间的关系,还要研究哪些 企业与哪些经济效益指标更密切一些。这就需要相应分析的 方法,将经济效益指标和企业状况放在一起进行分类、作图, 以便更好的描述两者之间的关系,在经济意义上做出切合实 际的解释。 相应分析的思想首先由理查森( Richardson)和库德 ( Kuder)于 1933年提出,后来法国统计学家让 -保罗 贝内 泽( Jean-Paul Benzcri)等人对该方法进行了详细的论述 而使其得到了发展。为了把握相应分析方法的实质,本章将 从列联资料入手,介绍一些基本概念和相应分析的基本理论, 并让读者理解相应分析与独立性检验的关系,进一步明确对 实际问题进行相应分析研究的必要性所在。 第二节 列联表 一 列联表的概念 二 有关记号 一、列联表的概念 在实际中经常要了解两组或多组因素 (或变量 )之间的关系。 设有两组因素 A和 B,其中因素 A包含 r个水平,即 A1, A2, , Ar;因素 B包含 c个水平,即 B1 , B2 , , Bc 。又 设有受制于这两个因素的载体 (或客体 )的集合总体 。我们 希望通过对总体 关于这两组因素的有关资料 (或抽样资料 ), 来分析这两组因素的关系。 例如,要考查在某个人群中关于吸烟或不吸烟 (因素 A)与得 肺癌或不得肺癌 (因素 B)两组因素之间的关系。通常的作法 是,随机地从该人群中抽样,对这两种因素进行调查,设调 查了 k个人,得到一个二维列联表,见表 8.1。 其中, kij为调查的 k人中出现因素 A的第 i个水平和因素 B的第 j个水平的人数。这样,我们就得到一个两因素,即吸烟与 是否得肺癌的 2 2列联表。 因素 B 因素 A 得肺癌( 1B ) 不得肺癌( 2B ) 吸烟( 1A ) 11k 12k 1.k 不吸烟( 2A ) 21k 22k 2.k .1k .2k . ijk k k 表 8.1 二维列联表 一般地,设受制于某个载体总体的两个因素为 A 和 B ,其中 因素 A 包含 r 个水平,即 12, rA A A ;因素 B 包含 c 个水 平,即 12, cB B B 。对这两组因素作随机抽样调查,得到 一个 rc 的二维列联表,记为 () i j r ck K ,见表 8. 2 。 在表 8. 2 子中, . 1 c i ij j kk 表示因素 A 的第 i 个水平的样本个 数; . 1 r j i j i kk 表示因素 B 的第 j 个水平的样本个数; . ijk k k 表 示 总 的 样 本 个 数 。 这 样 我 们 便 称 () i j r ck K 为一个 rc 的二维列联表。 因素 B 1B 2B cB 1A 11k 12k 1 ck 1.k 2A 21k 22k 2 ck 2.k 因 素 A rA 1rk 2rk rck .rk .1k .2k .ck . ijk k k 表 8.2 一般的二维列联表 二、有关记号 为了叙述方便,先引进一些基本概念和记号。 设 K=(kij)r c为一个 r c的列联表 (表 8.2),称元素 kij为原始频 数。将列联表 K转化为频率矩阵,记为 F=(fij) r c ,见表 8.3。 因素 B 1B 2B cB 1A 11f 12f 1 cf 1.f 2A 21f 22f 2 cf 2.f 因 素 A rA 1rf 2rf rcf .rf .1f .2f .cf .1 ijff 表 8.3 一般的二维频率表 表 8 . 3 中 /ij ijf k k 是样本中属于因素 A 的第 i 个水平和 因素 B 的第 j 个水平的百分比; . 1 c i i j j ff , . 1 r j ij i ff , 1 , 2 , ,ir , 1 , 2 , ,jc 。这里我们记 1 . 2 . .( , , , )rr f f f f , . 1 . 2 .( , , , )cc f f f f , 1 . 2 . .( , , , ) ( )r r rd i a g f f f d i a gDf , . 1 . 2 .( , , , ) ( )c c cd i a g f f f d i a gDf 那么有, rcf F I , cr f F I ( 8 . 1 ) 1r r c c r c I f I f I F I ( 8 . 2 ) 其中 1( 1 , 1 , , 1 )rr I , 1( 1 , 1 , , 1 )cc I 。 从数理统计的角度, K 可视为对两个随机变量 ( 记为 和 ) 调查得到的二维列联表,频率矩阵 F 则表示它们相应的经验 联合抽样分布为 , ijP i j f , 1 , 2 , ,ir , 1 , 2 , ,jc 其中 与 分别表示因素 A 和 因素 B 的随机变量。 1 . 2 . .( , , , )rf f f 和 . 1 . 2 .( , , , )cf f f 分别为二维随机变量( , )的抽样边际分布。在此,我们称 rD 和 cD 分别为 和 的 边际阵。那么,有条件概率为 . , | ij i fP i j P j i P i f , 1 , 2 , ,jc 在此称 12 . . . , , , ic i i ic c i i i f f f f f f fR ( 8 . 3 ) 为因素 A 的第 i 个水平分布轮廓。称 1 r DF 为因素 A 的轮廓矩 阵 。 这 里 应 该 注 意 到 , i cf , 1 , 2 , ,ir 是 超 平 面 12 1rx x x 的一点集。 同理,因素 B 的第 j 个水平的分布轮廓为 12 . . . , , , j j c jjr r j j j f f f f f f fR ( 8 . 4 ) 并称 1 c DF 为因素 B 的轮廓矩阵,同样 j rf , 1 , 2 , ,jc 是 超平面 12 1cy y y 的一点集。这里有 . , | ij j fP i j P i j P j f , 1 , 2 , ,ir 最后,由( 8 . 1 )式和( 8. 2 )式我们应该明确 r r cD I F I , 1r r r r cI D I = I F I = , ( 8. 5 ) c c rD I F I , 1c c c c r I D I I F I , ( 8 . 6 ) 从( 8. 5 )式和( 8. 6 )式我们清楚地看到, rD 和 cD 中的元素 起到了权重的作用,称其为权重矩阵。 第三节 相应分析的基本理论 一 原始资料的变换 二 基于矩阵的分析过程 我们知道相应分析的主要目的是寻求列联表行因素 A和列因 素 B的基本分析特征和它们的最优联立表示。为了实现行因 素 A与列因素 B最优联立表示,进一步剖析行因素 A内部之间, 列因素 B内部之间,以及因素 A和列因素 B之间的关系,这里 将介绍原始的列联资料 K=(kij) r c变换成矩阵 Z=(zij) r c的具 体过程,这样使得 zij对因素 A和列因素 B具有对等性,在此基 础上进行相应分析。 一、原始资料的变换 设 () i j r ck K 为一个 rc 的列联资料,其转化后的频率矩 阵为 () i j r cf F 。我们针对因素 A 而言,由( 8. 3 )式知, 第 i 个水 平分布轮廓 ic c fR 1 , 2 , ,ir 为 超平面 12 1rx x x 的一点集。如果我考虑因素 A 中各水平之 间的远近,引入欧氏距离,那么第 i 个水平和第 i 个水平之 间的欧氏距离为 2 2 1 . ( , ) c ij i j j ii ff D i i ff ( 8 . 7 ) 这样定义的距离没有考虑到因素 B 的各水平边际概率的 影响,为了消除因素 B 各个水平数量级的影响,应该对每 一项加一个权数 .1/ jf ,即有 : 2 2 1 . . . 1 ( , ) c ij i j w j i i j ff D i i f f f 2 1 . . . . c i j i j j i j i j ff f f f f ( 8 . 8 ) 我们称 2 ( , ) wD i i 为因素 A 中第 i 个水平和第 i 个水平之间 2 距离。 这里应该注意到,( 8. 8 )式所定义的距离 2 ( , ) wD i i ,也可以 看作是点集 12 . . 1 . . 2 . . , , , i i i c i i i c f f f f f f f f f 中两点 i 和 i 之 间的欧氏距离( 1 , 2 , ,ir )。那么,我们从加权的角度考 察这 r 个点的平均水平,其第 j 个分量的平均水平为 . 11 . . . 1 rr ij i ij j ii i j j f f f f f f f , 1 , 2 , ,jc ( 8 . 9 ) 从而,计算出关于因素 B 各水平构成的协差阵为 ()c i j c ca ( 8 . 10 ) 其中, . . . 1 . . . . r ji i j i j ij ff a f f f f f f f . 1 . . . . r jjii ij f f ff f f f f f f 1 r ij zz 这里 . . . . . . . . . . . . . . . . . . / ( / ) ( / ) ( / ) ( / ) i i i i i ii f f f k x k x k x z f f k x k x . . . . . ( / ) ii i k k k k kk 1 , 2 , , 1 , 2 , ,r i c 令 () ij r cz Z ,则( 8. 10 )式可表示为 c ZZ ( 8. 1 1 ) 类似地,由( 8. 4 )式知,针对因素 B 的第 j 个水平的分布轮廓 j rf r R , 它 是 超 平 面 12 1cy y y 的 一 点 集 , 1 , 2 , ,jc 。同样,变换以后所得到的关于因素 A 各水平构 成的协差阵为 r ZZ ( 8 . 12 ) 这里我们需要说明的是,将原始列联表设 () i j r ck K 中的数据 变换成矩阵 () ij r cz Z 时,则因素 A 和因素 B 各个水平构成 的协差阵分别为 r ZZ 和 c ZZ ,矩阵 r 和 c 存在简 单的对等关系,这样如果把原始列联表中的数据 ijk 变换成 ijz 以后, ijz 对于两个因素具有对等性。 二、基于矩阵的分析过程 由矩阵的知识我们知道, r ZZ 和 c ZZ 有完全相同 的非零特征根,记为 12 m , 0 m in , m r c , 设 12, , , mu u u 为相对于特征根 12, , , m 的关于因素 B 各水平构成的协差阵 c 的特征向量,则有 c j j j j u Z Zu u ( 8 . 13 ) 用矩阵 Z 左乘( 8. 13 )式两端得 ( ) ( )j j j ZZ Zu Zu 即有 ( ) ( )r j j j Zu Zu ( 8 . 14 ) ( 8.14)式表明 Zuj为相对于特征值 j的关于因素 A各水平构 成的协差阵 r的特征向量。这样我们就建立了相应分析中 R 型因子分析和 Q型因子分析的关系。也就是说,我们可以从 R型因子分析出发而直接得到 Q型因子分析的结果。 这里需要强调的是,由于 r和 c有相同的特征根,而这些特 征根又表示各个公共因子所提供的方差。那么,在因素 B的 c 维空间 Rc中的第一公共因子,第二公共因子直到第 m个公共 因子与因素 A的 r维空间 Rr中相对于的各个主因子在总方差中 所占的百分比就完全相同。这样就可以用相同的因子轴同时 描述两个因素各个水平的情况,把两个因素的各个水平的状 况同时反映到具有相同坐标轴的因子平面上。一般情形,我 们取两个公共因子,这样就可以在一张二维平面图上绘出两 个因素各个水平的情况,即可以直观地描述两个因素 A和因 素 B以及各个水平之间的相关关系。 第四节 相应分析中应注意的问题 我们知道相应分析是分析两组或多组变量之间关系的有效方 法,在离散情况下,它是从资料出发通过建立因素间的二维 或多维列联表来对数据进行分析。在此我们要问,这种分析 是否有意义,或者说对于所给的数据是否值得做这种相应分 析。这一节我们将介绍相应分析与独立性检验的内在关系, 以此说明应用相应分析方法在解决实际问题时,避免盲目性。 设二维列联资料为 () i j r ck K (见表 8. 2 ),其频率阵为 () i j r cf F (见表 8. 3 )。用 .ip 表示因素 A 中第 i 水平发生 时的概率; . jp 表示因素 B 中第 j 水平发生时的概率,那么 其估计值分别为 . . i i k f k 和 . . j j k f k 这里我们关心的是因素 A 和因素 B 是否独立,由此提出要检 验的问题是 0H :因素 A 和因素 B 是独立的 1H :因素 A 和因素 B 不独立 由上面的假设所构造的统计量为 : 2 2 11 ( ) () rc ij ij ij ij k E k Ek 2 . 11 . / / rc ij i j ij ij k k k k k k k 2 11 () rc ij ij kz ( 8 . 15 ) 其中 . . . .( / ) /ij ij i j i jz k k k k k k ,当假设 0H :因素 A 和因 素 B 是独立成立时,在 n 足够大的条件下, 2 服从自由度 为 ( 1 ) ( 1 )rc 的 2 分布。拒绝区域为 : 22 1 ( 1 ) ( 1 ) rc 通过上面的分析,我们应该注意几个问题。 第一,这里的 ijz 是原始列联资料 () i j r ck K 通过相应变换 以后得到的资料阵 () ij r cz Z 的元素。说明 ijz 与 2 统计量有着内在的联系。 第二,关于因素 B 和因素 A 各水平构成的协差阵 c 和 r , 由( 8. 15 )式知, 2( ) ( ) / crtr tr k ,这里 ( . )tr 表示矩阵的迹。 第三,独立性检验只能判断因素 A 和因素 B 是否独立。如果 因素 A 和因素 B 独立,则没有必要进行相应分析;如 果因素 A 和因素 B 不独立,可以进一步通过相应分析 考察两因素各个水平之间的相关关系。 第五节 实例分析与计算机实现 一 利用 SPSS进行相应分析 实例 1 二 利用 SPSS进行相应分析 实例 2 一、利用 SPSS进行相应分析 实例 1 数据来自 SPSS软件自带数据集 voter.sav,为 1992年美国大选 的部分数据。要求对选民的最高学历水平( degree)和所支 持的总统候选人( pres92)进行相应分析。 (一)操作步骤 1. 正确打开数据集 voter.sav后,由 AnalyzeData ReductionCorrespondence Analysis 可进入相应分析的主 对话框(图 8.1)。 图 8.1 相应分析主界面 2. 从左侧变量列表中选择两个变量作为相应分析的两个维度。 这里我们选择 pres92作为行维度,点击 Row左侧的三角箭头 就可以看到在 Row项下出现了 pres92(? ?),这时用鼠标选中 该变量,其下方的 Define Range子对话框激活,点击后出现 变量水平设置窗口(图 8.2)。分为上下两个部分: Category range for row variable: pres92和 Category Constraints。 这里要分析所有的三位总统候选人和选民的学历水平的关系, 所以在 Minimum value中填入 1,在 Maximum value中填入 3, 之后点击 Update按钮。就可以在下方的 Category Constraints 栏中看到,后续分析中的行变量仅包含 3个类目,分别是 1、 2 和 3。 图 8.2 Define Row Range子对话框 在右侧还有三个单选项: None表示没有任何约束; Categories must be equal可用于指定某些类目的得分必须相同,最多可以 设置有效类目的个数减 1个得分相等的类目,如本例中最多可 以设置 2个类目得分相等; Category is supplemental表示某些 类目不参加相应分析但是会在图形中标示。这里我们不对分类 进行任何约束,点击 Continue按钮后回到主对话框。 类似的可以指定 degree的有效类目最小值为 0,最大值为 4。 3.点击 Model按钮,指定相应分析结果的维数。(图 8.3) ( 1) Dimensions in solution。默认为 2,最大可以设置为各变量 中的最少类目数减 1。 ( 2)选择距离测度的方式 Distance Measure。有 Chi square 和 Euclidean两种,定性变量应该用 Chi square。 ( 3)标准化方法 Standardization Method。 图 8.3 Model子对话框 ( 4)正态化方法 Normalization Method。需要比较行列变量的类 目差异时选择 Symmetrical,需要比较行列变量中任意两个类目的 差异时选择 Principal,比较行变量的类目差异时选择 Row principal,而比较列变量的类目差异时选择 Column principal,也 可以在 Customize中指定 -1,1之间的任意实数,特别的,如果输 入 -1则为 Column principal,输入 1为 Row principal,输入 0为 Symmetrical。而一般该对话框中的选项无需改动。 4.点击 Statistics按钮,设定输出的相应分析统计量,如图 8.4。 可以指定输出相应分析表 Correspondence table,行点总览 表 Overview of row points,列点总览表 Overview of column points,行轮廓 Row profiles,列轮廓 Column profiles。默认 只输出前三项。而 Permutations of the correspondence table 是用于指定前 n个维度的行列得分表。如果该项选中,下方 的 Maximum dimension for permutations被激活,用于指定 维度 n。此外,还可以在 Confidence Statistics for复选项中选 择计算行点和列点的标准差以及相关系数。 图 8.4 Statistics子对话框 5.点击 Plots按钮,设定输出的统计图,如图 8.5。可以指定输 出相应分析的散点图 Scatterplots,默认只输出包含行列变量 的双变量散点图 Biplot。也可指定输出行点图 Row points和 列点图 Column points。而 ID label width for Scatterplots是 指定散点标签的长度,默认 20。下方的 Line plots项中,可 以输出行 /列点对应于行 /列得分的线图,和散点图类似。 6. 我们在 Model, Statistics, Plots三个子对话框中都使用默 认设定,点击主对话框的 OK按钮,即得到相应分析的结果。 图 8.5 Plots子对话框 (二)结果分析: SPSS运行相应分析后会产生以下四张表(表 8.4到表 8.7)。 1. Correspondence Table(相应分析表),如表 8.4,即列联 表。 Active Margin为边际频数。大致可以看出 Clinton在各个学历 层次都有最高的票数。 C o r r e s p o n d e n c e T a b l e R S H I G H E S T D E G R E E V O T E F O R C L I N T O N , B U S H , P E R O T l t h i g h s c h o o l h i g h s c h o o l ju n i o r c o l l e g e b a c h e l o r g r a d u a te d e g r e e A c ti v e M a r g i n B u s h 55 349 48 146 63 661 P e r o t 12 159 26 62 19 278 C l i n to n 122 436 58 178 111 905 A c ti v e M a r g i n 189 944 132 386 193 1844 表 8.4 列联表 2. Summary(总览表),如表 8.5。 表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、 显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和 相关系数。 Singular Value为特征值的平方根,根据总惯量和 特征值求和相等,有 0.1392+0.0162=0.019+0.000=0.019。第一 个维度惯量 0.019,占总惯量的 98.7%,第二个维度惯量接近 0, 仅占总惯量 1.3%。因此可以认为只要用一个维度就可以解释 行列变量之间所有的关系,但为了说明分析过程,仍然保留两 个维度。总惯量 35.867 1844=0.19,满足总惯量和卡方统计量 的关系式。同时卡方统计量的自由度 8=(3-1) (5-1),数值为 0.000,说明行列变量之间存在显著的相关性,相应分析是有 意义的。 S u m m ar y P r op or ti on of I n e r ti a C on fi d e n c e S i n g u l ar V al u e C or r e l at i on D i m e n s i on S i n g u l a r V al u e I n e r ti a C h i S q u ar e S i g. A c c ou n te d for C u mu l ati v e S tan d ar d D e v i ati o n 2 1 .139 .019 .987 .987 .021 .062 2 .016 .000 .013 1.000 .024 T ota l .019 35.867 .000 ( a) 1.000 1.000 * 8 d e gr e e s o f f r e e d om 表 8.5 总览表 3. Overview Row Points与 Overview Column Points(行 /列点 总览表),如表 8.6,表 8.7。 现以表 8.6为例, Mass项表示行变量中每个类目的边际概率。 Score in dimension下面则是行点在两个维度的坐标( SPSS称 为得分),即有坐标点 Bush( 0.194,-0.156), Perot ( 0.663,0.198), Clinton( -0.346,0.053)。 Inertia项为惯量, 即每个行点与行重心的加权距离的平方。而行惯量为行点与行 重心的加权距离平方和,即 0.19=0.002+0.009+0.008。比较表 8.6和表 8.7的总惯量,可以发现行惯量与列惯量相等。 Contribution项有两个部分,分别是行变量的每个类目对维度 (公共因子)特征值的贡献,每一个维度对每个类目的特征值 的贡献。 O ve r vi e w R ow P oi n t s ( a) C on tr i b u ti o n S c or e i n D i m e n s i on O f P oi n t to I n e r ti a o f D i m e n s i on O f D i me n s i on to I n e r ti a o f P oi n t V O TE F O R C L I N TO N , BU S H , P ER O T M as s 1 2 I n e r ti a 1 2 1 2 T ota l Bu s h .358 .194 - .156 .002 .098 .544 .931 .069 1.000 P e r ot .151 .663 .198 .009 .479 .370 .990 .010 1.000 C l i n ton .491 - .346 .053 .008 .423 .086 .997 .003 1.000 A c ti v e T ota l 1.000 .019 1.000 1.000 * S ym m e tr i c a l n or ma l i z at i on 表 8.6 行点总览表 O ve r vi e w C ol u m n P oi n t s ( a ) C on tr i b u ti o n S c or e i n D i m e n s i on O f P oi n t to I n e r ti a o f D i m e n s i on O f D i me n s i on to I n e r ti a o f P oi n t R S H I G H E S T D E G R EE M as s 1 2 I n e r ti a 1 2 1 2 T ota l l t h i gh s c h oo l .102 - .899 .087 .01 1 .597 .048 .999 .001 1.000 h i gh s c h oo l .512 .173 .014 .002 .1 10 .006 .999 .001 1.000 ju n i or c o l l e g e .072 .357 .352 .001 .066 .554 .899 .101 1.000 b ac h e l or .209 .149 - .168 .001 .034 .370 .871 .129 1.000 gr ad u ate d e gr e e .105 - .506 - .057 .004 .193 .022 .999 .001 1.000 A c ti v e T ota l 1.000 .019 1.000 1.000 * S ym m e tr i c a l n or ma l i z at i on 表 8.7 列点总览表 4. 相应分析图,如图 8.6。 可以发现研究生层次的选民( Graduate degree)倾向于具有 实干精神的 Clinton,而较 Clinton更为激进的 Bush更受 high school和 Bachelor层次的选民欢迎, Perot仅和 junior college层 次的选民较近。 -1 . 0 -0 . 5 0.0 0.5 D im ens io n 1 -0 . 2 -0 . 1 0.0 0.1 0.2 0.3 0.4 Dimen sio n 2 B u sh P e r o t Clinton lt high school high school j u n i o r co l l e g e bachelor g r a d u a t e d e g r e e R S H I G H E S T D E G R E E V O T E F O R C L I N T O N , B U S H , P E R O T S y m m e t r i c a l N o r m a l i za t i o n R o w a n d C o l u m n P o i n t s 图8.6 相 应 分 析 的 二 维 图 5. 如果在 Statistics子对话框中选中了 Row profile和 Column profile, SPSS还会输出以下两张表(表 8.8,表 8.9)。 R ow P r of i l e s R S H I G H E S T D E G R E E V O T E F O R C L I N T O N , B U S H , P E R O T l t h i g h s c h o o l h i g h s c h o o l ju n i o r c o l l e g e b a c h e l o r g r a d u a te d e g r e e A c ti v e M a r g i n B u s h .0 8 3 .5 2 8 .0 7 3 .2 2 1 .0 9 5 1 .0 0 0 P e r o t .0 4 3 .5 7 2 .0 9 4 .2 2 3 .0 6 8 1 .0 0 0 C l i n to n .1 3 5 .4 8 2 .0 6 4 .1 9 7 .1 2 3 1 .0 00 M a s s .1 0 2 .5 1 2 .0 7 2 .2 0 9 .1 0 5 表 8.8 行轮廓表 C ol u m n P r of i l e s R S H I G H E S T D E G R E E V O T E F O R C L I N T O N , B U S H , P E R O T l t h i g h s c h o o l h i g h s c h o o l ju n i o r c o l l e g e b a c h e l o r g r a d u a te d e g r e e M a s s B u s h .2 9 1 .3 7 0 .3 6 4 .3 7 8 .3 2 6 .3 5 8 P e r o t .0 6 3 .1 6 8 .1 9 7 .1 6 1 .0 9 8 .1 5 1 C l i n to n .6 4 6 .4 6 2 .4 3 9 .4 6 1 .5 7 5 .4 9 1 A c ti v e M a r g i n 1 .0 0 0 1 .0 0 0 1 .0 0 0 1 .0 0 0 1 .0 0 0 表 8.9 列轮廓表 6. 行 /列点图(图 8.7,图 8.8)。 如果要单独考察行 /列变量的各个水平在两个公共因子维度上 的分布情况,可在 Plots子对话框中选中 Row points和 Column points。运行后即得下图: -0 . 4 -0 . 2 0.0 0.2 0.4 0.6 0.8 D i m en si on 1 -0 . 2 -0 . 1 0.0 0.1 0.2 D im e n s io n 2 B u s h P e r o t C l i n t o n S y m m e t r i c a l N o r m a l i z a t i o n R o w P o i n t s f o r V O T E F O R C L I N T O N , B U S H , P E R O T 图 8.7 行点在两个公共因子维度上的分布 -1 .0 -0 .8 -0 .6 -0 .4 -0 .2 0.0 0.2 0.4 D im ensio n 1 -0 .2 -0 .1 0.0 0.1 0.2 0.3 0.4 Dimens ion 2 lt high sc hool hi gh sch oo l ju ni or col le ge bachelor gr ad ua t e de gr ee Sy m m e tr i c a l No r m a l i za ti o n Co l u m n Po i n ts fo r RS HI G HE ST DE G RE E 图 8.8 列点在两个公共因子维度上的分布 二 、利用 SPSS进行相应分析 实例 2 沪市 604 家上市公司 2001 年财务报表中有以下十个主要财 务指标。请对因子分析后的因子进行相应分析。 1X :主营业务收入(元), 2X :主营业务利润(元), 3X :利润总额(元), 4X :净利润(元), 5X :每股收益(元), 6X :每股净资产(元), 7X :净资产收益率(), 8X :总资产收益率(), 9X :资产总计(元), 10X :股本。下面列举了 4 只股票的 数据。 c od e 600146 900950 600082 600069 X 1 1,531,125, 205 106,581,997 536,170,246 183,099,889 X 2 - 1,992,739 - 6,138,074 22,818,078 1,185,389 X 3 - 121,376,966 - 209,356,318 - 83,143,688 - 228,540,095 X 4 - 121,764,217 - 191,123,71 1 - 83,249,935 - 227,809,996 X 5 - 0.61 - 0 .58 - 0.56 - 0.61 X 6 1.75 1.06 2.17 1.02 X 7 - 34.81 - 54.27 - 25.72 - 60.26 X 8 - 30.04 - 24.92 - 23.72 - 23.71 X 9 405,382,146. 30 767,045,438. 82 350,930,945. 92 960,701,823. 91 X 1 0 200,000,000. 00 331,914,000. 00 148,980,783. 00 371,600,000. 00 表 8.10 4只股票的财务数据 (一)操作步骤: 1. 首先由 SPSS的因子分析过程(详细步骤参见因子分析一 章),通过主成分法估计和最大方差旋转法进行因子旋转, 发现需要 3个公共因子才能解释 83%以上的方差。可得因子 得分的计算公式为(加上 *号的变量和因子表示都已经标准 化): * * * * * * * 1 1 2 3 4 5 6 * * * * 7 8 9 1 0 0 . 2 1 7 0 . 2 1 6 0 . 1 4 5 0 . 1 3 8 0 . 0 5 4 0 . 0 3 2 0 . 0 6 6 0 . 0 6 6 0 . 2 5 4 0 . 2 4 6 F X X X X X X X X X X * * * * * * * 2 1 2 3 4 5 6 * * * * 7 8 9 1 0 0 . 1 0 9 0 . 0 4 3 0 . 1 1 6 0 . 1 4 4 0 . 2 3 5 0 . 1 6 5 0 . 3 8 1 0 . 3 7 1 0 . 0 8 6 0 . 0 1 6 F X X X X X X X X X X * * * * * * * 3 1 2 3 4 5 6 * * * * 7 8 9 1 0 0 . 1 0 0 0 . 0 9 8 0 . 0 0 4 0 . 0 3 7 0 . 2 1 6 0 . 8 7 6 0 . 2 2 9 0 . 1 5 7 0 . 0 0 8 0 . 2 5 5 F X X X X X X X X X X 因此 factor1可以称为股票规模因子, factor2称为股票收益因子, factor3称为个股价值因子。将这三个因子划分为 5个等级:低 于 -0.5, -0.50, 00.5, 0.51,大于 1,分别编码为 1,2,3,4,5。 这样就可以利用相应分析来详细的研究这三个因子之间的关系。 2. 在相应分析的主对话框中,我们以 factor1和 factor2为例说 明。设置好类目(图 8.9),在 Model子对话框中仍然选择维 数 2,其他设置不变,点击 OK后,就得到相应分析的结果。 图 8.9 相应分析主界面 (二)结果分析: 这里仅列出相应分析表(表 8.11)、总览表(表 8.12)以及 相应分析图(图 8.10),其余图表的分析与前一例题类似。 C or r e s p on d e n c e T ab l e 个股价值因子 股票规模因子 1 2 3 4 5 A c ti v e M ar gi n 1 55 23 31 17 27 153 2 98 83 53 24 26 284 3 16 14 24 11 16 81 4 10 6 9 7 10 42 5 15 8 7 3 11 44 A c ti v e M ar gi n 194 134 124 62 90 604 表 8.11 列联表 S u m m ar y P r op or ti on of I n e r ti a C on fi d e n c e S i n g u l ar V al u e C or r e l at i on D i m e n s i o n S i n g u l ar V al u e I n e r ti a C h i S q u ar e S i g. A c c ou n te d for C u mu l at i v e S tan d ar d D e v i ati o n 2 1 .221 .049 .734 .734 .039 - .018 2 .1 13 .013 .193 .927 .040 3 .058 .00 3 .051 .978 4 .038 .001 .022 1.000 T ota l .066 40.160 .001 ( a) 1.000 1.000 * 16 d e gr e e s of fr e e d om 表 8.12 总览表 从表 8.12中可以看出,卡方检验是显著相关的,因此相应分 析是有意义的,而且只需要两个公共因子就可以解释 92.7% 的总惯量。所以使用二维图就可以充分的反映行列变量之间 的关系了。在图 8-10上可以发现,规模因子为 1和 5,个股价 值因子为 5,这表明“小股票”和“大股票”都可能实现最 高的个股价值,并且“小股票”似乎更有可能。而股票规模 因子中略高于平均水平的取值为 3,4,这两个档次较为接近可 以将其合并为一个档次,相应的个股价值因子也略高于平均 水平。 读者应该可以发现相应分析实际是对两组高维空间的点的二 维投影进行分析。有时在高维空间中相隔很近的点投影后却 显的很远,因此有时需要进一步分析每个类目对公共因子的 贡献大小。同时相应分析主要是建立在图形分析的基础上, 而没有给出足够充分的统计量来度量这种相关程度,因此相 应分析的结果带有一定的主观性。 -0.5 0.0 0.5 Di mension 1 -0.7 5 -0.5 0 -0.2 5 0.00 0.25 0.50 0.75 D im ensio n 2 1 2 3 4 5 1 2 3 4 5 个股价值因子 股票规模因子 Sy mm e tr i c a l No rm a l i za ti on Ro w a nd Co l um n Po i nt s 图 8.10 二维相应分析图 本章结束
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!