资源描述
第 十 四 章 典 型 相 关 分 析 14.1两组变量的相关问题 v我们知道如何衡量两个变量之间是否相关的问题;这是一个简单的公式就可以解决的问题(Pearson相关系数、 Kendalls t、 Spearman 秩相关系数)。公式v如果我们有两组变量,如何能够表明它们之间的关系呢? 例子(数据tv.txt) v业内人士和观众对于一些电视节目的观点有什么样的关系呢?该数据是不同的人群对30个电视节目所作的平均评分。v观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,它们形成第一组变量;v而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成第二组变量。人们对这样两组变量之间的关系感到兴趣。 寻找代表 v如直接对这六个变量的相关进行两两分析,很难得到关于这两组变量之间关系的一个清楚的印象。v希望能够把多个变量与多个变量之间的相关化为两个变量之间的相关。v现在的问题是为每一组变量选取一个综合变量作为代表;v而一组变量最简单的综合形式就是该组变量的线性组合。 14.2 典型相关分析v由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因此必须找到既有意义又可以确定的线性组合。v典型相关分析(canonical correlation analysis)就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变量(和其他线性组合相比)之间的相关系数最大。 典型变量v假定两组变量为X1,X2,Xp和Y1,Y2,Yq,那么,问题就在于要寻找系数a1,a2,ap和b1,b2,bq,和使得新的综合变量(亦称为典型变量(canonical variable)) 1 1 2 21 1 2 2 p pq qV a X a X a XW bY b Y b Y 之间的相关关系最大。这种相关关系是用典型相关系数(canonical correlation coefficient)来衡量的。 典型相关系数 v这里所涉及的主要的数学工具还是矩阵的特征值和特征向量问题。而所得的特征值与V和W的典型相关系数有直接联系。v由于特征值问题的特点,实际上找到的是多组典型变量(V1, W1), (V2, W2),,其中V1和W1最相关,而V2和W2次之等等, 典型相关系数 v而且V1, V2, V3,之间及而且W1, W2, W3,之间互不相关。这样又出现了选择多少组典型变量(V, W)的问题了。实际上,只要选择特征值累积总贡献占主要部分的那些即可。v软件还会输出一些检验结果;于是只要选择显著的那些(V, W)。v对实际问题,还要看选取的(V, W)是否有意义,是否能够说明问题才行。至于得到(V, W)的计算,则很简单,下面就tv.txt数据进行分析。数学原理? 计算结果 v第一个表为判断这两组变量相关性的若干检验,包括Pillai迹检验,Hotelling-Lawley迹检验,Wilks l检验和Roy的最大根检验;它们都是有两个自由度的F检验。该表给出了每个检验的F值,两个自由度和p值(均为0.000)。 计算结果 v下面一个表给出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累积百分比(Cum. Pct)和典型相关系数(Canon Cor)及其平方(Sq. Cor)。看来,头两对典型变量(V, W)的累积特征根已经占了总量的99.427%。它们的典型相关系数也都在0.95之上。 计算结果 v对于众多的计算机输出挑出一些来介绍。下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量V1、V2和V3的系数,即典型系数(canonical coefficient)。注意,SPSS把第一组变量称为因变量(dependent variables),而把第二组称为协变量(covariates);显然,这两组变量是完全对称的。这种命名仅仅是为了叙述方便。v这些系数以两种方式给出;一种是没有标准化的原始变量的线性组合的典型系数(raw canonical coefficient),一种是标准化之后的典型系数(standardized canonical coefficient)。标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。 可以看出,头一个典型变量V1相应于前面第一个(也是最重要的)特征值,主要代表高学历变量hed;而相应于前面第二个(次要的)特征值的第二个典型变量V2主要代表低学历变量led和部分的网民变量net,但高学历变量在这里起负面作用。 计算结果 v类似地,也可以得到被称为协变量(covariate)的标准化的第二组变量的相应于头三个特征值得三个典型变量W1、W2和W2的系数: 。 例子结论 v从这两个表中可以看出,V1主要和变量hed相关,而V2主要和led及net相关;W1主要和变量arti及man相关,而W2主要和com相关;这和它们的典型系数是一致的。v由于V1和W1最相关,这说明V1所代表的高学历观众和W1所主要代表的艺术家(arti)及各部门经理(man)观点相关;而由于V2和W2也相关,这说明V2所代表的低学历(led)及以年轻人为主的网民(net)观众和W2所主要代表的看重经济效益的发行人(com)观点相关,但远远不如V 1和W1的相关那么显著(根据特征值的贡献率)。 SPSS的 实 现v对例tv.sav,首先打开例14.1的SPSS数据tv.sav,v通过FileNewSyntax打开一个空白文件(默认文件名为Syntax1.sps),再在其中键入下面命令行:vMANOVA led hed net WITH arti com manv/DISCRIM ALL ALPHA(1) v/PRINT=SIG(EIGEN DIM).v再点击一个向右的三角形图标(运行目前程序,Run current),就可以得到所需结果了。 v还可以把Syntax1.sps另以其他名字(比如tv.sps)存入一个文件夹。下次使用时就可以通过FileOpenSyntax来打开这个文件了。 SPSS的 实 现v注意1:典型相关分析是本书内容中唯一不能用SPSS的点击鼠标的“傻瓜”方式,而必须用写入程序行来运行的模型。读者不必要再去研究语法的细节,只要能够举一反三,套用这个例子的程序即可。v当然,如果读者愿意学习SPSS的语法,则在处理数据时,肯定会更方便。 SPSS的 实 现v注意2:一些SPSS的输出很长,这时输出窗口截去了一些内容没有显示(这有些随意性)。这时输出窗口(SPSS Viewer)中结果的左下角有一个红色的三角型。v如果想要看全部内容,可以先点击鼠标左键,选中输出结果,然后从点右键得到的菜单中选择Export,就可以把全部结果(包括截去的部分)存入一个htm形式的文件了供研究和打印之用。 附 录 两 个 变 量 时 ,用 线 性 相 关 系 数 研 究 两个 变 量 之 间 的 线 性 相 关 性 : 2 2 ( , )( , ) ( ) ( )( )( )( ) ( )i iixy i ii i Cov X YCorr X Y Var X Var Yx x y yr x x y y 返回 典 型 相 关 分 析v目 的 :研 究 多 个 变 量 之 间 的 相 关 性v方 法 :利 用 主 成 分 思 想 ,可 以 把 多 个变 量 与 多 个 变 量 之 间 的 相 关 化 为 两个 变 量 之 间 的 相 关 . 即 找 一 组 系 数 (向 量 )l和 m, 使 新 变 量 U=lX(1)和V=mX(2)有 最 大 可 能 的 相 关 关 系 . 数 学 : 设 两 组 随 机 变 量而 (1)(2)XX X 1 1 1 2(1) (2)1 1 1 2 1 2( ,., ), ( ,., ), ,p p p pX X X X X X p p p p p 的 协 方 差 阵 S0,均 值 向 量 m=0, S的 剖 分 为 : 11 1221 22S S S S S 对 于 前 面 的 新 变 量 U=lX(1)和 V=mX(2)Var(U)=Var(lX(1) )=lS11lVar(V)=Var(mX(2) )=mS22mCov(U,V)=lS12m, rUV=lS12m/(lS11l)(mS22m) 我 们 试 图 在 约 束 条 件 Var(U)=1, Var(V)=1下 寻 求l和 m使 r UV= Cov(U,V)=lS12m达 到 最 大 . 这 是 Lagrange乘 数 法 求 下 面 f的 极 大 值经 过 求 偏 导 数 和 解 方 程 , 得 到 ln=lS12m=Cov(U,V), 及2 2 1 1 1 111 12 22 21 22 21 11 12, ,( , )Al l Bm mA Bl l S S S S S S S S12 11 22 ( 1) ( 1)2 2l m l l m m l nf S S S 因 此 l2既 是 A又 是 B的 特 征 值 , 而 相 应 的 特 征向 量 为 l,m 可 得 到 p1对 线 性 组 合 Ui=l(i)X(1), Vi=m(i)X(2),称 每 一 对 变 量 为 典 型 变 量 . 其 极 大 值称 为 第 一 典 型 相 关 系 数 . 一 般 只 取 前 几 个 影响 大 的 典 型 变 量 和 典 型 相 关 系 数 来 分 析 .1 11 ( ) ( )2 2 2 (1) (1)1 2 0; , ; ,p pp l l m ml l l A和 B的 特 征 根 有 如 下 性 质 : (1)A和 B有 相同 的 非 零 特 征 根 , (2)其 数 目 为 p1. A和 B的 特征 根 非 负 . (3) A和 B的 特 征 根 均 在 0和 1之 间. 我 们 表 示 这 些 称 为 典 型 相 关 系 数 的 非 零 特征 值 和 相 应 的 特 征 向 量 为 1 1 1U Vr l 典 型 变 量 的 性 质 : (1)X(1)和 X(2)中 的 一 切 典 型 变 量 都 不 相 关 . (2) X(1)和 X(2)的 同 一 对 典 型 变 量 Ui和 Vi之 间 的相 关 系 数 为 li, 不 同 对 的 Ui和 Vj(ij)之 间 不相 关 . 样 本 情 况 , 只 要 把 S用 样 本 协 差 阵 或 样 本 相 关 阵 R代 替 .下 面 回 到 我 们 的 例 子 。 典 型 相 关 系 数 的 显 著 性 检 验 : 首 先 看 X(1)和 X(2)是 否 相 关 ,如 不 相 关 , 就 不 必 讨 论 .如 果1 2(1) (2)(1) (2)0 12( , ) ( , ).: ( , ) 0p pX X X NH Cov X X m SS 这 是 为 检 验 第 1个 典 型 相 关 系 数 的 显 著 性检 验 统 计 量 为 1 21 (1 )p ii l 其 中 为 的 特 征 根 .1 111 12 22 21A R R R R 2il 20 0 1 2 1 2, ln ( ) ( 1)11 ( 1).2under H Q m p p when nm n p p 如 果 H0为 检 验 第 r(rk)个 典 型 相 关 系 数 的 显 著 性检 验 统 计 量 为 1 21 (1 )pr ii r l 20 0 1 2 1 2, ln ( ) ( 1)1 ( 1); ( 1)( 1)2under H Q m f when nm n r p p f p r p r 当然在实际例子中一般并不知道S。因此在只有样本数据的情况下, 只要把S用样本协差阵或样本相关阵代替就行了。但是这时的特征根可能不在0和1的范围,因此会出现软件输出中的特征根(比如大于1)不等于相关系数的平方的情况,这时,各种软件会给出调整后的相关系数。 典 型 相 关 和 回 归 分 析 的 关 系把 X(1)和 X(2)换 成 回 归 中 的 X和 Y, 这 就 是 因 变量 和 自 变 量 之 间 的 相 关 问 题 . 而 Y在 X上 的投 影 ,就 是 回 归 了 .
展开阅读全文