从数据到结论(人民大学吴喜之教授)10典型相关PPT课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,典型相关分析,两组变量的相关问题,我们知道如何衡量两个变量之间是否相关的问题；这是一个简单的公式就可以解决的问题（,Pearson,相关系数、,Kendalls,t,、,Spearman,秩相关系数,。,如果我们有两组变量，如何能够表明它们之间的关系呢？,例子（数据,tv.sav),业内人士和观众对于一些电视节目的观点有什么样的关系呢？,数据,tv.sav,是不同的人群对,30,个电视节目所作的平均评分。,观众评分来自低学历,(led),、高学历,(hed),和网络,(net),调查三种，它们形成,第一组变量,；,而业内人士分评分来自包括演员和导演在内的艺术家,(arti),、发行,(com),与业内各部门主管,(man),三种，形成,第二组变量,。人们对这样两组变量之间的关系感到兴趣。,例子（数据,tv.sav),业内人士和观众对于一些电视节目的观点有什么样的关系呢？,数据,tv.sav,是不同的人群对,30,个电视节目所作的平均评分。,观众评分来自低学历,(led),、高学历,(hed),和网络,(net),调查三种，它们形成,第一组变量,；,而业内人士分评分来自包括演员和导演在内的艺术家,(arti),、发行,(com),与业内各部门主管,(man),三种，形成,第二组变量,。人们对这样两组变量之间的关系感到兴趣。,寻找代表,如直接对这六个变量的相关进行两两分析，很难得到关于这两组变量之间关系的一个清楚的印象。,希望能够把多个变量与多个变量之间的相关化为,两个,变量之间的相关。,现在的问题是为每一组变量,选取一个综合变量作为代表；,而一组变量最简单的综合形式就是该组变量的,线性组合,。,由于一组变量可以有无数种线性组合（线性组合由相应的系数确定），因此必须找到,既有意义又可以确定的线性组合。,典型相关分析,(canonical correlation analysis),就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变量（和其他线性组合相比）之间的,相关系数最大。,典型变量,假定两组变量为,X,1,X,2,X,p,和,Y,1,Y,2,Y,q,，那么，问题就在于要寻找系数,a,1,a,2,a,p,和,b,1,b,2,b,q,，和使得新的综合变量（亦称为典型变量,(canonical variable),）,之间的相关关系最大。这种相关关系是用典型相关系数（,canonical correlation coefficient,）来衡量的。,典型相关系数,这里所涉及的主要的数学工具还是矩阵的特征值和特征向量问题。而所得的特征值与,V,和,W,的典型相关系数有直接联系。,由于特征值问题的特点，实际上找到的是多组典型变量,(,V,1,W,1,),(,V,2,W,2,),，其中,V,1,和,W,1,最相关，而,V,2,和,W,2,次之等等，,而且,V,1,V,2,V,3,之间及而且,W,1,W,2,W,3,之间互不相关。这样又出现了选择多少组典型变量,(,V,W,),的问题了。实际上，只要选择特征值累积总贡献占主要部分的那些即可。,软件还会输出一些检验结果；于是只要选择显著的那些,(,V,W,),。,对实际问题，还要看选取的,(,V,W,),是否有意义，是否能够说明问题才行。至于得到,(,V,W,),的计算，则很简单，下面就,tv.sav,数据进行分析。,数学原理？,计算结果,第一个表为判断这两组变量相关性的若干检验，包括,Pillai,迹检验，,Hotelling-Lawley,迹检验，,Wilks,l,检验和,Roy,的最大根检验；它们都是有两个自由度的,F,检验。该表给出了每个检验的,F,值，两个自由度和,p,值（均为,0.000,）。,计算结果,下面一个表给出了特征根,(Eigenvalue),，特征根所占的百分比,(Pct),和累积百分比,(Cum.Pct),和典型相关系数,(Canon Cor),及其平方,(Sq.Cor),。看来，头两对典型变量,(,V,W,),的累积特征根已经占了总量的,99.427%,。它们的典型相关系数也都在,0.95,之上。,计算结果,对于众多的计算机输出挑出一些来介绍。下面表格给出的是第一组变量相应于上面三个特征根的三个典型变量,V,1,、,V,2,和,V,3,的系数，即典型系数,(canonical coefficient),。注意，,SPSS,把第一组变量称为因变量,(dependent variables),，而把第二组称为协变量,(covariates),；显然，这两组变量是完全对称的。这种命名仅仅是为了叙述方便。,这些系数以两种方式给出；一种是没有标准化的原始变量的线性组合的典型系数,(raw canonical coefficient),，一种是,标准化,之后的典型系数,(standardized canonical coefficient),。标准化的典型系数直观上对典型变量的构成给人以更加清楚的印象。,可以看出，头一个典型变量,V,1,相应于前面第一个（也是最重要的）特征值，主要代表高学历变量,hed,；而相应于前面第二个（次要的）特征值的第二个典型变量,V,2,主要代表低学历变量,led,和部分的网民变量,net,，但高学历变量在这里起负面作用。,计算结果,类似地，也可以得到被称为协变量,(covariate),的标准化的第二组变量的相应于头三个特征值得三个典型变量,W,1,、,W,2,和,W,2,的系数：。,例子结论,从这两个表中可以看出，,V,1,主要和变量,hed,相关，,而,V,2,主要和,led,及,net,相关；,W,1,主要和变量,arti,及,man,相关，,而,W,2,主要和,com,相关；这和它们的典型系数是一致的。,由于,V,1,和,W,1,最相关，这说明,V,1,所代表的高学历观众和,W,1,所主要代表的艺术家,(arti),及各部门经理,(man),观点相关；而由于,V,2,和,W,2,也相关，这说明,V,2,所代表的低学历,(led),及以年轻人为主的网民,(net),观众和,W,2,所主要代表的看重经济效益的发行人,(com),观点相关，但远远不如,V,1,和,W,1,的相关那么显著（根据特征值的贡献率）。,SPSS,的,实现,对例,tv.sav,，首先打开例,14.1,的,SPSS,数据,tv.sav,，,通过,File,New,Syntax,打开一个空白文件（默认文件名为,Syntax1.sps,），再在其中键入下面命令行：,MANOVA led hed net WITH arti com man,/DISCRIM ALL ALPHA(1),/PRINT=SIG(EIGEN DIM).,再点击一个向右的三角形图标,(,运行目前程序，,Run current),，就可以得到所需结果了。,还可以把,Syntax1.sps,另以其他名字（比如,tv.sps,）存入一个文件夹。下次使用时就可以通过,File,Open,Syntax,来打开这个文件了。,SPSS,的,实现,注意,1,：典型相关分析是本书内容中唯一不能用,SPSS,的点击鼠标的“傻瓜”方式，而必须用写入程序行来运行的模型。读者不必要再去研究语法的细节，只要能够举一反三，套用这个例子的程序即可。当然，如果读者愿意学习,SPSS,的语法，则在处理数据时，肯定会更方便。,注意,2,：一些,SPSS,的输出很长，这时输出窗口截去了一些内容没有显示（这有些随意性）。这时输出窗口,(SPSS Viewer),中结果的左下角有一个红色的三角型。如果想要看全部内容，可以先点击鼠标左键，选中输出结果，然后从点右键得到的菜单中选择,Export,，就可以把全部结果（包括截去的部分）存入一个,htm,形式的文件了供研究和打印之用。,相关分析,(Correlation Analysis),两个变量时,用线性相关系数,研究两个变量之间的线性相关性,:,典型相关分析,目的,:,研究多个变量之间的相关性,方法,:,利用主成分思想,可以把多个变量与多个变量之间的相关化为两个变量之间的相关,.,即找一组系数,(,向量,),l,和,m,使新变量,U=lX,(1),和,V=mX,(2),有最大可能的相关关系,.,数学,:,设两组随机变量,而,的协方差阵,S,0,均值向量,m,=0,S,的剖分为,:,对于前面的新变量,U=lX,(1),和,V=mX,(2),Var(U)=Var(lX,(1),)=l,S,11,l,Var(V)=Var(mX,(2),)=m,S,22,m,Cov(U,V)=l,S,12,m,r,UV,=l,S,12,m/(l,S,11,l)(m,S,22,m),我们试图在约束条件,Var(U)=1,Var(V)=1,下寻求,l,和,m,使,r,UV,=Cov(U,V)=l,S,12,m,达到最大,.,这是,Lagrange,乘数法求下面,f,的极大值,经过求偏导数和解方程,得到,l=n,=,l,S,12,m,=Cov(U,V),及,因此,l,2,既是,A,又是,B,的特征值,而相应的特征向量为,l,m,可得到,p,1,对线性组合,U,i,=l,(i),X,(1),V,i,=m,(i),X,(2),称每一对变量为,典型变量,.,其极大值,称为,第一典型相关系数,.,一般只取前几个影响大的典型变量和典型相关系数来分析,.,A,和,B,的特征根有如下性质,:,(1)A,和,B,有相同的非零特征根,(2),其数目为,p,1,.A,和,B,的特征根非负,.(3)A,和,B,的特征根均在,0,和,1,之间,.,我们表示这些称为,典型相关系数,的非零特征值和相应的特征向量为,典型变量的性质,:,(1),X,(1),和,X,(2),中的一切典型变量都不相关,.,(2),X,(1),和,X,(2),的同一对典型变量,U,i,和,V,i,之间的相关系数为,l,i,不同对的,U,i,和,V,j,(,ij,),之间不相关,.,样本情况,只要把,S,用样本协差阵或样本相关阵,R,代替,.,下面回到我们的例子。,典型相关系数的显著性检验,:,首先看,X,(1),和,X,(2),是否相关,如不相关,就不必讨论,.,如果,这是为检验第,1,个典型相关系数的显著性,检验统计量为,其中为的特征根,.,如果,H,0,为检验第,r(r F,1 0.919412 0.898444 2.93 0.0223,2 0.418649 0.276633 0.49 0.745,3 0.113366 .0.13 0.7257,表,2,标准化典型变量的系数,Satisfaction1 Satisfaction2 Satisfaction3,Career 0.3028 -0.5416 1.0408,Supervisor S 0.7854 0.1305 -0.9085,Finance 0.0538 0.9754 0.3329,Characteristics1 Characteristics2 Characteristics3,Variety -0.1108 0.8095 0.9071,Feedback 0.5520 -0.7722 0.4194,Autonomy 0.8403 0.1020 -0.8297,（,1,你认为应该选取几对典型变量？有几对典型相关系数是显著的？,试写出你选取的典型变量的表达式（由标准化后的变量表示），并且解释你选取的典型变量的含义,

展开阅读全文

从数据到结论(人民大学吴喜之教授)10典型相关PPT课件

最新文档