资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,统计学,从数据到结论,第十三章 典型相关分析,13.1两组变量的相关问题,我们知道如何衡量两个变量之间是否相关的问题;这是一个简单的公式就可以解决的问题(Pearson相关系数、 Kendalls,t,、 Spearman 秩相关系数)。,公式,如果我们有两组变量,如何能够表明它们之间的关系呢?,例子(数据tv.txt),业内人士和观众对于一些电视节目的观点有什么样的关系呢?,该数据,是不同的人群对30个电视节目所作的平均评分。,观众评分来自低学历(led)、高学历(hed)和网络(net)调查三种,它们形成,第一组变量,;,而业内人士分评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成,第二组变量,。人们对这样两组变量之间的关系感到兴趣。,寻找代表,如直接对这六个变量的相关进行两两分析,很难得到关于这两组变量之间关系的一个清楚的印象。,希望能够把多个变量与多个变量之间的相关化为,两个,变量之间的相关。,现在的问题是为每一组变量,选取一个综合变量作为代表;,而一组变量最简单的综合形式就是该组变量的,线性组合,。,13.2 典型相关分析,由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因此必须找到,既有意义又可以确定的线性组合。,典型相关分析,(canonical correlation analysis)就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变量(和其他线性组合相比)之间的,相关系数最大。,典型变量,假定两组变量为,X,1,X,2,X,p,和,Y,1,Y,2,Y,q,,那么,问题就在于要寻找系数,a,1,a,2,a,p,和,b,1,b,2,b,q,,和使得新的综合变量(亦称为典型变量(canonical variable)),之间的相关关系最大。这种相关关系是用典型相关系数(canonical correlation coefficient)来衡量的。,典型相关系数,这里所涉及的主要的数学工具还是矩阵的特征值和特征向量问题。而所得的特征值与,V,和,W,的典型相关系数有直接联系。,由于特征值问题的特点,实际上找到的是多组典型变量(,V,1,W,1,), (,V,2,W,2,),,其中,V,1,和,W,1,最相关,而,V,2,和,W,2,次之等等,,典型相关系数,而且,V,1,V,2,V,3,之间及而且,W,1,W,2,W,3,之间互不相关。这样又出现了选择多少组典型变量(,V,W,)的问题了。实际上,只要选择特征值累积总贡献占主要部分的那些即可。,软件还会输出一些检验结果;于是只要选择显著的那些(,V,W,)。,对实际问题,还要看选取的(,V,W,)是否有意义,是否能够说明问题才行。至于得到(,V,W,)的计算,则很简单,下面就tv.txt数据进行分析。,数学原理?,计算结果,第一个表为,判,判断这两组,变,变量相关性,的,的若干检验,,,,包括Pillai迹,检,检验,Hotelling-Lawley迹,检,检验,Wilks,l,检验和Roy的最大根,检,检验;它们,都,都是有两个,自,自由度的F,检,检验。该表,给,给出了每个,检,检验的F值,,,,两个自由,度,度和,p,值(均为0.000),。,。,计算结果,下面一个表,给,给出了特征,根,根(Eigenvalue),特,征,征根所占的,百,百分比(Pct)和累,积,积百分比(Cum.Pct)和,典,典型相关系,数,数(Canon Cor)及其平,方,方(Sq.Cor),。,。看来,头,两,两对典型变,量,量(,V,W,)的累积特,征,征根已经占,了,了总量的99.427%。它们的,典,典型相关系,数,数也都在0.95之上,。,。,计算结果,对于众多的,计,计算机输出,挑,挑出一些来,介,介绍。下面,表,表格给出的,是,是第一组变,量,量相应于上,面,面三个特征,根,根的三个典,型,型变量V,1,、V,2,和V,3,的系数,即,典,典型系数(canonicalcoefficient)。注意,,,,SPSS,把,把第一组变,量,量称为因变,量,量(dependent variables),而把,第,第二组称为,协,协变量(covariates),;,;显然,这,两,两组变量是,完,完全对称的,。,。这种命名,仅,仅仅是为了,叙,叙述方便。,这些系数以,两,两种方式给,出,出;一种是,没,没有标准化,的,的原始变量,的,的线性组合,的,的典型系数(rawcanonicalcoefficient),一种,是,是标准化之后的典型,系,系数(standardizedcanonicalcoefficient)。标,准,准化的典型,系,系数直观上,对,对典型变量,的,的构成给人,以,以更加清楚,的,的印象。,可以看出,,头,头一个典型,变,变量V,1,相应于前面,第,第一个(也,是,是最重要的,),)特征值,,主,主要代表高,学,学历变量hed;而相,应,应于前面第,二,二个(次要,的,的)特征值,的,的第二个典,型,型变量V,2,主要代表低,学,学历变量led和部分,的,的网民变量net,但,高,高学历变量,在,在这里起负,面,面作用。,计算结果,类似地,也,可,可以得到被,称,称为协变量(covariate)的标准化,的,的第二组变,量,量的相应于,头,头三个特征,值,值得三个典,型,型变量W,1,、W,2,和W,2,的系数:,。,。,例子结论,从这两个表,中,中可以看出,,,,V,1,主要和变量hed相关,,,,而V,2,主要和led及net,相,相关;W,1,主要和变量arti及man相关,,,,而W,2,主要和com相关;这,和,和它们的典,型,型系数是一,致,致的。,由于V,1,和W,1,最相关,这,说,说明V,1,所代表的高,学,学历观众和W,1,所主要代表,的,的艺术家(arti),及,及各部门经,理,理(man)观点相关,;,;而由于V,2,和W,2,也相关,这,说,说明V,2,所代表的低,学,学历(led)及以年,轻,轻人为主的,网,网民(net)观众和W,2,所主要代表,的,的看重经济,效,效益的发行,人,人(com)观点相关,,,,但远远不,如,如V,1,和W,1,的相关那么,显,显著(根据,特,特征值的贡,献,献率)。,SPSS的,实现,对例tv.sav,首,先,先打开例14.1的SPSS数据tv.sav,,通过FileNew,Syntax打开一,个,个空白文件,(,(默认文件,名,名为Syntax1.sps),,再,再在其中键,入,入下面命令,行,行:,MANOVA ledhednet WITH arti com man,/DISCRIM ALL ALPHA(1),/PRINT=SIG(EIGEN DIM).,再点击一个,向,向右的三角,形,形图标,(,运行目前程,序,序,,Run current),,就可以得,到,到所需结果,了,了。,还可以把,Syntax1.sps另以其他,名,名字(比如tv.sps)存入一,个,个文件夹。,下,下次使用时,就,就可以通过FileOpenSyntax来打开这,个,个文件了。,SPSS的,实现,注意1:典,型,型相关分析,是,是本书内容,中,中唯一不能,用,用SPSS,的,的点击鼠标,的,的“傻瓜”,方,方式,而必,须,须用写入程,序,序行来运行,的,的模型。读,者,者不必要再,去,去研究语法,的,的细节,只,要,要能够举一,反,反三,套用,这,这个例子的,程,程序即可。,当然,如果,读,读者愿意学,习,习SPSS,的,的语法,则,在,在处理数据,时,时,肯定会,更,更方便。,SPSS的,实现,注意2:一,些,些SPSS,的,的输出很长,,,,这时输出,窗,窗口截去了,一,一些内容没,有,有显示(这,有,有些随意性,),)。这时输,出,出窗口(SPSS Viewer)中结果的,左,左下角有一,个,个红色的三,角,角型。,如果想要看,全,全部内容,,可,可以先点击,鼠,鼠标左键,,选,选中输出结,果,果,然后从,点,点右键得到,的,的菜单中选,择,择Export,就可,以,以把全部结,果,果(包括截,去,去的部分),存,存入一个htm形式的,文,文件了供研,究,究和打印之,用,用。,附录,两个变量时,用线性相,关,关系数,研究两个变,量,量之间的线,性,性相关性,:,返回,典型相关分,析,析,目的:,研究多个变,量,量之间的相,关,关性,方法:利用,主,主成分思想,可以把多,个,个变量与多,个,个变量之间,的,的相关化为,两,两个变量之,间,间的相关.,即,即找一组,系,系数(向量),l,和,m, 使新变,量,量,U=lX,(1),和,V=mX,(2),有最大可能,的,的相关关系.,数学:设两组随机,变,变量,而,的协方差阵,S,0,均值,向,向量,m,=0,S,的剖分为:,对于前面的,新,新变量,U=lX,(1),和,V=mX,(2),Var(U)=Var(lX,(1),)=l,S,11,l,Var(V)=Var(mX,(2),)=m,S,22,m,Cov(U,V)=l,S,12,m,r,UV,=l,S,12,m/(l,S,11,l)(m,S,22,m),我们试图在,约,约束条件,Var(U)=1,Var(V)=1,下寻求,l,和,m,使,r,UV,= Cov(U,V)=l,S,12,m,达到最大.,这是Lagrange,乘,乘数法求下,面,面,f,的极大值,经过求偏导,数,数和解方程, 得到l=n,=,l,S,12,m,=Cov(U,V),及,及,因此,l,2,既是A又是B的特征值, 而相应,的,的特征向量,为,为,l,m,可得到,p,1,对线性组合,U,i,=l,(i),X,(1), V,i,=m,(i),X,(2),称每一对,变,变量为典型变量.其极大值,称为第一典型相,关,关系数.一般只取前,几,几个影响大,的,的典型变量,和,和典型相关,系,系数来分析.,A和B的特,征,征根有如下,性,性质:(1)A和B有相同的,非,非零特征根, (2),其,其数目为p,1,. A和B,的,的特征根非,负,负. (3) A和B,的,的特征根均,在,在0和1之,间,间.,我们表示这,些,些称为典型相关系,数,数的非零特征,值,值和相应的,特,特征向量为,典型变量的,性,性质:,(1),X,(1),和,X,(2),中的一切典,型,型变量都不,相,相关.,(2),X,(1),和,X,(2),的同一对典,型,型变量,U,i,和,V,i,之间的相关,系,系数为,l,i, 不同对,的,的,U,i,和,V,j,(,ij,)之间不相,关,关.,样本情况,只,只要把,S,用样本协差,阵,阵或样本相,关,关阵R代替.,下面回到我,们,们的例子。,典型相关系,数,数的显著性,检,检验:,首先看,X,(1),和,X,(2),是否相关,如,如不相关,就,就不必讨,论,论.如果,这是为检验,第,第1个典型,相,相关系数的,显,显著性,检验统计量,为,为,其中,为,为,的,的特征根.,如果H,0,为检验第r(rk),个,个典型相关,系,系数的显著,性,性,检验统计量,为,为,当然在实际,例,例子中一般,并,并不知道,S,。因此在只,有,有样本数据,的,的情况下,只,只要把,S,用样本协差,阵,阵或样本相,关,关阵代替就,行,行了。但是,这,这时的特征,根,根可能不在0和1的范,围,围,因此会,出,出现软件输,出,出中的特征,根,根(比如大,于,于1)不等,于,于相关系数,的,的平方的情,况,况,这时,,各,各种软件会,给,给出调整后,的,的相关系数,。,。,典型相关和,回,回归分析的,关,关系,把,X,(1),和,X,(2),换,成,成,回,回,归,归,中,中,的,的X,和,和Y,这,这,就,就,是,是,因,因,变,变,量,量,和,和,自,自,变,变,量,量,之,之,间,间,的,的,相,相,关,关,问,问,题,题.,而,而Y,在,在X,上,上,的,的,投,投,影,影,就,就,是,是,回,回,归,归,了,了.,演,讲,讲,完,完,毕,毕,,,,,谢,谢,谢,谢,观,观,看,看,!,!,
展开阅读全文