ch7SAS典型相关与对应分析 91

资源描述

*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第七章典型相关与对应分析,7.1,典型相关分析,7.2,对应分析,7.1,典型相关分析,7.1.1,典型相关分析的概念与步骤,7.1.2,用,INSIGHT,模块实现典型相关分析,7.1.3,用“分析家”实现典型相关分析,7.1.4,用,CANCORR,过程实现典型相关分析,7.1.1,典型相关分析的概念与步骤,1.,典型相关分析的基本思想,典型相关分析采用主成分的思想浓缩信息，根据变量间的相关关系，寻找少数几对综合变量,(,实际观测变量的线性组合,),，用它们替代原始观测变量，从而将二组变量的关系集中到少数几对综合变量的关系上，通过对这些综合变量之间相关性的分析，回答两组原始变量间相关性的问题。除了要求所提取的综合变量所含的信息量尽可能大以外，提取时还要求第一对综合变量间的相关性最大，第二对次之，依次类推。,这些综合变量被称为典型变量，或典则变量，第,1,对典型变量间的相关系数则被称为第,1,典型相关系数。典型相关系数能简单、完整地描述两组变量间关系的指标。当两个变量组均只有一个变量时，典型相关系数即为简单相关系数；当其中的一组只有一个变量时，典型相关系数即为复相关系数。,2.,典型相关系数与典型相关变量,设,X,= (,X,1,，,X,2,，,，,X,p,),，,Y,= (,Y,1,，,Y,2,，,，,Y,q,),是两个随机向量。利用主成分思想寻找第,i,对典型相关变量,(,U,i,，,V,i,),：,U,i,=,a,i,1,X,1,+,a,i,2,X,2,+ +,a,ip,X,p,=,a,i,X,V,i,=,b,i,1,Y,1,+,b,i,2,Y,2,+ +,b,iq,Y,q,=,b,i,Y,i,= 1,，,2,，,，,m,= min(,p,，,q,),；,称,a,i,和,b,i,为,（,第,i,对,）,典型变量系数或典型权重。,记第一对典型相关变量间的典型相关系数为：,CanR,1,= Corr(,U,1,，,V,1,),（使,U,1,与,V,1,间最大相关）；,第二对典型相关变量间的典型相关系数为：,CanR,2,= Corr(,U,2,，,V,2,),（与,U,1,、,V,1,无关；使,U,2,与,V,2,间最大相关）,第,m,对典型相关变量间的典型相关系数为：,CanR,m,=,Corr(,U,m,，,V,m,),（与,U,1,，,V,1,，,，,U,m,1,，,V,m,1,无关；,U,m,与,V,m,间最大相关）,3.,典型相关变量的性质,各对典型相关变量所包括的相关信息互不交叉，且满足：,1),U,1,，,U,2,，,，,U,m,互不相关，,V,1,，,V,2,，,，,V,m,互不相关，即其相关系数为,2),同一对典型相关变量,U,i,和,V,i,之间的相关系数为,CanR,i,，不同对的典型相关变量之间互不相关，即：,3),U,i,和,V,i,的均值为,0,，方差为,1,（,i,= 1,，,，,m,）。,4) 1 CanR,1, CanR,2, ,CanR,m, 0,4.,典型相关系数的求解步骤,1),求,X,，,Y,变量组的相关阵,R,=,；,2),求矩阵,A,= (,R,11,),1,R,12,(,R,22,),1,R,21,和,B,= (,R,22,),1,R,21,(,R,11,),1,R,12,，,可以证明,A,、,B,有相同的非零特征值；,3),求,A,或,B,的特征值,i,与,CanR,i,，,A,或,B,的特征值即为典型相关系数的平方：,i,= (CanR,i,),2,，,i,= 1,，,，,m,。,4),求,A,、,B,关于,i,的特征向量。设,a,i,为,A,关于,i,的特征向量，,b,i,为,B,关于,i,的特征向量，则,a,i,和,b,i,为,（,第,i,对,）,典型变量系数。即第,i,对典型相关变量,(,U,i,，,V,i,),：,U,i,=,a,i,X,*,=,a,i,1,X,1,*,+,a,i,2,X,2,*,+ +,a,ip,X,p,*,V,i,=,b,i,Y,*,=,b,i,1,Y,1,*,+,b,i,2,Y,2,*,+ +,b,iq,Y,q,*,i,= 1,，,2,，,，,m,= min(,p,，,q,),；,其中,X,*,，,Y,*,为原变量组的标准化。,5.,特征根,特征根,(,eigenvalue,),是方差分析和多元检验的基础，特征根与典型相关系数之间的数量关系为：,上式可以理解为第,i,对典型变量表示观测变量总方差作用的指标，它的值越大说明表示作用越大。,6.,典型相关系数的标准误,7.,典型相关系数的假设检验,典型相关系数的假设检验包括对全部总体典型相关系数的检验和对部分总体典型相关系数的检验。对数据的要求：,1),两个变量组均应服从多维正态分布：,(,X,，,Y,),N,p,+,q,(,，,2,),2),n,p,+,q,(1),全部总体典型相关系数为,0,H,0,：,CanR,i,= 0,，,i,= 1,，,，,m,H,1,：至少有一个,CanR,i, 0,检验的似然比统计量为,对于充分大的,n,，当,H,0,成立时，统计量,近似服从自由度为,pq,的,2,分布。,(2),部分总体典型相关系数为,0,仅对较小的典型相关作检验：,H,0,：,CanR,i,= 0,，,i,=,s,，,，,m,，,2 ,s,m,H,1,：至少有一个,CanR,i, 0,其检验的统计量为,对于充分大的,n,，当,H,0,成立时，统计量,近似服从自由度为,(,p,k,)(,q,k,),的,2,分布。,7.1.2,用,INSIGHT,模块实现典型相关分析,1.,实例,【,例,7,-1,】1985,年中国,28,省市城市男生,(19,22,岁,),的调查数据，见表,7-1,。其中,6,项形态指标：身高,(cm),、坐高、体重,(kg),、胸围、肩宽、盆骨宽，分别记为,x,1,，,x,2,，,，,x,6,；,5,项机能指标：脉搏,(,次,/,分,),、收缩压,(mmHg),、舒张压,(,变音,),、舒张压,(,消音,),、肺活量,(ml),，分别记为,y,1,，,y,2,，,，,y,5,。,表,7-1,城市男生,(19,22,岁,),形态与机能调查数据,设表中数据已经存放在数据集,Mylib.xtyjn,中，试分析形态指标和机能指标这两组变量间的相关性。,编号,身高,x1,坐高,x2,体重,x3,胸围,x4,肩宽,x5,盆骨宽,x6,脉搏,y1,收缩压,y2,舒张压,y3,舒张压,y4,肺活量,y5,1,173.28,93.62,60.1,86.72,38.97,27.51,75.3,117.4,74.6,61.8,4508,2,172.09,92.83,60.38,87.39,38.62,27.82,76.7,120.1,77.1,66.2,4469,3,171.46,92.78,59.74,85.59,38.83,27.46,75.8,121.8,75.2,65.4,4398,4,170.08,92.25,58.04,85.92,38.33,27.29,76.1,115.1,73.8,61.3,4068,5,170.61,92.36,59.67,87.46,38.38,27.14,72.9,119.4,77.5,67.1,4339,16,167.94,90.91,55.97,86.66,38.17,27.16,76.2,110.9,68.5,56.8,4141,17,168.82,91.3,56.07,85.87,37.61,26.67,77.2,113.8,71,57.5,3905,18,168.02,91.26,55.28,85.63,39.66,28.07,74.5,117.2,74,63.8,3943,19,167.87,90.96,55.79,84.92,38.2,26.53,74.3,112.3,69.3,50.2,4195,20,168.15,91.5,54.56,84.81,38.44,27.38,77.5,117.4,75.3,63.6,4039,21,168.99,91.52,55.11,86.23,38.3,27.14,77.7,113.3,72.1,52.8,4238,2.,分析设置,在,INSIGHT,模块中打开数据集,Mylib.xtyjn,。,1),选择菜单“,Analyze”,“Multivariate(Y,X),（多元分析）”，打开“,Multivariate(Y,X)”,对话框；,2),将,6,项形态指标：,x,1,至,x,6,选为,X,变量，将,5,项机能指标：,y,1,至,y,5,选为,Y,变量，如图,7-1,左所示。,3),单击“,Output”,按钮，在打开的对话框中选中“,Canonical Correlation Analysis,（典型相关分析）”复选框，单击下面的“,Canonical Correlation Options,（典型相关选项）”按钮，打开“,Canonical Correlation Options”,对话框,并按下图右所示设置。,4),三次单击“,OK”,按钮，得到分析结果。,3.,结果分析,(1),典型相关系数,第,1,典型相关系数为,0.939573,，校正值为,0.908276,，标准误差为,0.026207,，典型相关系数的平方为,0.882797,；第,2,典型相关系数为,0.877842,，校正值为,0.842459,，标准误差为,0.051294,，典型相关系数的平方为,0.770606,，如图所示。,前两个典型相关系数比形态指标和机能指标两组间的任何一个相关系数都大。,(2),典型变量所解释的变异,第二部分是的,5,个特征根（,Eigenvalues,），包括：特征根、相邻两个特征根之差、特征根所占方差信息量的比例和累积方差信息量的比例。从中可以看出，前两对典型变量所能解释的变异占总变异（方差）的,91.18%,，如图,7-4,所示。其它三个典型相关变量的作用很小，一共只解释了总变异的,9%,，可以不予考虑。,(3),典型相关系数的检验,用似然比法检验典型相关系数与零的差别是否显著，其原假设为小于此对典型变量典型相关系数的所有典型相关系数都为,0,，其,p,值依次为,0.0010,，,0.0509,和,0.5089,等等，如图,7-5,所示，说明前两对典型相关系数基本具有显著意义（在, 0.0509,的显著水平下）。因此，两组变量相关性的研究可转化为研究前两对典型相关变量的相关性。,(4),典型相关结构,典型相关结构（下图）分别是各组原始变量与典型变量两两之间的相关系数矩阵。从相关系数判断，形态指标中除,x,5,（,0.0514,）、,x,6,（,0.2433,）外各变量与第一典型变量间的相关性都比较高，机能指标中除,y,2,（,0.0975,）外各变量与第一典型变量间的相关性也都比较高。,x,5,与第二典型变量间的相关性比较高，,y,2,与第二典型变量间的相关性比较高。,y,1,与前两个典型变量的相关系数为负值。,说明，第一对典型变量对肩宽,x,5,和收缩压,y,2,的解释作用不大。,另外，从形态指标组的变量和机能指标组的典型变量之间，以及机能指标组的变量和形态指标组的典型变量之间的相关系数可见，各组变量与前两对典型变量之间均有较强的相关。,(5),标准化变量的典型相关变量的系数,输出结果中还给出标准化变量的典型变量系数，如图所示。,来自机能指标的第一典型变量,CY1,为,(,原始变量的右上角带“*”表示为标准化变量,),：,CY1 = 0.071672,y,1,*, 0.789642,y,2,*,+ 0.567178,y,3,*,+ 0.508332,y,4,*,+ 0.533496,y,5,*,容易看出，,CY1,主要代表了舒张压变音、舒张压消音、肺活量等指标。,来自形态指标的第一典型变量,CX1,为：,CX1 = 0.4287,x,1,*, 0.09696,x,2,*, 0.16210,x,3,*,+ 0.93745,x,4,*,+ 0.23498,x,5,*, 0.18696,x,6,*,易知，,CX1,主要代表了胸围、身高和肩宽等指标。,关于第二典型变量有：,CY2 = 0.026533,y,1,*,+ 1.213436,y,2,*, 0.535038,y,3,*, 0.186048,y,4,*,+ 0.455870,y,5,*,CX2 = 0.70270,x,1,*, 0.39985,x,2,*,+ 0.84359,x,3,*, 0.99063,x,4,*, 0.06829,x,5,*,+ 0.48310,x,6,*,可见，,CY2,代表了收缩压和肺活量等指标；,CX2,代表了身高、体重、盆骨宽等指标。,(6),典型冗余分析,典型冗余分析,(canonical redundancy analysis),表明，两对典型变量仍不能全面预测配对的那组变量。来自形态指标的标准方差被对方两个典型变量（,CY1,、,CY2,）解释的累积方差比例为,55.86%,，来自机能指标的标准方差被对方两个典型变量（,CX1,、,CX2,）解释的累积方差比例为,44.61%,，如图所示。,7.1.3,用“分析家”实现典型相关分析,1.,实例,【,例,7-2】,某康复俱乐部对,20,名中年人测量了,3,项生理指标：体重,(weight),、腰围,(waist),、脉搏,(pulse),和,3,项运动指标：引体向上,(chins),、起坐次数,(,situps,),、跳跃次数,(jumps),。其数据列于表,7-2,中。,表,7-2,某康复俱乐部测量的生理指标和运动指标,设表中数据已经存放在数据集,Mylib.slzb,中，试分析生理指标和运动指标这两组变量间的相关性。,编号,体重,weight,腰围,waist,脉搏,pulse,引体向上,chins,起坐次数,situps,跳跃次数,jumps,l,191,36,50,5,162,60,2,189,37,52,2,110,60,3,193,38,58,12,101,101,4,162,35,62,12,105,37,5,189,35,46,13,155,58,6,182,36,56,4,101,42,13,154,34,64,14,215,105,14,247,46,50,1,50,50,15,193,36,46,6,70,31,16,202,37,62,12,210,120,17,176,37,54,4,60,25,18,157,32,52,11,230,80,19,156,33,54,15,225,73,20,138,33,68,2,110,43,2.,分析设置,1),在“分析家”中打开数据集,Mylib.slzb,；,2),选择菜单“,Statistics,（统计）”,“,Multivariate,（多元分析）”,“,Canonical Correlation,（典型相关分析）”，打开“,Canonical Correlation”,对话框；,3),在对话框中将生理指标选为,Set1,，运动指标选为,Set2,，如图所示。,4),单击“,Statistics,（统计）”按钮，打开“,Canonical Correlation,：,Statistics”,对话框；,选中“,Canonical redundancy statistics”,复选框，并选择,3,个典型变量，如图所示。两次单击“,OK”,按钮，得到计算结果。,3.,结果分析,(1),典型相关系数及显著性检验,第一部分的,4,列依次是：典型相关系数、校正的典型相关系数、近似的标准误以及典型相关系数的平方。从图,7-10,中可以看出，本例提取了,3,个典型相关系数，第一个典型相关系数,CanR,1,= 0.795608,，其校正值为,0.754056,，标准误为,0.084197,，,CanR,1,2,= 0.632992,，第一典型相关系数表示的是第一对典型相关变量之间的相关性。第二个典型相关系数为,0.200556,，第三个为,0.072570,。,第二部分是特征根以及相应的统计量，如图所示。,可以看出，第一对典型变量所能解释的变异已占总变异的,97.34%,，其它两个典型相关变量的作用很小，一共只解释了总变异的,3%,，可以不予考虑。,右边,4,列给出对典型相关系数的检验，结果表明，第一行的,F,值,2.05,，,p,值为,0.0635,，在,0.07,的检验水平下，应拒绝原假设，认为第一相关系数以及比它小的两个相关系数不为,0,；后两行检验的,p,值都远大于显著水平,0.05,，故可以认为只有第一个典型相关系数不为,0,。,第三部分输出的是用四种多元统计方法进行的所有典型相关系数均为,0,的,F,检验结果，如图所示。四种方法中一般参照,Wilks, Lambda,检验的结果。本例中的,Wilks, Lambda,检验结果与前述完全一致，表明至少有一个典型相关系数在, = 0.0635,的显著水平下非,0,。,(2),典型变量系数与典型结构,第四部分给出的是用原始变量表达的典型变量系数,(,典型权重,),，如图所示。,因,6,个变量没有使用相同单位进行测量，因此考虑分析标准化后的系数。,第五部分给出的是用标准化变量（对原始变量标准化）表达的典型变量系数，如图所示。,V1 = 0.7754 weight,*,+1.5793 waist,*, 0.0591 pulse,*,它近似地是,waist,*,和,weight,*,的加权差，在,waist,*,上权重更大些。,V1,在,pulse,*,上系数近似为,0,。,W1 = 0.3495 chins,*, 1.0540,situps,*,+ 0.7164 jumps,*,它在,situps,*,上的系数最大。这一对典型变量主要是反映,waist,*,和,situps,*,的负相关关系。,第六部分为典型结构，分别是各组原始变量与典型变量两两之间的相关系数矩阵，如图所示。可以看出：,在原始变量与本组的典型变量的相关关系,(,典型载荷,),中，生理指标的典型变量,V1,与腰围,waist,的相关系数最大,(0.9254),，说明这个典型变量主要反映人的肥胖程度；运动指标的典型变量,W1,与起坐次数,situps,和引体向上次数,chins,有较大的负相关关系,(-0.7276,，,-0.8177),，说明这个典型变量主要反映人不适合运动的程度。,在原始变量与配对组的典型变量的相关关系,(,典型交叉载荷,),的分析结果中，腰围,waist,与运动指标的第,1,典型变量,W1,的相关性较强，这也说明了腰围大,(,体形较胖,),则运动能力差；起坐次数和引体向上与生理指标的第,1,典型变量,V1,呈一定的负相关系数，说明人的体形肥胖程度对这两种运动能力有负面影响。,(3),典型冗余分析,第七部分给出典型冗余分析的结果,上图是变量的原始方差通过它的典型变量和配对的典型变量所解释的方差比例。,下图是变量的标准化方差通过它的典型变量和配对的典型变量所解释的方差比例。,图中看出，生理指标通过它的第一个典型变量解释的共享方差的比例是,45.08,，而被对方第一个典型变量,W1,解释的方差比例为,28.54%,，其比值,28.54/45.08= 0.6330,恰为,CanR,2,。运动指标通过它的第一个典型变量解释的共享方差的比例是,40.81,，而被对方个典型变量,V1,解释的方差比例为,25.84%,，其比值也是,0.6330,。,第八部分给出各原始变量和配对组的典型变量间的复相关系数（,Multiple Correlations,）的平方（图,7-18,），即原始变量与典型变量的判定系数，如,weight,与第,1,典型变量,W1,的相关系数为,0.4938,（见图,7-15,），则其复相关系数平方为,0.4938,2,= 0.2438,。,由复相关系数的平方可看出，生理指标的第一典型变量,W1,对,chins(0.3351),和,situps(0.4233),有一定解释能力，但对,jumps(0.0167),几乎没有解释能力。而来自运动指标的第一典型变量,V1,对,waist(0.5421),有相当好的解释能力，对,weight(0.2438),较差，而对,pulse(0.0701),几乎没有解释能力。其中，运动指标的第一典型变量对生理指标中的腰围指标解释能力最强，可以说明运动对体形影响较大，加强体育锻炼可以减肥。,7.1.4,用,CANCORR,过程实现典型相关分析,1. CANCORR,过程,CANCORR,过程的常用语法格式如下：,PROC CANCORR ,；,WITH ,；,VAR ,；,RUN;,其中,PROC CANCORR,语句、,WITH,语句是每个过程中必不可少的，其余语句可视情况使用。,下面分别介绍各语句的用法和功能。,(1) PROC CANCORR,语句：标示典型相关分析开始，可以规定输入输出数据集，指定分析方法和控制输出结果的显示等。语句中可设置的常用选项及其功能见表,7-3,。,(2) VAR,语句：列出要进行典型相关分析的第一组变量，变量必须是数值型的。如果,VAR,语句被忽略，所有未被其他语句提到的数值型变量都将被视为第一组变量。,(3) WITH,语句：列出要进行典型相关分析的第二组变量，变量必须是数值型的。该语句是每一个,PROC CANCORR,中必不可少的。,表,7-3,常用选项及其功能,EDF=,指定误差的自由度。,EDF,数为有效的观察值减,1,DATA=,指定输入数据集的名字，可以是原始数据集，或用,TYPE= CORR,，,COV,，,FACTOR,，,SSCP,，,UCORR,，或者,UCOV,的数据集，如果省略则使用最新创建的数据集,OUT=,指定输出数据集的名字，输出包括原始数据及典型变量得分的数据集。当输入数据集的类型为,CORR,，,COV,，,FACTOR,，,SSCP,，,UCORR,，或者,UCOV,，就不能使用这个选项,OUTSTAT=,生成包含各种统计量的,SAS,数据集，包括典型相关系数和典型系数，以及你要求的多元回归统计量,VNAME=,为来自,VAR,语句中分析变量指定标签，作为标签的字符要用单引号引起来,VPREFIX=,为来自,VAR,语句的典型变量指定前缀名，默认时典型变量命名为,V1,V2,V3,等,WNAME=,为来自,WITH,语句中的分析变量指定标签，作为标签的字符要用单引号引起来,WPREFIX=,为来自,WITH,语句中的典型变量指定前缀名，默认为,W1,W2,W3,等控制输出的选项,ALL,打印所有选择的输出,CORR,打印原始变量之间的相关系数,NCAN=,规定要输出典型变量的个数,NOPRINT,禁止所有的输出,REDUNDANCY,打印冗余度分析的结果,SHORT,除了典型相关和多元统计列表以外，禁止打印典型相关分析过程默认的输出,SIMPLE,打印均值、标准差等简单统计量,2.,使用,CANCORR,过程,【,例,7-3】,家庭特征与家庭消费之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了,70,个家庭的下面两组变量：,x,1,：每年去餐馆就餐的频率，,x,2,：每年外出看电影的频率；,y,1,：户主的年龄，,y,2,：家庭的年收入，,y,3,：户主受教育程度。,试分析两组变量之间的关系。假定变量的相关系数阵如表所示。,x1,x2,y1,y2,y3,X1,1.00,0.80,0.26,0.67,0.34,X2,0.80,1.00,0.33,0.59,0.34,Y1,0.26,0.33,1.00,0.37,0.21,Y2,0.67,0.59,0.37,1.00,0.35,Y3,0.34,0.34,0.21,0.35,1.00,如下代码，利用变量的相关系数矩阵作典型相关分析：,DATA,jt(TYPE,=CORR);,INPUT NAME $ 1-2 (X1 X2 Y1-Y3) (6.);,CARDS;,X1 1.00 0.80 0.26 0.67 0.34,X2 0.80 1.00 0.33 0.59 0.34,Y1 0.26 0.33 1.00 0.37 0.21,Y2 0.67 0.59 0.37 1.00 0.35,Y3 0.34,0.34,0.21 0.35 1.00,;,PROC CANCORR EDF=70 REDUNDANCY;,VAR X1 X2;,WITH Y1-Y3;,RUN;,说明：,1),在数据集名,jt,后用,TYPE = CORR,表明数据的类型为相关矩阵，而不是原始数据。,2) INPUT,语句中用“,NAME $”,读取左侧的变量名，“,1-2”,表示变量名的字符落在第,1,、,2,列上，“,(X1 X2 Y1-Y4)”,表示各列数据所对应的变量名，“,(6.)”,表示读取数据的宽度均为,6,列，其中相关系数占,4,位，其后的空格占,2,位；,3),选择项,EDF =,n, 1,，为典型相关分析提供一个计算,误差,自由度的参考值，因为该过程中没有合适的选择项可以将原始数据的样本含量,n,准确地送入。如果忽略这一选择项，将以缺省值,n = 10000,作为样本含量参与有关计算和统计检验，显然不妥；,4),选项,REDUNDANCY,表示输出典型冗余分析的结果。,3.,结果分析,(1),典型相关系数及显著性检验,第一部分的,4,列依次是：典型相关系数、校正的典型相关系数、近似的标准误以及典型决定系数（典型相关系数的平方）。从中可以看出，本例提取了,2,个典型相关系数，第一个典型相关系数,CanR,1,= 0.687948,，其校正值为,0.673671,，标准误为,0.062956,，,CanR,1,2,= 0.473272,；第二个典型相关系数为,0.186865,。,第二部分是特征根以及相应的统计量，从中可以看出，第一对典型变量所能解释的变异已占总变异的,96.13%,，另一对典型相关变量的作用很小，只解释了总变异的,3.87%,，可以不予考虑。,右边,4,列给出对典型相关系数的检验，具体采用似然比法，所求的似然比统计量近似服从,F,分布。第一行检验的是第一相关系数以及比它小的两个相关系数是否为,0,，第一行的,F,值,8.86,，,p,值,0.0001,。后一行检验的,p,值远大于置信水平,0.05,，故可以认为只有第一个典型相关系数有统计学意义。,第三部分（图,7-21,）输出的是按照多元分析的原理进行的所有典型相关系数是否为,0,的检验，四种方法中一般参照,Wilks, Lambda,检验的结果。本例中,4,种方法的检验结果与前述完全一致。,(2),典型变量系数与典型结构,第四部分（图左）给出的是用原始变量表达的典型变量系数。考虑标准化后的系数，即第五部分（图右）给出的典型变量和标准化变量（对原始变量标准化）间的换算公式。由于使用原始变量的相关系数阵作为输入数据，所以这两部分相同。,来自消费模式指标的第一典型变量,V1,为,(,原始变量的右上角带“*”表示为标准化变量,),：,V1 = 0.7689,x,1,*,+0.2721,x,2,*,它是,x,1,*,(,每年去餐馆就餐的频率,),和,x,2,*,(,每年外出看电影的频率,),的加权和，在,x,1,*,上的权重更大些。,来自家庭特征指标的第一典型变量,W1,为：,W1 = 0.0491,y,1,*,+ 0.8975,y,2,*,+ 0.1900,y,3,*,它在,y,2,*,(,家庭的年收入,),上的系数最大。这一对典型变量主要是反映,x,1,*,(,每年去餐馆就餐的频率,),和,y,2,*,(,家庭的年收入,),的相关关系。,第六部分（图,7-24,）为典型相关结构，分别是各组原始变量与典型变量两两之间的相关系数矩阵。,可以看出：,x,1,和,x,2,与第,1,典型变量,V1,的相关系数皆为正值，分别为,0.9866,和,0.8872,，可见,V1,可以作为消费特性的指标。,家庭特征指标的所有变量与第,1,典型变量,W1,的相关系数分别为：,0.4211,，,0.9822,和,0.5145,，可见典型变量,W1,主要代表了了家庭收入。,V1,和,W1,的典型相关系数为,0.6879,，这就说明家庭的消费与一个家庭的收入之间其关系是很密切的。,第二对典型变量中,V2,与,x,2,的相关系数为,0.4614,，可以看出,V2,可以作为文化消费特性的指标，第二对典型变量中,W2,与,y,1,和,y,3,之间的分别相关系数为,0.8464,和,0.3013,，可见典型变量,W2,主要代表了家庭成员的年龄特征和教育程度，,V2,和,W2,的相关系数为,0.1869,，说明文化消费与年龄和受教育程度之间有一定关系。,(3),典型冗余分析,第七部分给出典型冗余分析的结果（图,7-25,、,7-26,），由于本例是对相关系数矩阵作分析故两个结果相同。,两对典型变量解释配对变量组方差的累计比例分别为,42.08%,和,23.157%,。,消费指标通过它的第一个典型变量解释的共享方差的比例是,88.03,，而被对方第一个典型变量,W1,解释的方差比例为,41.66%,，其比值,41.66% / 88.03,= 0.4733,恰为,Can R,2,（,Canonical R-Square,），通过它的第二个典型变量解释的共享方差的比例是,11.97,，被对方第二个典型变量,W2,解释的方差比例为,0.42%,，其比值为,0.0349,。家庭特征指标通过它的第一个典型变量解释的共享方差的比例是,46.89,，而被对方第一个典型变量,V1,解释的方差比例为,22.19%,，通过它的第二个典型变量解释的共享方差的比例是,27.31,，而被对方第二个典型变量,V2,解释的方差比例为,0.95%,。,第八部分给出各原始变量和配对组的典型变量间的复相关系数（,Multiple Correlations,）的平方，即原始变量与典型变量的判定系数，如,x,1,与第,1,典型变量,W1,的相关系数为,0.6787,，则其判定系数为,0.6787,2,= 0.4607,。,由复相关系数的平方可看出，消费指标的典型变量,V1,对,y,2,(0.4566),有一些预测能力，但对,y,1,(0.0839),和,y,3,(0.1253),有微弱的预测能力。而来自家庭特征指标的典型变量,W1,对,x,1,(0.4607),和,x,2,(0.3725),有较好的预测能力。,7.2,对应分析,7.2.1,对应分析的基本概念,7.2.2,使用,CORRESP,过程实现对应分析,7.2.1,对应分析的基本概念,1.,对应分析的方法概述,对应分析,，也称相应分析，它是寻求样品（行）与变量（列）之间联系的低维图示法。其关键是利用一种数据变换方法，使含有,n,个样品,m,个变量的原始数据矩阵,变成另一个矩阵，,并使,S,R,=,ZZ,（分析变量之间关系的协方差矩阵）与,S,Q,=,ZZ,（分析样品之间关系的协方差矩阵）具有相同的非零特征根，它们相应的特征向量之间也有密切的关系。,对协方差矩阵,S,R,、,S,Q,进行因子分析，分别提取两个最重要的公因子,R,1,、,R,2,与,Q,1,、,Q,2,。由于采取的是一种特殊变换方法，公因子,R,1,与,Q,1,在本质上是相同的，同理，,R,2,与,Q,2,在本质上也是相同的，故可用,dim1,作为,R,1,、,Q,1,的统一标志，用,dim2,作为,R,2,、,Q,2,的统一标志。于是可将,(,R,1,，,Q,1,),和,(,R,2,，,Q,2,),两组数据点画在由,(dim2,，,dim2),组成的同一个直角坐标系中，这样，便于考察变量与样品之间的相互关系。,2.,对应分析,的步骤,设原始数据矩阵,X,= (,x,ij,),nm,，,i,= 1, 2,，,，,n,(,n,为样品数,),；,j,=1,，,2,，,，,m,(,m,为变量数,),。,1),计算过渡矩阵,Z,= (,z,ij,),nm,：,(1),其中，,X,i,.,为第,i,行的合计、,X.,j,为第,j,列的合计、,X,.,为全部数据的合计。,2),对,S,R,=,ZZ,作因子分析。,计算协差阵,S,R,=,ZZ,的特征值（又称为惯量）,1,2,m,，按其累积百分比,取前,p,个特征值（主惯量），通常,p,取,2,。并计算相应的单位特征向量,u,1,，,u,2,，从而得到因子载荷阵：,在两因子轴平面上作变量点图。,3),对,S,Q,=,ZZ,作因子分析。,对上述,2,个特征值计算,S,Q,中相应的单位特征向量,v,1,=,Zu,1,，,v,2,=,Zu,2,，从而得到因子载荷阵：,在上述因子平面上作样品点图。,说明：对应分析的提出最初是为了研究两个或多个属性变量之间的相关关系，即用于列联表（参见第,9,章）数据的分析。此时行变量的各个水平相当于各个样品，列变量的各个水平相当于不同的变量。,7.2.2,使用,CORRESP,过程实现对应分析,1. CORRESP,过程,PROC CORRESP ,：,VAR ,；,TABLES ,，,；,ID ,；,RUN,；,其中的,PROC CORRESP,语句、,TABLES,语句或者,VAR,语句是必须使用的，除了这两个语句，其他语句都是可以选择的，下面分别介绍各语句的用法和功能。,(1) PROC CORRESP,语句,标示对应分析开始，可以规定输入输出数据集，指定分析方法和控制输出结果的显示等。语句中可设置的常用选项及其功能见表,7-5,。,(2) VAR,语句,输入数据为表格格式时使用，不能与,TABLES,同时使用。变量必须是数值型的。,(3) ID,语句,ID,语句只能与,VAR,语句一起使用，如果使用了,TABLES,或者,MCA,选项，就不能使用该语句。该语句只能规定一个字符变量。自动用,ID,语句的变量值作为输出表格列的标签，并且保存在输出数据集中。,(4) TABLES,语句,TABLES,语句用行变量和列变量构造一个列联表，行变量和列变量之间用逗号分隔。不可与,ID,和,VAR,语句同时使用。,2.,对二维列联表数据的对应分析,【,例,7-4】,调查了三个民族的血型分布资料如表,7-6,所示，试作对应分析。,表,7-6,三个民族不同血型出现的频数,假定上述数据已经存放在数据集,Mylib.xx,中。,血型,傣族,佤族,土家族,A,112,200,362,B,150,112,219,O,205,135,310,AB,40,73,69,(1) SAS,代码,对应分析的代码如下：,proc,corresp,data =,Mylib.xx,out = result;,var,DZ WZ TJZ;,id Type;,run;,options,ps,= 40;,proc plot data=result;,plot dim2*dim1=*$Type/ box,haxis,=-0.2 to 0.3 by 0.1,vaxis,=-0.1 to 0.3 by 0.1 HREF=0 VREF=0;,run;,(2),主要输出结果及其解释,1),惯量与卡方分解,图,7-28,的第一列为,Z,的奇异值，最有用的是第,2,列（主惯量），即矩阵,S,R,=,ZZ,的特征值。原始数据有,4,行,3,列，这里提取,2,个特征值，即可完全解释数据的信息量。第一个特征值解释了信息量的,78.07%,，第二个特征值解释了,21.93%,，前两个特征值的累积贡献率已达,100%,，以第一维度为主。,自由度,= (,变量数, 1),(,样品数, 1) = 6,。,2),样品点坐标，如图,7-29,所示。相当于因子分析中的公因子载荷，表示“样品”在公因子,Dim1,和,Dim2,上的坐标。,其结果可表示为,血型,A = 0.1918Dim1 0.0706Dim2,血型,B = 0.1283Dim1 + 0.0303Dim2,血型,O = 0.1582Dim1 0.0201Dim2,血型,AB = 0.1941Dim1 + 0.2528Dim2,在以,dim1,与,dim2,作为横轴与纵轴的直角坐标系内，每个样品就是,1,个点，如血型,A,点的坐标为,(,0.1918,，,0.0706),。显然，血型,A,在第,3,象限内，血型,B,在第,1,象限内，血型,O,在第,4,象限内，血型,AB,在第,2,象限内。,3),样品点的汇总统计量，如图,7-30,所示。,Quality,为每个变量上两个公因子贡献率,(,样品点的余弦平方值中各行数值,),之和（），若此值接近于,1,，则表明对应的样品点所包含的信息由两个公因子就可很好地反映出来；,Mass,为原始数据中各列数据之和占总合计的百分比,(,),；,Inertia,为每个样品对总特征值,0.03599,贡献的百分比,(,),，由此列数值可看出，,A,、,O,、,AB,三种血型贡献的百分比比较接近。,4),样品点局部惯量贡献，如图,7-31,所示。,A,型血对第,1,公因子贡献最大；,AB,型血对第,2,公因子贡献最大。,5),对样品点惯量贡献最大的坐标标号，这是各样品的坐标对特征值贡献最多的标志，贡献少、中、多依次用,0,、,1,、,2,来表示，如图,7-32,所示。,6),样品点的余弦平方值，,如图,7-33,所示。为,每个样品点上两个公因子各自的贡献率，各行数值之和应近似为,1,，因为用两个公因子已经表示所有的信息，故各行之和均为,1,。由各行数值可看出：除了,AB,型之外，其他三个血型的信息主要由第,1,公因子给出，而,AB,型的信息则主要由第,2,个公因子来反映。,以上对样品的统计又对变量作了一遍，结果如下：,7),变量点坐标与变量点的汇总统计量，如图所示。,在以,dim1,与,dim2,作为横轴与纵轴的直角坐标系内，每个变量也是,1,个点。傣族位于第一象限中，佤族位于第二象限中，土家族位于第三象限中。,4,个点（变量）中任何两点之间的欧氏距离如下：,显然，佤族与土家族之间的距离最短，傣族与佤族之间的距离最长，说明这,2,个民族在血型的出现频率上具有较高的正相关关系。,两民族间,傣族,佤族,傣族,土家族,佤族,土家族,欧氏距离,0.459451,0.334114,0.253707,8),变量点局部惯量贡献，如图左所示，,图左上半部分,是每个变量对公因子的贡献率（），各列数值之和为,1,。显然，傣族对第,1,公因子贡献最大；其他两个民族对第,2,公因子贡献较大。,9),变量点的余弦平方值，如图右所示。表示公因子对变量的贡献率。第一公因子主要影响傣族和佤族，分别贡献了,95.28%,和,75.79,，而第二公因子主要影响土家族，贡献率为,86.76%,。,(3),分析结果,A,型血对第,1,公因子贡献最大；,AB,型血对第,2,公因子贡献最大。它们的点所对应的坐标,(dim1,，,dim2),分别为：,A( 0.1918,，, 0.0706),，,AB( 0.1941,，,0.2528),；,每个分类在坐标系中分得很开。佤族和,AB,型血同在第二象限，而且两个点在,Dim1,上差别很小，说明两者有联系；而土家族和,A,型血同在第三象限，傣族和,B,型血同在第一象限，在,Dim1,上差别很小，如图所示。,说明：对应分析的输出结果有很多，最主要的是看第一部分中各个维度以及各个维度解释的百分比，样品点及变量点的坐标。,对图形的输出结果首先要看两个方向的区分情况，如三个民族在第一维度上分得很开，区分很好，而血型则在第二维度上区分较好。但由于第一维度携带了近,80%,的信息量，远大于第二维度，所以解释以第一维度为主。,还可以比较各个点在空间的分布情况，距离较近的点彼此有联系，散点间的距离越近，说明关联的倾向越明显。,3.,类别数较多的例子,【,例,7-5】,疾病与人的基因型密切有关，而不同民族各种基因出现的频率不尽相同。下面是某研究者收集到的资料，试分析各种基因频率与民族之间的关系。各民族下面的小数是,36,种基因出现的频率。,表,7-7,民族各种基因出现的频率,(1) SAS,代码,设数据文件名为,mzjy,，位于逻辑库,Mylib,中，对应分析的代码如下：,options,nodate,nonumber,ps,= 500;,proc,corresp,data =,Mylib.mzjy,out = result;,var z n y h;,id jy;,run;,options,ps,= 50;,proc plot data=result;,plot dim2*dim1=*$,jy,/ box,haxis,=-1.1 to 1.1 by 0.2,vaxis,=-1.0 to 1.0 by 0.2 HREF=0 VREF=0;,run;,(2),主要输出结果及其解释,1),惯量与卡方分解，如图,7-38,所示。,这里第一列为,Z,的奇异值，最有用的是第,2,列（主惯量），即矩阵,S,R,=,ZZ,的特征值。由于前两个特征值的累积贡献率已达,82.54%,，所以只需取前两个特征值。将根据前两个较大的特征值分别算出与样品（基因型）、变量（民族）对应的特征向量。,2),变量点坐标，如图,7-39,所示。,这是每个变量（指,Z,、,N,、,Y,、,H,）在两个公因子上的载荷，其结果可表示为,Z = 0.3316Dim1 + 0.0193Dim2,N = 0.4068Dim1 0.6030Dim2,Y = 0.5310Dim1 + 0.6257Dim2,H = 0.5604Dim1 + 0.0542Dim2,在以,dim1,与,dim2,作为横轴与纵轴的直角坐标系内，每个变量就是,1,个点，如,Z(,藏族,),点的坐标为,(,0.3316,，,0.0193),。显然，,Z,（藏族）、,H,（汉族）两个点在第,2,象限内；,N,（尼泊尔）点在第,4,象限内、,Y,（印度）点在第,1,象限内。,在以,dim1,与,dim2,作为横轴与纵轴的直角坐标系内，,4,个点（变量）中任何两点之间的欧氏距离如下：,显然，藏族与汉族之间的距离最短，说明这,2,个民族在多数基因的出现频率上具有较高的正相关关系。,两民族间,ZN,ZY,ZH,NY,NH,YH,欧氏距离,0.9657,1.0544,0.2314,1.2350,1.1694,1.2319,3),变量坐标点的汇总统计量，如图,7-40,所示。,Quality,为每个变量上两个公因子贡献率（即下文中变量坐标点的平方余弦值表中各行数值）之和,(,),，若此值接近于,1,，则表明对应的变量所包含的信息由两个公因子就可很好地反映出来；,Mass,为原始数据中各列数据之和占总合计的百分比,(,),；,Inertia,为每个变量对总特征值,0.49399,贡献的百分比,(,),，由此列数值可看出，后三个民族贡献的百分比比较接近。,4),变量坐标点局部惯量贡献，如图所示。,这是每个公因子上每个变量的贡献率（），各列数值之和为,1,。显然，汉族对第,1,公因子贡献最大；尼泊尔、印度这,2,个民族对第,2,公因子贡献最大。,5),对变量坐标点惯量贡献最大的坐标标号，如图所示。,这是各变量的坐标对特征值贡献最多的标志，贡献少、中、多依次用,0,、,1,、,2,来表示。,6),变量坐标点的平方余弦值，如图,7-43,所示。,这是每个变量上两个公因子各自的贡献率，各行数值之和应近似为,1,，因为只用了两个主要的公因子，与最小特征值,0.08624,对应的公因子的贡献未给出，故少了一些信息。由各行数值可看出：尼泊尔、印度这,2,个民族的信息几乎完全可由这,2,个公因子反映出来；而藏族的信息则不能很好地由这,2,个公因子来反映。,(3),分析结果,B,46,对第,1,公因子贡献最大；,B,48,、,C,6,对第,2,公因子贡献最大。它们的点所对应的坐标,(dim,1,，,dim,2,),分别为：,B,46,(-1.0770,，,0.0529),、,B,48,(0.3626,，,-0.9077),、,C,6,(0.7278,，,-0.8463),。显然，,B,46,点落在第,2,象限内；,B,48,与,C,6,这两点落在第,4,象限内、且距离较近。再结合上面关于“,Column Coordinates”,部分的解释可知：藏族与汉族接近主要表现在,B,46,基因型上有较高的一致性（因为这,3,点都落在第,2,象限内、且距离较近）；而尼泊尔族与,B,48,、,C,6,两种基因型上有较高的一致性（因为这,3,点都落在第,4,象限内、且距离较近）。,由散点图（图,7-44,）可以看出三大类民族各自有着特征基因群，分别位于第一、第二和第四象限中。与汉族、藏族最接近的基因为,C,3,，与尼泊尔族最接近的基因为,B,48,，与印度族最接近的基因是,B,8,。,

展开阅读全文

ch7SAS典型相关与对应分析 91

最新文档