对应分析第三版课件

上传人:嘀**** 文档编号:251181224 上传时间:2024-11-06 格式:PPT 页数:36 大小:446KB
返回 下载 相关 举报
对应分析第三版课件_第1页
第1页 / 共36页
对应分析第三版课件_第2页
第2页 / 共36页
对应分析第三版课件_第3页
第3页 / 共36页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第九章 对应分析,对应分析,(,correspondence analysis,)是用于寻求列联表的行和列之间联系的一种低维图形表示法,它可以从直觉上揭示出同一分类变量的各个类别之间的差异,以及不同分类变量各个类别之间的对应关系。,对应分析是由法国人,Benzecri,于,1970,年提出的,起初在法国和日本最为流行,然后引入美国。,在对应分析中,列联表的每一行对应(通常是二维)图中的一点,每一列也对应同一图中的一点。本质上,这些点都是列联表的各行各列向一个二维欧式空间的投影,这种投影最大限度地保持了各行(或各列)之间的关系。,第九章 对应分析,9.1,行轮廓和列轮廓,9.2,独立性的检验和总惯量,9.3,行、列轮廓的坐标,9.4,对应分析图,9.1,行轮廓和列轮廓,一、列联表,二、对应矩阵,三、行、列轮廓,一、列联表,其中,,n,ij,是第,i,行、第,j,列类别组合的频数,,i=,1,2,p,j=,1,2,q,;为第,i,行的频数之和,,i=,1,2,p,;,为第,j,列的频数之和,,j=,1,2,q,;,为所有类别组合的频数总和。,表,9.1.1,p,q,列联表,表,9.1.1,p,q,列联表,表,9.1.1,p,q,列联表,列,1,2,q,合,计,行,1,n,11,n,12,n,1,q,n,1,2,n,21,n,22,n,2,q,n,2,p,n,p,1,n,p,2,n,pq,n,p,合,计,n,1,n,2,n,q,n,表,9.1.1,p,q,列联表,二、对应矩阵,这里,。,显然有 。,列,1,2,q,合,计,行,1,p,11,p,12,p,1,q,p,1,2,p,21,p,22,p,2,q,p,2,p,p,p,1,p,p,2,p,pq,p,p,合,计,p,1,p,2,p,q,1,表,9.1.2,对应矩阵,称 为,对应矩阵,。将对应矩阵表中的最后一列用,r,表示,即,其中 是元素均为,1,的,q,维向量,最后一行用 表示,即,其中 是元素均为,1,的,p,维向量,向量,r,和,c,的元素有时称为,行,和,列密度,(,masses,)。,三、行、列轮廓,第,i,行轮廓(,profile,),:,其各元素之和等于,1,,即 。,第,j,列轮廓,:,其各元素之和等于,1,,即 。,行轮廓矩阵,其中 。,列轮廓矩阵,其中,。,可见,,r,可以表示成各列轮廓的加权平均。类似地,,即 可以表示成各行轮廓的加权平均。,例,将由,n,=1660,个人组成的样本按心理健康状况与社会经济状况进行交叉分类,分类结果见表。,表,9.1.3,心理健康状况,-,社会经济状况数据,社会经济状况,A(高),B,C,D,E(低),心理健康状况,0(好),121,57,72,36,21,1(轻微症状形成),188,105,141,97,71,2(中等症状形成),112,65,77,54,54,3(受损),86,60,94,78,71,将表中的数据除以,n,,得到对应矩阵,列于表中。表给出的行密度和列密度向量为,表,9.1.4,从表算得的对应矩阵,社会经济状况,A(高),B,C,D,E(低),合,计,心理健康状况,0(好),0.073,0.034,0.043,0.022,0.013,0.185,1(轻微症状形成),0.113,0.063,0.085,0.058,0.043,0.363,2(中等症状形成),0.067,0.039,0.046,0.033,0.033,0.218,3(受损),0.052,0.036,0.057,0.047,0.043,0.234,合,计,0.305,0.173,0.231,0.160,0.131,1.000,行轮廓矩阵为,列轮廓矩阵为,两个马赛克图,对心理健康的每一种状况,,A,、,B,、,C,、,D,、,E,五个小方块的宽度显示了行轮廓,,0,、,1,、,2,、,3,四种心理健康状况的小方块高度显示了行密度。,对社会经济的每一种状况,,0,、,1,、,2,、,3,四个小方块的高度显示了列轮廓,,A,、,B,、,C,、,D,、,E,五种社会经济状况的小方块宽度显示了列密度。,9.2,独立性的检验和总惯量,一、行、列独立的检验,二、总惯量,一、行、列独立的检验,在列联表中,检验行变量和列变量相互独立假设的统计量为,当独立性的原假设为真,且样本容量,n,充分大,期望频数,时,,2,近似服从自由度为,(,p,1)(,q,1),的卡方分布。拒绝规则为,若 ,则拒绝独立性的原假设,其中 是,2,(,p,1)(,q,1),的上分位点。,二、总惯量,总惯量,还可以行轮廓和列轮廓的形式表达如下:,其中,称为第,i,行轮廓,r,i,到行轮廓中心,c,的,卡方,(,2,),距离,,它可看作是一个加权的平方欧氏距离。同样,,是第,j,列轮廓,c,j,到列轮廓中心,r,的卡方距离。故总惯量可看成是行轮廓到其中心的卡方距离的加权平均,也可看成是列轮廓到其中心的卡方距离的加权平均。它既度量了行轮廓之间的总变差,也度量了列轮廓之间的总变差。,总惯量为零的等价情形,总惯量为零与以下三种情形的任一种等价:,(1),,或表示为 ;,(2),所有的行轮廓相等,即 ;,(3),所有的列轮廓相等,即 。,所以,如果行变量与列变量相互独立,则我们可以期望(由样本数据构成的)列联表中所有的行有相近的轮廓,所有的列亦,有相近的轮廓。,总惯量的分解,对,构造标准化矩阵,其元素为,记,k,=rank(,Z,),,有,k,min(,p,-,1,q,-,1),,因为,对,Z,进行奇异值分解,得,其中,U,=(,u,1,u,2,u,k,),V,=(,v,1,v,2,v,k,),=diag(,1,2,k,),,这里,u,1,u,2,u,k,是一组,p,维正交单位向量,,v,1,v,2,v,k,是一组,q,维正交单位向量,即有,,1,2,k,是,Z,的,k,个奇异值。,于是,,,是,的正特征值。因此,总惯量,=,例,9.2.1,例中,,2,=45.59421.026=,故拒绝心理健康状况与社会经济状况相互独立的原假设,(,p,=8.1510,-6,),。,9.3,行、列轮廓的坐标,其中,由于,,从而,上,式常被称为,广义奇异值分解,。,将行轮廓矩阵,R,中心化(即每一行减去,),得,其中,上,式也可表达为,即中心化的第,i,行轮廓在由,b,1,b,2,b,k,构成的坐标系中的坐标为,(,x,i,1,x,i,2,x,ik,),i=,1,2,p,。,类似地,将列轮廓矩阵,C,中心化,(,即每一列减去,r,),得,其中,上,式亦可表达为,即中心化的第,j,列轮廓在由,a,1,a,2,a,k,构成的坐标系中的坐标为,(,y,j,1,y,j,2,y,jk,),j=,1,2,q,。,由,关系,式,知,即有,于是,即各行点和列点在第,i,坐标轴上的坐标平方的加权平均都等于,,称之为,第,i,主惯量,,,i=,1,2,k,。,主惯量度量了在每一坐标轴上的有关变差的信息量,类似于主成分分析中的方差。,在作图时可将行点和列点置于同一个坐标系中,并使用同一坐标刻度。,由总惯量,=,知,总惯量可以分解为各主惯量之和。,9.4,对应分析图,一、行、列轮廓的逼近,二、行(列)点之间的距离,三、行点和列点相近的意涵,一、行、列轮廓的逼近,的降秩到,2,的最优逼近为,于是,其中,,,B,1,=(,b,1,b,2,),。,X,1,是由,X,的前,2,列构成的,即,故,X,1,的第,i,行,是中心化的第,i,行轮廓,在由,b,1,和,b,2,构成的平面坐标系中的坐标,,i=,1,2,p,。,类似地,,其中,。,Y,1,是由,Y,的前,2,列构成的,即,故,Y,1,的第,j,行,是中心化的第,j,列轮廓,c,j,r,在由,a,1,和,a,2,构成的平面坐标系中的坐标,,j=,1,2,q,。,将上述两个平面坐标系重叠在一个坐标系中,,b,1,和,a,1,重叠在第一维坐标轴上,具有同一主惯量,,其,对总惯量的贡献率为,。,b,2,和,a,2,重叠在第二维坐标轴上,具有同一主惯量,,其对总惯量的贡献率为,。前二维的坐标轴对总惯量的累计贡献率为,,该值如很大,则说明所作的对应分析图几乎解释了数据的所有变差(包括有关行与列之间的联系)。,二、行(列)点之间的距离,在累计贡献率,足够大的对应分析图,中,如果两个行(列)点接近,则表明相应的两个行(列)轮廓是类似的;反之,如果两个行(列)点远离,则表明相应的两个行(列)轮廓是非常不同的。需要指出的是,行点与列点之间并没有直接的距离关系。,三、行点和列点相近的意涵,如果一个行点和一个列点相近,则表明行、列两个变量的相应类别组合发生的频数会高于这两个变量相互独立情形下的期望值。,例,在例中,经计算,奇异值、主惯性以及贡献率等的计算结果列于表中。总惯量的,94.75%,可由第一维来解释,前二维解释了高达,99.76%,的总惯量,几乎解释了列联表数据的所有变差。,表,9.4.1,奇异值、主惯量以及贡献率,维,数,1,2,3,奇异值,0.1613,0.0371,0.0082,总,值,主惯量,0.0260,0.0014,0.0001,0.0275,贡献率,0.9475,0.0501,0.0024,1.0000,累计贡献率,0.9475,0.9976,1.0000,例,行点和列点的前二维坐标矩阵为,将各行点和列点置于同一坐标系中,构成对应分析图,如下图所示。,表,9.4.2,行点和列点靠近的分类组合频数及行、列独立情形下的频数期望值,社会经济状况,A(高),B,C,D,E(低),心理健康状况,0(好),121(93.8),57,72,36,21,1(轻微症状形成),188,105(104.1),141(139.3),97,71,2(中等症状形成),112,65(62.6),77,54,54,3(受损),86,60,94,78(62.1),71(50.9),
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!