多元统计分析——对应分析

上传人:真** 文档编号:243057360 上传时间:2024-09-14 格式:PPT 页数:37 大小:348.50KB
返回 下载 相关 举报
多元统计分析——对应分析_第1页
第1页 / 共37页
多元统计分析——对应分析_第2页
第2页 / 共37页
多元统计分析——对应分析_第3页
第3页 / 共37页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,7,章 对 应 分 析,Correspondence Analysis,7.1,列联表及列联表分析,7.2,对应分析,7.1,列联表及列联表分析,一、列联表及其作用,1.,列联表是观测数据按两个或更多属性变量(定类尺度或定序尺度)分类时所列出的频数表。,2.,列联表用于考察两个(或多个)分类变量的统计学关联。如行变量与列变量之间的关联性。,一般,若总体中的个体可按两个属性,A,与,B,分类,,A,有,n,类,A1,A2,An,,,B,有,p,类,B1,B2,Bp,属于,Ai,和,Bj,的个体数目为,nij,(,i=1,2, ,n;j= 1,2, ,p,),nij,称为频数,则可形成,np,的二维列联表,简称,np,表。,若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。,列联表,B1,B2,Bj,Bp,A1,n,11,n,12,n,1j,n,1p,n,1,.,A2,n,21,n,22,n,2j,n,2p,n,2,.,Ai,n,i1,n,i2,n,ij,n,ip,n,i,.,An,n,n1,n,n2,n,nj,n,np,n,n,.,n,.1,n,.2,n,.j,n,.p,n,频率意义上的列联表,B1,B2,Bj,Bp,A1,p,11,p,12,p,1j,p,1p,p,1,.,A2,p,21,p,22,p,2j,p,2p,p,2,.,Ai,p,i1,p,i2,p,ij,p,ip,p,i,.,An,p,n1,p,n2,p,nj,p,np,p,n,.,p,.1,p,.2,p,.j,p,.p,1,列联表独立性检验,对于数值型变量相关关系,通常是计算相关系数和进行回归分析。,描述两个定性变量之间的相关性是指广义的相关性,称为关联性。两个定性变量的关联程度在某种意义上就是指的“不独立”,它与独立的情形差距越大,就表明彼此的关系越密切,这种关系不一定是线性关系。在实际问题中,重要的是判断变量之间是否独立,因为不独立就意味着关联。最常用的检验办法是列联表独立性检验。,列联表检验的零假设是两变量,X,和,Y,相互独立,计算一个卡方统计量,与列联表中频数取值和零假设下期望取值之差有关,当卡方 很大时否定零假设。,例 吸烟与慢性支气管炎调查表,为了探讨吸烟与慢性支气管炎有无关系,调查了,339,人,情况如表所示:,设想有两个随机变量,A,,,B,:,A,:,1,表示吸烟,,2,表示不吸烟;,B,:,1,表示患慢性支气管炎,,2,表示未患。,零假设为:,H0: A,与,B,相互独立,B,A,患慢性支气管炎,未患慢性支气管炎,吸烟,43,162,不吸烟,13,121,STATISTICS FOR TABLE OF SMOKE BY BRON Statistic DF Value Prob,Chi-Square 1 7.469 0.006,Likelihood Ratio 1 7.925 0.005 Chi-Square Continuity Adj. Chi-Square 1 6.674 0.010 Mantel-Haenszel Chi-Square 1 7.447 0.006 Fishers Exact Test (Left) 4.09E-03 (Right) 0.998 (2-Tail) 6.86E-03 Phi Coefficient -0.148 Contingency Coefficient 0.147 Cramers V -0.148 Sample Size = 339,列联表中列出了表格单元频数和在零假设下的期望频数,可以看出,吸烟人中患病的数目比期望数目大。检验的结果只要看后面的统计量部分的,Chi-Square,一行,其值为,7.469,,,p,值为,0.006,,所以应否定零假设,吸烟与患慢性支气管炎是不独立的。,对应分析又称为,相应分析,,,也称,RQ,分析,。是因子分子基础发展起来的一种多元统计分析方法。它主要通过分析,属性(定性)变量构成的列联表,来揭示变量之间的关系,可以用对应分析图(二维图)显示列联表中每一个单元格的相对位置,以简单、直观地表明列联表的行与列的关系。,对应分析也是利用降维的思想以达到简化数据结构的目的。不过,在因子分析中,,R,型因子分析和,Q,型因子分析是分开进行的。,对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。,在对应分析中,会同时对行与列进行处理,寻求以低维图形表示数据表中的行与列的关系。(对同一观测数据施加,R,和,Q,型因子分析,并分别保留两个公共因子,则是对应分析的初步)。,7.2,对应分析,对应分析基本步骤,:,1,、获取对应分析数据,确定研究目的,选择对应分析所需数据,应该包括的背景资料。,2,、建立列联表,3,、对应分析,4,、利用对应图解释结果。,二、对应分析的原理,由于,R,型因子分析和,Q,型因子分析是反映一个整体的不同侧面,,R,型因子分析是从列来讨论(对变量),,Q,型因子分析是从行来讨论(对样品),因此他们之间存在内在的联系。,设原始数据矩阵为:,由于因子分析都是基于,协方差矩阵或相关系数矩阵,完成的,所以必须从变量和样品的协方差矩阵入手来进行分析。,变量的叉积矩阵,样品的叉积矩阵,显而易见,变量和样品的叉积矩阵的阶数不同,一般来说,他们的非零特征根也不一样,那么能否将观测值做变换。,(一)规格化矩阵,我们可以把,p,ij,解释成概率,因为所有的元素之和为,1,。,称为,行轮廓,。,即把第,i,行表示成在,p,维欧氏空间中的一个点,行轮廓矩阵为:,由此,我们可以将属性变量,A,的,n,个取值可以用,P,维空间的,n,个点来表示。,n,个点的坐标即为该行轮廓矩阵。,但是,因为原始变量的数量等级可能不同,所以为了尽量减少各变量尺度差异,将行轮廓中的各列元素均除以其期望的平方根。得矩阵,D(R),第,j,个变量的期望为:,矩阵,D,(,R,)是消除了变量,B,的各个状态概率影响的,P,维空间,n,个点的相对坐标。,则这,n,个点的重心,也有,p,维坐标,设其第,j,个分量为:,N,个点的重心为:,总惯量,由矩阵,D,(,R,)定义的,n,个点与其重心的欧氏距离之和称为行轮,廓矩阵,N,(,R,) 的总惯量。记为,.,同时,可证明:,称,为列轮廓。,同理:,列轮廓矩阵为:,因为原始变量的数量等级可能不同,所以为了尽量减少各变量尺度差异,将列轮廓中的各行元素均除以其期望的平方根。得矩阵,D,(,Q,),利用行轮郭矩阵,可得第,i,个样品与第,j,个样品的协方差:,令,Z,为,z,ij,所,组成的矩阵,则,利用列轮廓矩阵,可得第,i,个变量与第,j,个变量的协方差:,令,Z,为,z,ij,所组成的矩阵,则,设 是,A=ZZ,的,非零特征根,则,令,Z,为,z,ij,所组成的矩阵,则,因此将矩阵变换成矩阵,Z,,,则很容易求出,A,和,B,存在着的简单对应关系。由特征根和特征向量的性质,,A,和,B,有相同的非零特征根。,在上式的两边都左乘,Z,,,则,可见 也是,ZZ,的特征根,相应的特征向量是,三、,对应图,设,1,2, ,l,(0,i,min(,n,p),为矩阵,A,和,B,的非零特征根,其相应的特征向量为,我们知道因子载荷矩阵的含义是原始变量与公共因子之间的相关系数,所以如果我们构造一个平面直角坐标系,将第一公共因子的载荷与第二个公共因子的载荷看成平面上的点,在坐标系中绘制散点图,则构成对应图。,例 某地环境检测部门对该地所属,8,个地区的大气污染状况进行了系统的的检测,每天,4,次同时在各个地区抽取大气样品,则定其中的氯、硫化氢、二氧化硫、碳,4,、环氧氯丙烷、环已烷,6,种气体的浓度。有资料如下:,0.056 0.0840.0310.0380.00810.022,0.049 0.0550.10.110.0220.0073,0.0380.130.0790.170.0580.043,0.0340.0950.0580.160.20.029,0.0840.0660.0290.320.0120.041,0.0640.0720.10.210.0281.38,0.0480.0890.0620.260.0380.036,0.0690.0870.0270.050.0890.021,特征根,贡献率(,%,),累积贡献率(,%,),1,0.50668,70.00,70.00,2,0.12213,16.87,86.87,3,0.05658,7.82,94.69,F1,和,G1,,,F2,和,G2,尺度相同,所以可以在同一个直角坐标系中作出两种因子的载荷图,这种图称为对应图,。,R,型因子分析的载荷,F1,F2,0.13831,-0.04385,0.20333,0.02650,0.11003,-0.01985,0.21754,-0.18687,0.21720,0.28831,-0.58275,0.03279,Q,型因子分析的载荷,F1,F2,0.10599,-0.02354,0.15369,-0.06164,0.16284,-0.00928,0.22388,0.22377,0.15853,-0.19307,-0.56153,0.01900,0.16656,-0.10664,0.16429,0.13644,-0.20,-0.15,-0.10,-0.05,0.00,0.05,0.10,0.15,0.20,0.25,0.30,-0.6,-0.5,-0.4,-0.3,-0.2,-0.1,0.0,0.1,0.2,0.3,变量,样品,对应图,由图我们可以看出,全部变量与样品分为,3,类。每一类聚合一些变量和样品。,第一类:聚合了环氧氯丙烷,X5,和,D,和,H,两个地区,表明,D,和,H,两个地区主要大气污染物为环氧氯丙烷。,第二类:包含变量,X1,,,X2,,,X3,,,X4,和样品,A,,,B,,,C,,,E,和,G,地区,这,5,个地区的主要污染物是,氯、硫化氢、二氧化硫、碳,4,。,第三类:包含,X6,和地区,F,,,该地区的主要污染物是环已烷。,1992-1994,年在北京市进行的“北京老龄化多维纵向研究”。在这项研究中,先后在两年时间里,对一批,60,岁以上的老年人进行了纵向追踪调查,有,2703,位老年人在两次调查中都被调查,了解对被调查的老年人“日常生活自理能力”和“自评健康情况”,得如下资料:,自评健康状况,生活自理能力,完全自理,部分自理,不能自理,合计,很好,129,14,8,151,好,931,146,96,1173,一般,660,116,74,850,差,251,104,81,436,很差,11,7,23,41,没回答,15,13,24,52,合计,1997,400,306,2703,Inertia and Chi-Square Decomposition,Singular Principal Chi-,Values Inertias Squares Percents 18 36 54 72 90,-+-+-+-+-+-,0.29615 0.08770 237.060 92.45% *,0.08463 0.00716 19.358 7.55% *,- -,0.09486 256.418 (Degrees of Freedom = 10),Row Coordinates,Dim1 Dim2,1 -0.25463 -0.07681,2 -0.12566 -0.02671,3 -0.09409 -0.00184,4 0.33842 0.15301,5 1.38102 -0.40863,6 1.18558 -0.10506,Column Coordinates,Dim1 Dim2,1 -.158972 -.021637,2 0.231729 0.191960,3 0.734563 -.109719,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!