第9章列联分析

上传人:豆**** 文档编号:240716301 上传时间:2024-05-02 格式:PPT 页数:67 大小:2.45MB
返回 下载 相关 举报
第9章列联分析_第1页
第1页 / 共67页
第9章列联分析_第2页
第2页 / 共67页
第9章列联分析_第3页
第3页 / 共67页
点击查看更多>>
资源描述
第第9 9章列联分析章列联分析1 列联表列联表1.1列联表的构造列联表的构造1.2列联表的分布列联表的分布21.1 列联表的构造列联表的构造列联表列联表 列联表(Contingency table)是由两个或两个以上的变量进行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方法,从四个分公司共抽取420个样本单位,了解职工对此项改革的看法,调查结果见表9-1。3表表9-1 9-1 关于改革方案的关于改革方案的调查结果果 单位:人位:人1.1 列联表的构造列联表的构造解释:解释:表中的行(Row)是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列(Column)是单位变量,这里划分为四类:即四个分公司。表中的每个数据,都反映着来自于态度和单位两个方面的信息。将横向变量(行)的划分类别视为R,纵向变量(列)的划分类别视为C,则可以把每一个具体的列联表称为RC列联表。51.2列联表的分布列联表的分布列联表的分布列联表的分布观察值的分布(条件分布)观察值的分布(条件分布)行边缘频数列边缘频数条件频数期望值的分布期望值的分布61.2列联表的分布列联表的分布表表9-2 9-2 包含百分比的包含百分比的2424列列联表表71.2列联表的分布列联表的分布 表中各数据的含义表中各数据的含义条件频数条件频数:如第一个单元第一个数字68为观察值频数;行百分数行百分数:如第一个单元第二个数字24.4为行百分数,即68/279=24.4%;列百分数列百分数:如第一个单元第三个数字68.0为列百分数,即68/100=68%;总百分数总百分数:如第一个单元第四个数字为总百分数,即68/420=16.2%;边缘频数边缘频数:在最右边和最下边的合计栏中各有两行数据,第一行是边缘频数,第二行是边缘频数的百分数。如最右边的66.4%=279/420,及最下边的23.8%=100/420。1.2列联表的分布列联表的分布期望分布期望分布以前例为例。已知在全部420个样本单位中,赞成改革方案的有279个,占到总数的66.4%,如果各分公司对这项改革方案的看法相同,那么对第一分公司赞成该方案的人数应当为:0.664100=66人,第二分公司赞成的人数应当为:0.664120=80人,这66人和80人就是本例中的期望值。由此可以计算出期望值的分布,如表9-3所示。91.2列联表的分布列联表的分布表表9-3 期望值分布表期望值分布表 单位:人单位:人101.2列联表的分布列联表的分布将表9-1和表9-3结合起来,便可以得到观察值和期望值频数对比分布表,如表9-4所示。表表9.4 9.4 观察察值和期望和期望值频数数对比分布表比分布表111.2列联表的分布列联表的分布 如果各个分公司对改革方案的看法相同,即各分公司赞成改革方案的比例相同,就应有 =0.664(为第i个分公司赞成改革方案的百分比),那么在表9-4中,观察值和期望值就应当非常接近。对于 =0.664的假设,可以采用 分布(Chi-square Distribution)进行检验。122 拟合优度检验拟合优度检验2.1 统计量统计量2.2 拟合优度检验拟合优度检验132.1 统计量统计量 统计量可以用于变量间拟合优度检验和独立性检验。若用 fo 表示观察值频数(Observed Frequency),用fe表示期望值频数(Expected Frequency),则 统计量可以写为:142.1 统计量统计量 由由 可以看出计算可以看出计算 统计量的步骤统计量的步骤 步骤一:用观察值 fo 减去期望值 fe;步骤二:将(fo-fe)之差平方;步骤三:将(fo-fe)2结果除以fe;步骤四:将步骤三的结果加总。152.1 统计量统计量实际频数实际频数(fij)期望频数期望频数(eij)fij-eij(fij-eij)2(fij-eij)2eij687557793245333166806073344030372-5-36-253-64259364259360.06060.31250.15000.49320.11760.62500.30000.9730162.1 统计量统计量 统计量特征统计量特征 0 0,因为它是对平方值结果的汇总,因为它是对平方值结果的汇总;值的大小与观察值和期望值的配对数,即值的大小与观察值和期望值的配对数,即RCRC的多少有关。的多少有关。RCRC越多,在不改变分布的情况下,越多,在不改变分布的情况下,值越大,因此,值越大,因此,统计量的分统计量的分布与自由度有关布与自由度有关;统计量描述了观察值与期望值的接近程度。如果两者越接近,统计量描述了观察值与期望值的接近程度。如果两者越接近,即即 f fo o-f-fe e的绝对值越小,计算出的的绝对值越小,计算出的 值越小;反之,如果值越小;反之,如果 f fo o-f-fe e的绝对值越大,计算出的的绝对值越大,计算出的 值也越大值也越大;检验是运用检验是运用 的计算结果与的计算结果与 分布中的临界值进行比较,做分布中的临界值进行比较,做出对原假设接受或是拒绝的统计决策。出对原假设接受或是拒绝的统计决策。172.1 统计量统计量图图9-1 自由度分别为自由度分别为1,5和和10时的时的 分布分布 182.1 统计量统计量 分布自由度的计算公式分布自由度的计算公式 自由度=(行数-1)(列数-1)=(R-1)(C-1)192.2拟合优度检验拟合优度检验拟合优度检验拟合优度检验若要对若要对多个比例是否相等多个比例是否相等进行检验,就需要利用进行检验,就需要利用 检验的方检验的方法。如果样本是从总体的不同类别中分别抽取,研究目的是法。如果样本是从总体的不同类别中分别抽取,研究目的是对不同类别的目标量之间是否存在显著性差异进行检验,把对不同类别的目标量之间是否存在显著性差异进行检验,把它称为拟合优度检验,也称为一致性检验(它称为拟合优度检验,也称为一致性检验(Test of homogeneity)。)。202.2拟合优度检验拟合优度检验【例例9.19.1】某集团公司欲进行一项改革,从所属的四个分公司中共随机抽取了420名职工,了解他们对改革方案的态度(见表9-1),以 =0.1的显著性水平检验四个分公司对改革方案的看法是否存在差异。解:如果不存在差异,四个分公司赞成改革方案的比例应该是一致的。于是原假设和备择假设分别为:=0.664 赞成比例一致 :不全相等 赞成比例不一致2.2拟合优度检验拟合优度检验由 得:自由度=(R-1)(C-1)=(2-1)(4-1)=3=0.1,查表可知:222.2拟合优度检验拟合优度检验图9-29-2 检验示意示意图232.2拟合优度检验拟合优度检验【例例9.29.2】为了提高市场占有率,某行业两个最主要的竞争对手,A公司和B公司同时开展了广告宣传。在广告宣传战之前,A公司的市场占有率为45%,B公司的市场占有率为40%,其他公司的市场占有率为15%。为了了解广告战之后A、B和其他公司的市场占有率是否发生变化,随机抽取了200名消费者,其中102人表示准备购买A公司产品,82人表示准备购买B公司产品,另外16人表示准备购买其他公司产品。以 的显著性水平检验广告战前后各公司的市场占有率是否发生了变化。242.2拟合优度检验拟合优度检验解:采用拟合优度的 检验。为了检验广告战之后各公司市场占有率的变化,把广告战之前各公司的市场占有率设为原假设。:,:原假设的等式中至少有一个不成立如果广告战之后各公司产品的市场占有率没有发生变化,即如果原假设仍然成立,则在200个被调查者中,喜欢各个公司产品人数的期望值应当是:各类别期望值的计算公式,252.2拟合优度检验拟合优度检验表表9-7 观察值、期望值及有关计算结果观察值、期望值及有关计算结果262.2拟合优度检验拟合优度检验由 计算为:=8.18当 ,自由度=(R-1)*(C-1)=(2-1)*(3-1)=2时,=5.99147,故拒绝原假设,可以认为广告战之后,各公司产品市场占有率发生了显著变化。273 独立性检验独立性检验独立性检验(独立性检验(Test of IndependenceTest of Independence)在研究问题时有时会遇到要求判断两个分类变量之间是否存在联系的问题。在这种情况下可以使用 检验,判断两组或多组的资料是否相互关联。如果不相互关联,就称为独立。把这类问题的处理称为独立性检验(Test of Independence)。283 独立性检验独立性检验【例例9.3】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如表9-9所示要求检验各个地区和原料质量之间是否存在依赖关系?表表9-9 原料抽样的结果原料抽样的结果293 独立性检验独立性检验解::地区和原料等级之间是独立的(不存在依赖关系)。:地区和原料等级之间不独立 (存在依赖关系)。在第一行,甲地区的合计为140,用140500作为甲地区原料比例的估计值。在第一列,一级原料的合计为162,用162500作为一级原料比例的估计值。如果地区和原料等级之间是独立的,可以用下式估计第一个单元(甲地区,一级)中的期望比例。303 独立性检验独立性检验令A=样本单位来自甲地区的事件B=样本单位属于一级原料的事件根据独立性的概率乘法公式有:P(第一单元)=P(AB)=P(A)P(B)=0.09072313 独立性检验独立性检验计算任何一个单元中频数的期望值公式 fe:给定单元中的频数期望值 RT:给定单元所在行的合计 CT:给定单元所在列的合计 n:观察值的总个数,即样本容量。323 独立性检验独立性检验表表9-10 33列联表期望值计算过程列联表期望值计算过程333 独立性检验独立性检验 的自由度为(R-1)*(C-1)=4取 =0.05,查表知:0.05(4)=9.488 0.05(4),故拒绝H0,接受H1,即地区和原料等级之间存在依赖关系,原料的质量受地区的影响。344列联表中的相关测量列联表中的相关测量4.1 4.1 相关系数相关系数4.2 C 4.2 C 列联相关系数列联相关系数4.3 V4.3 V相关系数相关系数4.4 4.4 数值分析数值分析354.1 相关系数相关系数 系数系数 系数是描述2*2列联表(四格表)数据相关程度最常用的一种相关系数。它的计算公式为:式中,n为列联表中的总频数,即样本容量。364.1 相关系数相关系数 表表9-11 2*2列联表列联表注:a,b,c,d均为条件频数。374.1 相关系数相关系数表9-11中,当变量X,Y 相互独立,不存在相关关系时,频数间应有下面的关系 化简后有:ad=bc。结论结论差值ad-bc的大小可以反映变量之间相关程度的强弱。差值越大,说明两个变量的关联程度越高。384.1 相关系数相关系数在在2*2列联表中,每个单元中频数的期望值为:列联表中,每个单元中频数的期望值为:394.1 相关系数相关系数404.1 相关系数相关系数当ad=bc时,表明变量X,Y之间相互独立,若b=0,c=0时,X与Y完全相关,若a=0,d=0,X与Y完全相关,在列联表中,变量的位置可以任意变换,因此 的符号在这里没有什么实际意义,其绝对值 只是表明X与Y完全相关。414.2 列联相关系数列联相关系数C系数系数列联相关系数又称列联系数(Coefficient of Contingency),简称C系数,主要用于大于2*2列联表的情况。C系数的计算公式为:424.2 列联相关系数列联相关系数C C系数的特点系数的特点当列联表中的两个变量相互独立时,系数C=0,但它不可能大于1。C系数可能的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大。根据不同的行和列计算的列联系数不便于比较,除非两个列联表中行数和列数一致。434.3 V相关系数相关系数V V 相关系数计算公式相关系数计算公式式中的min(R-1),(C-1)表示取(R-1),(C-1)中较小的一个。当两个变量相互独立时,V=0;当两个变量完全相关时,V=1。所以V的取值在01之间。如果列联表中有一维为2,即min(R-1),(C-1)=1,则V值就等于 值。44、C、V 的比较1.同一个列联表,、C、V 的结果会不同2.不同的列联表,、C、V 的结果也不同3.在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数4.4 数值分析数值分析在【例例9.39.3】中,对原料的等级和产地之间的关系进行了独立性检验,结果表明,原料的等级和产地之间存在相互关系。下一个问题是,这种相关程度有多高,能否对此给出数量化描述?解:由前已知,计算出 =19.82,列联表的总频数n=500。这是3*3列联表,min(R-1),(C-1)=3-1=2。于是464.4 数值分析4.4 数值分析数值分析对于 而言,当R2,C2时,值有可能突破1,相比之下,例9.3中的 =0.199不能认为很大。对于C 而言,其结果必然低于 值,因为C值总是小于1。本例中是3*3列联表,C的最大可能值是0.8165。相比0.8165而言,本例中的C=0.195也并不大。对于V而言,V=0.141则更小。综上,虽然检验表明原料和产地存在一定关系,但这种关系的密切程度却不太高。484.4 数值分析数值分析上例说明,对于同一个数据,系数 ,C,V的结果不同。同样,对于不同的列联表,由于行数和列数的差异,也会影响系数值。结论结论在对不同列联表变量之间的相关程度进行比较时,不同列联表中行与行,列与列的个数要相同,并且采用同一种系数,这样的系数值才具有可比性。495 列联分析中应注意的问题列联分析中应注意的问题5.1 5.1 条件百分表的方向条件百分表的方向5.2 5.2 分布的期望值准则分布的期望值准则505.1 条件百分表的方向条件百分表的方向 条件百分表方向条件百分表方向 一般在列联表中变量的位置是任意的,既可以把变量X放在列的位置,也可以放在行的位置。如果变量X与Y存在因果关系,令X为自变量(原因),Y为因变量(结果),那么一般的做法是把自变量X放在列的位置,条件百分表也多按自变量的方向计算,因为这样便于更好地表现原因对结果的影响。如有下面的一个2*2列联表。515.1条件百分表的方向条件百分表的方向 表表9-14 职业背景与工作价值观取向职业背景与工作价值观取向525.1条件百分表的方向条件百分表的方向 表表9-14 9-14 分析分析 数据显示,总共调查了225人,其中制造业145人,服务业80人;在制造业被调查者中,以物质报酬为价值取向的有105人,占该群体的72%;以人情关系为价值取向的有40人,占该群体的28%。而服务业被调查者中,以物质报酬为价值取向的有45人,占该群体的56%;以人情关系为价值取向的有35人,占该群体的44%;数据表明,与制造业相比,服务业就业人员更注重人情关系。人们的职业背景不同,工作的价值观有可能不同。535.1条件百分表的方向条件百分表的方向 特殊情况特殊情况如果因变量在样本内的分布不能代表其在总体内的分布,例如,为了满足分析的需要,抽样时扩大了因变量某项内容的样本容量,这时仍以自变量的方向计算百分表就会歪曲实际情况。545.1条件百分表的方向条件百分表的方向 例例:社会学家欲研究家庭状况(自变量)对青少年犯罪(因变量)的影响。该地区有未犯罪记录的青少年10000名,犯罪记录的青少年150名。如果从未犯罪青少年中抽取百分之一,即100名进行研究,则用相同比例从犯罪青少年中抽取的样本量仅为1.5人。显然,这样少的数量无法满足对比研究的需要。因此,对犯罪青少年的抽样比要扩大,譬如扩大到二分之一,即抽取75人。假定从两个样本调查所获得的数据如表9-15所示。555.1条件百分表的方向条件百分表的方向 表表9-15 家庭状况与青少年犯罪家庭状况与青少年犯罪565.1条件百分表的方向条件百分表的方向 表9-15是调查结果的条件分布。由表9-15可以计算其条件百分表,如表9-16表表9-16 家庭状况与青少年犯罪百分表家庭状况与青少年犯罪百分表575.1条件百分表的方向条件百分表的方向 表表9-169-16分析分析 表9-16中得到的显示是,在完整家庭接受调查的130人中,犯罪青少年所占的比例是29%。其实,这个比例是歪曲的,这是由于抽样时扩大了对犯罪青少年抽取的数量。如果把计算百分表的方向变换一下,改为按因变量方向计算,则得到表9-17585.1条件百分表的方向条件百分表的方向 表表9-17 家庭状况与青少年犯罪百分表家庭状况与青少年犯罪百分表595.1条件百分表的方向条件百分表的方向 表表9-179-17分析分析在完整家庭中,未犯罪青少年的比例占到92%,而在离异家庭中,这个比例仅为8%。完整家庭的青少年未犯罪率远远高于离异家庭的这个比例。家庭状况对青少年行为的影响得到了比较真实的反映。605.2 分布的期望值准则分布的期望值准则用 分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数(理论频数)不能过于小,否则应用 检验可能会得出错误结论。关于小单元次数的准则关于小单元次数的准则1.如果只有两个单元,每个单元的期望频数是5或5以上,可以使用 检验。615.2 分布的期望值准则分布的期望值准则2.若有两个以上的单元,如果有20%的单元期望频数fe小于5,则不能应用 检验。根据准则2,表9-19中的数据可以计算 ,因为6个单元中只有1个单元的期望频数小于5。而表9-20中的数据不能应用 统计量,因为7个单元中有3个单元的期望频数小于5。625.2 分布的期望值准则分布的期望值准则 表表9-19 说明表说明表 表表9-20 说明表说明表635.2 分布的期望值准则分布的期望值准则表9-20中的fo与fe非常接近,最大的差别只是3,应当说期望值与观察值拟合得很好,它们之间并无显著区别。然而用 =0.05的 进行检验,则会得到:结果拒绝原假设H0,结论是期望值与观察值之间存在显著差异。645.2 分布的期望值准则分布的期望值准则如果将这个例子中的某些类别合并,使得fe5,差异就消除。例如,将表9-20中的类别E、F、G合并,合并后 f =5+5+4=14,fe=2+4+1=7此时虽然fo与fe之间的差别扩大到7,合并以后有:结果是接受H0,期望值与观察值之间不存在显著差异。65本章小结1.解释列联表解释列联表2.计算期望频数计算期望频数3.进行进行 c c2 检验检验n拟合优度检验拟合优度检验n4.对列联表进行相关分析对列联表进行相关分析n5.用用Excel进行进行c c2 检验检验
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!