资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,优选统计学第二章列联分析,2024/11/18,2,主要内容,分类数据与列联表,检验,列联表中的相关测量,列联分析中应注意的问题,第一节,分类数据与列联表,一、分类数据,二、列联表的构造三、列联表的分布,2024/11/18,3,分类变量的结果表现为类别,例如:性别,(,男,女,),各类别用符号或数字代码来测度,使用分类或顺序尺度,你吸烟吗,?,1.,是;,2.,否,你赞成还是反对这一改革方案,?,1.,赞成;,2.,反对,对分类数据的描述和分析通常使用列联表,可使用,检验,数值型数据也可以转化为分类数据,2024/11/18,4,一、分类数据,由两个以上的变量交叉分类的频数分布表,行变量的类别用,r,表示,,r,i,表示第,i,个类别,列变量的类别用,c,表示,,c,j,表示第,j,个类别,每种组合的观察频数用,f,ij,表示,表中列出了行变量和列变量的所有可能的组合,所以称为列联表,一个,r,行,c,列的列联表称为,r,c,列联表,2024/11/18,5,二、列联表的构造,-,列联表,(contingency table),2024/11/18,6,列联表的结构,(2,2,列联表,),列,(,c,j,),合计,j,=1,j,=1,i,=1,f,11,f,12,f,11,+,f,12,i,=2,f,21,f,22,f,21,+,f,22,合计,f,11,+,f,21,f,12,+,f,22,n,列,(,c,j,),行,(,r,i,),2024/11/18,7,列联表的结构,(r,c,列联表的一般表示,),列,(,c,j,),合计,j,=1,j,=2,i,=1,f,11,f,12,r,1,i,=2,f,21,f,22,r,2,:,:,:,:,:,合计,c,1,c,2,n,列,(,c,j,),行,(,r,i,),f,ij,表示第,i,行第,j,列的观察频数,2024/11/18,8,例题分析,一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,68,75,57,79,279,反对该方案,32,75,33,31,141,合计,100,120,90,110,420,【,例,】,一个集团公司在四个不同的地区设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及到各分公司的利益,故采用抽样调查方式,从四个分公司共抽取,420,个样本单位,(,人,),,了解职工对此项改革的看法,调查结果如下表,边缘分布,行边缘分布,行观察值的合计数的分布,例如,赞成改革方案的共有,279,人,反对改革方案的,141,人,列边缘分布,列观察值的合计数的分布,例如,四个分公司接受调查的人数分别为,100,人,,120,人,,90,人,,110,人,条件分布与条件频数,变量,X,条件下变量,Y,的分布,或在变量,Y,条件下变量,X,的分布,每个具体的观察值称为条件频数,2024/11/18,9,二、列联表的分布,-,观察值的分布,2024/11/18,10,观察值的分布,(,图示,),一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,68,75,57,79,279,反对该方案,32,45,33,31,141,合计,100,120,90,110,420,行边缘分布,列边缘分布,条件频数,条件频数反映了数据的分布,但不适合对比,为在相同的基数上进行比较,可以计算相应的百分比,称为,百分比分布,行百分比:行的每一个观察频数除以相应的行合计数,(,f,ij,/,r,i,),列百分比:列的每一个观察频数除以相应的列合计数,(,f,ij,/,c,j,),总百分比:每一个观察值除以观察值的总个数,(,f,ij,/,n,),2024/11/18,11,百分比分布,(,概念要点,),2024/11/18,12,百分比分布,(,图示,),一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,24.4%,26.9%,20.4%,28.3%,66.4%,68.0%,62.5%,63.35,71.8%,16.2%,17.8%,13.6%,18.8%,反对该方案,22.7%,31.9%,23.4%,22.0%,33.6%,32.0%,37.5%,36.7%,28.2%,7.6%,10.7%,7.9%,7.4%,合计,23.8%,28.6%,21.4%,26.2%,100%,总百分比,列百分比,行百分比,假定行变量和列变量是独立的,一个实际频数,f,ij,的期望频数,e,ij,,是总频数的个数,n,乘以该实际频数,f,ij,落入第,i,行 和第,j,列的概率,即,2024/11/18,13,期望频数的分布,2024/11/18,14,期望频数的分布,(,例题分析,),由于观察频数的总数为,n,,所以,f,11,的期望频数,e,11,应为,例如,第,1,行和第,1,列的实际频数为,f,11,它落在第,1,行的概率估计值为该行的频数之和,r,1,除以总频数的个数,n,,即:,r,1,/,n,;它落在第,1,列的概率的估计值为该列的频数之和,c,1,除以总频数的个数,n,,即:,c,1,/,n,。根据概率的乘法公式,该频数落在第,1,行和第,1,列的概率应为,2024/11/18,15,期望频数的分布,(,例题分析,),一分公司,二分公司,三分公司,四分公司,赞成该方 案,实际频数,68,75,57,79,期望频数,66,80,60,73,反对该方 案,实际频数,32,75,33,31,期望频数,34,40,30,37,第二节,检验,一、,统计量,二、拟合优度检验,2024/11/18,16,用于检验列联表中变量间拟合优度和独立性,用于测定两个分类变量之间的相关程度,计算公式为,其自由度为,式中,-,列联表中第,i,行第,j,列类别的实际频数,-,列联表中第,i,行第,j,列类别的期望频数,2024/11/18,17,一、,统计量,2024/11/18,18,统计量,(,例题分析,),实际频数,(,f,ij,),期望频数,(,e,ij,),f,ij,-,e,ij,(,f,ij,-,e,ij,),2,(,f,ij,-,e,ij,),2,e,ij,68,75,57,79,32,45,33,31,66,80,60,73,34,40,30,37,2,-5,-3,6,-2,5,3,-6,4,25,9,36,4,25,9,36,0.0606,0.3125,0.1500,0.4932,0.1176,0.6250,0.3000,0.9730,合计:,3.0319,2024/11/18,19,二、拟合优度,检验,(,品质数据的假设检验,),品质数据,比例检验,独立性检验,Z,检验,一个总体,检验,Z,检验,检验,两个以上总体,两个总体,检验多个比例是否相等,检验的步骤,提出假设,H,0,:,1,=,2,=,j,;,H,1,:,1,2,j,不全相等,计算检验的统计量,2024/11/18,20,拟合优度检验,(goodness of fit test),进行决策,根据显著性水平和自由度,(,r,-1)(,c,-1),查出临界值,2,若,2,2,,拒绝,H,0,;若,2,2,,接受,H,0,H,0,:,1,=,2,=,3,=,4,H,1,:,1,2,3,4,不全相等,=0.1,df=(2-1)(4-1)=3,临界值,(s):,拟合优度检验,(,例题分析,),统计量,:,在,=0.1,的水平上不能拒绝,H,0,可以认为四个分公司对改革方案的赞成比例是一致的,决策,:,结论,:,6.251,3.0319,=0.1,0,【,例,】,为了提高市场占有率,,A,公司和,B,公司同时开展了广告宣传。在广告宣传战之前,,A,公司的市场占有率为,45%,,,B,公司的市场占有率为,40%,,其他公司的市场占有率为,15%,。为了了解广告战之后,A,、,B,和其他公司的市场占有率是否发生变化,随机抽取了,200,名消费者,其中,102,人表示准备购买,A,公司产品,,82,人表示准备购买,B,公司产品,另外,16,人表示准备购买其他公司产品。检验广告战前后各公司的市场占有率是否发生了变化,(0.05),2024/11/18,22,拟合优度检验,(,例题分析,),H,0,:,1,=0.45,2,=0.4,3,=,0.15,H,1,:,原假设中至少有一个不成立,=0.05,df=(2-1)(3-1)=2,临界值,(s):,拟合优度检验,(,例题分析,),统计量,:,在,=0.05,的水平上拒绝,H,0,可以认为广告后各公司产品市场占有率发生显著变化,决策,:,结论,:,0,8.18,5.99,=0.05,23,第,1,步:将观察值输入一列,将期望值输入一列,第,2,步:选择“函数”选项,第,3,步:在函数分类中选“统计”,在函数名中选,“,CHITEST”,,点击“确定”,第,4,步:在对话框“,Actual_range”,输入观察数据区域,在对话框“,Expected_range”,输入期望数据区,域得到,P,值为,0.016711,,所以拒绝原假设,拟合优度检验,(,例题分析,用,P,值检验,),24,第三节,列联表中的相关测量,一,、,相关系数,二、列联相关系数,三,、,V,相关系数,2024/11/18,25,品质相关,对品质数据,(,分类和顺序数据,),之间相关程度的测度,列联表变量的相关属于品质相关,列联表相关测量的统计量主要有,相关系数,列联相关系数,V,相关系数,2024/11/18,26,列联表中的相关测量,测度,22,列联表中数据相关程度,对于,22,列联表,,系数的值在,0,1,之间,相关系数,计算公式为,式中,n,为列联表的总频数,即样本量,2024/11/18,27,一、,相关系数,(correlation coefficient),一个简化的,22,列联表,2024/11/18,28,相关系数,(,原理分析,),因素,Y,因素,X,合计,x,1,x,2,y,1,a,b,a,+,b,y,2,c,d,c,+,d,合计,a,+,c,b,+,d,n,a,、,b,、,c,、,d,均为条件频数,当变量,X,,,Y,相互独立,不存在相关关系时,频数间应有下面的关系:,化简后有:,差值 的大小可以反映变量之间相关程度的高低。差值越大,说明两个变量的相关程度越高。,系数就是以差值为基础,实现对两个变量相关程度的测量。,2024/11/18,29,相关系数,(,原理分析,),列联表中每个单元格的期望频数分别为,2024/11/18,30,相关系数,(,原理分析,),将各期望频数代入,的计算公式得,将,代入,相关系数的计算公式得,2024/11/18,31,相关系数,(,原理分析,),ad,等于,bc,,,=0,,表明变量,X,与,Y,之间独立,若,b,=0,,,c,=0,,或,a,=0,,,d,=0,,意味着各观察频数全部落在对角线上,此时,|,|=1,表明变量,X,与,Y,之间完全相关,列联表中变量的位置可以互换,,的符号没有实际意义,故取绝对值即可,用于测度大于,22,列联表中数据的相关程度,计算公式为,2024/11/18,32,二、列联,相关系数,(coefficient ofcontingency),C,的取值范围是,0,C,1,C,=0,表明列联表中的两个变量独立,C,的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大,根据不同行和列的列联表计算的列联系数不便于比较,计算公式为,2024/11/18,33,三,、,V,相关系数,(V correlation coefficient),2.,V,的取值范围是,0,V,1,3.,V,=0,表明列联表中的两个变量独立,4,.V,=1,表明列联表中的两个变量完全相关,5.,不同行和列的列联表计算的列联系数不便于比较,6.,当列联表中有一维为,2,,,min(,r,-1),(,c,-1)=1,此时,V,=,同一个列联表,,、,C,、,V
展开阅读全文