资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2021/2/8,#,本资料来源,第 三 节,分 布 的 拟 合 检 验,第三节 分布拟合的 检验法,我们在前面几节中介绍的是在总分布形,式已知时关于总体参数的假设检验。但在实,际问题,有时不能预先知道总体分布的形式。,这时,就要用假设检验的方法,根据样本的,观察值判断总体是否具有某中分布,这类对,总体分布形式的检验问题称为分布拟合检验。,它是非参数检验中较为主要的内容。本节知,介绍分布拟合的检验法。,3,.,分布拟合检验,实际中可能遇到这样的情形,总体服从何种理论分布并完全不知道,要求我们直接对总体分布提出一个假设,。,例如,从,1500,到,1931,年的,432,年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这,432,年间共爆发了,299,次战争,具体数据如下,:,战争次数,X,0 1 2 3 4,发生,X,次战争的年数,223 142 48 15 4,可以假设每年爆发战争次数分布,X,近似泊松分布。那么上面的数据能否证实,X,具有泊松分布假设?,又如,某钟表厂对生产的钟进行精确性检查,抽取,100,个钟作试验,拨准后隔,24,小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来。,问该厂生产的钟的误差是否服从正态分布?,再如,某工厂制造一批骰子,声称它是均匀的。即在投掷中,出现,1,点,,2,点,,,,6,点的概率都应是,1/6,。为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与,1/6,的差距。那么得到的数据能否说明“骰子均匀”的假设是可信的?,3,.,分布拟合检验,需要:,在总体,X,的分布未知时,根据来自总体的样本, 检验关于总体分布的假设的一种检验方法。,3,.,分布拟合检验,若原假设成立,则各实测频数,f,i,与,np,i,(,理论频数,),应相差不大。,总体,X,可以分为,k,个组(类),记作,A,1,A,2, ,A,k,。,现要检验的是:,如对总体做作了,n,次观察,各类出现的频数为,f,i,(实测频数),,所有频数之和,f,1,+,f,2,+ +,f,k,等于样本容量,n,f,i,/,n,称为频率。,3,.,分布拟合检验,标志着经验分布与理论分布之间的差异的大小,.,皮尔逊引进如下统计量表示经验分布,与理论分布之间的差异,:,统计量 的分布是什么,?,在理论分布,已知的条件下,np,i,是常量,实测频数,理论频数,3,.,分布拟合检验,皮尔逊证明了如下定理,:,若原假设成立,那么当 时,统计量,渐近服从自由度为(,k-1,)的 分布,.,3,.,分布拟合检验,如果根据所给的样本值,X,1,X,2, ,X,n,算得,统计量 的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设,.,3,.,分布拟合检验,皮尔逊定理是在,n,无限增大时推导出来的,因而在使用时要注意,n,要足够大,,以及,np,i,不太小,这两个条件,.,根据计算实践,要求,n,不小于,50,,以及,np,i,都不小于 5. 否则应适当合并类,使,np,i,满足这个要求 .,对规定的显著性水平,,则拒绝 。否则不能拒绝 ,即接受,3,.,分布拟合检,验,验,卡方统计量,与,与,2,分布,类别,.,理论值,.,观察值,.,1900,由皮尔逊(,K.Pearson,)提出,卡方 统计,量,量,定理,如果原假设,成立,则在,样,样本容量,时,,,的分布趋向,的,分布,即,。,于自由度为,,并进行显,著,著性检验,奥地利生物,学,学家孟德尔,进,进行了长达,八,八年之久的,豌,豌豆杂交试,验,验,并根据试验,结,结果,运用他的数,理,理知识,发现了遗传,的,的基本规律,.,例,1,,我们以遗,传,传学上的一,项,项伟大发现,为,为例,说明,统,统计方法在,研,研究自然界,和,和人类社会,的,的规律性时,,,,是起着积,极,极的、主动,的,的作用,.,孟德尔,3,.,分布,拟,拟合,检,检验,子二代,子一代,黄色纯系,绿色纯系,他的,一,一组,观,观察,结,结果,为,为:,黄,70,,绿,27,近似,为,为,2.59:1,,与,理,理论,值,值相,近,近,.,根据,他,他的,理,理论,,,,子,二,二代,中,中,黄、,绿,绿之,比,比,近,近似,为,为,3:1,,,例,1,奥地,利,利生,物,物学,家,家孟,德,德尔,进,进行,了,了长,达,达八,年,年之,久,久的,豌,豌豆,杂,杂交,试,试验,并根,据,据试,验,验结,果,果,运用,他,他的,数,数理,知,知识,发现,了,了遗,传,传的,基,基本,规,规律,。,。,3,.,分布,拟,拟合,检,检验,这里,,,,,n,=70+27=97,k,=2,检验,孟,孟德,尔,尔的,3:1,理论,:,提出,假,假设,H,0,:,p,1,=3/4,p,2,=1/4,理论,频,频数,为,为:,np,1,=72.75,np,2,=24.25,实测,频,频数,为,为,70,,,27.,统计,量,量,近似,服,服从,自由,度,度为,k-1=1,由于统计量,的实测值,=0.4158ChiSq0.1764,SampleSize=499,一致,性,性检,验,验,(7-4),也就,是,是说,K,2,是度,量,量实,际,际观,察,察次,数,数与,理,理论,次,次数,偏,偏离,程,程度,的,的一,个,个统,计,计量,,K,2,越小,,,,表,明,明实,际,际观,察,察次,数,数与,理,理论,次,次数,越,越接,近,近;,K,2,=0,,表,示,示两,者,者完,全,全吻,合,合;,K,2,越大,,,,表,示,示两,者,者相,差,差越,大,大。,对于,表,表,7-4,的资,料,料,,可,可计,算,算得,表明,实,实际,观,观察,次,次数,与,与理,论,论次,数,数还,是,是比,较,较接,近,近的,。,。,一,致,致,性,性,检,检,验,验,对规定的显著性水平,,则拒绝 。否则不能拒绝 ,即接受,一,般,般,分,分,布,布,的,的,拟,拟,合,合,检,检,验,验,对,一,一,般,般,总,总,体,体,的,的,分,分,布,布,的,的,假,假,设,设,检,检,验,验,一,般,般,分,分,布,布,的,的,拟,拟,合,合,检,检,验,验,若原假设中的理论分布,F,(,x,),已经完全给定,那么当 时,统计量,渐近服从,(,k,-1),个自由度的 分布,.,如,果,果,理,理,论,论,分,分,布,布,F,(,x,),中,有,有,r,个,未,未,知,知,参,参,数,数,,,,,需,需,用,用,相,相,应,应,的,的,估,估,计,计,量,量,来,来,代,代,替,替,,,,,那,那,么,么,取,取,统,统,计,计,量,量,为,为,渐近服从,(,k,-r-1),个自由度的 分布,.,一般分,布,布的拟,合,合检验,在,F,(,x,),尚未完,全,全给定,的,的情况,下,下,每,个,个未知,参,参数用,相,相应的,估,估计量,代,代替,,就,就相当,于,于增加,一,一个制,约,约条件,,,,,因此,,自,自由度,也,也随之,减,减少一,个,个,.,若有,r,个未知,参,参数需,用,用相应,的,的估计,量,量来代,替,替,,自由度,就,就减少,r,个,.,此时统计量 渐近,(,k,-,r,-1),个自由度的 分布,.,一般分,布,布的拟,合,合检验,如果根据所给的样本值,X,1,X,2, ,X,n,算得,统计量 的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设,.,据,Pearson,定理,,分,分布拟,合,合检验,的,的拒绝,域,域为,:,(,不需估,计,计参数,),(,估计,r,个参数,),注意:皮尔逊,定,定理是,在,在,n,无限增,大,大时推,导,导出来,的,的,因,而,而在使,用,用时要,注,注意,n,要足够,大,大,以及,np,i,(),不太小这两个,条,条件,.,按参数,为,0.69,的泊松,分,分布,,计,计算事,件,件,X=i,的概率,p,i,,,将有关,计,计算结,果,果列表,如,如下,:,p,i,的估计是,,,i,=0,1,2,3,根据观察结果,得参数,的极大似然估计为,例,4,从,1500,到,1931,年的,432,年间,每,年,年爆发战,争,争的次数,可,可以看作,一,一个随机,变,变量,椐,统,统计,这,432,年间共爆,发,发了,299,次战争,,具,具体数据,如,如下,:,战争次数,X,0 1 2 3 4,发生,X,次战争的年数,223 142 48 15 4,提出假设,H,0,:,X,服从参数,为,为,的,的泊松分,布,布,因,H,0,所假设的,理,理论分布,中,中有一个,未,未知参数,,,,故自由,度,度为,4-1-1=2.,x,01234,f,i,22314248154,n,216.7149.5 51.612.0 2.16,0.183,0.376,战争次数,实测频数,14.16,2.43,将,n,5,的组予以合并,即将发生,3,次及,4,次战争的组归并为一组,.,14.16,一般分布,的,的拟合检,验,验,故认为每,年,年发生战,争,争的次数,X,服从参数,为,为,0.69,的泊松分,布,布,.,按,=0.05,,自由度为,4-1-1=2,查 分布表得,=5.991,=2.435.991,,,由于统计量,的实测值,未落入拒,绝,绝域,.,一般分布,的,的拟合检,验,验,设总体,X,的分布未知,从总体中抽取,一个容量为,n,的样本 检验,总体分布是否等于某确定的分布 时,,分下面四个步骤进行。,:总体,X,的分布函数为,的一种方,法,法。,二,关,关于总体,分,分布为已,知,知分布函,数,数的检验,(,1,)检验假,设,设,要求当 为真时, 的形式及参,数都是已,知,知的。但,实,实际上参,数,数值往往,是,是未知,的。这时,,,,需要先,用,用参数估,计,计法(如,矩,矩估计,法,极大,似,似然估计,法,法)来求,出,出参数的,估,估计。,(,2,)由样本构造相应的统计量。在实,数轴上选取,k,-1,个分点 将数,轴分成,k,各互不相交的区间,其中 当 为真,时,记 为总体,X,落在 内的概率,即,记 为,n,各样本值中落入 的个数,即,组频数(一般要求 ,否则可合并相邻,区间)。显然有 。由频率的稳定性,可知,在 为真的条件下, 的值很小。,(,1,),称为 统计量。可以证明,当,n,充分大时,,不论总体属于什么分布,都有,(,2,),作统计量,其中,r,为被估计,参,参数的个,数,数。,(,3,)对于给定的显著性水平 ,由,分布表可查的临界值 ,使,这里拒绝域取为 分布的右侧,是因为,成立时, 有变大的趋势。,因此,检,验,验的拒绝,域,域为,(,4,)由样本观察值计算出 的值。,若 成立,则拒绝原,假设 ,即不能认为总体分布函数是,若 成立,则接受原,假设 ,即可以认为总体分布函数是,例,1,在,20,天内,从,维,维尼纶正,常,常生产,时的生产,报,报表上看,到,到维尼纶,纤,纤度(表,示,示纤,维粗细的,一,一个量),的,的情况,,有,有如下,100,个,数据:,1.36,1.49,1.43,1.41,1.37,1.40,1.32,1.42,1.47,1.39,1.41,1.36,1.40,1.34,1.42,1.42,1.45,1.35,1.42,1.39,1.44,1.42,1.39,1.42,1.42,1.30,1.42,1.34,1.37,1.36,1.37,1.34,1.37,1.37,1.44,1.45,1.32,1.48,1.40,1.45,1.39,1.46,1.39,1.53,1.36,1.48,1.40,1.39,1.38,1.40,1.36,1.45,1.50,1.43,1.38,1.43,1.41,1.48,1.39,1.45,1.38,1.37,1.39,1.45,1.31,1.41,1.44,1.44,1.42,1.47,1.35,1.36,1.39,1.40,1.38,1.35,1.42,1.43,1.42,1.42,1.42,1.40,1.41,1.37,1.46,1.36,1.37,1.27,1.37,1.38,1.42,1.34,1.43,1.42,1.47,1.41,1.44,1.48,1.55,1.37,解,本,本题是根,据,据纤度的,容,容量为,100,的样本值,,,,推断总,体,体,X,(纤度),是,是否服从,正,正态分布,。,。其中两,个,个参数,和,和,未,未知。,用,用矩法求,出,出其估计,值,值,试判断纤,度,度是否服,从,从正态分,布,布,?,?,(,1,)提出原假设,(,2,)在 为真的条件下,统计量,由于总体,中,中有两个,参,参数用估,计,计值代替,,,,因此,为计算出统计量 的值,首先在数轴上,选取分点,划分区间,然后统计出组频数本,例有,100,个数据,,可,可划分为,10,组(通常,样,样本,容量在,50100,时,可分,为,为,610,组),由,于,于,100,个数据中最大与最小者分别为,1.55,和,1.27,,,这时组距按 ,可取为,0.03,。,取始点,a,=1.265,(比数据中最小值略小一点,,即比最小值精度多一位,具末位数取,5,),,但不作为第一分点(因为在,a,以下,没有试验数据),这样便得到如下,9,个分点,1.295,1.325,1.355,1.385,1.415,1.445,1.475,1.505,1.535.,将数轴分,为,为,10,个区间,然后统计出频数,.,其次,计算 ,为此需将区间作中,心化变换,再计算 ,最后计算出,值, 统一列出计算表(见表,72,)。,表,72,2.5235,0.4185,0.6457,0.0954,0.5454,0.8015,0.0170,6.0516,11.9716,2.3409,11.7649,10.6273,0.1296,-2.64,3.46,-1.53,3.43,-3.26,0.36,1.07,3.58,9.81,18.54,24.53,21.57,13.26,5.62,1.65,0.37,1,4,7,22,23,25,10,6,1,1,-2.30,-2.30-1.68,-1.68-1.06,-1.06-0.44,-0.44-0.19,0.190.81,0.811.43,1.432.05,2.052.68,2.68+,-,1.295,1.2951.325,1.3251.355,1.3551.385,1.3851.415,1.4151.445,1.4451.475,1.4751.505,1.5051.535,1.535+,组频,数,U,的组限,组 限,(,3,)根据计算实践,要求 。否则,适当地合并区间,使 满足这个要求。本,例中前三组合并,后三组合并,,k,由原来的,10,变为,6,。对于给定的显著性水平 ,,查 分布表确定临界值,,使,(,4,)由样本值,通过计算表(表,72,),,得到,因此,接受原假设 ,即可以认为维尼纶纤度服从正态分布。亦即可以认为,例,3,下面列出,了,了,84,个伊特拉,斯,斯坎,(Etruscan),人男子的,头,头颅的最,大,大宽度,(mm),,试检验,这,这些数据,是,是否来自,正,正态总体,(,(取,=0.1,),141,148,132,138,154,142,150,146,155,158,150,140,147,148,144,150,149,145,149,158,143,141,144,144,126,140,144,142,141,140,145,135,147,146,141,136,140,146,142,137,148,154,137,139,143,140,131,143,141,149,148,135,148,152,143,144,141,143,147,146,150,132,142,142,143,153,149,146,149,138,142,149,142,137,134,144,146,147,140,142,140,137,152,145,解 为,粗,粗略了解,数,数据的分,布,布情况,,先,先画出直,方,方图。,步骤如下,:,:,1.,找出数据,的,的最小值,、,、最大值,为,为,126,、,158,,取区间,124.5,159.5,它能覆盖,126, 158,;,2.,将区间,124.5,159.5,等分为,7,个小区间,小区间的,长,长度,=(159.5-124.5)/7=5,称为,组,组距,小,区,区间的端,点,点称为组,限,限,建立,下,下表:,组 限,频数,fi,频率,fi /n,累计频率,124.5-129.5,129.5-134.5,134.5-139.5,139.5-144.5,144.5-149.5,149.5-154.5,154.5-159.5,1,4,10,33,24,9,3,0.0119,0.0476,0.1191,0.3929,0.2857,0.1071,0.0357,0.0119,0.0595,0.1786,0.5715,0.8572,0.9524,1,3.,自左向右,在,在各小区,间,间上作以,fi,/,(,n,)为高,的,的小矩形,如下图,,即,即为直方,图,图。,注:,直方图的,小,小区间可,以,以不等长,,,,但小区,间,间的长度,不,不能太大,,,,否则平,均,均化作用,突,突出,淹,没,没了密度,的,的细节部,分,分;也不,能,能太小,,否,否则受随,机,机化影响,太,太大,产,生,生极不规,则,则的形状,。,。,从本例的,直,直方图看,,,,有一个,峰,峰,中间,高,高,两头,低,低,较对,称,称,样本,象,象来自正,态,态总体。,于,于是检验,x129.5,129.5x134.5,134.5x139.5,139.5x144.5,144.5x149.5,149.5x154.5,154.5x,2,),,,列因子的属,性,性类别数为,c,(,c,2),的列联表。,其,其独立性检,验,验为,:,第三节,独,独立性检验,其中,A,ij,(,i,=1,2,r,;,j,=1,2,c,)为实际观,察,察次数,T,ij,为理论期望,次,次数。,下一张,主 页,退 出,上一张,其公式可简,化,化为:,第三节,独,独立性检验,表,9,9,因素,因素,X,合计,Y,x,1,x,2,y,1,a,b,a,+,b,y,2,c,d,c,+,d,合计,a,+,c,b,+,d,n=a+b+c+d,2 2,列联表,第三节,独,独立性检验,期望频,数,数为,相关系数为,统计量为,因素,因素,X,合计,Y,x,1,x,2,y,1,a,b,a,+,b,y,2,c,d,c,+,d,合计,a,+,c,b,+,d,n=a+b+c+d,2 2,列联表,第三节,独,独立性检验,第三节,独,独立性检验,吸?,病?,吸烟,不吸烟,合计,患慢性气管炎,(1),43,13,56,不患慢性气管炎,(0),162,121,283,合计,205,134,339,部门,态度,一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,68,75,57,79,279,反对该方案,32,45,33,31,141,合计,100,120,90,110,420,表,9,1,关于改革方,案,案的调查结,果,果单,位,位:人,例,一个集团公,司,司在四个不,同,同的区域设,有,有分公司,,现,现该,集团公司欲,进,进行一项改,革,革,此项改,革,革可能涉及,到,到各分公司,的,的,利益,故采,用,用抽样调查,方,方法,从四,个,个分公司共,抽,抽取,420,名职,工,了解职,工,工对此项改,革,革的看法,,调,调查结果见,表,表,9,1,。,第三节,独,独立性检验,二、列联表,的,的分布,、观察值,的,的分布,各行合,计,计,的,的,分,分布称,行边缘分布,,,,称行边,缘,缘频数,,称,称行百,分,分数,各列合,计,计,的,的,分,分布称,列边缘分布,,,,称列边,缘,缘频数,,称,称列百,分,分数,称,称为总百分,数,数,第三节,独,独立性检验,一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,68,75,57,79,279,行百分数,%,24.4,26.9,20.4,28.3,66.4,列百分数,%,68.0,62.5,63.3,71.8,总百分数,%,16.2,17.8,13.6,18.8,反对该方案,32,45,33,31,141,行百分数,%,22.7,31.9,23.4,22.0,33.6,列百分数,%,32.0,37.5,36.7,28.2,总百分数,%,7.6,10.7,7.9,7.4,合计,100,120,90,110,420,%,23.8,28.6,21.4,26.2,100.0,包含百分比,的,的,2,4,列联表,表,9,2,第三,节,节,独,独,立,立性,检,检验,、期,望,望值,的,的分,布,布,假,假定,行,行变,量,量和,列,列变,量,量相,互,互独,立,立,实,实际,频,频数,的,的,期,期望,频,频数,为,为,第三,节,节,独,独,立,立性,检,检验,计算,例,例,根据表,9,1,,第一行第一列的实际频数,相,应的期望频数则为,类似,可,可求,得,得各,个,个实,际,际频,数,数的,期,期望,频,频数,列,列于,表,表,9,4,第三,节,节,独,独,立,立性,检,检验,部门,态度,一分公司,二分公司,三分公司,四分公司,合计,赞成该方案,实际频数,68,75,57,79,279,期望频数,( 66 ),( 80 ),( 60 ),( 73 ),反对该方案,实际频数,32,45,33,31,141,期望频数,( 34 ),( 40 ),( 30 ),( 37 ),合计,100,120,90,110,420,实际,频,频数,和,和期,望,望频,数,数分,布,布表,单,单位,:,:人,表,9,4,第三,节,节,独,独,立,立性,检,检验,第二,节,节,2,分布,与,与,2,检验,一、,统,统,计,计量,用,用于,检,检验,列,列联,表,表中,变,变量,之,之间,是,是否,独,独立,的,的检,验,验,,尤其,适,适合,于,于两,个,个定,类,类变,量,量之,间,间是,否,否独,立,立的,检,检验,,,统,统,计,计量,为,为,(9.1),值,值,愈,愈大,则,则表,明,明实,际,际频,数,数与,期,期望,频,频数,的,的差,异,异,愈大,第三,节,节,独,独,立,立性,检,检验,步骤一,步骤二,步骤三,步骤四,68,66,2,4,0.0606,75,80,5,25,0.3125,57,60,3,9,0.1500,79,73,6,36,0.4932,32,34,2,4,0.1176,45,40,5,25,0.6250,33,30,3,9,0.3000,31,37,6,36,0.9730,3.0319,表,9,5,计算表,第三,节,节,独,独,立,立性,检,检验,二、,2,分布,分布为正偏,随着自由度的增加,趋于对,称。当自由度很大时, 分布可用正态分布来近,似。,第三,节,节,独,独,立,立性,检,检验,三、,自,自由,度,度的,确,确定,统计量的自由度为,f =,(,行数,1)(,列数,1),( r,1)(c,1),( 9.2 ),当,n,较大时, 统计量近似 分布。,第三,节,节,独,独,立,立性,检,检验,四、,2,检验,、,、一,致,致性,检,检验,检,检验,多,多个,变,变量,之,之间,是,是否,存,存在,显,显著,差,差异,检,检验,的,的步,骤,骤,例,例如,提,提出,原,原假,设,设和,备,备择,假,假设,不全,相,相等,对规定的显著性水平,若,则拒绝 。否则不能拒绝 ,即接受,第三,节,节,独,独,立,立性,检,检验,例,9.1,某集,团,团公,司,司欲,进,进行,一,一项,改,改革,,,,分,别,别从,所,所,属的,四,四个,分,分公,司,司中,共,共随,机,机抽,取,取了,420,名职,工,工,,了,了解,他,他,们对,改,改革,方,方案,的,的态,度,度(,见,见表,9,1,),,并,并对,职,职工,态,态度,是,是,否与,所,所在,单,单位,有,有关,这,这个,问,问题,在,在,0.1,的显,著,著性,水,水平,上,进,进,行,行,检,检,验,验,。,。,第,三,三,节,节,独,独,立,立,性,性,检,检,验,验,解,:,:,由,(9.1),式,得,得,不,全,全,相,相,等,等,取时,查表得,从而接受 ,即认为四个分公司对改革方案的赞成比例,是一致的。,由,(9.2),式,,,,,得,得,自,自,由,由,度,度,由,于,于,、,独,独,立,立,性,性,检,检,验,验,检,检,验,验,列,列,联,联,表,表,中,中,的,的,行,行,变,变,量,量,与,与,列,列,变,变,量,量,之,之,间,间,是,是,否,否,独,独,立,立,检,检,验,验,的,的,步,步,骤,骤,提,提,出,出,原,原,假,假,设,设,和,和,备,备,择,择,假,假,设,设,H,0,:,行,行,变,变,量,量,与,与,列,列,变,变,量,量,独,独,立,立,H,1,:,行,行,变,变,量,量,与,与,列,列,变,变,量,量,不,不,独,独,立,立,计,计,算,算,检,检,验,验,统,统,计,计,量,量,对规定的显著性水平,若,则拒绝 。否则不能拒绝 ,即接受 。,第,三,三,节,节,独,独,立,立,性,性,检,检,验,验,例,9.2,一,种,种,原,原,料,料,来,来,自,自,三,三,个,个,不,不,同,同,的,的,地,地,区,区,,,,,原,原,料,料,质,质,量,量,被,被,分成三,个,个不同,等,等级。,从,从这批,原,原料中,随,随机抽,取,取,500,件进行,检,检,验,结,果,果如表,9,7,所示。,要,要求检,验,验各个,地,地区和,原,原料之,间,间,是否存,在,在依赖,关,关系。,地区,一级,二级,三级,合计,甲地区,52,64,24,140,乙地区,60,59,52,171,丙地区,50,65,74,189,合计,162,188,150,500,表,9,7,原料抽,样,样结果,单,单位,:,:件,第三节,独,独,立,立性检,验,验,列,一级,二级,三级,合计,甲地区,52,64,24,140,( 45.36 ),( 52.64 ),( 42.00 ),乙地区,60,59,52,171,( 55.40 ),( 64.30 ),( 51.30 ),两地区,50,65,74,189,( 61.24 ),( 71.06 ),( 56.70 ),合计,162,188,150,500,表,9,8,33,列联表,计,计算过,程,程,解:,H,0,:地区,和,和原料,之,之间独,立,立,H,1,:地区,和,和原料,之,之间不,独,独立,第三节,独,独,立,立性检,验,验,续(例,9.2,),取,时,时,,查,查表得,由于,所以拒绝 ,接受 。即认为地区和原料之间不独立。,第三节,独,独,立,立性检,验,验,一、独,立,立性检,验,验的意,义,义,对次数,资,资料,,除,除进行,适,适合性,检,检验外,,,,有时,需,需要分,析,析两类,因,因子是,相,相互独,立,立还是,彼,彼此相,关,关。这,种,种根据次,数,数资料,判,判断两,类,类因子,彼,彼此相,关,关或相,互,互独立,的,的假设,检,检验就,是,是独立,性,性检验。独立,性,性检验,实,实际上,是,是基于,次,次数资,料,料对子,因,因子间,相,相关性,的,的研究,。,。,表,9,12,价值取向,职业,X,Y,制造业,服务业,物质报酬(人),105,45,72,56,人情关系(人),40,35,28,44,合计(人),145,80,100,100,职业背,景,景与工,作,作价值,观,观取向,独立性,检,检验案,例,例,例,社会学,家,家欲研,究,究家庭,状,状况对,青,青少年,犯,犯罪的,影,影响,,设该地,区,区有未,犯,犯罪纪,录,录的青,少,少年,10000,名,有,犯,犯罪记,录,录,的青少,年,年,150,名。如,果,果从未,犯,犯罪青,少,少年中,抽,抽取,1%,,即,对,100,名进行,研,研究,,则,则用相,同,同比例,从,从犯罪,青,青少年,中,中抽取,的样本,容,容量仅,为,为,1.5,人。为,满,满足研,究,究的需,要,要,对,犯,犯罪青,少年的,抽,抽样比,扩,扩大到,1/2,,即抽,取,取,75,人。调,查,查所获,得,得的,数据如,表,表,9,13,。,独立性,检,检验案,例,例,表,9,13,青少年行为,家庭状况,合计,完整家庭,离异家庭,犯罪,38,37,75,未犯罪,92,8,100,合计,130,45,175,家庭状,况,况与青,少,少年犯,罪,罪,单,单,位,位,:,人,由表,9,13,按家庭,状,状况计,算,算的条,件,件百分,表,表,见,表,表,9,14,表,9,14,青少年行为,家庭状况,完整家庭,离异家庭,犯罪,(%),29,82,未犯罪,(%),71,18,合计(人),130,45,家庭状,况,况与青,少,少年犯,罪,罪,由表,9,13,按青少,年,年行为,计,计算的,条,条件百,分,分表,,见,见表,9,15,。,表,9,15,家庭状况,青少年行为,犯罪,(%),未犯罪,(%),完整家庭,51,92,离异家庭,49,8,合计(人),75,100,家庭状,况,况与青,少,少年犯,罪,罪百分,表,表,二、,分,分布的,期,期望值,准,准则,当,数,数据划,分,分为两,类,类时,,要,要求每,一,一类别,的,的期望,频数不,少,少于,5,。,以往病史,f,0,f,e,未曾患过肝炎,532,531,患过肝炎,4,5,表,9,16,说明表,续,(,分布的,期,期望值,准,准则),当,数,数据划,分,分为两,个,个以上,类,类别时,,,,期望,频,频数小,于,5,的比,例,例不,应,应超,过,过,20%,时,,否,否则,应,应把,期,期望,频,频数,小,小于,5,的类,别,别合,并,并。,表,9,17,类别,f,0,f,e,A,28,26,B,49,47,C,18,23,D,6,4,E,92,88,F,20,25,合计,213,213,说明,表,表,表,9,18,类别,f,0,f,e,A,30,32,B,110,113,C,86,87,D,23,24,E,F,G,合计,263,263,说明,表,表,列联,表,表,列联,表,表的,中,中间,各,各个,变,变量,不,不同,水,水平,的,的交,汇,汇处,,,,就,是,是这,种,种水,平,平组,合,合出,现,现的,频,频数,或,或计数(,count,)。,二维,的,的列,联,联表,又,又称,为,为交叉,表,表(,crosstable,)。,右边,的,的列,联,联表,是,是,22,列联,表,表。,维,维数,多,多的,叫,叫做高维,列,列联,表,表。,吸?,癌?,吸烟,不吸烟,患肺癌,(1),60,3,不患肺癌(,0,),32,11,注意,前,前面,这,这个,列,列联,表,表的,变,变量,都,都是,定,定性,变,变量,;,但列,联,联表,也,也会,带,带有定量,变,变量,作,作为,协,协变,量,量。,(A,与,B,独立,),DataSMK;,inputA$B$n;,cards;,1YES601NO3,0YES320NO11,;,procfreqdata=SMK;,tablesA*B/chisq;,weightn;,run;,结果,输,输出,表,1(,频数,频,频率,表,表,),TheFREQProcedure,TableofAbyB,(,频数,),Frequency,(,频率,),Percent,(,行,频率,),RowPct,(,列,频率,),ColPct,NO,YES,Total,-,0,11,32,43, 10.38,30.19 40.57, 25.58,74.42 , 78.57,34.78 ,-,1,3,60,63,2.83,56.60 59.43,4.76,95.24 , 21.43,65.22 ,-,Total1492106,表,2,(,各种,Statistics for TableofA byB,StatisticDFValueProb,- .1Pearson,卡方,似然比卡,方,方,3.,校正卡方,的,卡方检验,),4.MH,统计量,5 phi,关联度系,数,数,PhiCoefficient0.3019,6,列联系数,ContingencyCoefficient0.2890,7.,克莱姆,V,值,Cramers V0.3019,其中,分别为单元,频,频数与期望,频,频数,N,为样本容量,k,为行和,列的最小数,r,为行与列的,.Pearson,相关系数,Fishers,精确检验,Fishers ExactTest,-,Cell(1,1)Frequency(F)11,Left-sidedPr = F0.0025,双边检验,TableProbability (P)0.0022,Two-sidedPr =P0.0028,Sample Size = 106,
展开阅读全文