概率论与数理统计教程(茆诗松)第七章

上传人:熏** 文档编号:243539102 上传时间:2024-09-25 格式:PPT 页数:119 大小:1.90MB
返回 下载 相关 举报
概率论与数理统计教程(茆诗松)第七章_第1页
第1页 / 共119页
概率论与数理统计教程(茆诗松)第七章_第2页
第2页 / 共119页
概率论与数理统计教程(茆诗松)第七章_第3页
第3页 / 共119页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第七章 假设检验,华东师范大学,9/25/2024,第,119,页,第七章,假设检验,7.1,假设检验的基本思想与概念,7.2,正态总体参数假设检验,7.3,其它分布参数的假设检验,7.4,分布拟合检验,7.1,假设检验的基本思想与概念,7.1.1,假设检验问题,例,7.1.1,某厂生产的合金强度服从 ,其中,的设计值,为不低于,110(Pa),。,为保证质量,该,厂每天都要对生产情况做例行检查,以判断生,产是否正常进行,即该合金的平均强度不低于,110(Pa),。,某天从生产中随机抽取,25,块合,金,,测得强度值为,x,1, x,2, x,25,,其均值为,(Pa),,问当日生产是否正常?,(1),是参数估计问题吗?,(2),回答,“,是,”,还是,“,否,”,,,假设检验问题,。,(3),命题,“,合金平均强度不低于,110Pa,”,正确与,否仅涉及如下,两,个参数集合:,这,两,个非空参数集合都称作,统计假设,,,简称,假设,。,(4),我们的任务是利用样本去判断假设(命题),“,”,是否成立。这里的,“,判断,”,在统计学中,称为,检验,或,检验法则,。,7.1.2,假设检验的基本步骤,一、,建立假设,在假设检验中,常把一个被检验的假设称为,原假设,,,用,表示,通常将,不应轻易加以否定,的假设作为原假设。,当,被拒绝时而接收的假设称为,备择假设,,,用,表示,它们常常成对出现。,在例,7.1.1,中,我们可建立如下两个假设:,二、选择检验统计量,给出拒绝域形式,由样本对原假设进行判断总是通过一个统计量完成的,该统计量称为,检验统计量,。,使原假设被拒绝的样本观测值所在区域称为,拒绝域,,,一般用,W,表示,在例,7.1.1,中,样本均值 愈大,意味着总体均值,也大,因此,合理的拒绝域形如,正如在数学上我们不能用一个例子去证明一个结论一样,用一个样本(例子)不能证明一个命题(假设)是成立的,但可以用一个例子(样本)推翻一个命题。因此,从逻辑上看,注重拒绝域是适当的。事实上,在,“,拒绝原假设,”,和,“,拒绝备择假设(从而接收原假设),”,之间还有一个模糊域,如今我们把它并入接收域,所以接收域是复杂的,将之称为保留域也许更恰当,但习惯上已把它称为接收域,没有必要再进行改变,只是应注意它的含义。,三、选择显著性水平,检验可能犯以下两类错误:,其一是,为真但样本观测值落在拒绝域中,,从而拒绝原假设,,这种错误称为,第一类错,误,,,其发生的概率称为犯第一类错误的概率,,或称,拒真概率,,,通常记为,其二是,不真(即,为真)但样本观测值落,在接受域中,从而接受原假设,,这种错误称,为,第二类错误,,其发生的概率称为犯,第二类错,误,的概率,或称,受伪概率,,通常记为,。,观测数,据情况,总体情况,犯第一类错误,正确,正确,犯第二类错误,为真,为真,犯第一类错误的概率,和犯第二类错误的概率,可以用同一个函数表示,即所谓的,势函数,。,势函数是假设检验中最重要的概念之一,定义如下:,定义,7.1.1,设检验问题,的拒绝域为,W,,则样本观测值落在拒绝域内的概率称为该检验的,势函数,,记为,(7.1.3),势函数,是定义在参数空间,上的一个函数。犯,两,类错误的概率都是参数,的函数,并可由势函数算得,即:,对例,7.1.1,,其拒绝域为 ,由,(7.1.3),可以算出该检验的势函数,这个势函数,是,的,减函数,由此可得如下结论:,利用这个势函数容易写出犯,两,类错误的概率分别为,和,当,减小时,,c,也随之减小,必导致,的增大;,当,减小时,,c,会增大,必导致,的增大;,说明:在样本量一定的条件下不可能找到一个使,和,都小的检验。,英国统计学家,Neyman,和,Pearson,提出水平为,的,显著性检验,的概念。,则称该检验是,显著性水平为,的显著性检验,,简称,水平为,的检验,。,定义,7.1.2,对检验问题,对,如果一个检验满足对任意的,,,都有,四、给出拒绝域,确定显著性水平后,可以定出检验的拒绝域,W,。,在例,7.1.1,中,若取,=0.05,由于,g,(,),关于,单调减,只需要,成立即可。这给出,c,的值为,=108.684,检验的拒绝域为,若令,则拒绝域有另一种表示,:,五、作出判断,在有了明确的拒绝域后,根据样本观测值我们可以做出判断:,当,或 时,则,拒绝,即接收,;,当,或,时,则接收,在例,7.1.1,中,由于,因此拒绝原假设,即认为该日生产不正常。,7.2,正态总体参数假设检验,参数假设检验常见的有三种基本形式,(1),(2),(3),当备择假设,在原假设,一侧时的检验称,为,单侧检验,;,当备择假设,分散在原假设,两侧时的检验,称为,双侧检验,。,7.2.1,单个正态总体均值的检验,一、已知,时的,u,检验,设,是来自,的样本,考虑关于,的检验问题。检验统计量可选为,三种假设的拒绝域形式分别见下图:,(,a,),(,b,),(,c,),该检验用,u,检验统计量,故称为,u,检验。,下面以 为例说明:,由 可推出具体的拒绝域为,该检验的势函数,是,的,函数,它可用正态分布写出,具体为,势函数是,的增函数(见图),只要,就可保证在,时有,7.2.1 (,a,),的图形,对单侧检验 是类似的,,只是拒绝域变为,:,其势函数为,对双侧检验问题,(,7.2.3),,拒绝域为,其势函数为,7.2.1(,b,)(,c,),的图形,例,7.2.1,从甲地发送一个讯号到乙地。设乙地接,受到的讯号值服从正态分布,其中,为甲地发送的真实讯号值。现甲地重复发送同,一讯号,5,次,乙地接收到的讯号值为,8.05 8.15 8.2 8.1 8.25,设接受方有理由猜测甲地发送的讯号值为,8,,问能否接受这猜测?,解:,这是一个假设检验的问题,总体,X N,(, 0.2,2,),检验假设,:,这个双侧检验问题的拒绝域为,取置信水平,=0.05,,则查表,知,u,0.975,=1.96,。,用观测值可计算得,u,值未落入拒绝域内,故不能拒绝原假设,,即接受原假设,可认为猜测成立。,二、,未知时的,t,检验,由于,未知,一个自然的想法是将,(,7.2.4,),中未知的,替换成样本标准差,s,,,这就形成,t,检验统计量,(7.2.9),三种假设的检验拒绝域分别为,例,7.2.2,某厂生产的某种铝材的长度服从正态分,布,其均值设定为,240,厘米。现从该厂抽取,5,件,产品,测得其长度为(单位:厘米),239.7 239.6 239 240 239.2,试判断该厂此类铝材的长度是否满足设定要求?,解:,这是一个关于正态均值的双侧假设检验问题。,采用,t,检验,拒绝域为,:,现由样本,计算得到,:,t,=,=2.7951,由于,2.79512.776,,故拒绝原假设,,认为该厂生产的铝材的长度不满足设定要求。,若取,=0.05,,则,t,0.975,(4),= 2.776,.,故,检验法,条件,检验统计量,拒绝域,u,检验,已知,t,检验,未知,原假设,备择假设,表,7.2.1,单个正态总体的均值的检验问题,三、假设检验与置信区间的关系,这里用的检验统计量与,6.5.5,节中置信区间所用的枢轴量是相似的。这不是偶然的,,两,者之间存在非常密切的关系。,设,是来自正态总体,的样本,现在,未知场合讨论关于均值,的检验问题。,考虑双侧检验问题,:,它可以改写为,并且有,若让,0,在,(-, ),内取值,就可得到,的,1,-,置,信区间:,这里,0,并无限制,.,则水平为,的检验接收域为,关于 的水平为,的显著性检验。,是一一对应的。,类似地,,“,参数,的,1,-,置信上限,”,与,“,关于,的单侧检验问题的水平,的检验,”,反之若有一个如上的,1,-,置信区间,也可获得,所以,:,“,正态均值,的,1,-,置信区间,”,与,“,关于,的双侧检验问题的水平,的检验,”,参数,的,1,-,置信下限与另一个单侧检验也是一一对应的。,是一一对应的。,7.2.2,两个正态总体均值差的检验,检验法,条件,原假设,备择假设,检验统计量,拒绝域,u,检验,已知,t,检验,未知,大样本检,u,验,未知,m,n,充分大,近似,t,检验,未知,m,n,不很大,例,7.2.3,某厂铸造车间为提高铸件的耐磨性而,试制了一种镍合金铸件以取代铜合金铸件,,为此,从两种铸件中各抽取一个容量分别为,8,和,9,的样本,测得其硬度为,镍合金:,76.43 76.21 73.58 69.69,65.29 70.83 82.75 72.34,铜合金:,73.66 64.27 69.34 71.37,69.77 68.12 67.27 68.07 62.61,根据经验,硬度服从正态分布,且方差保持不变。,试在显著性水平,下判断镍合金的硬度是否有明显提高。,解:,用,X,表示镍合金的硬度,,Y,表示铜合金的硬,度,则由假定,,要检验的假设是:,经计算,,从而,查表知,由于,故拒绝原假设,可判断镍合金硬度有显著提高。,7.2.3,正态总体方差的检验,一、单个正态总体方差的检验,设,是来自,的样本,对方差亦可考虑如下三个检验问题:,通常假定,未知,它们采用的检验统计量是,相同的,均为,若取显著性水平为,,则对应三个检验问题的拒绝域依次分别为,例,7.2.4,某类钢板每块的重量,X,服从正态分布,,其一项质量指标是钢板重量的方差不得超过,0.016 (,kg,2,),。现从某天生产的钢板中随机抽取,25,块,得其样本方差,S,2,=0.025(,kg,2,),,问该天生,产的钢板重量的方差是否满足要求。,解:,原假设为,备择假设为,此处,n=25,,,若取,=0.05,,则查表知,由此,在显著性水平,0.05,下,,我们拒绝原假设,认为该天生产的钢板重量不符合要求。,现计算可得,二、两个正态总体方差比的,F,检验,设,是来自,的样本,,是来自,的样本。考虑如下三个假设检验问题,通常,均未知,记,分别是由,算得的,的无偏估计和由,算得的,的无偏估计,.,可建立检验统计量,:,三种检验问题对应的拒绝域依次为,。,或,例,7.2.5,甲、乙两台机床加工某种零件,零件,的直径服从正态分布,总体方差反映了加工,精度,为比较两台机床的加工精度有无差别,,现从各自加工的零件中分别抽取,7,件产品和,8,件产品,测得其直径为,X,(,机床甲,),16.2 16.4 15.8 15.5 16.7 15.6 15.8,Y,(,机床乙,),15.9 16.0 16.4 16.1 16.5 15.8 15.7 15.0,这就形成了一个双侧假设检验问题,原假设是,备择假设为,此处,m,=7,,,n,=8,,,经计算,查表知,于是,,若取,=0.05,,,其拒绝域为,由此可见,样本未落入拒绝域,即在,0.05,水平下可以认为两台机床的加工精度一致。,7.3,其他分布参数的假设检验,7.3.1,指数分布参数的假设检验,设,x,1, x,2,x,n,是来自指数分布的样本,关于,的如下检验问题:,(7.3.1),拒绝域的形式是,,由于在,=,0,时,,所以拒绝域为,例,7.3.1,设我们要检验某种元件的平均寿命不小,于,6000,小时,假定元件寿命为指数分布,现取,5,个元件投入试验,观测到如下,5,个失效时间,:,395, 4094, 119, 11572, 6133,。,解:,由于待检验的假设为,若取,=0.05,,则检验拒绝域为,:,故接受原假设,,可以认为平均寿命不低于,6000,小时,.,经计算得,7.3.2,比例的检验,比例,p,可看作某事件发生的概率。作,n,次独立试验,以,x,记该事件发生的次数,则,。我们可以根据,x,检验关于,p,的一些假设,:,(1),直观上看拒绝域为,:,,由于,x,只,取整数值,故,c,可限制在非负整数中。,这是在对离散总体作假设检验中普遍会遇到的问题,.,一般情况下,对给定的,,不一定能,正好,取到一个正整数,c,使下式成立,:,一般较常见的是找一个,c,0,,使得,(2),检验的拒绝域为,:,c,为满足,的,最大,正整数。,(3),检验的拒绝域为,:,或,其中,c,1,为满足下式的,最大,正整数,:,c,2,为满足下式的,最小,正整数,:,例,7.3.2,某厂生产的产品优质品率一直保持在,40%,,,近期对该厂生产的该类产品抽检,20,件,其中优质品,7,件,,在 下,能否认为,优质品率仍保持在,40%,?,解:,以,p,表示优质品率,,x,表示,20,件产品中的优质,品件数,则,,待检验的假设为,拒绝域为,或,由于,下求,c,1,与,c,2,:,故取,c,1,=3,,又因为,从而,c,2,=12,,拒绝域为,附带指出,该拒绝域的显著性水平实际上不是,0.05,,而是,0.0160+0.021=0.0370,。,由于观测值没有落入拒绝域,故接受原假设。,或,7.3.3,大样本检验,在二点分布参数,p,的检验问题中,临界值的确定比较繁琐,使用不太方便。如果样本量较大,我们可用近似的检验方法,大样本检验。,大样本检验一般思路如下:设,是来自某,总体的样本,又设该总体均值为,,方差为,的函数,记为,,譬如,对二点分布,b,(1,),,,其方差,(1,-,),是均值,的函数,则在样本容量,n,充分大时,,故可采用如下检验,:,由此近似地确定拒绝域。,统计量,例,7.3.3,某厂产品的不合格品率为,10%,,在,一次例行检查中,随机抽取,80,件,发现有,11,件不合格品,在,=0.05,下能否认为不合,格品率仍为,10%,?,解:,这是关于不合格品率的检验,假设为,:,若取,=0.05,,则,u,0.975,=1.96,故拒绝域为,故不能拒绝原假设。,因为,n,=80,比较大,可采用大样本检验方法。检验统计量为,例,7.3.4,某建筑公司宣称其麾下建筑工地平均每,天发生事故数不超过,0.6,起,现记录了该公司,麾下建筑工地,200,天的安全生产情况,事故数,记录如下:,天数,102,59,30,8,0,1,0,200,一天发生的事故数,0,1,2,3,4,5,合计,6,试检验该建筑公司的宣称是否成立,(,取,=0.05,),。,解:,以,X,记建筑工地一天发生的事故数,可认,为,,要检验的假设是:,由于,n,=200,很大,可以采用大样本检验,泊松分布的均值和方差都是,,这里,,检验统计量为,若取,=0.05,,则,u,0.95,=1.645,,拒绝域为,如今,u,=2.556,已落入拒绝域,故拒绝原假设,,认为该建筑公司的宣称明显不成立。,大样本检验是近似的,:,近似的含义是指,检验的实际显著性水平与原先设,定的显著性水平有差距,,,这是由于诸如,(7.3.12),中,u,的分布与,N,(0,1),有距离。如果,n,很大,则这种差,异就很小。实用中我们一般并不清楚对一定的,n,u,的分布与,N,(0,1),的差异有多大,因而也就不能,确定检验的实际水平与设定水平究竟差多少。在,区间估计中也有类似问题。因此,大样本方法是,一个,“不得已而为之”,的方法。只要有基于精确分,布的方法一般总是首先要加以考虑的。,7.3.4,检验的,p,值,假设检验的结论通常是简单的,:,在给定的显著水平下,不是拒绝原假设就是保留原假设。然而有时也会出现这样的情况:在一个较大的显著水平(,=0.05,),下得到拒绝原假设的结论,而在一个较小的显著水平(,=0.01,)下却会得到相反的结论。,这种情况在理论上很容易解释:,因为显著水平变小后会导致检验的拒绝域变小,于是原来落在拒绝域中的观测值就可能落入接受域。,但这种情况在应用中会带来一些麻烦:假如这时一个人主张选择显著水平,=0.05,,而另一个人主张选,=0.01,,则第一个人的结论是拒绝,H,0,,,而后一个人的结论是接受,H,0,,,我们该如何处理这一问题呢?,例,7.3.5,一支香烟中的尼古丁含量,X,服从正态,分布,N,(,1,),,,质量标准,规定不能超过,1.5,毫,克。现从某厂生产的香烟中随机抽取,20,支测,得其中平均每支香烟的尼古丁含量为,毫克,试问该厂生产的香烟尼古丁含量是否,符合质量标准的规定。,这是一个假设检验问题:,H,0,:,1.5,H,1,:,1.5,采用,u,检验,计算得,:,对一些的显著性水平,表,7.3.1,列出了相应的拒绝域和检验结论。,表,7.3.1,例,7.3.5,中的拒绝域,显著性水平,拒绝域,u,=2.10,对应的结论,=0.05,u,1.645,拒绝,H,0,=0.025,u,1.96,拒绝,H,0,=0.01,u,2.33,接受,H,0,=0.005,u,2.58,接受,H,0,我们看到,不同的,有不同的结论。,现在换一个角度来看,在,=1.5,时,,u,的分布是,N,(0,1),。,此时可算得,,P,(,u,2.10),=,0.0179,,,若以,0.0179,为基准来看上述检验问题,可得,当,2.10,。,于是,2.10,就不在,中,此时应接受原假设,H,0,;,当,0.0179,时,,2.10,。,于是,2.10,就落在,中,此时应拒绝,H,0,。,u,由此可以看出,,0.0179,是能用观测值,2.10,做出,“,拒绝,H,0,”,的最小的显著性水平,,这就是,p,值。,u,定义,7.3.1,在一个假设检验问题中,利用观测,值能够做出拒绝原假设的最小显著性水平称,为,检验的,p,值,。,引进检验的,p,值的概念有明显的好处,:,第一,它比较客观,避免了事先确定,显著水平;,其次,由检验的,p,值与人们心目中的显,著性水平,进行比较可以很容易,作出检验的结论:,如果,p,,则在显著性水平,下拒绝,H,0,;,如果,p,,则在显著性水平,下保留,H,0,.,p,值在应用中很方便,如今的统计软件中对检验问题一般都会给出检验的,p,值。,例,7.3.6,设,是来自,b,(1,),的样本,,要检验如下假设:,若取显著性水平为,,则在得到观测值,后,我们只需要计算概率,:,这就是检验的,p,值。譬如,若取,=0.05,,由于,p,,,则应拒绝原假设。,例,7.3.7,某工厂两位化验员甲、乙分别独立地用,相同方法对某种聚合物的含氯量进行测定。甲,测,9,次,样本方差为,0.7292,;乙测,11,次,样本方,差为,0.2114,。假定测量数据服从正态分布,试,对两总体方差作一致性检验,:,检验统计量为,,在原假设成立下,,F,F,(8,10),,,拒绝域为,如今我们不是把拒绝域具体化,而是由观测值算得,F,=0.7292/0.2114=3.4494,再去计算该检验的,p,值。,或,首先,我们用,F,分布算得,其次考虑到双侧检验的拒绝域,W,分散在两端,且两端尾部概率相等(见图,7.3.2,),据此可定出,p,值为,此,p,值,不算很小,若,=0.05,,则接收两方差相等的假设。,在这种双侧检验情况下,,如何由观测值,F,= 3.4494,算得,p,值呢?,图,7.3.2,观测值,F,=3.4494,对应的,p,值,由两端尾部概率之和确定,7.4,分布拟合检验,7.4.1,总体分布只取有限个值的情况,设总体,X,可以分成,k,类,记为,,现对该总体作了,n,次观测,,k,个类出现的频数分别为,:,检验如下假设,:,n,1,n,k,且,其中诸,且,一、诸,p,i,均已知,如果,H,0,成立,则对每一类,A,i,,其频率,n,i,/n,与概率,p,i,应较接近。即观测频数,n,i,与,理论频数,np,i,应相差不大。据此,英国统计学家,K.Pearson,提出如下检验统计量,:,(,7.4.2,),并证明在,H,0,成立时对充分大的,n,(7.4.2),给出的检验统计量近似服从自由度为,k,-,1,的 分布。,拒绝域为,:,例,7.4.1,为募集社会福利基金,某地方政府发,行福利彩票,中彩者用摇大转盘的方法确定,最后中奖金额。大转盘均分为,20,份,其中金,额为,5,万、,10,万、,20,万、,30,万、,50,万、,100,万,的分别占,2,份、,4,份、,6,份、,4,份、,2,份、,2,份。,假定大转盘是均匀的,则每一点朝下是等可,能的,于是摇出各个奖项的概率如下:,概率,0.1,0.2,0.3,0.2,0.1,0.1,额度,5,万,10,万,20,万,30,万,50,万,100,万,现,20,人参加摇奖,摇得,5,万、,10,万、,20,万、,30,万、,50,万和,100,万的人数分别为,2,、,6,、,6,、,3,、,3,、,0,,由于没有一个人摇到,100,万,于是有人怀疑大转盘是不均匀的,那么该怀疑是否成立呢?这就需要对转盘的均匀性作检验。,解:,这是一个典型的分布拟合优度检验,总体,共有,6,类,其发生概率分别为,0.1,、,0.2,、,0.3,、,0.2,、,0.1,和,0.1,,这里,k,=6,,,检验拒绝域为,:,由本例数据可以算出,若取,=0.05,,则查附表,3,知,=,由于 未落入拒绝域,故接受原假设,,没有理由认为转盘不均匀。,在分布拟合检验中使用,p,值也是方便的。,本例中,以,T,记服从,(5),的随机变量,则使用统计软件可以算出,这个,p,值就反映了数据与假设的分布拟合程度的高低,,p,值越大,拟合越好。,二、,诸,p,i,不完全已知,若诸,由,r,(,r,k,),个,未知参数,确定,即,首先给出,的极大似然估计,然后给出诸,的极大似然估计,Fisher,证明了,在,H,0,成立时近似服从自由度,为,k,-,r,-,1,的,分布,于是检验拒绝域为,例,7.4.2,卢瑟福在,2608,个等时间间隔内观测一,枚放射性物质放射的粒子数,X,,表,7.4.1,是观测,结果的汇总,其中,n,i,表示,2608,次观测中放射粒,子数为,i,的次数。,n,i,57 203 383 525 532 408 273 139 45 27 10 6,i 0 1 2 3 4 5 6 7 8 9 10,11,试利用该组数据检验该放射物质在单位时间内放射出的粒子数是否服从泊松分布。,解:,本例中,要检验总体是否服从泊松分布。,观测到,0, 1, , 11,共,12,个不同取值,这相当于把总体分成,12,类。这里有一个未知参数,,采用极大似然估计,,=,将,代入可以估计出诸,。,于是可计算出,列表如下。,0,1,2,3,4,5,6,7,8,9,10,11,57,203,383,525,532,408,273,139,45,27,10,6,0.0209,0.0807,0.1562,0.2015,0.1950,0.1509,0.0973,0.0538,0.0260,0.0112,0.0043,0.0022,54.5,210.5,407.4,525.5,508.6,393.5,253.8,140.3,67.8,29.2,11.2,5.7,0.1147,0.2672,1.4614,0.0005,1.0766,0.5343,1.4525,0.0120,7.6673,0.1658,0.1258,0.0158,合计,2608,1.0000,2068,=12.8967,i,本例中,=12.896718.307,,故接受原假设。使用统计软件可以计算出此处检验的,p,值是,0.2295,。,若取,=0.05,,则,列联表是将观测数据按两个或更多属性,(,定性变量,),分类时所列出的频数表。例如,对随机抽取的,1000,人按性别(男或女)及色觉,(,正常或色盲,),两个属性分类,得到如下二维列联表,又称,22,表或四格表。,7.4.2,列联表的独立性检验,男,535,65,女,382,18,性别,视觉,正常,色盲,一般,若总体中的个体可按两个属性,A,与,B,分类,,A,有,r,个类 ,,B,有,c,个类,从总体中抽取大小为,n,的样本,设其中有 个个体既属于 类又属于 类, 称为频数,将,r,c,个 排列为一个,r,行,c,列的二维列联表,简称,r,c,表,(,表,7.4.3),。,表,7.4.3,r,c,列联表,列联表分析的基本问题是,:,考察各属性之间有无关联,即判别,两属性是否独立。,如在前例中,问题是:一个人是否色盲与其性别是否有关?在,r,c,表中,若以,和,分别表示总体中的个体仅属于,,仅属于,和同时属于,与,的概率,可得一个二维离散分布表(表,7.4.4,),则,“,A,、,B,两属性独立,”,的假设可以表述为,表,7.4.4,二维离散分布表,这就变为上一小节中诸,不完全已知时的分布拟合检验。这里诸,共有,rc,个参数,在原假设,H,0,成立时,这,rc,个,参数,由,r,+,c,个,参数,和,决定。在这,r,+,c,后个参数中存在两个约束条件:,所以,此时,实际上由,r,+,c,-,2,个独立参数所确定。据此,检验统计量为,在,H,0,成立时,上式服从自由度为,rc,-,(,r,+,c,-,2),-,1,的,分布。,其中诸,是在,H,0,成立下得到的,的极大似然估计,其表达式为,对给定的显著性水平,,检验的拒绝域为,:,例,7.4.3,为研究儿童智力发展与营养的关系,某,研究机构调查了,1436,名儿童,得到如表,7.4.5,的,数据,试在显著性水平,0.05,下判断智力发展与,营养有无关系。,表,7.4.5,儿童智力与营养的调查数据,营养良好,营养不良,合计,智 商,合计,342,367,266,329,1304,56,40,20,132,16,423,382,286,345,1436,80,80,90,90,99,100,解:,用,A,表示营养状况,它有两个水平: 表示,营养良好,,表示营养不良;,B,表示儿童智商,它有四个水平,,分别表示表中四种,情况。沿用前面的记号,首先建立假设,H,0,:,营养状况与智商无关联,即,A,与,B,独立的。,统计表示如下:,在原假设,H,0,成立下,我们可以计算诸参数的极大似然估计值,:,进而可给出诸,,如,其它结果见表,7.4.6,表,7.4.6,诸,的计算结果,营养良好,384.1677,346.8724,259.7631,313.3588,0.9081,0.2946,0.2660,0.1992,0.2403,营养不良,38.8779,35.1036,26.2881,31.7120,0.0919,7.815,,故拒绝原假设,认为营养状况对智商有影响。,本例中检验的,p,值为,0.0002,。,7.4.3,正态性检验,正态分布是最常用的分布,用来判断总体分布是否为正态分布的检验方法称为正态性检验,它在实际问题中大量使用。,一、 正态概率纸,正态概率纸可用来作正态性检验,方法如下:利用样本数据在概率纸上描点,用目测方法看这些点是否在一条直线附近,若是的话,可以认为该数据来自正态总体,若明显不在一条直线附近,则认为该数据来自非正态总体。,例,7.4.4,随机选取,10,个零件,测得其直径与标,准尺寸的偏差如下:(单位:丝),9.4 8.8 9.6 10.2 10.1 7.2 11.1 8.2 8.6 9.6,在正态概率纸上作图步骤如下:,(1),首先将数据排序:,7.2 8.2 8.6 8.8 9.4 9.6 9.8 10.1 10.2 11.1;,(2),对每一个,i,,计算修正频率,(,i,-,0.375)/(,n,+0.25),i,=1,2,n,(3),将点,逐一点在正态概率纸上,(4),观察上述,n,个点的分布,:,若诸点在一条直线附近,则认为该批数,据来自正态总体;,若诸点明显不在一条直线附近,则认为,该批数据的总体不是正态分布。,从图,7.4.2,可以看到,,10,个点基本在一条直线附近,故可认为直径与标准尺寸的偏差服从正态分布。,如果从正态概率纸上确认总体是非正态分布时,可对原始数据进行变换后再在正态概率纸上描点,若变换后的点在正态概率纸上近似在一条直线附近,则可以认为变换后的数据来自正态分布,这样的变换称为正态性变换。常用的正态性变换有如下三个:对数变换,、倒数变换,和根号变换,。,图,7.4.3,给出这,10,个点在正态概率纸上的图形,这,10,个点明显不在一条直线附近,所以可以认为该电子元件的寿命的分布不是正态分布。,例,7.4.5,随机抽取某种电子元件,10,个,测得其寿,命数据如下,:,110.47, 99.16, 97.04, 77.60, 4269.82,539.35, 179.49, 782.93, 561.10, 286.80.,图,7.4.3,例,7.4.5,的正态概率纸,对该,10,个寿命数据作对数变换,结果见表,7.4.8,表,7.4.8,对数变换后的数据,1,32.62,3.4849,0.061,6,286.80,5.6588,0.549,2,97.04,4.5752,0.159,7,539.35,6.2904,0.646,3,99.16,4.5967,0.256,8,561.10,6.3299,0.743,4,110.47,4.7048,0.354,9,782.93,6.6630,0.841,5,179.49,5.1901,0.451,10,2269.82,7.7275,0.939,i,i,利用表,7.4.8,中最后两列上的数据在正态概率纸上描点,结果见图,7.4.4,,从图上可以看到,10,个点近似在一条直线附近,说明对数变换后的数据可以看成来自正态分布。这也意味着,原始数据服从对数正态分布,图,7.4.4,变换后数据的正态概率纸,二、夏皮洛威尔克,(Shapiro-,Wilk,),检验,夏皮洛威尔克检验也简称,W,检验。,这个检验当,8,n,50,时可以利用。过小样本,(,n,8,),对偏离正态分布的检验不太有效。,W,检验是建立在次序统计量的基础上。,检验统计量为,:,(7.4.5),其中系数,a,i,可查附表,6,。,拒绝域为,:,W,W,。,其中,分位数,可查附表,7.,系数,还具有如下几条性质:,据此可将,(7.4.5),简化为,例,7.4.6,某气象站收集了,44,个独立的年降雨量数,据,资料如下(已排序):,520,556,561,616,635,669,686,692,704,707,711,713,714,719,727,735,740,744,745,750,776,777,786,786,791,794,821,822,826,834,837,851,862,873,879,889,900,904,922,926,952,963,1056,1074,我们要根据这批数据作正态性检验。,首先由这批数据可算得,:,我们将计算,W,的过程列于表,7.4.9,中。,为便于计算,值,,,和,安排在同一行。,表,7.4.9,某一气象站收集的年降雨量,1,520,1074,554,0.3872,2,556,1056,500,0.2667,3,561,963,402,0.2323,4,616,952,336,0.2072,5,635,926,291,0.1868,6,669,922,253,0.1695,7,686,904,218,0.1542,k,k,8,692,900,208,0.1405,9,704,889,185,0.1278,10,707,879,172,0.1160,11,711,873,162,0.1049,12,713,862,149,0.0943,13,714,851,137,0.0842,14,719,837,118,0.0745,15,727,834,107,0.0651,k,16,735,826,91,0.0560,17,740,822,82,0.0471,18,744,821,77,0.0383,19,745,794,49,0.0296,20,750,791,41,0.0211,21,776,786,10,0.0126,22,777,786,9,0.0042,从表,7.4.9,可以计算出,W,的值:,由于计算得到的,W,值大于该值,所以在显著性水平,=0.05,上不拒绝零假设,即可以认为该批数据服从正态分布。,若取,=0.05,,查附表,7,,在,n,=44,时给出,:,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!