假设检验的基本思想与概念课件

上传人:94****0 文档编号:242046488 上传时间:2024-08-11 格式:PPT 页数:144 大小:2.10MB
返回 下载 相关 举报
假设检验的基本思想与概念课件_第1页
第1页 / 共144页
假设检验的基本思想与概念课件_第2页
第2页 / 共144页
假设检验的基本思想与概念课件_第3页
第3页 / 共144页
点击查看更多>>
资源描述
,Page,*,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Page,*,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Page,*,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Page,*,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Page,1,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Page,*,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Page,*,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Page,*,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Page,*,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Page,*,Chapter 7,假设检验,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,第七章 假设检验,7.1,假设检验的基本思想与概念,7.2,正态总体参数假设检验,7.3,其它分布参数的假设检验,7.4,分布拟合检验,第七章 假设检验 7.1 假设检验的基本思想与概念,统计方法,描述统计,推断统计,参数估计,假设检验,7.1,假设检验的基本思想与概念,统计方法描述统计推断统计参数估计假设检验7.1 假设检验,参数估计和假设检验,参数估计和假设检验是统计推断的两个组成部分,都是利用样本对总体进行某种推断,但推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法。假设检验讨论的是用样本信息去检验对总体参数的某种假设是否成立的程序和方法。,参数估计和假设检验参数估计和假设检验是统计推断的两个组成部分,若对,参数,有所,了解,但有怀,疑猜测,需要证,实之时,用假设,检验的,方法来,处理,若对参数,一无所知,用参数估计,的方法处理,若对但有怀用假设若对参数用参数估计,假设检验的一般问题,一、什么是假设检验,二、假设检验的基本思想,三、双侧检验和单侧检验,四、假设检验中的拒绝域和接受域,五、假设检验的两类错误,六、,假设检验中的,P,值,七、,假设检验的步骤,假设检验的一般问题一、什么是假设检验,假设检验是指施加于一个或多个总体的概率分布或参数的假设,.,所作假设可以是正确的,也可以是错误的,.,为判断所作的假设是否正确,从总体中抽取样本,根据样本的取值,按一定原则进行检验,然后作出接受或拒绝所作假设的决定,.,何为,假设检验,?,假设检验是指施加于一个或多个总体的概率分布或参数的假,假设检验,是推论统计的重要内容,是先对总体的未知数量特征作出某种假设,然后抽取样本,利用样本信息对假设的正确性进行判断的过程。,统计假设有参数假设、总体分布假设、相互关系假设(两个变量是否独立,两个分布是否相同)等。,我认为该企业生产的零件的平均长度为4厘米!,假设检验是推论统计的重要内容,是先对总体的未知数量特征作出某,二、假设检验的基本思想,假设检验所依据的基本原理是小概率原理。,什么是小概率?,概率是01之间的一个数,因此小概率就是接近0的一个数,著名的英国统计家,Ronald Fisher,把20分之1作为标准,也就是0.05,从此0.05或比0.05小的概率都被认为是小概率,Fisher,没有任何深奥的理由解释他为什么选择0.05,只是说他忽然想起来的,二、假设检验的基本思想假设检验所依据的基本原理是小概率原理。,什么是小概率原理?,小概率原理,发生概率很小的随机事件(小概率事件)在一次实验中几乎是不可能发生的。,根据这一原理,可以先假设总体参数的某项取值为真,也就是假设其发生的可能性很大,然后抽取一个样本进行观察,如果样本信息显示出现了与事先假设相反的结果且与原假设差别很大,则说明原来假定的小概率事件在一次实验中发生了,这是一个违背小概率原理的不合理现象,因此有理由怀疑和拒绝原假设;否则不能拒绝原假设。,检验中使用的小概率是检验前人为指定的。,什么是小概率原理?小概率原理发生概率很小的随机事件(小概,假设检验的基本思想,.因此我们拒绝假设,=50,.如果这是总体的真实均值,样本均值,m,=50,抽样分布,H,0,这个值不像我们应该得到的样本均值.,20,假设检验的基本思想.因此我们拒绝假设 =50.,假设检验的基本思想是,小概率反证法,小概率思想是指小概率事件(,P0.01,或,P2.776,,故拒绝原假设,,认为该厂生产的铝材的长度不满足设定要求。,若取,=0.05,,则,t,0.975,(4),=2.776,.,故,现由样本计算得到:t=2.7951由于2.79512.,总体标准差,是否已知?,样本容量,n,否,是,z,检验,t,检验,小,z,检验,大,用样本标准差,S,代替,总体标准差 样本容量n否是z 检验 t 检验小z 检验大用,检验法,条件,检验统计量,拒绝域,u,检验,已知,t,检验,未知,原假设,备择假设,表,7.2.1,单个正态总体的均值的检验问题,检验法条件检验统计量拒绝域u 检验t 检验原假设备择假设,三、假设检验与置信区间的关系,这里用的检验统计量与,6.5.5,节中置信区间所用的枢轴量是相似的。这不是偶然的,两者之间存在非常密切的关系。,设,是来自正态总体,的样本,现在,未知场合讨论关于均值,的检验问题。,考虑双侧检验问题,:,三、假设检验与置信区间的关系 这里用的检验统计量与6.5.5,它可以改写为,并且有,若让,0,在,(-,),内取值,就可得到,的,1,-,置,信区间:,这里,0,并无限制,.,则水平为,的检验接收域为,它可以改写为并且有若让0 在(-)内取值,就可得到,关于 的水平为,的显著性检验。,是一一对应的。,类似地,,“,参数,的,1,-,置信上限,”,与,“,关于,的单侧检验问题的水平,的检验,”,反之若有一个如上的,1,-,置信区间,也可获得,所以,:,“,正态均值,的,1,-,置信区间,”,与,“,关于,的双侧检验问题的水平,的检验,”,参数,的,1,-,置信下限与另一个单侧检验也是一一对应的。,是一一对应的。,关于 的水平为 的显著性检验。是一一对应,7.2.2,两个正态总体均值差的检验,检验法,条件,原假设,备择假设,检验统计量,拒绝域,u,检验,已知,t,检验,未知,7.2.2 两个正态总体均值差的检验检验法条件原假设备择,大样本检,u,验,未知,m,n,充分大,近似,t,检验,未知,m,n,不很大,大样本检u 验 近似t 检验,例,7.2.3,某厂铸造车间为提高铸件的耐磨性而,试制了一种镍合金铸件以取代铜合金铸件,,为此,从两种铸件中各抽取一个容量分别为,8,和,9,的样本,测得其硬度为,镍合金:,76.43 76.21 73.58 69.69,65.29 70.83 82.75 72.34,铜合金:,73.66 64.27 69.34 71.37,69.77 68.12 67.27 68.07 62.61,根据经验,硬度服从正态分布,且方差保持不变。,试在显著性水平,下判断镍合金的硬度是否有明显提高。,例7.2.3 某厂铸造车间为提高铸件的耐磨性而镍合金:7,解:,用,X,表示镍合金的硬度,,Y,表示铜合金的硬,度,则由假定,,要检验的假设是:,经计算,,从而,解:用X 表示镍合金的硬度,Y 表示铜合金的硬要检验的假设是,查表知,由于,故拒绝原假设,可判断镍合金硬度有显著提高。,查表知由于故拒绝原假设,可判断镍合金硬度有显著提高。,7.2.3,正态总体方差的检验,一、单个正态总体方差的检验,设,是来自,的样本,对方差亦可考虑如下三个检验问题:,通常假定,未知,它们采用的检验统计量是,7.2.3 正态总体方差的检验一、单个正态总体方差的检验 设,相同的,均为,若取显著性水平为,,则对应三个检验问题的拒绝域依次分别为,相同的,均为,例,7.2.4,某类钢板每块的重量,X,服从正态分布,,其一项质量指标是钢板重量的方差不得超过,0.016(,kg,2,),。现从某天生产的钢板中随机抽取,25,块,得其样本方差,S,2,=0.025(,kg,2,),,问该天生,产的钢板重量的方差是否满足要求。,解:,原假设为,备择假设为,此处,n=25,,若取,=0.05,,则查表知,例7.2.4 某类钢板每块的重量X 服从正态分布,解:原,由此,在显著性水平,0.05,下,,我们拒绝原假设,认为该天生产的钢板重量不符合要求。,现计算可得,由此,在显著性水平0.05下,我们拒绝原假设,认为该天生产的,二、两个正态总体方差比的,F,检验,设,是来自,的样本,,是来自,的样本。考虑如下三个假设检验问题,通常,均未知,记,分别是由,算得的,的无偏估计和由,算得的,的无偏估计,.,二、两个正态总体方差比的F 检验 设,可建立检验统计量,:,三种检验问题对应的拒绝域依次为,。,或,可建立检验统计量:三种检验问题对应的拒绝域依次为。或,例,7.2.5,甲、乙两台机床加工某种零件,零件,的直径服从正态分布,总体方差反映了加工,精度,为比较两台机床的加工精度有无差别,,现从各自加工的零件中分别抽取,7,件产品和,8,件产品,测得其直径为,X,(,机床甲,),16.2 16.4 15.8 15.5 16.7 15.6 15.8,Y,(,机床乙,),15.9 16.0 16.4 16.1 16.5 15.8 15.7 15.0,例7.2.5 甲、乙两台机床加工某种零件,零件X(机,这就形成了一个双侧假设检验问题,原假设是,备择假设为,此处,m,=7,,,n,=8,,经计算,查表知,于是,,若取,=0.05,,,其拒绝域为,这就形成了一个双侧假设检验问题,原假设是,由此可见,样本未落入拒绝域,即在,0.05,水平下可以认为两台机床的加工精度一致。,由此可见,样本未落入拒绝域,即在0.05水平下可以认为两台机,7.3,其他分布参数的假设检验,7.3.1,指数分布参数的假设检验,设,x,1,x,2,x,n,是来自指数分布的样本,关于,的如下检验问题:,(7.3.1),拒绝域的形式是,,由于在,=,0,时,,所以拒绝域为,7.3 其他分布参数的假设检验7.3.1 指数分布参数的,例,7.3.1,设我们要检验某种元件的平均寿命不小,于,6000,小时,假定元件寿命为指数分布,现取,5,个元件投入试验,观测到如下,5,个失效时间,:,395,4094,119,11572,6133,。,解:,由于待检验的假设为,若取,=0.05,,则检验拒绝域为,:,例7.3.1 设我们要检验某种元件的平均寿命不小 39,故接受原假设,,可以认为平均寿命不低于,6000,小时,.,经计算得,故接受原假设,经计算得,7.3.2,比例的检验,比例,p,可看作某事件发生的概率。作,n,次独立试验,以,x,记该事件发生的次数,则,。我们可以根据,x,检验关于,p,的一些假设,:,(1),直观上看拒绝域为,:,,由于,x,只,取整数值,故,c,可限制在非负整数中。,7.3.2 比例的检验比例 p 可看作某事件发生的概率。作,这是在对离散总体作假设检验中普遍会遇到的问题,.,一般情况下,对给定的,,不一定能,正好,取到一个正整数,c,使下式成立,:,这是在对离散总体作假设检验中普遍会遇到的问题.一般情况下,对,一般较常见的是找一个,c,0,,使得,(2),检验的拒绝域为,:,c,为满足,的,最大,正整数。,一般较常见的是找一个c0,使得(2)检验的拒绝域为:c 为,(3),检验的拒绝域为,:,或,其中,c,1,为满足下式的,最大,正整数,:,c,2,为满足下式的,最小,正整数,:,(3)检验的拒绝域为:或其中c1为满足下式的最大正整数:c2,例,7.3.2,某厂生产的产品优质品率一直保持在,40%,,,近期对该厂生产的该类产品抽检,20,件,其中优质品,7,件,,在 下,能否认为,优质品率仍保持在,40%,?,解:,以,p,表示优质品率,,x,表示,20,件产品中的优质,品件数,则,,待检验的假设为,拒绝域为,或,例7.3.2 某厂生产的产品优质品率一直保持在解:以p,由于,下求,c,1,与,c,2,:,故取,c,1,=3,,又因为,从而,c,2,=12,,拒绝域为,附带指出,该拒绝域的显著性水平实际上不是,0.05,,而是,0.0160+0.021=0.0370,。,由于观测值没有落入拒绝域,故接受原假设。,或,由于下求c1与c2:故取 c1=3,又因为从而c2=12,拒,7.3.3,大样本检验,在二点分布参数,p,的检验问题中,临界值的确定比较繁琐,使用不太方便。如果样本量较大,我们可用近似的检验方法,大样本检验。,大样本检验一般思路如下:设,是来自某,总体的样本,又设该总体均值为,,方差为,的函数,记为,,譬如,对二点分布,b,(1,),,,其方差,(1,-,),是均值,的函数,则在样本容量,n,充分大时,,7.3.3 大样本检验 在二点分布参数 p 的检验问题中,故可采用如下检验,:,由此近似地确定拒绝域。,统计量,故可采用如下检验:由此近似地确定拒绝域。统计量,例,7.3.3,某厂产品的不合格品率为,10%,,在,一次例行检查中,随机抽取,80,件,发现有,11,件不合格品,在,=0.05,下能否认为不合,格品率仍为,10%,?,解:,这是关于不合格品率的检验,假设为,:,例7.3.3 某厂产品的不合格品率为 10%,在 解:,若取,=0.05,,则,u,0.975,=1.96,故拒绝域为,故不能拒绝原假设。,因为,n,=80,比较大,可采用大样本检验方法。检验统计量为,若取=0.05,则u0.975=1.96,故拒绝域为因,例,7.3.4,某建筑公司宣称其麾下建筑工地平均每,天发生事故数不超过,0.6,起,现记录了该公司,麾下建筑工地,200,天的安全生产情况,事故数,记录如下:,天数,102,59,30,8,0,1,0,200,一天发生的事故数,0,1,2,3,4,5,合计,6,试检验该建筑公司的宣称是否成立,(,取,=0.05,),。,例 7.3.4 某建筑公司宣称其麾下建筑工地平均每天数1,解:,以,X,记建筑工地一天发生的事故数,可认,为,,要检验的假设是:,由于,n,=200,很大,可以采用大样本检验,泊松分布的均值和方差都是,,这里,,检验统计量为,解:以X 记建筑工地一天发生的事故数,可认由于n=200很大,若取,=0.05,,则,u,0.95,=1.645,,拒绝域为,如今,u,=2.556,已落入拒绝域,故拒绝原假设,,认为该建筑公司的宣称明显不成立。,若取=0.05,则 u0.95=1.645,拒绝域为如今,大样本检验是近似的,:,近似的含义是指,检验的实际显著性水平与原先设,定的显著性水平有差距,,,这是由于诸如,(7.3.12),中,u,的分布与,N,(0,1),有距离。如果,n,很大,则这种差,异就很小。实用中我们一般并不清楚对一定的,n,u,的分布与,N,(0,1),的差异有多大,因而也就不能,确定检验的实际水平与设定水平究竟差多少。在,区间估计中也有类似问题。因此,大样本方法是,一个,“不得已而为之”,的方法。只要有基于精确分布的方法一般总是首先要加以考虑的。,大样本检验是近似的:,7.3.4,检验的,p,值,假设检验的结论通常是简单的,:,在给定的显著水平下,不是拒绝原假设就是保留原假设。然而有时也会出现这样的情况:在一个较大的显著水平(,=0.05,),下得到拒绝原假设的结论,而在一个较小的显著水平(,=0.01,)下却会得到相反的结论。,这种情况在理论上很容易解释:,7.3.4 检验的 p 值假设检验的结论通常是简单的:,因为显著水平变小后会导致检验的拒绝域变小,于是原来落在拒绝域中的观测值就可能落入接受域。,但这种情况在应用中会带来一些麻烦:假如这时一个人主张选择显著水平,=0.05,,而另一个人主张选,=0.01,,则第一个人的结论是拒绝,H,0,,而后一个人的结论是接受,H,0,,,我们该如何处理这一问题呢?,因为显著水平变小后会导致检验的拒绝域变小,于是原来落在拒绝域,例,7.3.5,一支香烟中的尼古丁含量,X,服从正态,分布,N,(,1,),,质量标准,规定不能超过,1.5,毫,克。现从某厂生产的香烟中随机抽取,20,支测,得其中平均每支香烟的尼古丁含量为,毫克,试问该厂生产的香烟尼古丁含量是否,符合质量标准的规定。,这是一个假设检验问题:,H,0,:,1.5,H,1,:,1.5,采用,u,检验,计算得,:,例7.3.5 一支香烟中的尼古丁含量X 服从正态这是一,对一些的显著性水平,表,7.3.1,列出了相应的拒绝域和检验结论。,表,7.3.1,例,7.3.5,中的拒绝域,显著性水平,拒绝域,u,=2.10,对应的结论,=0.05,u,1.645,拒绝,H,0,=0.025,u,1.96,拒绝,H,0,=0.01,u,2.33,接受,H,0,=0.005,u,2.58,接受,H,0,我们看到,不同的,有不同的结论。,对一些的显著性水平,表7.3.1列出了相应的拒绝域和检验结论,现在换一个角度来看,在,=1.5,时,,u,的分布是,N,(0,1),。此时可算得,,P,(,u,2.10),=,0.0179,,若以,0.0179,为基准来看上述检验问题,可得,当,2.10,。于是,2.10,就不在,中,此时应接受原假设,H,0,;,当,0.0179,时,,2.10,。于是,2.10,就落在,中,此时应拒绝,H,0,。,u,由此可以看出,,0.0179,是能用观测值,2.10,做出,“,拒绝,H,0,”,的最小的显著性水平,,这就是,p,值。,u,现在换一个角度来看,在=1.5时,u的分布是N(0,1),定义,7.3.1,在一个假设检验问题中,利用观测,值能够做出拒绝原假设的最小显著性水平称,为,检验的,p,值,。,引进检验的,p,值的概念有明显的好处,:,第一,它比较客观,避免了事先确定,显著水平;,其次,由检验的,p,值与人们心目中的显,著性水平,进行比较可以很容易,作出检验的结论:,定义7.3.1 在一个假设检验问题中,利用观测 引进检,如果,p,,则在显著性水平,下拒绝,H,0,;,如果,p,,则在显著性水平,下保留,H,0,.,p,值在应用中很方便,如今的统计软件中对检验问题一般都会给出检验的,p,值。,如果 p,则在显著性水平 下拒绝 H0;p 值在,例,7.3.7,某工厂两位化验员甲、乙分别独立地用,相同方法对某种聚合物的含氯量进行测定。甲,测,9,次,样本方差为,0.7292,;乙测,11,次,样本方,差为,0.2114,。假定测量数据服从正态分布,试,对两总体方差作一致性检验,:,例7.3.7 某工厂两位化验员甲、乙分别独立地用,检验统计量为,,在原假设成立下,,F,F,(8,10),,拒绝域为,如今我们不是把拒绝域具体化,而是由观测值算得,F,=0.7292/0.2114=3.4494,再去计算该检验的,p,值。,或,检验统计量为,在原假设成立下,F F(8,10),,首先,我们用,F,分布算得,其次考虑到双侧检验的拒绝域,W,分散在两端,且两端尾部概率相等(见图,7.3.2,),据此可定出,p,值为,此,p,值,不算很小,若,=0.05,,则接收两方差相等的假设。,在这种双侧检验情况下,,如何由观测值,F,=3.4494,算得,p,值呢?,首先,我们用F 分布算得其次考虑到双侧检验的拒绝域W分散在两,图,7.3.2,观测值,F,=3.4494,对应的,p,值,由两端尾部概率之和确定,图7.3.2 观测值F=3.4494对应的p值,7.4,分布拟合检验,7.4 分布拟合检验,前面所介绍的各种检验法,是在总体分布类型已知的情况下,对其中的未知参数进行检验统称为,参数检验,.,在实际问题中,有时我们并不能确切预知总体服从何种分布,这时就需要根据来自总体的样本对总体分布进行推断,以判断总体服从何种分布,.,解决这类问题的工具是英国统计学家,K.,皮尔逊在,1900,年发表的一篇文章中引进的,检验法,不少人把此项工作视为近代统计学的开端,.,前面所介绍的各种检验法,是在总体分布类型已知的情况下,对其中,检验法的,核心思想,检验法是在总体,X,的分布未知时,根据来自总,体的样本,检验关于总体分布的假设的检验方法。,然后根据样本的经验分布和所假设的理论分布之间,的吻合程度来决定是否接受原假设,这种检验通常,称作,拟合优度检验,,,它是,_,检验,.,一般地,,我们总是根据样本观察值用直方图和经验,分布函数,,推断出可能服从的分布,,然后作检验,.,检验法的核心思想检验法是在总体 X的分布未知时,根据来自总体,7.4.1,总体分布只取有限个值的情况,设总体,X,可以分成,k,类,记为,,现对该总体作了,n,次观测,,k,个类出现的频数分别为,:,检验如下假设,:,n,1,n,k,且,其中诸,且,7.4.1 总体分布只取有限个值的情况 设总体X 可以分成,一、诸,p,i,均已知,如果,H,0,成立,则对每一类,A,i,,其频率,n,i,/n,与概率,p,i,应较接近。即观测频数,n,i,与理论频数,np,i,应相差不大。据此,英国统计学家,K.Pearson,提出如下检验统计量,:,(,7.4.2,),并证明在,H,0,成立时对充分大的,n,(7.4.2),给出的检验统计量近似服从自由度为,k,-,1,的 分布。,拒绝域为,:,一、诸 pi 均已知如果H0 成立,则对每一类Ai,其频率n,例,7.4.1,为募集社会福利基金,某地方政府发,行福利彩票,中彩者用摇大转盘的方法确定,最后中奖金额。大转盘均分为,20,份,其中金,额为,5,万、,10,万、,20,万、,30,万、,50,万、,100,万,的分别占,2,份、,4,份、,6,份、,4,份、,2,份、,2,份。,假定大转盘是均匀的,则每一点朝下是等可,能的,于是摇出各个奖项的概率如下:,例7.4.1 为募集社会福利基金,某地方政府发,概率,0.1,0.2,0.3,0.2,0.1,0.1,额度,5,万,10,万,20,万,30,万,50,万,100,万,现,20,人参加摇奖,摇得,5,万、,10,万、,20,万、,30,万、,50,万和,100,万的人数分别为,2,、,6,、,6,、,3,、,3,、,0,,由于没有一个人摇到,100,万,于是有人怀疑大转盘是不均匀的,那么该怀疑是否成立呢?这就需要对转盘的均匀性作检验。,概率0.10.20.30.20.10.1额度5万10万20万,解:,这是一个典型的分布拟合优度检验,总体,共有,6,类,其发生概率分别为,0.1,、,0.2,、,0.3,、,0.2,、,0.1,和,0.1,,这里,k,=6,,检验拒绝域为,:,由本例数据可以算出,若取,=0.05,,则查附表,3,知,=,解:这是一个典型的分布拟合优度检验,总体由本例数据可以算出若,由于 未落入拒绝域,故接受原假设,,没有理由认为转盘不均匀。,在分布拟合检验中使用,p,值也是方便的。,本例中,以,T,记服从,(5),的随机变量,则使用统计软件可以算出,这个,p,值就反映了数据与假设的分布拟合程度的高低,,p,值越大,拟合越,?,(,why,?),。,由于 未落入拒绝域,故接受原假设,没有理由认为,二、,诸,p,i,不完全已知,若诸,由,r,(,r,=11,57,203,383,525,532,408,273,139,45,27,10,6,0.0209,0.0807,0.1562,0.2015,0.1950,0.1509,0.0973,0.0538,0.0260,0.0112,0.0043,0.0022,54.5,210.5,407.4,525.5,508.6,393.5,253.8,140.3,67.8,29.2,11.2,5.7,0.1147,0.2672,1.4614,0.0005,1.0766,0.5343,1.4525,0.0120,7.6673,0.1658,0.1258,0.0158,合计,2608,1.0000,2068,=12.8967,i,列表如下。0570.020954.50.1147合计2608,本例中,=12.896718.307,,故接受原假设。使用统计软件可以计算出此处检验的,p,值是,0.2295,。,若取,=0.05,,则,本例中 =12.896718.307,故接受原假设。,列联表,是将观测数据按两个或更多属性,(,定性变量,),分类时所列出的频数表。,7.4.2,列联表的独立性检验,列联表是将观测数据按两个或更多属性(定性变量)分类时所列,男,535,65,女,382,18,性别,视觉,正常,色盲,几个分类特征?,例如,对随机抽取的,1000,人按性别(男或女)及色觉,(,正常或色盲,),两个属性分类,得到如下二维列联表,又称,22,表或四格表。,男53565女38218性别视觉正常色盲几个分类特征?例如,,一般,若总体中的个体可按两个属性,A,与,B,分类,,A,有,r,个类 ,,B,有,c,个类,从总体中抽取大小为,n,的样本,设其中有 个个体既属于 类又属于 类,称为频数,将,r,c,个 排列为一个,r,行,c,列的二维列联表,简称,r,c,表,(,表,7.4.3),。,一般,若总体中的个体可按两个属性A与B分类,A 有r 个类,表,7.4.3,r,c,列联表,表7.4.3 rc列联表,列联表分析的基本问题是,:,考察各属性之间有无关联,即判别,两属性是否独立。,如在前例中,问题是:一个人是否色盲与其性别是否有关?在,r,c,表中,若以,和,分别表示总体中的个体仅属于,,仅属于,和同时属于,与,的概率,可得一个二维离散分布表(表,7.4.4,),则,“,A,、,B,两属性独立,”,的假设可以表述为,列联表分析的基本问题是:考察各属性之间有无关联,即判别两属,表,7.4.4,二维离散分布表,表7.4.4 二维离散分布表,这就变为上一小节中诸,不完全已知时的分布拟合检验。这里诸,共有,rc,个参数,在原假设,H,0,成立时,这,rc,个参数,由,r,+,c,个参数,和,决定。在这,r,+,c,后个参数中存在两个约束条件:,所以,此时,实际上由,r,+,c,-,2,个独立参数所确定。据此,检验统计量为,这就变为上一小节中诸 不完全已知时的分布拟合检验。这里,在,H,0,成立时,上式服从自由度为,rc,-,(,r,+,c,-,2),-,1,的,分布。,其中诸,是在,H,0,成立下得到的,的极大似然估计,其表达式为,对给定的显著性水平,,检验的拒绝域为,:,在H0成立时,上式服从自由度为rc-(r+c-2)-1的,例,7.4.3,为研究儿童智力发展与营养的关系,某,研究机构调查了,1436,名儿童,得到如表,7.4.5,的,数据,试在显著性水平,0.05,下判断智力发展与,营养有无关系。,表,7.4.5,儿童智力与营养的调查数据,营养良好,营养不良,合计,智 商,合计,342,367,266,329,1304,56,40,20,132,16,423,382,286,345,1436,80,80,90,90,99,100,r,=?,c,=?,例7.4.3 为研究儿童智力发展与营养的关系,某表7.4.,解:,用,A,表示营养状况,它有两个水平:表示,营养良好,,表示营养不良;,B,表示儿童智商,它有四个水平,,分别表示表中四种,情况。沿用前面的记号,首先建立假设,H,0,:营养状况与智商无关联,即,A,与,B,独立的。,统计表示如下:,在原假设,H,0,成立下,我们可以计算诸参数的极大似然估计值,:,解:用A表示营养状况,它有两个水平:表示在原假设H0成立下,进而可给出诸,,如,其它结果见表,7.4.6,进而可给出诸 ,如其,表,7.4.6,诸,的计算结果,营养良好,384.1677,346.8724,259.7631,313.3588,0.9081,0.2946,0.2660,0.1992,0.2403,营养不良,38.8779,35.1036,26.2881,31.7120,0.0919,7.815,,故拒绝原假设,认为营养状况对智商有影响。,本例中检验的,p,值为,0.0002,。,此处r=2,c=4,(r-1)(c-1)=3,若取=0.,7.4.3,正态性检验,正态分布是最常用的分布,用来判断总体分布是否为正态分布的检验方法称为正态性检验,它在实际问题中大量使用。,一、正态概率纸,正态概率纸可用来作正态性检验,方法如下:利用样本数据在概率纸上描点,用目测方法看这些点是否在一条直线附近,若是的话,可以认为该数据来自正态总体,若明显不在一条直线附近,则认为该数据来自非正态总体。,7.4.3 正态性检验正态分布是最常用的分布,用来判断总体分,例,7.4.4,随机选取,10,个零件,测得其直径与标,准尺寸的偏差如下:(单位:丝),9.4 8.8 9.6 10.2 10.1 7.2 11.1 8.2 8.6 9.6,在正态概率纸上作图步骤如下:,(1),首先将数据排序:,7.2 8.2 8.6 8.8 9.4 9.6 9.8 10.1 10.2 11.1;,(2),对每一个,i,,计算修正频率,(,i,-,0.375)/(,n,+0.25),i,=1,2,n,例7.4.4 随机选取10个零件,测得其直径与标9.4,(3),将点,逐一点在正态概率纸上,(4),观察上述,n,个点的分布,:,若诸点在一条直线附近,则认为该批数,据来自正态总体;,若诸点明显不在一条直线附近,则认为,该批数据的总体不是正态分布。,(3)将点,从图,7.4.2,可以看到,,10,个点基本在一条直线附近,故可认为直径与标准尺寸的偏差服从正态分布。,从图7.4.2可以看到,10个点基本在一条直线附近,故可认为,如果从正态概率纸上确认总体是非正态分布时,可对原始数据进行变换后再在正态概率纸上描点,若变换后的点在正态概率纸上近似在一条直线附近,则可以认为变换后的数据来自正态分布,这样的变换称为正态性变换。常用的正态性变换有如下三个:对数变换,、倒数变换,和根号变换,。,如果从正态概率纸上确认总体是非正态分布时,可对原始数据进行变,图,7.4.3,给出这,10,个点在正态概率纸上的图形,这,10,个点明显不在一条直线附近,所以可以认为该电子元件的寿命的分布不是正态分布。,例,7.4.5,随机抽取某种电子元件,10,个,测得其寿,命数据如下,:,110.47,99.16,97.04,77.60,4269.82,539.35,179.49,782.93,561.10,286.80.,图7.4.3 给出这10个点在正态概率纸上的图形,这10个点,图,7.4.3,例,7.4.5,的正态概率纸,图7.4.3 例7.4.5 的正态概率纸,对该,10,个寿命数据作对数变换,结果见表,7.4.8,表,7.4.8,对数变换后的数据,1,32.62,3.4849,0.061,6,286.80,5.6588,0.549,2,97.04,4.5752,0.159,7,539.35,6.2904,0.646,3,99.16,4.5967,0.256,8,561.10,6.3299,0.743,4,110.47,4.7048,0.354,9,782.93,6.6630,0.841,5,179.49,5.1901,0.451,10,2269.82,7.7275,0.939,i,i,对该10个寿命数据作对数变换,结果见表7.4.8 表7.4.,利用表,7.4.8,中最后两列上的数据在正态概率纸上描点,结果见图,7.4.4,,从图上可以看到,10,个点近似在一条直线附近,说明对数变换后的数据可以看成来自正态分布。这也意味着,原始数据服从对数正态分布,利用表7.4.8 中最后两列上的数据在正态概率纸上描点,结果,图,7.4.4,变换后数据的正态概率纸,图7.4.4 变换后数据的正态概率纸,二、夏皮洛威尔克,(Shapiro-Wilk),检验,夏皮洛威尔克检验也简称,W,检验。,这个检验当,8,n,50,时可以利用。过小样本,(,n,8,),对偏离正态分布的检验不太有效。,W,检验是建立在次序统计量的基础上。,检验统计量为,:,(7.4.5),其中系数,a,i,可查附表,6,。,二、夏皮洛威尔克(Shapiro-Wilk)检验 夏皮洛,拒绝域为,:,W,W,。,其中,分位数,可查附表,7.,系数,还具有如下几条性质:,拒绝域为:WW。系数 还,据此可将,(7.4.5),简化为,据此可将(7.4.5)简化为,例,7.4.6,某气象站收集了,44,个独立的年降雨量数,据,资料如下(已排序):,520,556,561,616,635,669,686,692,704,707,711,713,714,719,727,735,740,744,745,750,776,777,786,786,791,794,821,822,826,834,837,851,862,873,879,889,900,904,922,926,952,963,1056,1074,我们要根据这批数据作正态性检验。,例7.4.6 某气象站收集了44个独立的年降雨量数520,首先由这批数据可算得,:,我们将计算,W,的过程列于表,7.4.9,中。,为便于计算,值,,,和,安排在同一行。,首先由这批数据可算得:我们将计算W 的过程列于表7.4.9中,表,7.4.9,某一气象站收集的年降雨量,1,520,1074,554,0.3872,2,556,1056,500,0.2667,3,561,963,402,0.2323,4,616,952,336,0.2072,5,635,926,291,0.1868,6,669,922,253,0.1695,7,686,904,218,0.1542,k,表7.4.9 某一气象站收集的年降雨量 152010745,k,8,692,900,208,0.1405,9,704,889,185,0.1278,10,707,879,172,0.1160,11,711,873,162,0.1049,12,713,862,149,0.0943,13,714,851,137,0.0842,14,719,837,118,0.0745,15,727,834,107,0.0651,k86929002080.140597048891850.1,k,16,735,826,91,0.0560,17,740,822,82,0.0471,18,744,821,77,0.0383,19,745,794,49,0.0296,20,750,791,41,0.0211,21,776,786,10,0.0126,22,777,786,9,0.0042,k16735826910.056017740822820.0,从表,7.4.9,可以计算出,W,的值:,由于计算得到的,W,值大于该值,所以在显著性水平,=0.05,上不拒绝零假设,即可以认为该批数据服从正态分布。,若取,=0.05,,查附表,7,,在,n,=44,时给出,:,从表7.4.9可以计算出W 的值:由于计算得到的W 值大于,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!