概率论和数理统计---浙江大学数学系-课件

上传人:无*** 文档编号:241543693 上传时间:2024-07-03 格式:PPT 页数:47 大小:1.16MB
返回 下载 相关 举报
概率论和数理统计---浙江大学数学系-课件_第1页
第1页 / 共47页
概率论和数理统计---浙江大学数学系-课件_第2页
第2页 / 共47页
概率论和数理统计---浙江大学数学系-课件_第3页
第3页 / 共47页
点击查看更多>>
资源描述
数 理 统 计1第八章第八章 假设检验假设检验 关键词:关键词:假设检验假设检验 正态总体参数的假设检验正态总体参数的假设检验 分布拟合检验分布拟合检验 秩和检验秩和检验2待估参数 假设枢轴量 检验统计量 分 布置信区间拒绝域 一个正态总体两个正态总体正态总体均值、方差的置信区间与假设检验 6.6.分布拟合检验分布拟合检验 实际中可能遇到这样的情形,总体服从何种实际中可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出理论分布并不知道,要求我们直接对总体分布提出一个假设一个假设。例如,从例如,从1500到到1931年的年的432年间,每年爆发年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了年间共爆发了299次战争,具体数据如下次战争,具体数据如下:战争次数X 0 1 2 3 4发生 X次战争的年数 223 142 48 15 4 可以假设每年爆发战争次数分布X近似泊松分布。那么上面的数据能否证实X 具有泊松分布假设?4又如,某钟表厂对生产的钟进行精确性检查,抽又如,某钟表厂对生产的钟进行精确性检查,抽取取100个钟作试验,拨准后隔个钟作试验,拨准后隔24小时以后进行检小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来。查,将每个钟的误差(快或慢)按秒记录下来。问该厂生产的钟的误差是否服从正态分布?问该厂生产的钟的误差是否服从正态分布?再如,某工厂制造一批骰子,声称它是均匀再如,某工厂制造一批骰子,声称它是均匀的。即在投掷中,出现的。即在投掷中,出现1 1点,点,2 2点,点,6 6点的点的概率都应是概率都应是1/61/6。为检验骰子是否均匀,要把。为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率骰子实地投掷若干次,统计各点出现的频率与与1/61/6的差距。那么得到的数据能否说明的差距。那么得到的数据能否说明“骰骰子均匀子均匀”的假设是可信的?的假设是可信的?5需要:需要:在总体在总体X 的分布未知时,根据来自总体的样本,的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法。检验关于总体分布的假设的一种检验方法。6若原假设成立,则各实测频数若原假设成立,则各实测频数fi与与npi(理论理论频数频数)应相差不大。应相差不大。总体总体X可以分为可以分为k,记作,记作A1,A2,Ak,如今,如今要检验的是:要检验的是:如对总体做作了如对总体做作了n次观察,各类出现的频数次观察,各类出现的频数为为fi(实测频数)(实测频数),所有频数之和,所有频数之和f1+f2+fk等于样本容量等于样本容量n,fi/n称为频率。称为频率。7标志着经验分布与理论分布之间的差异的大小标志着经验分布与理论分布之间的差异的大小.皮尔逊引进如下统计量表示经验分布皮尔逊引进如下统计量表示经验分布与理论分布之间的差异与理论分布之间的差异:统计量统计量 的分布是什么的分布是什么?在理论分布在理论分布已知的条件下已知的条件下,npi是常量是常量实测频数实测频数理论频数理论频数8皮尔逊证明了如下定理皮尔逊证明了如下定理:若原假设成立,那么当若原假设成立,那么当 时,统计时,统计量量渐近服从自由度为(渐近服从自由度为(k-1)的)的 分布分布.9 如果根据所给的样本值如果根据所给的样本值 X1,X2,Xn算得算得统计量统计量 的实测值落入拒绝域,则拒绝原假的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设设,否则就认为差异不显著而接受原假设.10 皮尔逊定理是在皮尔逊定理是在n无限增大时推导出来无限增大时推导出来的,因而在使用时要注意的,因而在使用时要注意n要足够大要足够大,以及,以及npi 不太小不太小这两个条件这两个条件.根据计算实践,要求根据计算实践,要求n不小于不小于50,以及,以及npi 都不小于都不小于 5.否则应适当合并类,使否则应适当合并类,使npi满足这个要求满足这个要求.11 奥地利生物学家孟德尔进行了长奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验达八年之久的豌豆杂交试验,并根据并根据试验结果试验结果,运用他的数理知识运用他的数理知识,发现了发现了遗传的基本规律遗传的基本规律.在此,我们以遗传学上的一项伟大发现为在此,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用规律性时,是起着积极的、主动的作用.孟德尔孟德尔12子二代子一代黄色纯系绿色纯系他的一组观察结果为:黄70,绿27近似为近似为2.59:1,与理论值相近,与理论值相近.根据他的理论,子二代中根据他的理论,子二代中,黄、绿之比黄、绿之比 近似为近似为3:1,例例1 奥地利生物学家孟德尔进行了长达八奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验年之久的豌豆杂交试验,并根据试验结果并根据试验结果,运运用他的数理知识用他的数理知识,发现了遗传的基本规律。发现了遗传的基本规律。13这里,n=70+27=97,k=2,检验孟德尔的检验孟德尔的3:1理论理论:提出假设H0:p1=3/4,p2=1/4理论频数为:np1=72.75,np2=24.25实测频数为70,27.统计量 近似服从近似服从自由度为k-1=1由于统计量的实测值=0.41583.841,故认为试验结果符合故认为试验结果符合孟德尔的孟德尔的3:1理论理论.14 这些试验及其它一些试验,都显这些试验及其它一些试验,都显 示孟德尔的示孟德尔的3:1理论与实际是符合的理论与实际是符合的.这本身就是这本身就是统计方法在科学中的一项统计方法在科学中的一项 重要应用重要应用.用于客观地评价理论上的某个结论是否用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站与观察结果相符,以作为该理论是否站得住脚的印证得住脚的印证.15 将这种方法推广至对一般总体的分将这种方法推广至对一般总体的分布的假设检验上。布的假设检验上。16 若原假设中的理论分布若原假设中的理论分布F(x)已经完全给已经完全给定,那么当定,那么当 时,统计量时,统计量渐近服从渐近服从(k-1)个自由度的个自由度的 分布分布.如果理论分布如果理论分布F(x)中有中有r个未知参数,需个未知参数,需用相应的估计量来代替,那么取统计量用相应的估计量来代替,那么取统计量为为 渐近服从渐近服从(k-r-1)个自由度的个自由度的 分布分布.17 在在F(x)尚未完全给定的情况下,每个未知尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个参数用相应的估计量代替,就相当于增加一个制约条件,制约条件,因此,自由度也随之减少一个因此,自由度也随之减少一个.若有若有r个未知参数需用相应的估计量来代个未知参数需用相应的估计量来代替,替,自由度就减少自由度就减少r个个.此时统计量此时统计量 渐近渐近(k-r-1)个自由度的个自由度的 分布分布.18提出假设提出假设H0:X服从参数为服从参数为 的泊松分布的泊松分布按参数按参数为为0.69的泊松分布,计算事件的泊松分布,计算事件X=i 的的概率概率pi,将有关计算结果列表如下:pi的估计是,i=0,1,2,3根据观察结果,得参数 的极大似然估计为 例例2 从从1500到到1931年的年的432年间,每年爆发战争的次年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这数可以看作一个随机变量,椐统计,这432年间共爆发了年间共爆发了299次战争,具体数据如下次战争,具体数据如下:战争次数战争次数X X 0 1 2 3 4 0 1 2 3 4发生发生 X X次战争的年数次战争的年数 223 142 48 15 4 223 142 48 15 419 因因H0所假设的理论分布中有一个未知所假设的理论分布中有一个未知参数,故自由度为参数,故自由度为4-1-1=2.x 0 1 2 3 4fi 223 142 48 15 4 0.58 0.31 0.18 0.01 0.02n 216.7 149.5 51.6 12.0 2.16 0.1830.376 0.251 1.623战争次数实测频数14.162.43将将n 5的组予以合并,即将发生的组予以合并,即将发生3次及次及4次次战争的组归并为一组战争的组归并为一组.14.1620 故认为每年发生战争的次数故认为每年发生战争的次数X服从服从参数为参数为0.69的泊松分布的泊松分布.按 =0.05,自由度为4-1-1=2查 分布表得=5.991=2.435.991,由于统计量的实测值未落入拒绝域.21例例3 下面列出了下面列出了84个伊特拉斯坎个伊特拉斯坎(Etruscan)人男子人男子的头颅的最大宽度的头颅的最大宽度(mm),试检验这些数据是否来,试检验这些数据是否来自正态总体(取自正态总体(取=0.1=0.1)14114114814813213213813815415414214215015014614615515515815815015014014014714714814814414415015014914914514514914915815814314314114114414414414412612614014014414414214214114114014014514513513514714714614614114113613614014014614614214213713714814815415413713713913914314314014013113114314314114114914914814813513514814815215214314314414414114114314314714714614615015013213214214214214214314315315314914914614614914913813814214214914914214213713713413414414414614614714714014014214214014013713715215214514522解解 为粗略了解数据的分布情况,先画出直方图。为粗略了解数据的分布情况,先画出直方图。步骤如下:步骤如下:1.找出数据的最小值、最大值为找出数据的最小值、最大值为126、158,取区间,取区间124.5,159.5,它能覆盖它能覆盖126,158;2.将区间将区间124.5,159.5等分为等分为7个小区间个小区间,小区间的小区间的长度长度=(159.5-124.5)/7=5,=(159.5-124.5)/7=5,称为组距,小区称为组距,小区间的端点称为组限,建立下表:间的端点称为组限,建立下表:组组 限限频数 fi频率率 fi/n累累计频率率124.5-129.5124.5-129.5129.5-134.5129.5-134.5134.5-139.5134.5-139.5139.5-144.5139.5-144.5144.5-149.5144.5-149.5149.5-154.5149.5-154.5154.5-159.5154.5-159.51 14 41010333324249 93 30.01190.01190.04760.04760.11910.11910.39290.39290.28570.28570.10710.10710.03570.03570.01190.01190.05950.05950.17860.17860.57150.57150.85720.85720.95240.95241 1233.自左向右在各小区间上作以自左向右在各小区间上作以fi/(n)为高的小矩形为高的小矩形 如下图,即为直方图。如下图,即为直方图。注:注:直方图的小区间可以不等长,但小区间的长直方图的小区间可以不等长,但小区间的长度不能太大,否则平均化作用突出,淹没了密度度不能太大,否则平均化作用突出,淹没了密度的细节部分;也不能太小,否则受随机化影响太的细节部分;也不能太小,否则受随机化影响太大,产生极不规则的形状。大,产生极不规则的形状。24从本例的直方图看,有一个峰,中间高,两头低,较对称,样本象来自正态总体。于是检验25 x129.5 x129.5129.5x134.5129.5x134.5134.5x139.5134.5x139.5139.5x144.5139.5x144.5144.5x149.5144.5x149.5149.5x154.5149.5x154.5154.5x154.5x1 14 41010333324249 93 30.00870.00870.05190.05190.17520.17520.31200.31200.28110.28110.13360.13360.03750.03750.730.734.364.3614.7214.7226.2126.2123.6123.6111.2211.223.153.156.796.7941.5541.5524.4024.4010.0210.02=87.67=87.67故在水平0.1下接受H0,认为数据来自正态总体。26 如果根据所给的样本值如果根据所给的样本值 X1,X2,Xn算得算得统计量统计量 的实测值落入拒绝域,则拒绝原假的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设设,否则就认为差异不显著而接受原假设.据Pearson定理,分布拟合检验的拒绝域为:(不需估计参数)(估计r 个参数)注意:注意:皮尔逊定理是在皮尔逊定理是在n无限增大时推导出无限增大时推导出来的,因而在使用时要注意来的,因而在使用时要注意n要足够大要足够大,以,以及及npi()不太小不太小这两个条件这两个条件.27(二)偏度、峰度检验偏度、峰度检验法是用于检验正态总体的一种方法。282930例4 试用偏度、峰度检验法检验例3中的数据是否来自正态总体(取=0.1)317 7 秩和秩和检验随机化模型随机化模型 设某问题涉及两种不同的处理方法设某问题涉及两种不同的处理方法 (如两种治疗某疾病的方法,两种炼钢方法,两种加如两种治疗某疾病的方法,两种炼钢方法,两种加工某产品的方法,等等),工某产品的方法,等等),为比较这两种方法的优劣,设有为比较这两种方法的优劣,设有N=n1+n2个可供试个可供试验的个体,验的个体,其中随机取其中随机取n1个接受一种处理方法,其余个接受一种处理方法,其余n2个接受个接受另一种方法的试验。另一种方法的试验。两种处理方法比较的随机化两种处理方法比较的随机化模型。模型。32若所研究的方法无新旧之分,则要进行双边检验。假设 通常设一种方法为“新方法”,另一方法为“对照方法”,在很多情况下,对照方法即原标准方法,新方法是原方法的改进,我们在实验前已认为新方法不会比对照方法差。于是,需要检验假设33秩 将一总体的容量为n的样本观测值按自小到大的次序编号排列成3435秩秩 R R1秩秩 R R1秩秩 R R1秩秩 R R1秩秩 R R1123 6124 7125 8126 9127 10134 8135 9136 10137 11145 10146 11147 12156 12157 13167 14234 9235 10236 11237 12245 11246 12247 13256 13257 14267 15345 12346 13347 14356 14357 15367 16456 15457 16467 17468567 18R R1 6 7 8 9 10 11 12 13 14 15 16 17 1835P35Pk k 1 1 2 3 4 4 5 4 4 3 2 1 1 3637解:设第1,2总体分别为新旧方法的排名(秩)3839例例2 某商店为了确定向公司某商店为了确定向公司A或公司或公司B购买某种商品,将购买某种商品,将A,B公司以往各次进货的次品率进行比较,数据如下,设两样本公司以往各次进货的次品率进行比较,数据如下,设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品率的密度至多只差一个平移。(取品的次品率的密度至多只差一个平移。(取=0.05=0.05)A A 7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.57.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5B B 5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3 5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3 4041424344复习思考题复习思考题 8 81.假设检验的基本思想是什么?其中使用了一条什么原理?2.检验的显著性水平的意义是什么?3.比较双边、左边和右边检验的拒绝域。4.使用U检验法可以进行哪些假设检验?5.使用t检验法可以进行哪些假设检验?6.使用2检验法可以进行哪些假设检验?7.使用F检验法可以进行哪些假设检验?8.正态总体期望与方差的区间估计和假设检验两者之间有什么 相似之处?9.成对数据差的t检验适用于哪些特殊场合?10.分布拟合的2检验的基本步骤是什么?45课件结束!7/3/2024
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!