数理统计与随机过程课件

资源描述

数理统计与随机过程数理统计与随机过程第第八八章章主讲教师：程维虎教授主讲教师：程维虎教授北京工业大学应用数理学院北京工业大学应用数理学院第八章第八章:假设检验假设检验8.1 基本概念基本概念下下面面，我我们们讨讨论论不不同同于于参参数数估估计计问问题题的的另另一一类类统统计计推推断断问问题题根根据据样样本本提提供供的的信信息，检验总体的某个假设是否成立的问题。息，检验总体的某个假设是否成立的问题。这类问题称为假设检验。这类问题称为假设检验。假设检验假设检验参数检验参数检验非参数检验非参数检验总体分布已知总体分布已知情情形下，检形下，检验未知验未知参数的某个假设参数的某个假设总体分布未知情形总体分布未知情形下的假设检验问题下的假设检验问题先看一个例子。先看一个例子。例例1：某车间用一台包装机包装葡萄糖某车间用一台包装机包装葡萄糖,包得的包得的袋装糖重是一个随机变量袋装糖重是一个随机变量,它服从正态分布。它服从正态分布。当机器正常时当机器正常时,其均值为其均值为0.5kg,标准差为标准差为0.015 kg。某日开工后为检验包装机是否正常。某日开工后为检验包装机是否正常,随机随机地抽取它所包装的糖地抽取它所包装的糖9袋袋,称得净重量称得净重量(kg)为：为：0.497,0.506,0.518,0.524,0.498,0.511,0.520,0.515,0.512。问。问:从样本看机器是否正常从样本看机器是否正常?以以和和分分别表示表示这一天袋装葡萄糖重量一天袋装葡萄糖重量总体的均体的均值和和标准差。由于准差。由于长期期实践表明践表明标准差准差比比较稳定，我定，我们就就设=0.015。检验检验“机器是否正常机器是否正常”等价于检验等价于检验“X是是否服从正态分布否服从正态分布N(,0.0152)”。确定总体：确定总体：记记 X 为该为该车间包装机包装的袋装车间包装机包装的袋装葡萄糖的重量葡萄糖的重量，则，则 X N(,0.0152)；明确任务明确任务：通过样本推断通过样本推断“是否等于是否等于0.5”；建立建立假设：假设：上面的任务是要通过样本检验上面的任务是要通过样本检验 “=0.5”的假设是否成立。的假设是否成立。I.如何建立检验模型如何建立检验模型原假设的对立面原假设的对立面是是“0.5”，称为称为 “对立假设对立假设”或或“备择假设备择假设”,记成记成 “H1 1:0.5”。把原假设和对立假设合写在一起，。把原假设和对立假设合写在一起，就是就是:H0：=0.5；H1：0.5.在数理统计中，把在数理统计中，把“=0.5”这样一个待这样一个待检验的假设记为检验的假设记为“原假设原假设”或或“零假设零假设”,记成记成“H0：=0.5”。II.解决问题的思路解决问题的思路因样本均值是因样本均值是的一个很好的估计。所的一个很好的估计。所以，当以，当 =0.5，即原假设，即原假设 H0 成立时成立时,应比较小；应比较小；如果该值过大如果该值过大,想必想必 H0 0 不成立。不成立。于是，我们就用于是，我们就用的大小来判定的大小来判定 H0 0 是否是否成立。成立。合理的做法应该是：找出一个界限合理的做法应该是：找出一个界限 c，这里的问题是：如何确定常数这里的问题是：如何确定常数 c 呢？呢？细致地分析细致地分析:根据定理根据定理 6.4.1，有，有于是，当原假设于是，当原假设 H0 0:=0.5 成立时，有成立时，有为确定常数为确定常数 c，我们考虑一个很小的正数，我们考虑一个很小的正数，如如 =0.05。当原假设当原假设 H0 0:=0.5成立时，有成立时，有于是，我们就得到如下于是，我们就得到如下检验准则检验准则:为为H0 0 的拒绝域的拒绝域。用以上检验准则处理我们的问题，用以上检验准则处理我们的问题，所以，所以，拒拒绝绝 H0:=0.5，认为机器异常，认为机器异常。因为，当因为，当 H0:=0.5 成立时，成立时，所以，当所以，当很小时，若很小时，若 H0 0 为真为真(正确正确),),则则检检验统计量落入拒绝域验统计量落入拒绝域是一小概率事件是一小概率事件(概率很概率很小小,为为 )。前面曾提到过。前面曾提到过：“通常认为小概率通常认为小概率事件在一次试验中基本上不会发生事件在一次试验中基本上不会发生”。III.方方法原法原理理那么，一旦小概率事件发生，即那么，一旦小概率事件发生，即:发生发生,就认为就认为 H0 0不正确。不正确。IVIV.两类错误与显著性水平两类错误与显著性水平当我们检验一个假设当我们检验一个假设 H0 时，有可能犯以时，有可能犯以下两类错误之一：下两类错误之一：H0 正确，但我们认为其不正确，但我们认为其不正确，这就犯了正确，这就犯了“弃真弃真”的错误，即抛弃了的错误，即抛弃了正确的假设；正确的假设；H0 不正确，但被却误认为正确，不正确，但被却误认为正确，这就犯了这就犯了“取伪取伪”的错误，即采用了伪假设。的错误，即采用了伪假设。因为检验统计量总是随机的，所以，我因为检验统计量总是随机的，所以，我们总是以一定的概率犯以上两类错误。们总是以一定的概率犯以上两类错误。通常分别用通常分别用和和记犯第一、第二类错记犯第一、第二类错误的概率，即误的概率，即在检验问题中，犯在检验问题中，犯“弃真弃真”和和“取伪取伪”两类错误都总是不可避免的，并且减少犯第两类错误都总是不可避免的，并且减少犯第一类错误的概率，就会增大犯第二类错误的一类错误的概率，就会增大犯第二类错误的概率概率;反之亦然。反之亦然。所以，所以，犯两类错误的概率不能同犯两类错误的概率不能同时得到控制。时得到控制。在统计学中，通常控制犯第一类错误的在统计学中，通常控制犯第一类错误的概概率。一般事先选定一个数概概率。一般事先选定一个数 (0 0 而现在要处理的对立假设为而现在要处理的对立假设为H1:0,称为称为右边右边对立假设对立假设。类似地类似地,H0:=0;H1:0 中中的对立的对立假设假设H1:0 在在 2 2未知情况下，未知情况下，当原当原假设假设成立时，成立时，例例 2：某厂生产一种工业用绳某厂生产一种工业用绳,其质量指标是其质量指标是绳子所承受的最大拉力，假定该指标服从正绳子所承受的最大拉力，假定该指标服从正态分布，且该厂原来生产的绳子指标均值态分布，且该厂原来生产的绳子指标均值0 0 =15公斤，采用一种新原材料后公斤，采用一种新原材料后,厂方称这种厂方称这种原材料提高了绳子的质量，也就是说绳子所原材料提高了绳子的质量，也就是说绳子所承受的最大拉力承受的最大拉力比比15公斤增大了。公斤增大了。为检验该厂的结论是否真实，从其新产为检验该厂的结论是否真实，从其新产品中随机抽取品中随机抽取5050件，测得它们所承受的最大件，测得它们所承受的最大拉力的平均值为拉力的平均值为15.8公斤，样本标准差公斤，样本标准差S=0.5公斤。取显著性水平公斤。取显著性水平 =0.01。问从这些样本问从这些样本看：能否接受厂方的结论。看：能否接受厂方的结论。解：解：问题归结为检验如下假设问题归结为检验如下假设 H0:=15;H1:15 (2未知未知)于是于是，从而，拒从而，拒绝原假设，即认为新的原材料确实绝原假设，即认为新的原材料确实提高了绳子所能承受的最大拉力。提高了绳子所能承受的最大拉力。8.2.2 两个正态总体两个正态总体 N(1,12)和和 N(2,22)均值的比较均值的比较在应用上，经常会遇到两个正态总体均在应用上，经常会遇到两个正态总体均值的比较问题。值的比较问题。例如：例如：比较甲、乙两厂生产的某种产品比较甲、乙两厂生产的某种产品的质量。的质量。将两厂生产的产品的质量指标分别将两厂生产的产品的质量指标分别看成正态总体看成正态总体 N(1,12)和和 N(2,22)。比较。比较它们的产品质量指标的问题，就变为比较这它们的产品质量指标的问题，就变为比较这两个正态总体的均值两个正态总体的均值 1 1和和 2 2的的问题。的的问题。又如：又如：考察一项新技术对提高产品质量是考察一项新技术对提高产品质量是否有效。将新技术实施前后生产的产品质量指否有效。将新技术实施前后生产的产品质量指标分别看成正态总体标分别看成正态总体 N(1,12)和和 N(2,22)。这时，所考察的问题就归结为检验这两个正态这时，所考察的问题就归结为检验这两个正态总体的均值总体的均值 1 1和和 2 2是否相等的问题。是否相等的问题。设设X1,X2,Xm与与Y1,Y2,Yn 分别为分别为抽自正态总体抽自正态总体 N(1,12)和和 N(2,22)的样的样本，记本，记考查如下检验假设考查如下检验假设:1.H0:1=2;H1:1 2 当当 1 12 2 和和 2 22 2 已知时，已知时，根据定理根据定理7.5.1，有，有当当 H0:1=2为真时，为真时，故，拒绝故，拒绝域域为为在在 12=22=2，2未知情况下，未知情况下，根据定根据定理理7.5.1，有，有当当 H0:1=2 为真时，为真时，有有拒绝拒绝域域为为从而从而上面，我们假定上面，我们假定 12=22。当然，这是个。当然，这是个不得已而强加上去的条件，因为如果不加此不得已而强加上去的条件，因为如果不加此条件，就无法使用简单易行的条件，就无法使用简单易行的 t 检验。检验。在实用中，只要我们有理由认为在实用中，只要我们有理由认为 12和和 22相差不是太大，往往相差不是太大，往往就可使用上述方法就可使用上述方法。通。通常是：如果方差比检验未被拒绝常是：如果方差比检验未被拒绝(见下节见下节),就就认为认为 12和和 22相差不是太大。相差不是太大。说明：说明：例例3：假设有假设有A和和B两种药，欲比较它们在服用两种药，欲比较它们在服用2小时后在血液中的含量是否一样。对药品小时后在血液中的含量是否一样。对药品A，随机抽取随机抽取8个病人服药，服药个病人服药，服药2小时后，测得小时后，测得8个病人血液中药物浓度个病人血液中药物浓度(用适当的单位用适当的单位)分别为分别为:1.23,1.42,1.41,1.62,1.55,1.51,1.60,1.76.对药品对药品B，随机抽取，随机抽取6个病人服药，服药个病人服药，服药2小时小时后，测得血液中药的浓度分别为后，测得血液中药的浓度分别为:1.76,1.41,1.87,1.49,1.67,1.81.假定这两组观测值抽自具有共同方差的两个正假定这两组观测值抽自具有共同方差的两个正态总体，在显著性水态总体，在显著性水=0.10下，检验病人血液下，检验病人血液中这两种药的浓度是否有显著不同中这两种药的浓度是否有显著不同?故，接受原假设。即接受原假设。即,认为病人血液中这两认为病人血液中这两种药浓度无显著差异。种药浓度无显著差异。解：解：问题就是从总体问题就是从总体 N(1,2)和和N(2,2)中分别抽取样本中分别抽取样本X1,X2,X8 和和Y1,Y2,Y6，样本均值和样本方差分别为，样本均值和样本方差分别为：与与1.1.的分析完全类似，可以得到的分析完全类似，可以得到:2.单边检验单边检验 H0:1 2;H1:1 2 1 12 2和和 2 22 2已知情况下，已知情况下，H0 0的的拒绝拒绝域域为为 1 12 2与与 2 22 2未知未知，但二者相等情况下但二者相等情况下，H0 0的的拒绝拒绝域域为为与与1.1.的分析完全类似，可以得到的分析完全类似，可以得到:3.单边检验单边检验 H0:1 2;H1:1 2 1 12 2和和 2 22 2已知情况下，已知情况下，H0 0的的拒绝拒绝域域为为 1 12 2与与 2 22 2未知未知，但二者相等情况下但二者相等情况下，H0 0的的拒绝拒绝域域为为两两个正态总体与个正态总体与成对数据的区别成对数据的区别u两个正态总体两个正态总体假定来自这两个正态总体假定来自这两个正态总体的两组样本，是相互独立的。的两组样本，是相互独立的。u成对数据成对数据两组样本可以是来自对同一个两组样本可以是来自对同一个总体上的重复测量，它们是成对出现的，可总体上的重复测量，它们是成对出现的，可以是相关的。以是相关的。8.2.3 成对数据的成对数据的 t 检验检验例如例如:为了考察一种降血压药的效果，测试了为了考察一种降血压药的效果，测试了n 个高血压病人服药前、后的血压分别为个高血压病人服药前、后的血压分别为X1,X2,Xn 和和Y1,Y2,Yn。这里。这里(Xi,Yi)是第是第 i个病人服药前和服药后的血压，它们是相关的。个病人服药前和服药后的血压，它们是相关的。处理处理成对数据的思路成对数据的思路因因(Xi,Yi)是在同一人身上观测到的血压。是在同一人身上观测到的血压。所以，所以，Xi-Yi 就消除了人的体质等诸方面的条就消除了人的体质等诸方面的条件差异，仅剩下降血压药的效果。件差异，仅剩下降血压药的效果。所以，所以，我们可以把我们可以把 di=Xi-Yi，i=1,2,n.看成抽自正态总体看成抽自正态总体 N(,2)的样本。其中的样本。其中就是降血压药的平均效果。就是降血压药的平均效果。一般的成对数据同样也是这样转变的。从一般的成对数据同样也是这样转变的。从前面所学内容可以看出：其实就是作前面所学内容可以看出：其实就是作 H0:=0;H1:0；H0:0;H1:0 方差方差 2 2未知情况下的检验。未知情况下的检验。上述三种检验的拒绝域分别为：上述三种检验的拒绝域分别为：例例4：为了检验为了检验A,B两种测定铁矿石含铁量的两种测定铁矿石含铁量的方法是否有明显差异方法是否有明显差异,现用这两种方法测定了现用这两种方法测定了取自取自12个不同铁矿的矿石标本的含铁量个不同铁矿的矿石标本的含铁量(%)，结果列于表结果列于表 8.2.1中。取中。取=0.05,问这两种测定问这两种测定方法是否有显著差异方法是否有显著差异?解解:将方法将方法A和方法和方法B的测定值分别记为的测定值分别记为X1,X2,X12 和和 Y1,Y2,Y12.因这因这12个标本来自不同铁矿，个标本来自不同铁矿，所以所以,X1,X2,X12 不能看成来自同一个总体的样本。不能看成来自同一个总体的样本。同理同理,Y1,Y2,Y12也不能看成来自同一个总也不能看成来自同一个总体的样本。故体的样本。故,用成对用成对 t 检验。记检验。记 di=Xi-Yi,i=1,2,12.所以，接受原假设，即认为两种测定方法无所以，接受原假设，即认为两种测定方法无显著性差异。显著性差异。利用样本方差利用样本方差 S S 2 2是是 2的一个无偏估计，的一个无偏估计，且且(n-1)S2/2 2n-1 的结论。的结论。8.3.1 单个正态总体方差的单个正态总体方差的2 检验检验设设 X1,X2,Xn 为来自总体为来自总体 N(,2)的的样本，样本，和和 2 2未知，求下列假设的显著性水平未知，求下列假设的显著性水平为为的检验。的检验。思路分析思路分析:1.H0:2=02；H1:2 02 8.3 正态总体方差的检验正态总体方差的检验当原假设当原假设 H0:2=02成立时，成立时，S2 2和和 0 02 2应应该比较接近，即比值该比较接近，即比值 S S 2 2/0 02 2应接近于应接近于1 1。所以。所以,这个比值过大或过小这个比值过大或过小时，应拒绝原假设。时，应拒绝原假设。合理的做法是合理的做法是:找两个合适的界限找两个合适的界限 c1 和和 c2,当当 c1(n-1)S2/02 02 同理，当同理，当 H0:2=02成立时，有，成立时，有，此检验法也称此检验法也称2 2 检验法检验法。3*.H0:2 02；H1:2 02(同同2.)例例1：某公司生产的发动机部件的直径某公司生产的发动机部件的直径(单位单位:cm)服从正态分布，并称其标准差服从正态分布，并称其标准差 0=0.048。现随机抽取现随机抽取5个部件，测得它们的直径为个部件，测得它们的直径为 1.32,1.55,1.36,1.40,1.44.取取=0.05，问，问:(1).能否认为该公司生产的发动机部件的直径能否认为该公司生产的发动机部件的直径的标准差确实为的标准差确实为=0?(2).能否认为能否认为 0?解解:(1).的的问题就是检验问题就是检验 H0:2=02;H1:2 02.其中，其中，n=5，=0.05，0=0.048.故，拒绝原假设故，拒绝原假设 H0，即认为部件直径标准，即认为部件直径标准差不是差不是 0.048 cm。经计算，得经计算，得 S2=0.00778,故，拒绝原假设故，拒绝原假设 H0，即认为部件的直径标准，即认为部件的直径标准差超过了差超过了 0.048 cm。(2).的的问题是检验问题是检验 H0:2 02;H1:2 02.该检验主要用于上节中实施两该检验主要用于上节中实施两样本样本 t 检检验之前，讨论验之前，讨论 1 12 2 =2 22 2 的的假设是否合理。假设是否合理。8.3.2 两正态总体方差比的两正态总体方差比的 F 检验检验1.H0:12=22；H1:12 22.设设X1,X2,Xm和和Y1,Y2,Yn 分别为分别为抽自正态总体抽自正态总体 N(1,12)和和 N(2,22)的样本的样本,欲检验欲检验当当 H0:12=22 成立时成立时,12/22=1,作为其作为其估计，估计，S12/S22也应与也应与 1 相差不大。相差不大。当当该值过分该值过分地大或过分地小时，都应拒绝原假设成立。地大或过分地小时，都应拒绝原假设成立。合理的思路是：找两个界限合理的思路是：找两个界限c1和和c2,当当 c1 S12/S22 22 同理，当同理，当 H0:12=22成立时，有成立时，有 S12/S22 Fm-1,n-1，例例2：甲乙两厂生产同一种电阻，现从甲乙两甲乙两厂生产同一种电阻，现从甲乙两厂的产品中分别随机地抽取厂的产品中分别随机地抽取1212个和个和1010个样品个样品,测得它们的电阻值后，测得它们的电阻值后，计算出样本方差分别计算出样本方差分别为为S12=1.40，S22=4.38。3.H0:12 22；H1:12 22结论同结论同 2 2。以上检验都用到了以上检验都用到了F分布，因此称上述检分布，因此称上述检验为验为 F 检验。检验。假设两厂生产的电阻假设两厂生产的电阻的电阻的阻值分别服从正态分布的电阻的阻值分别服从正态分布 N(1,12)和和 N(2,22)。在显著性水平在显著性水平 =0.10下下,是否可接受：是否可接受：(l).(l).1 12 2 =2 22 2；(2).(2).1 12 2 2 22 2.解：解：(1).的问题是检验的问题是检验 H0:12=22；H1:12 22.其中，其中，m=12,n=10,=0.10,S12=1.40,S22=4.38,S12/S22=0.32。利用利用第六章学过的第六章学过的及及P237的附表的附表5，有，有 Fm-1,n-1(1-/2)=F11,9(0.95)=1/F9,11(0.05)=1/(2.90)=0.34.因因 S12/S22=0.32 0.34，所以，所以，无须再考虑无须再考虑Fm-1,n-1(/2)的值，就可得到拒绝的值，就可得到拒绝 12=22的的结论。结论。查查P237 附表附表5，因，因查不到查不到 F11,9(0.10)，改，改用用F10,9(0.10)和和F12,9(0.10)的平均值近似之，的平均值近似之，得得 F11,9(0.10)=F10,9(0.10)+F12,9(0.10)/2 2.42+2.38/2 =2.40.因因 S12/S22=0.32 22.在前面的讨论中，我们总假定总体的分在前面的讨论中，我们总假定总体的分布形式是已知的。例如，假设总体分布为正布形式是已知的。例如，假设总体分布为正态分布态分布 N(,2),总体分布为区间总体分布为区间(a,b)上上的均匀分布，等等。的均匀分布，等等。然而，在实际问题中，我们所遇到的总然而，在实际问题中，我们所遇到的总体服从何种分布往往并不知道。需要我们先体服从何种分布往往并不知道。需要我们先对总体的分布形式提出假设，如：总体分布对总体的分布形式提出假设，如：总体分布是正态分布是正态分布N(,2)，总体分布是区间总体分布是区间(a,b)上均匀分布等，然后利用数据上均匀分布等，然后利用数据(样本样本)对这对这一假设进行检验，看能否获得通过。一假设进行检验，看能否获得通过。8.4 分布拟合检验分布拟合检验这是一项非常重要的工作这是一项非常重要的工作,许多学者视它为近代统计学的许多学者视它为近代统计学的开端。开端。解决这类问题的方法最早由英国统计学解决这类问题的方法最早由英国统计学家家 K.Pearson(皮尔逊皮尔逊)于于1900年在他发表的年在他发表的一篇文章中给出一篇文章中给出,该方法后被称为该方法后被称为 Pearson 2检验法，简称检验法，简称 2检验检验。设设F(x)为一已知的分布函数，现有样本为一已知的分布函数，现有样本X1,X2,Xn，但我们并不知道样本的总体，但我们并不知道样本的总体分布是什么。现在试图检验分布是什么。现在试图检验 H0：总体：总体 X 的分布函数为的分布函数为F(x)；(1)对立假设为对立假设为 H1：总体：总体 X 的分布函数非的分布函数非F(x)。如果如果 F(x)形式已知，但含有未知参数形式已知，但含有未知参数或参或参数向量数向量=(1,2,r)，记为记为F(x,)。这。这种检验通常称为分布的拟合优度检验。种检验通常称为分布的拟合优度检验。8.4.1 2检验不妨设总体不妨设总体 X 是连续型分布。检验思想是连续型分布。检验思想与步骤如下与步骤如下:(1).将总体将总体 X 的取值范围分成的取值范围分成 k 个互不重叠的个互不重叠的小区间小区间 I1,I2,Ik，(2).计算各子区间计算各子区间 Ii 上的理论频数。上的理论频数。如果总体的分布函数为如果总体的分布函数为F(x,)，那么，各，那么，各点落在区间点落在区间 Ii 上的概率均为上的概率均为n 个点中，理论上有个点中，理论上有n pi()个点落在个点落在 Ii 上上,(称为理论频数称为理论频数)。当分布函数中含有。当分布函数中含有未知参数未知参数时，理论频数也未知，要用时，理论频数也未知，要用来估计来估计 n pi()，为为的极大似然估计。的极大似然估计。(3).计算各子区间计算各子区间 Ii 上的实际频数上的实际频数 fi。fi=X1,X2,Xn Ii ，i=1,2,k.计数符号，取集计数符号，取集合中元素的个数合中元素的个数(4).计算理论频数与实际频数的偏差平方和。计算理论频数与实际频数的偏差平方和。可以证明：在可以证明：在 H0 成立，且成立，且 n时时,(5).H0 的显著性水平为的显著性水平为的的检验的拒的拒绝域域为注意：注意：该检验方法是在该检验方法是在 n 充分大时使用充分大时使用的，因而，使用时要注意的，因而，使用时要注意 n 必须足够地大必须足够地大,以及以及 npi 不能太小这两个条件。不能太小这两个条件。在实用上，一般要求在实用上，一般要求 n 50，以及所有，以及所有npi 5。如果初始子区间划分不满足后一个。如果初始子区间划分不满足后一个条件条件,则适当地将某些子区间合并，可使则适当地将某些子区间合并，可使 npi 满满足上述要求。足上述要求。例例1:在一实验中在一实验中,每隔一定时间观察一次由某每隔一定时间观察一次由某种铀所放射到计数器上的种铀所放射到计数器上的粒子数粒子数X,共观察了共观察了100次次,得到结果如下表得到结果如下表8.1所示。给定所示。给定=0.05,检验假设检验假设 H0：X 服从泊松分布服从泊松分布 P().其中其中 fi 是观测到有是观测到有 i 个个粒子粒子的次的次数数。注：注：XP()表示表示解解:因因H0中含有未知参数中含有未知参数,所以应先估计该参所以应先估计该参数。由极大似然估计法，得数。由极大似然估计法，得在在H0成立前提下，成立前提下，X 可能的取值为可能的取值为0,1,2,将该集合分成将该集合分成A0=0，A1=1，,A11=11,A A1212=12,13,=12,13,，则，则 PX=i=pi 的估计为的估计为将检验统计量计算用数据填入下表，得将检验统计量计算用数据填入下表，得所以，在所以，在 =0.05下下,接受原接受原假设假设，可以认，可以认为为数据服从泊松分布数据服从泊松分布。例例2:自自1965年年1月月1日至日至1971年年2月月9日共日共2231天中天中,全世界记录到里氏全世界记录到里氏4级或级或4级以上地震共级以上地震共计计162次，相继两次地震间隔天数次，相继两次地震间隔天数X统计如下统计如下:给定给定=0.05,检验假设检验假设X服从指数分布。服从指数分布。解解:根据题意，检验假设：根据题意，检验假设：H0：X服从指数服从指数分布，即分布，即X有概率密度函数有概率密度函数在这里，在这里，H0中含有未知参数中含有未知参数,应先估计。应先估计。由极大似然估计法，得由极大似然估计法，得在在H0成立前提下，成立前提下，X 可能的取值为可能的取值为0,),将将其分成其分成 A1=0,4.5)，A2=4.5,9.5),A9=39.5,)，则则 P(Ai)=pi 的估计为的估计为其中其中Ai=ai,ai+1)，i=1,2,9,9。故，在故，在 =0.05下下,接受原接受原假设假设，即认为，即认为数据服从数据服从指数分布指数分布。例例3:为检验棉纱的拉力强度为检验棉纱的拉力强度 X(单位单位:kg)服从服从正态分布，从一批棉纱中随机抽取正态分布，从一批棉纱中随机抽取300条进行条进行拉力试验，结果列在表拉力试验，结果列在表8.2中。给定中。给定 =0.01,检检验假设验假设 H0：拉力强度：拉力强度 X N(,2).解：解：本例中，并未给出各观测值本例中，并未给出各观测值 Xi 的具体值的具体值,只给出了各观测值的取值范围，这样的数据只给出了各观测值的取值范围，这样的数据称为区间数据。样本均值与样本方差可通过称为区间数据。样本均值与样本方差可通过下列式计算：下列式计算：(1).先将数据先将数据 Xi 分成分成13组，每组落入一个区组，每组落入一个区间，区间的端点为：间，区间的端点为：(2).计算数据落入各子区间的理论频数。计算数据落入各子区间的理论频数。因分布中含有两个未知参数，所以，理论因分布中含有两个未知参数，所以，理论频数只能近似地估计。落入第频数只能近似地估计。落入第 i 个子区间个子区间Ii 的理论频数的估计为的理论频数的估计为，其中其中(3).计算数据落入各子区间上的实际频数计算数据落入各子区间上的实际频数 fi。fi=X1,X2,Xn Ii ，i=1,2,10.(4).计算检验统计量的值计算检验统计量的值因为因为 k=10，r=2，所以上述，所以上述 2分布的自分布的自由度由度为 k-r-1=7。由由(5).H0 的显著性水平为的显著性水平为的的检验于是，拒绝原假设，即认为棉纱拉力强于是，拒绝原假设，即认为棉纱拉力强度不服从正态分布。度不服从正态分布。孟德尔在关于遗传问题的研孟德尔在关于遗传问题的研究中，用豌豆做实验。豌豆有黄究中，用豌豆做实验。豌豆有黄和绿两种颜色，在对它们进行两和绿两种颜色，在对它们进行两代杂交之后，发现一部分杂交豌代杂交之后，发现一部分杂交豌豆呈黄色，另一部分呈绿色。其豆呈黄色，另一部分呈绿色。其数目的比例大致是数目的比例大致是 3:1。2检验的一个著名应用例子是孟德尔豌豆检验的一个著名应用例子是孟德尔豌豆实验。奥地利生物学家孟德尔在实验。奥地利生物学家孟德尔在1865年发表的年发表的论文，事实上提出了基因学说，奠定了现代遗论文，事实上提出了基因学说，奠定了现代遗传学的基础。他的这项伟大发现的过程有力地传学的基础。他的这项伟大发现的过程有力地证明了统计方法在科学研究中的作用。因此，证明了统计方法在科学研究中的作用。因此，我们有必要在这里将这一情况介绍给大家。我们有必要在这里将这一情况介绍给大家。这只是一个表面上的统计规律。但它启这只是一个表面上的统计规律。但它启发孟德尔去发展一种理论，以解释这种现象。发孟德尔去发展一种理论，以解释这种现象。他大胆地假定存在一种实体，即现在我们称他大胆地假定存在一种实体，即现在我们称为为“基因基因”的东西，决定了豌豆的颜色。这的东西，决定了豌豆的颜色。这基因有黄绿两个状态，一共有四种组合：基因有黄绿两个状态，一共有四种组合：孟德尔把他的实验重复了多次，每次都孟德尔把他的实验重复了多次，每次都得到类似结果。得到类似结果。(黄黄,黄黄)，(黄黄,绿绿)，(绿绿,黄黄)，(绿绿,绿绿).(黄黄,黄黄)，(黄黄,绿绿)，(绿绿,黄黄)，(绿绿,绿绿).孟德尔认为孟德尔认为,前三种配合使豆子呈黄色前三种配合使豆子呈黄色,而第四种配合使豆子呈绿色。从古典概率的而第四种配合使豆子呈绿色。从古典概率的观点看，黄色豆子出现的概率为观点看，黄色豆子出现的概率为3/4，绿色豆，绿色豆子出现的概率为子出现的概率为1/4。这就解释了黄绿颜色豆。这就解释了黄绿颜色豆子之比为什么总是接近子之比为什么总是接近 3:1 这个观察结果。这个观察结果。孟德尔这个发现的深远意义是他开辟了孟德尔这个发现的深远意义是他开辟了遗传学研究的新纪元。下面的例子就是用遗传学研究的新纪元。下面的例子就是用 2检验来检验孟德尔提出黄绿颜色豌豆数目之检验来检验孟德尔提出黄绿颜色豌豆数目之比为比为 3:1的论断。的论断。例例4：孟德尔豌豆试验中，发现黄色豌豆为孟德尔豌豆试验中，发现黄色豌豆为25粒粒,绿色豌豆绿色豌豆11粒，试在粒，试在 =0.05下下,检验豌检验豌豆黄绿之比为豆黄绿之比为3:1。解：解：定义随机变量定义随机变量 X(1).将将(-,)分成两个区间分成两个区间(2).计算每个区间上的理论频数，这里计算每个区间上的理论频数，这里 n=25+11=36,不存在要估计的未知参数不存在要估计的未知参数,故故(3).实际频数为，实际频数为，f1=25，f2=11.(4).计算统计量的值计算统计量的值(5).H0 的显著性水平为的显著性水平为的的检验所以，接受原假设，即认为豌豆的黄绿所以，接受原假设，即认为豌豆的黄绿之比为之比为 3:1。例例5：某医院一年中出生的婴儿共计某医院一年中出生的婴儿共计1521人人,其中男婴其中男婴802人，女婴人，女婴719人。给定人。给定 =0.05，试问：能否认为男婴、女婴出生概率相同？试问：能否认为男婴、女婴出生概率相同？解：解：用用 X 表示服从两点分布的随机变量表示服从两点分布的随机变量,X 取取0,1两个值，两个值，X=1表示男婴，表示男婴，X=0表是女婴。表是女婴。则问题就是检验假设则问题就是检验假设 H0：p1=PX=0=0.5.(1).将将(-,)分成两个区间分成两个区间(2).计算每个区间上的理论频数。因为两个计算每个区间上的理论频数。因为两个区区间上的理论概率间上的理论概率 p1=p2=0.5,而而 n=1521,故故(3).各区间上各区间上实际频数：实际频数：f1=802，f2=719.(4).计算统计量的值计算统计量的值(5).H0 的显著性水平为的显著性水平为的的检验所以，拒绝原假设，即认为男婴女婴出所以，拒绝原假设，即认为男婴女婴出生概率有显著差异。生概率有显著差异。8.4.2 偏度、峰度偏度、峰度检验检验 2检验虽然是然是检验总体分布的一种方法体分布的一种方法,但用它但用它检验正正态总体体时,犯第二犯第二类错误(取取伪)的概率往往的概率往往较大。大。为此，此，统计学家学家们对检验正正态总体的各种方法体的各种方法进行了比行了比较，得出了如，得出了如下下结论：在正在正态总体的体的检验方法中，方法中，“偏度、偏度、峰度峰度检验法检验法”和和“Shapiro,S.S.&Wilk,M.B.(1965)检验法检验法”较为有效。较为有效。设设X为一为一随机变量，称其标准化变量随机变量，称其标准化变量的三阶矩和四阶矩的三阶矩和四阶矩分别为分别为X的偏度和峰度。的偏度和峰度。当当 X 服从正态分布时服从正态分布时,1=0,2=3。1与与2的矩估计量分别为：的矩估计量分别为：设设 X1,X2,Xn 是抽自总体是抽自总体X X的简单样本，的简单样本，则则当当 X 服从正态分布，且服从正态分布，且n充分大充分大(30)时，时，近似地有近似地有设设 X1,X2,Xn 是抽自总体是抽自总体X 的简单样本的简单样本,则则例例6：下面列出了下面列出了84个伊特拉斯坎个伊特拉斯坎(Etruscan)人男子头颅的最大宽度人男子头颅的最大宽度(mm)。给定。给定 =0.1，试，试用偏度、峰度检验法检验数据是否来自正态用偏度、峰度检验法检验数据是否来自正态总体？总体？141 148 132 138 154 142 150 146 155 158 150 140 147 148 144 150 149 145 149 158 143 141 144 144126 140 144 142 141 140 145 135 147 146 141 136140 146 142 137 148 154 137 139 143 140 131 143 141 149 148 135 148 152 143 144 141 143 147 146 150 132 142 142 143 153 149 146 149 138 142 149142 137 134 144 146 147 140 142 140 137 152 145解：解：设数据来自总体设数据来自总体X，现在来检验假设，现在来检验假设在这里，在这里，下面计算样本下面计算样本2,3,4阶中心矩阶中心矩B1,B2和和B3。计算。计算时可利用时可利用其中，其中，经计算，经计算，得得

展开阅读全文

数理统计与随机过程课件

最新文档