资源描述
第三章 抽样分布及其应用,第一节 二项总体抽样 第二节 检验二项资料的百分数 (针对单个样本百分数和两样本百分数) 第三节 参数的区间估计 第四节 2的定义和分布 第五节 次数资料的2检验,第三章要点提示,抽样分布及其应用是上一章抽样分布及其应用的延伸,两者构成统计分析方法的基础部分,学习时 :对于二项总体抽样,要清楚它和上一章单个母总体抽样的联系和区别; 对于百分数的检验,要注意应用u-test的条件、不符合这些条件时进行连续性矫正的必要性以及标准误的计算方法衍生总体参数的异同点; 参数的区间估计可替代显著性检验,但它比显著性检验挖掘的信息更充分;掌握依据2变量SS/2 服从的理论分布进行适合性检验和独立性检验时计算2值的方法。 涉及教材内容:第五章第四、五节,第七章第一、二、三节。 作业布置:教材P77 T13、 T14; P154-155 T5、 T7、 T8、 T10。,第一节 二项总体抽样,一、二项总体参数 本节是针对一类特殊的母总体进行抽 样研究,这类总体内的个体不管有多少个, 都可按某种性状出现与否分为两组,故称 二项总体。将其中出现某种性状的个体的 观察值定为“1”,否则定为“0”。 若已知二项总体的个体有N个,出现 某种性状的概率为p,则其参数计算如下: =fy /N = Np/N = p 2 = f ( y )2/N = Np(1- p) /N = pq 可见二项总体的两个参数 ,2 都由平均数p (即个体出现某种性状的概率) 唯一确定。,二、衍生总体参数 从二项总体中以样本容量 n 进行复 置抽样,根据前述中心极限定理的有 关结论,同样有: 或 N( ,2)且: = = p, 2 = =2 /n = pq/n y或 N(y ,2y )且: y = n= np, 2y = = n2 = npq, 于是: u = ( ) / = u = (y y ) /y =,第一节 二项总体抽样,例3.1 假定调查某地全部棉株受盲椿危 害的情况,发现704株受害,且 N = 2000, 得= 0.352,= 0.4776;现从中以n = 200 抽取一个样本,知受害株数 = 74,受害 率 = 0.37,试计算获此抽样误差的概率。 解 依题意应求P( | p|0.018) = 0.4776200 = 0.034 原式 = P(|u| 0.53)= 2 P(u - 0.53) = 2 (- 0.53) = 20.2981= 0.5962 依题意也可求P( | np|3.6) = 6.754 u = = (74 70.4)/6.754 = 0.53,习题 给定一个二项总体 0,1,0,0,1,1,0,1,1,0,现从中以 n = 4进行复置抽样, 则分析如下:,第二节 检验二项资料的百分数,所谓二项资料的百分数,指数据资料 可以看成是从二项总体中抽得样本后, 通过计数某一属性的个体数目算出来的 样本百分数,其实质是样本平均数。正 因为经计数获得,所以是间断性变量。 从理论上讲,这类百分数的显著性检 验应按二项分布进行,即用( p + q ) n 的 二项展开式求出某项属性的个体数达到 某个百分数 的概率。但 n 稍大时,直 接用( p + q ) n 来计算区间概率很不方便, 除非制成类似专用的统计表来查。 而样本容量足够大 (n50) 时,若 p、 q 不过于小 (np或nq5), 则( p + q ) n 的 分布趋近于正态, 可转换为 u 查算概率。,适合 u-test 的 和 值表,第二节 检验二项资料的百分数,一、单个样本百分数 例3.2 根据往年调查,某地区的乳牛 隐性乳房炎一般为30%, 即po= 0.3,现对 某牛场500头乳牛进行检测,结果有175头 乳牛凝集反应阳性。问该牛场的隐性乳房 炎是否比往年严重? 解 本例n = 500, = 175/500 = 0.35 n200, (0.2, 0.8 ) 用u-test H0:p p0 或 p 0.30 =(0.30.7500) =0.0205 u = ( p)/ = (0.350.30) / 0.0205 = 2.439 查表知单侧u0.05 = 双侧u0.10 = 1. 64 推断:u u0.05 故H0不成立。,若以 -np = 175-150= 25 ,进行 测验, =10.25 , u 不变。 若以H0:p = 0.7 进行检验, 或 结果也一样,u = 2.439。 本例有一般百分数为测验依据, 具备计算总体标准误的先决条件,所 以用u-test。这是很少见的几种能直接 应用标准正态分布的场合,也是应用 二项总体抽样分布进行检验的优势。 用正态分布替代二项分布做检验, 其本质是将间断性变量的概率分布去 逼近它的极限连续性变量的fN(y)。 这种近似过程会有偏差,当数据不符 合前表所列条件时还得照下例操作。,第二节 检验二项资料的百分数,例3.3 用基因型纯合的糯和非糯玉米 杂交,按遗传规律 ,预期F1植株上糯性花粉 粒的P0 = 0.5。现于一视野中检视20粒花粉, 发现糯性花粉8粒, 试测验此次镜检结果是 否符合F1代配子11的分离规律。 解 本例n = 2050, = 8/20 = 0.4 不符合u-test的条件, 只能用t-test H0:p = p0 或p = 0.5 是2= pq的无偏估计值 =(0.40.619)=0.1124 tc= ( | p | 0.5/n ) / = 0.667 = ( 0.10.025 ) / 0.1124 按自由度= 19 查得t0.05 = 2.093 推断:t t0.05 故H0成立,本例若以 -np = 810 = -2进行 测验, 则同样应根据2= pq的无偏估 计值 先计算标准误: = (202 0.40.619) = 2.25 再算tc= ( | n p | 0.5 ) / = (20.5 ) / 2.25 = 0.667 计算 tc 的做法叫连续性矫正,为 的是纠正用连续性变量的t 分布替代 二项分布时, 因为 n 太小而不能忽略 的偏差。即使如此,对这种 n50的 资料进行检验只适宜于希望 H0 被接 受的场合;如果希望H0被拒绝, 设计 获得样本百分数的 n 还是越大越好, 达不到100也不要少于50。,第二节 检验二项资料的百分数,二、两个样本百分数 例3.4 某养猪场第一年饲养杜长大商品 仔猪9800头,死亡980头;第二年饲养10000 头,死亡950头,试检验第二年的死亡率与 第一年的死亡率有无显著差异? 解 = 0.1, = 0.095,可进行u-test 不需连续性矫正, n1 与 n2 有 10000之多。 (1)H0: p1 p2 (同时有: ) (2) = ( n1 +n2 ) / (n1+n2 )= 0.0975 = ( 980+950 ) / (9800+10000 ) =1 - = 1 0.0975 = 0.9025 = (Se2(1/n1+1/n2 )= 0.00422 = ( (1/9800+1/10000 ) t = ( ) (p1 p2 ) / = (0.10 0.095 ) / 0.00422= 1.185 (3)查得双侧t0.05 ,= u0.05 = 1.96 (4)推断t t0.05 H0成立。,本例计算标准误的前提是可以合并 两个样本百分数,然后计算Se2 = 之所以这样作而不象前例计算Se2 = (1S12 +2S22) / (1+2) 前先插入F 检验且知两个样本方差比无显著性, 是因为该题型的H0有双重作用,即作 出H0: p1 p2后,H0 : 也 同真,原因在于二项总体的2 = p q = p(1-p)。 至于n1 或 n2 50的两个样本百分 数差异显著性检验问题,即使是有 t- test并且可以进行连续性矫正, 同样因 为只有利于接受H0而不利于拒绝H0, 实际应用中不受推崇。,第三节 参数的区间估计,什么叫区间估计? 即使是复置抽样,由于 抽样误差存在的必然性,不 同的样本将有不同的值, 于是, 在一定的置信度(也叫 置信系数或可靠度,一般为 95或99)保证之下,估 计出一个范围或区间以覆盖 参数。该区间就叫置信区间, 其上下限叫置信限,分别以 L2、L1表示。,如例1.5的n = 25抽样实例: = 44.05 g,S = 4.523g,以 1-=0.95时的t0.05=2.064算得: L1 44.052.0644.523 42.18 g L2 44.052.0644.523 45.92 g 若用=4.65g的已知条件, 则: L1 44.051.964.65 42.23g L2 44.051.964.65 45.87 g,第三节 参数的区间估计,如例2.3已知某品种母猪的怀孕期 为0 = 114d,现抽查其10头母猪得怀 孕期平均日数 = 114.5d,S = 1.581d。 以1-=0.95和S = = 0.5d 以及 t0.05=2.262 时算得: L1 114.52.2620.5113.37 g L2 114.52.2620.5115.63g 该区间估计结果也可用于显 著性检验,如本例所示,H0: = 114d被包含在1-= 0.95的置信区 间:113.37,115.63,故H0成立。 反之,则H0不能成立。,若1-=0.99, t0.05=3.250, 可算得置信区间扩大为: 112.88,116.13。 此时, H0: =114d成立与 否无从判断。 再若取单侧 t0.05 = 1.833: L1 114.51.8330.5 113.58 g L2 114.51.8330.5 115.42g 此时, H0: 114d已包 含在1-= 0.95的置信区间 113.58,115.42 故H0成立。,第三节 参数的区间估计,又如例2.6 的资料,某小麦品 种每m2产量的2= 0.4(kg2 )。A 法取12个样点,得每m2产量1= 1.2kg;B法取8个样点, 得2 = 1.4 kg。以1-=0.95 和1-2=0.2887 kg = 以及u0.05=1.96 时算得: L1 ( 1.2-1.4)1.960.2887 0.766 kg L2 (1.2-1.4)1.960.2887 0.366 kg 该区间估计结果用于显著性检 验,如本例所示,H0: 1-2 = 0被 包含在1-= 0.95的置信区间: -0.7661-20.366, 故H0成立。,反之,若H0未被包含在1-= 0.95的置信区间内,则属于H0不能 成立的情形。 于是, 就1 = 2 = 的情形将 两个样本合并按单个样本进行区间 估计,结果如下: 1.28kg 0.1414g L1 1.281.960.1414 1.00 kg L2 1.281.960.1414 1.56kg 由此可见,用于显著性检验的 区间估计和参数的区间估计不完全 是一回事!,第三节 参数的区间估计,又如例2.9某家禽研究所用粤黄鸡对A、B 两种饲料的增重效果进行对比试验,时间60d, 各获得8只鸡的观察值,算得 1=705.625g,SS1 = 2022g2; 2= 696.125g,SS2= 967g2。 以1-=0.95 和S 1-2 = =7.306g 以及t0.05=2.145时算得: L1 (705.625-696.125)2.1457.306 6.17g L2 (705.625-696.125)2.1457.306 25.17g 该区间估计结果用于显著性检验 时,由于H0: 1-2 = 0被包含在置信 区间:6.171-2 25.17 故H0成立。,于是, 就1 = 2 = 的情形将 两个样本合并按单个样本进行区间 估计,结果如下: 700.875g S 3.653g L1 700.8752.1313.653 693.09g L2 700.8752.1313.653 708.66g 以上两例表明当用于显著性检 验的区间估计针对1- 2 而又接受 H0时,有必要进一步作参数的区间 估计以挖掘更加有用的信息!,第三节 参数的区间估计,再如例2.8 在抽穗期间测定喷矮壮 素玉米8株, 得到株高1= 176.3cm, SS1 =3787.5cm2,对照区玉米9株,得株高 2=233.3 cm,SS2 = 18400cm2。 以1-=0.95 和S 1-2 = = 18cm ,以及= 12、一尾t0.05 = 1.782时算得: L1 (176.3-233.3)1.78218 24.92 cm L2 (176.3-233.3)1.78218 84.08cm,该区间估计结果用于显著性检 验时,由于H0: 1-2 0未包含 在置信区间24.921-284.08。 故H0不成立。 由本例可见,当用于显著性检 验的区间估计针对1- 2 而又拒绝 H0时,参数的区间估计信息也同时 获得!即喷矮壮素的玉米至少比对 照矮24.92cm以上。,第三节 参数的区间估计,再如例2.10 研究某批注射液对家兔体 温的影响,测得10只家兔注射前后的体温 (C),根据所得自身配对数据算得d = -7.3 (C),Sd = 0.445(C)。 以1-=0.95 和S = = 0.141 t0.05 = 2.262时算得: L1 -0.732.2620.141 1.049 L2 -0.732.2620.141 0.411,该区间估计结果用于显著性检 验时,由于H0: d 0未包含在置 信区间1.049 d 0.411 。 故H0不成立。 由本例可见,当用于显著性检 验的区间估计针对而又拒绝H0时, 参数的区间估计信息也同时获得! 即家兔注射某批注射液后的体温至 少升高0.411 C 。,第三节 参数的区间估计,再如例2.11 从8窝仔猪中每窝选性别 相同、体重接近的2头配对,每对仔猪 随机安排一头喂甲饲料,另一头喂乙饲 料,时间30d,根据所得同源配对数据 (kg)算得d = 7.8kg,SSd = 2.3kg2, 以1-=0.95 和S = = 0.2025, 双侧t0.05 = 2.365时算得: L1 0.9752.3650.2025 0.496kg L2 0.9752.3650.2025 1.454kg,该区间估计结果用于显著性检 验时,由于H0: d 0未包含在 置信区间0.496 d 1.454。 故H0不成立。 由本例可见,当用于显著性检 验的区间估计针对时,其区间估 计信息也可达到和检验非零假设同 样的效果!即喂甲饲料比喂乙饲料, 30d时间至少多0.496kg。,第三节 参数的区间估计,最后如例3.2 根据往年调查,某地区 的乳牛隐性乳房炎一般为30%, 即po= 0.3,现对某牛场500头乳牛进行检测, 结果有175头乳牛凝集反应阳性。 以1-=0.95 和 =0.0205, u0.05 = 1.96时算得: L1 0.351.960.0205 0.31 L2 0.351.960.0205 0.39,该区间估计结果用于显著性检 验时,由于H0: p = 0.30未包含在 置信区间0.31 p 0.39。 故H0不成立。 由本例可见,当用于显著性检 验的区间估计针对H0:p = p0 时, 对 进行区间估计的方法和单个 一样,既可以判断H0 是否成立,也 可以估计一个范围覆盖参数!,第三节 参数的区间估计,再如例3.4 某养猪场第一年饲养杜 长大商品仔猪9800头,死亡980头;第 二年饲养10000头,死亡950头。 以1-=0.95 和= 时,双侧t0.05 = u0.05 = 1.96, 0.00422算得: L1 (0.1-0.095)1.960.00422 -0.00327 L2 (0.1-0.095)1.960.00422 0.01327 该区间估计结果用于显著性检 验时,由于H0: p1 -p2 0已包含在 置信区间-0.00327 p1 -p2 0.01327。 故H0成立。,于是, 就p1 = p2 = p的情形将两 个样本合并按单个样本进行区间 估计,结果如下: 0.0975 0.0021 L1 0.09751.960.0021 0.0934 L2 0.09751.960.0021 0.1016 由此可见,当用于显著性检验 的区间估计针对 而又接受H0 时,参数的区间估计只对p进行!,第四节 2的定义和分布,假定从一个既定的母总体中随机抽取容量 为 n 的样本,则定义: 2 = SS / 2 = (n 1)S 2 / 2 = S 2 / 2 抽样研究的结果已证实, 2也是一个连续性 变量, 理论上存在着抽样分布,这就是2分布。 它的两个参数分别为:2 =, 2 2 = 2 2分布是由自由度 n 1 决定的曲线系统, 因为受2 0的限制,任一条都限于纵坐标右侧; 2分布曲线不对称往左偏斜,偏斜程度随 着自由度的增加而减小, 时,渐趋正态分布, 实际当30时,视(22) N(2-1) ,1); 附表6(右尾2值表)与2分布的关系。,第四节 2的定义和分布,f (2 ),2,= 1,= 3,= 5,3.84 ,7.81 ,11.07 ,图中只列= 0.05的临界值, = 0.01尽管被称为极显著水平, 但“差异极显著”决不意味着本质 差别一定比达到0.05显著水平大。,第五节 次数资料的2检验,二、适合性测验 例3.5 研究牛的毛色和角的有无两 对相对性状的分离现象时,用黑色无角牛 和红色有角牛杂交,子二代四种表现型的 观察次数依次为192、78、72、18。试检验 这两对相对性状的遗传是否符合理论比例 为9331的独立分配律。 H0: F2代四种表现型符合9331 2 =( A T )2T ) = 4.711 = 10.52/202.5 + 10.52/67.5 + 4.52/67.5 + 4.52/22.5 按 = 4 - 1 , 查得右尾2 0.05 = 7.815 推断: 2 2 0.05 H0成立,( A T )2T ) 2 (k -1) = 1时, C2 =(| A T | - 0.5 )2T ),第五节 次数资料的2检验,三、独立性测验 例3.6 分别统计了甲、乙两个品种 各67头经产母猪的产仔情况,结果如右表 (Tij内为相应的理论次数),试检验经产 母猪的产仔构成比是否因品种而不同。 H0:产仔构成比与因品种无关 2 =( A T )2T ) = 23.23 = 62/11 + 5.52/38.5+ 11.52/17.5 + 62/11 + 5.52/38.5 + 11.52/17.5 按自由度=(2-1)(3-1)查得20.05=5.99 推断:2 2 0.05 H0不成立,( A T )2T ) 2 (r -1)(c-1) = 1时, C2 =(| A T | 0.5 )2T ),显著性检验(小结),至此已讲完统计三大分布,历史上是先有u 分布,后来才依次有2分布、 t 分布和F 分布 当计算2的自由度= 1时, 2 = u2 ; 当计算t的自由度时, t N(0, 1); Fisher 证明 Gosset 定义的 t 变量实际上是 用2变量除以后的正根值去除 u 变量所得: t = u /(2 / ) 取u =()/n =()/n/(S2 / 2 ) =()/n /S = ()S/n F 分布与u 分布、2分布、 t 分布的联系 同样可从其定义:F= S12 / S22 导出,如右图。 2分布与F分布因为不对称, 其两尾检验 不象u-test或t-test那么简单, 左、右尾算法不同。,四种抽样分布关系图,
展开阅读全文