5抽样分布与参数估计(修改稿)课件

上传人:妈**** 文档编号:242964428 上传时间:2024-09-12 格式:PPT 页数:129 大小:1.57MB
返回 下载 相关 举报
5抽样分布与参数估计(修改稿)课件_第1页
第1页 / 共129页
5抽样分布与参数估计(修改稿)课件_第2页
第2页 / 共129页
5抽样分布与参数估计(修改稿)课件_第3页
第3页 / 共129页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第 五 章 抽样分布与参数估计,作者:江南大学商学院,刘海燕,PowerPoint,统计学,第一节抽样调查的基本概念与方法,一、抽样调查的概念和作用,(一) 抽样调查-是指从所要研究的总体中,按照随机原则,抽取部分单位进行调查,并将调查整理得出的数量特征,用以推断总体综合数量特征的一种调查组织形式。,(二) 抽样调查的作用,二、抽样调查中的几个基本概念,1、全及总体,2、样本,3、总体参数-,主要有:,总体平均数,总体比例,总体比例的期望,总体比例方差,总体方差,总体标准差,二、抽样调查中的几个基本概念,4、统计量-,主要有:,样本平均数,样本比例,样本方差,样本标准差,5、样本容量和样本个数,样本容量是指一个样本所包含的单位数,即n。,样本个数又称样本可能数目,是从一个总体中可能抽取多少个样本。,三、抽样方法有二种,1、重复抽样-是指从N个总体单位中,抽取一个单位进行观察、纪录后,放回去,然后再抽取下一个单位,这样连续抽取n个单位组成样本的方法叫重复抽样,也叫重置抽样。,2、不重复抽样-是指从N个总体单位中,抽取一个单位进行观察、纪录后,不再放回去,再抽取下一个单位,这样连续抽取n个单位组成样本的方法叫不重复抽样,也叫不重置抽样。,样本统计量的概率分布(频率分布),是一种理论概率分布,随机变量是,样本统计量,样本均值,样本比例,样本方差等,结果来自容量相同的所有可能样本,提供了样本统计量长远我们稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,第二节 抽样分布,(,sampling distribution,),抽样分布,(,sampling distribution,),总体,计算样本统计量,例如:样本均值、比例、方差,样本,一、,样本均值的抽样分布,样本均值的抽样分布,(例题分析),【例】,设一个总体,,含有4个元素(个体),,即总体单位数,N,=,4。4,个个体分别为,x,1,=1,、,x,2,=2,、,x,3,=3,、,x,4,=4,。总体的均值、方差及分布如下,总体分布,1,4,2,3,0,.1,.2,.3,均值和方差,样本均值的抽样分布,(例题分析),现从总体中抽取,n,2的简单随机样本,在重复抽样条件下,共有4,2,=16个样本。所有样本的结果为,3,4,3,3,3,2,3,1,3,2,4,2,3,2,2,2,1,2,4,4,4,3,4,2,4,1,4,1,4,4,1,3,3,2,1,1,2,1,1,1,第二个观察值,第一个,观察值,所有可能的,n,= 2 的样本(共16个),样本均值的抽样分布,(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,3.5,3.0,2.5,2.0,3,3.0,2.5,2.0,1.5,2,4.0,3.5,3.0,2.5,4,2.5,4,2.0,3,2,1,1.5,1.0,1,第二个观察值,第一个,观察值,16个样本的均值(,x,),X,样本均值的抽样分布,1.0,0,.1,.2,.3,P,(,X,),1.5,3.0,4.0,3.5,2.0,2.5,样本均值的分布与总体分布的比较,(例题分析),= 2.5,2,=1.25,总体分布,1,4,2,3,0,.1,.2,.3,抽样分布,P,(,X,),1.0,0,.1,.2,.3,1.5,3.0,4.0,3.5,2.0,2.5,X,即:,即,比较及结论:,1. 样本均值的均值(数学期望) 等于总体均值,2. 样本均值的方差等于总体方差的1/,n,样本均值的数学期望,样本均值的方差,重复抽样,不重复抽样,样本均值的抽样分布,(数学期望与方差),均值的抽样标准误,所有可能的样本均值的标准差,测度所有样本均值的离散程度,小于总体标准差,计算公式为,二、样本比例的抽样分布,样本比例的数学期望,样本比例的方差,重复抽样,不重复抽样,样本比例的抽样分布,(数学期望与方差),第三节 正态分布和正态逼近,一、正态分布,f,(,x,) = 随机变量,X,的频数,= 正态随机变量,X,的均值,= 正态随机变量,X,的方差,= 3.1415926; e = 2.71828,x,= 随机变量的取值 (-,x,),密度函数是描述概率分布情况的,正态分布的密度函数为:,x,f,(,x,),正态分布的概率,a,b,x,f,(,x,),概率是曲线下的面积,二、标准正态分布,(standardize the normal distribution),标准正态分布,的概率密度函数,随机变量具有均值为,0,,标准差为,1,的正态分布,任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布,标准正态分布,的分布函数,标准正态分布,X,m,s,一般正态分布,=1,Z,标准正态分布, ,标准正态分布表的使用,为了应用上的方便,是将z从05的概率编成正态分布表,直接查表求得概率。,对于标准正态分布,即,Z,N,(0,1),,,有,P,(,a,Z,b,),b, ,a,P,(|,Z,| z),对于负的,z,,,可由,(-,z,),z,得到,对于一般正态分布,即,X,N,(,),,,有,常用的概率分布表,在统计推断中,常常要求变量落在(-z,z)区间的概率,即:,P,(|,Z,| z) 2,z 1,常用的概率分布表,z,P,(|,Z,| z),0.5,1,1.96,2,2.5,3,0.3829,0.6827,0.95,0.9545,0.9876,0.9973,标准化的例子,P,(5,X,6.2),X,=5,=10,一般正态分布,6.2,=1,Z,标准正态分布,0,0.12,.0478,标准化的例子,P,(2.9,X,7.1),5,s,= 10,2.9,7.1,X,一般正态分布,标准正态分布,0,s,= 1,-.21,Z,.21,.1664,.0832,.0832,正态分布,(例题分析),【例】,定某公司职员每周的加班津贴服从均值为,50,元、标准差为,10,元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过,70,元,又有多少比例的职员每周的加班津贴在,40,元到,60,元之间呢?,解:,设,=5,0,,,=10,,X,N,(50,10,2,),三、关于正态分布的定理(一),正态分布再生定理,= 50,=10,X,总体分布,n,= 4,抽样分布,X,n,=16,当总体服从正态分布,N,(,2,),时,来自该总体的所有容量为,n,的样本的均值,X,也服从正态分布,,X,的数学期望为,,方差为,2,/,n,。即,XN,(,2,/,n,),(二)中心极限定理,(,central limit theorem,),当样本容量足够大时(,n,30) ,样本均值的抽样分布逐渐趋于正态分布,中心极限定理:,设从均值为,,方差为,2,的一个任意总体中抽取容量为,n,的样本,当,n,充分大时,样本均值的抽样分布近似服从均值为,、方差为,2,/,n,的正态分布,一个任意分布的总体,X,样本比例的抽样分布,总体比例是服从01分布。因此中心极限定理也适用于样本比例的分布。具体说,从任一总体比例为 、方差为 的01分布总体中,抽取容量为n的样本,其样本比例p的分布随着样本单位数n的增大而趋近于平均数,方差 的正态分布。,在实际工作中,总体变量的分布通常是不知道的,样本平均数或比例的分布是否接近于正态,可接近到什么程度,取决于样本容量。样本容量越大,样本平均数或比例的分布也越接近正态。一般认为样本单位数不少于30的是大样本,抽样分布就接近于正态分布。,例6.2,一汽车蓄电池商声称其生产的电池具有均值为 54,个月,标准差为 6 个月的寿命分布。现假设某消费团体决定,检验该厂的说法是否准确,为此购买了 50 个该厂生产的电,池进行寿命试验。,假设厂商声称是正确的,试描述 50 个电池的平均,寿命的抽样分布。,假设厂商声称正确,则50个电池的平均寿命不超过,52 个月的概率为多少?,解:,根据中心极限定理,当厂商假定正确时,50个,电池的平均寿命 近似服从正态分布,有,即,四、样本方差的抽样分布,对于来自正态总体的简单随机样本,则比值,的抽样分布服从自由度,为 (,n,-1),的,2,分布,,即,分布的变量值始终为正,分布的形状取决于其自由度,n,的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称,期望为:,E(,2,)=,n,,,方差为:,D(,2,)=2,n,(,n,为自由度,),可加性:若,U,和,V,为两个独立的,2,分布随机变量,,U,2,(n,1,),,,V,2,(,n,2,),则,U,+,V,这一随机变量服从自由度为,n,1,+,n,2,的,2,分布,2,分布,(,性质和特点,),c,2,分布,(图示),选择容量为,n,的,简单随机样本,计算样本方差,S,2,计算卡方值,2,= (,n,-1),S,2,/,2,计算出所有的,2,值,不同容量样本的抽样分布,c,2,n,=1,n,=4,n,=10,n,=20,m,s,总体,课堂练习,1、某公司决定对职员增发“销售代表”奖,计划根据过去一段时期内的销售状况对月销售额最高的5的职员发放该奖金。已知这段时期每人每个月的平均销售额(单 位:元)服从均值为40000、方差为360 000的正态分布,那么公司应该把“销售代表”奖的最低发放标准定为多少元?,2、今年有一家大保险公司启动了一项为未利用的病休日向推销员们实行补偿的计划。该公司决定对每一个未利用的病休日向每一名推销员支付一份津贴。在以前的若干年中,每名推销员每年的病休日数目具有均值为92和标准差为18的相对频数分布。为了确定这项补偿计划是否有效地减少了被利用的平均病休日数目,该公司随机抽选了81名推销员并在年终时将每个人的病休日数目记录下来。,a 假定这项补偿计划对减少被利用的平均病休日数无效,试求81名被随机选出的推销员所产生的样本均值小于876天的概率。提示:如果补偿计划无效,那么这一年被每名推销员利用的病休日数目的相对频数分布就具有与前些年相同的平均值和标准差,即92,18。,b,如果被利用的病休日的样本平均数算出是876天,有无充分证据说补偿计划是有效的或这一年每名推销员所用病休日的真正平均数小于前些年的平均数92?,3、假定我们所选的一个随机样本由40份最近颁发的以改进现有住宅结构为目的的建筑许可证组成,已记录下每份许可证的价值x。以往的经验表明,在某个特定的县内,这种建筑许可证价值的相对频数分布具有平均值8 000美元和标准差1 500美元。,a 以代表由上述40份许可证组成的样本的平均价值,试描述的抽样分布。,b 样本中许可证的平均价值小于7 500美元的概率是多少?,c 样本中许可证的平均价值在7 500美元和8 500美元之间的概率是多少?,课堂练习参考答案,1、某公司决定对职员增发“销售代表”奖,计划根据过去一段时期内的销售状况对月销售额最高的5的职员发放该奖金。已知这段时期每人每个月的平均销售额(单 位:元)服从均值为40000、方差为360 000的正态分布,那么公司应该把“销售代表”奖的最低发放标准定为多少元?,解:,2、(P261 7.27)今年有一家大保险公司启动了一项为未利用的病休日向推销员们实行补偿的计划。该公司决定对每一个未利用的病休日向每一名推销员支付一份津贴。在以前的若干年中,每名推销员每年的病休日数目具有均值为92和标准差为18的相对频数分布。为了确定这项补偿计划是否有效地减少了被利用的平均病休日数目,该公司随机抽选了81名推销员并在年终时将每个人的病休日数目记录下来。,a 假定这项补偿计划对减少被利用的平均病休日数无效,试求81名被随机选出的推销员所产生的样本均值小于876天的概率。提示:如果补偿计划无效,那么这一年被每名推销员利用的病休日数目的相对频数分布就具有与前些年相同的平均值和标准差,即92,18。(0.0139),b,如果被利用的病休日的样本平均数算出是876天,有无充分证据说补偿计划是有效的或这一年每名推销员所用病休日的真正平均数小于前些年的平均数92?(证据充分),3、假定我们所选的一个随机样本由40份最近颁发的以改进现有住宅结构为目的的建筑许可证组成,已记录下每份许可证的价值x。以往的经验表明,在某个特定的县内,这种建筑许可证价值的相对频数分布具有平均值8 000美元和标准差1 500美元。,a 以代表由上述40份许可证组成的样本的平均价值,试描述的抽样分布。(8000,237.172 ),b 样本中许可证的平均价值小于7 500美元的概率是多少?(0.0174),c 样本中许可证的平均价值在7 500美元和8 500美元之间的概率是多少?(0.9652),作业,统计学第四版:,P154 5.17,P173 6.1,参数估计在统计方法中的地位,参数估计,假设检验,统计方法,描述统计,推断统计,第 四节,总体,参数估计,统计推断的过程,样本,总体,样本统计量,例如:样本均值、比例、方差,总体,均,值、比例、方差等,一、,参数估计,概述,科学的抽样估计方法要具备三个基本条件,1、要有合适的统计量作为估计量。比如,从一个样本可以计算平均数、中位数、众数等等,用哪个来作为总体平均数的估计量呢?,2、要有合理的允许误差范围。允许误差范围又称抽样极限误差,指样本统计量与被估计总体参数离差的绝对值可允许变动的上限或下限。|- | |-p|,P,由于统计量本身也是随机变量,所以要使估计完全没有误差是难以做到。但是误差太大,这种估计也没有意义;误差太小势必增加人力物力和财力以及时间,这样抽样调查也失去了意义。所以要规定一定的误差范围,只要误差在允许的误差范围内的估计都是有效的。,一、,参数估计,概述,3、要有一个可接受的置信度。估计置信度又称估计推断的概率保证程度,这是估计的可靠性问题。如果我们愿意冒10%的风险,这表示如果进行多次重复估计,则平均每100次估计将有10次是错误的,90次是正确的。90%就称为置信度或称为概率保证程度。要求估计的置信度达到100%是不可能的,但置信度太低,也没有意义,所以要有一个可接受的置信度。,参数估计的基本,方法有点估计和区间估计两种。,二、点估计,1、概念,点估计就是直接以样本指标代表总体指标。例如从某灯泡厂抽100只灯泡检验,其平均耐用时间为1100小时,产品合格率为90%,就推断该厂生产的灯泡平均耐用时间为1100小时,产品合格率为90%。此法的缺点是既没有说明这种推断的准确程度,也无法说明其可靠程度,只是一种粗略的估计。但是它又不同于拍脑袋的瞎猜,它是有科学根据的,对那些要求不太高的判断和分析,此法还是可以采用的。,二、点估计,2、优良估计量的三个标准,估计总体参数,未必只能用一个统计量,也可以用其他统计量。例如估计总体平均数,可以用样本平均数,也可以用样本中位数等等。应该用哪一个呢?就应该有一个标准。优良估计量有三个标准:,无偏性 即样本统计量的期望值(平均数)等于被估计的总体参数。前已证明,样本算术平均数作为总体平均数的估计量是符合无偏性要求的。即:,一致性,即当样本的单位数充分大时,样本统计量也充分靠近总体参数。可以证明,以样本平均数估计总体平均数时,也符合一致性的要求,即存在下列关系式:,有效性,即作为优良估计量的方差应该比其他估计量的方差小。例如用样本平均数或用总体任一变量来估计总体平均数都是无偏估计,但是样本平均数的方差比总体方差小,所以,样本平均数是更为有效的估计量。即:,类似的有:,样本比例是(0,1)分布平均数的表现形式,所以也完全符合优良估计量的标准。,不是所有的估计量都符合以上标准。可以说符合以上标准的统计量比不符合或不完全符合以上标准的统计量更为优良。,二战中的点估计 德军有多少辆坦克?,二战期间,盟军非常想知道德军总共制造了多少辆坦。德国人在制造坦克时是墨守成规的,他们把坦克从,1,开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数,N,而缴获坦克的编号则是样本。,假设我们是盟军手下负责解决这个问题的统计人员。制造出来的坦克总数肯定大于等于记录的最大编号。为了找到它比最大编号大多少,我们先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本均值乘以,2,就是总数的一个估计;当然要特别假设缴获的坦克代表了所有坦克的一个随机样本。这种估计,N,的公式的缺点是:不能保证均值的,2,倍一定大于记录中的最大编号。,二战中的点估计 德军有多少辆坦克?,N,的另一个点估计公式是:用观测到的最大编号乘以因子,1+1/n,,,其中,n,是被俘虏坦克个数。假如你俘虏了,10,辆坦克,其中最大编号是,50,,那么坦克总数的一个估计是(,1+1/10),50=55,。此处我们认为坦克的实际数略大于最大编号。,从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!,资料来源:GUDMUND R.IVERSEN和MARY GERGRN著,吴喜之等译:统计学基本概念和方法,高等教育出版社,施普林格出版社,2000。,三、区间估计,区间估计-是根据样本统计量,去推断总体参数的可 能范围。,例如,估计总体参数在样本统计量加减一个抽样标准差范围内,即:,概率为68.27%,概率为95.45%,可见,区间估计既说清了估计结果的准确性,又同时表明了它的可靠程度,是一种更为科学的估计。,第五节 一个总体参数的区间估计 一、总体均值的区间估计,(一)正态总体、方差已知,或非正态总体、大样本,1、理论,利用正态分布的有关定理,此时样本平均数服从或趋近于正态分布,即:,重复抽样情况下:,不重复抽样情况下:,因此可以利用正态分布来近似地估计样本平均数在某个区间的概率。即:,=1时,P(| | = ),标准化=,区间估计的图示,X,95% 的样本,-1.96,x,+1.96,x,99% 的样本,- 2.58,x,+ 2.58,x,90%的样本,-1.645,x, +,1.645,x,2、误差范围、概率度, = 叫误差范围,也叫估计误差或允许误差。,是一个系数,系数越大,样本统计量出现的概率或保证程度越大,反之亦反。其对应概率可查正态分布概率表。可见,样本统计量出现的概率大小,与该系数有关,故被称为概率度。是事先确定的概率值,也称为风险值,是估计出错的概率;1-称为置信水平。,3、区间估计的方法,在这里是以总体平均数为中心来推断样本平均数所在的区间及其出现的概率。在实际中,正好相反,是以样本指标为中心去推断总体平均所在的区间和概率的,也就是要把上面的式子改为:,实际上这二个式子是等价的,请大家自己推导。,3、区间估计的方法,如果总体服从正态分布但 未知,或总体并不服从正态分布,只要是在大样本条件下,公式中的总体方差可用样本方差S,2,代替,这时总体均值 在1-置信水平下的置信区间可以写为:,例子见教材P182,总体均值的区间估计,(例题分析),【例】,一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10克。试估计该批产品平均重量的置信区间,置信水平为95%,25袋食品的重量,112.5,101.0,103.0,102.0,100.5,102.6,107.5,95.0,108.8,115.6,100.0,123.5,102.0,101.6,102.2,116.6,95.4,97.8,108.6,105.0,136.8,102.8,101.5,98.4,93.3,总体均值的区间估计,(例题分析),解:,已知,N,(,,10,2,),,n,=25, 1- = 95%,,z,/2,=1.96。根据样本数据计算得:,总体均值,在1-,置信水平下的置信区间为,该食品平均重量的置信区间为,101.44,克,109.28,克之间,总体均值的区间估计,(例题分析),【例】,一家保险公司收集到由,36,投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间,36,个投保人年龄的数据,23,35,39,27,36,44,36,42,46,43,31,33,42,53,45,54,47,24,34,28,39,36,44,40,39,49,38,34,48,50,34,39,45,48,45,32,总体均值的区间估计,(例题分析),解:,已知,n,=36, 1- = 90%,,z,/2,=1.645。根据样本数据计算得: ,,总体均值,在1-,置信水平下的置信区间为,投保人平均年龄的置信区间为,37.37,岁,41.63,岁,(二),正态总体、,未知、小样本,1.假定条件,总体服从正态分布,且方差(,),未知,小样本 (,n, 30),使用,t,分布统计量,总体均值,在,1-,置信水平下的,置信区间为,t,分布,分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,X,t,分布与标准正态分布的比较,t,分布,标准正态分布,t,不同自由度的,t,分布,标准正态分布,t,(,df,= 13),t,(,df,= 5),Z,总体均值的区间估计,(例题分析),【例】,已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间,16,灯泡使用寿命的数据,1510,1520,1480,1500,1450,1480,1510,1520,1480,1490,1530,1510,1460,1460,1470,1470,总体均值的区间估计,(例题分析),解:,已知,N,(,,,2,),,n,=16, 1- = 95%,,t,/2,=2.131。根据样本数据计算得: ,,总体均值,在1-,置信水平下的置信区间为,该种灯泡平均使用寿命的置信区间为,1476.8,小时,1503.2,小时,二、总体比例的区间估计,1.假定条件,总体服从二项分布,可以由正态分布来近似,使用正态分布统计量,3. 总体比例,在1-,置信水平下,的置信区间为,总体比例的区间估计,(例题分析),【例】,某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间,解:,已知,n,=100,,p,65%, 1,-,= 95%,,z,/2,=1.96,该城市下岗职工中女性比例的置信区间为,55.65%74.35%,三、总体方差的区间估计,1.估计一个总体的方差或标准差,2.假设总体服从正态分布,总体方差,2,的点估计量为,S,2,且,4. 总体方差在1-,置信水平下的置信区间为,总体方差的区间估计,(图示),2,2,1-,2,总体方差,1-,的置信区间,自由度为,n,-1的,2,总体方差的区间估计,(例题分析),【例】,一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表7所示。已知产品重量的分布服从正态分布。以,95%,的置信水平建立该种食品重量方差的置信区间,25袋食品的重量,112.5,101.0,103.0,102.0,100.5,102.6,107.5,95.0,108.8,115.6,100.0,123.5,102.0,101.6,102.2,116.6,95.4,97.8,108.6,105.0,136.8,102.8,101.5,98.4,93.3,总体方差的区间估计,(例题分析),解:,已知,n,25,1-,95% ,根据样本数据计算得,s,2,=93.21,2,置信度为95%的置信区间为,该企业生产的食品总体重量标准差的置信区,间为,7.54,克,13.43,克,课堂练习,1、进入学院或大学的成人大学生的数量不断增加,而且有很多人专修市场营销学。曾经进行过一项研究,旨在确定目前从事市场营销工作的人对当初在校学习时自己班上成人大学生的看法。从美国市场营销学会会员名录中随机抽选了一个由290名市场营销人员组成的样本,让样本中人员对一系列反映看法的说法表示态度。第一种说法是“成人大学生(年龄达24岁或更大的本科生)对参加班上的讨论比年龄较小的学生更积极。”态度按5分制来测量(1非常同意,2=同意,3没有意见,4不同意,5很不同意)。对于成人进大学的看法,样本的平均态度分是194,标准差为092。,a用98置信区间估计市场营销人员对成人大学生参加课堂学习的真正平均态度分。,b怎样才能减小a中的置信区间宽度?,2许多北美城市已经建成或正在考虑建设轻型铁路运输(1ight rail transit,缩作LRT)系统,以取代使用大型载客列车和地下铁道列车的重型铁路运输系统。LRT系统有点像19世纪初的有轨电车,只是车身更长,噪音更小,速度更快,而且比较舒适。在一项研究工作中,考察了已经建成或正在规划建设LRT系统的10个城市中LRT的运行特点。对都市规划人员来说,有一个重要特征是将客运收入除以运行费用所得出的票箱回收率。由10个城市组成的一个样本给出平均票箱回收率为0604,标准差为0163。,a试对北美城市中LRT系统的真正平均票箱回收率构造95置信区间。,b.如果样本容量从n10增加到n20,置信区间的宽度会发生什么变化?,3当你选购一种产品时,考虑得最多的是什么?是价格还是质量?RoperStarch Worldwide调查了2 000名成年美国人,结果有64的人说他们主要根据价格作出购买决策。,a试对根据价格而不是根据产品质量作出购买决策的成年美国人的真正百分率构造99置信区间。,b对此区间作出解释。,c如将置信系数从o99降到o95,a中置信区间的宽度将发生什么变化?,课堂练习参考答案,1、进入学院或大学的成人大学生的数量不断增加,而且有很多人专修市场营销学。曾经进行过一项研究,旨在确定目前从事市场营销工作的人对当初在校学习时自己班上成人大学生的看法。从美国市场营销学会会员名录中随机抽选了一个由290名市场营销人员组成的样本,让样本中人员对一系列反映看法的说法表示态度。第一种说法是“成人大学生(年龄达24岁或更大的本科生)对参加班上的讨论比年龄较小的学生更积极。”态度按5分制来测量(1非常同意,2=同意,3没有意见,4不同意,5很不同意)。对于成人进大学的看法,样本的平均态度分是194,标准差为092。,a用98置信区间估计市场营销人员对成人大学生参加课堂学习的真正平均态度分。(1.815 , 2.065),b怎样才能减小a中的置信区间宽度?(增大n或减小概率系数.),2许多北美城市已经建成或正在考虑建设轻型铁路运输(1ight rail transit,缩作LRT)系统,以取代使用大型载客列车和地下铁道列车的重型铁路运输系统。LRT系统有点像19世纪初的有轨电车,只是车身更长,噪音更小,速度更快,而且比较舒适。在一项研究工作中,考察了已经建成或正在规划建设LRT系统的10个城市中LRT的运行特点。对都市规划人员来说,有一个重要特征是将客运收入除以运行费用所得出的票箱回收率。由10个城市组成的一个样本给出平均票箱回收率为0604,标准差为0163。,a试对北美城市中LRT系统的真正平均票箱回收率构造95置信区间。(0.604 0.117),b.如果样本容量从n10增加到n20,置信区间的宽度会发生什么变化?(变窄)?,3当你选购一种产品时,考虑得最多的是什么?是价格还是质量?RoperStarch Worldwide调查了2 000名成年美国人,结果有64的人说他们主要根据价格作出购买决策。,a试对根据价格而不是根据产品质量作出购买决策的成年美国人的真正百分率构造99置信区间。(0.64 0.028),b对此区间作出解释。,c如将置信系数从o99降到o95,a中置信区间的宽度将发生什么变化? (变窄),作业,统计学第三版:,P204: 7.1 7.8 7.11 7.19(1),第六节,两个总体参数的区间估计,一、两个总体参数推断时样本统计量的抽样分布,两个样本均值之差的抽样分布,两个样本比例之差的抽样分布,两个样本方差比的抽样分布,二、两个总体参数的区间估计,两个总体都为正态分布,即 ,,两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差,方差为各自的方差之和,一、两个总体参数推断时样本统计量的抽样分布 两个样本均值之差的抽样分布,两个样本均值之差的抽样分布,m,1,s,1,总体1,s,2,m,2,总体2,抽取简单随机样样本容量 n,1,计算X,1,抽取简单随机样样本容量 n,2,计算X,2,计算每一对样本,的X,1,-X,2,所有可能样本,的X,1,-X,2,m,1-,m,2,抽样分布,两个总体都服从二项分布,分别从两个总体中抽取容量为,n,1,和,n,2,的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似,分布的数学期望为,方差为各自的方差之和,两个样本比例之差的抽样分布,(三)两个样本方差比的分布,两,个总体都为正态分布,,即,X,1,N,(,1,1,2,),,,X,2,N,(,2,2,2,),从两,个总体中分别抽取容量为,n,1,和,n,2,的独立样本,两,个样本方差比的抽样分布,服从分子自由度为,(,n,1,-1),,,分母自由度为,(,n,2,-1),的,F,分布,即,由统计学家费舍,(,),提出的,以其姓氏的第一个字母来命名则,设若,U,为服从自由度为,n,1,的,2,分布,即,U,2,(n,1,),,,V,为服从自由度为,n,2,的,2,分布,即,V,2,(,n,2,),且,U,和,V,相互独立,则,称,F,为服从自由度,n,1,和,n,2,的,F,分布,记为,F,分布,(,F,distribution,),F,分布,(,图示,),不同自由度的,F,分布,F,(1,10),(5,10),(10,10),F,分布的查表,一般,F,分布表只列出值( ) , 但根据,F,分布的性,质,有,(6.5),例,二、,两个总体参数的区间估计,两个总体均值之差的区间估计,两个总体比例的之差区间估计,两个总体方差比的区间估计,两个总体参数的区间估计,总体参数,符号表示,样本统计量,均值之差,比例之差,方差比,两个总体均值之差的区间估计,(独立大样本),1.假定条件,两个,总体都服从正态分布,,1,、 ,2,已知,若不是正态分布, 可以用正态分布来近似(,n,1,30和,n,2,30),两个样本是独立的随机样本,使用正态分布统计量,Z,两个总体均值之差的区间估计,(独立大样本),1.,1,、 ,2,已知时,,两个总体均值之差,1,-,2,在1-,置信水平下的置信区间为,1,、 ,2,未知时,,两个总体均值之差,1,-,2,在,1-,置信水平下的置信区间为,两个总体均值之差的估计,(例题分析),【例】,某地区教育委员会想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立地抽取两个随机样本,有关数据如下表 。建立两所中学高考英语平均分数之差,95%,的置信区间,两个样本的有关数据,中学1,中学2,n,1,=46,n,2,=33,S,1,=5.8,S,2,=7.2,两个总体均值之差的估计,(例题分析),解:,两个总体均值之差在1-,置信水平下的置信区间为,两所中学高考英语平均分数之差的置信区间为,5.03,分,10.97,分,两个总体均值之差的,区间,估计,(独立小样本:,1,2,=,2,2,),1.假定条件,两个,总体都服从正态分布,两个总体方差未知但相等:,1,=,2,两个独立的小样本,(,n,1,30和,n,2,30),总体方差的合并估计量,估计,量,X,1,-,X,2,的抽样标准差,两个总体均值之差的,区间,估计,(独立小样本:,1,2,=,2,2,),两个样本均值之差的标准化,两个总体均值之差,1,-,2,在,1-,置信水平下的置信区间为,两个总体均值之差的估计,(例题分析),【例】,为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排,12,个工人,每个工人组装一件产品所需的时间(分钟)下如表,。,假定两种方法组装产品的时间服从正态分布,且方差相等。试以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间,两个方法组装产品所需的时间,方法1,方法2,28.3,36.0,27.6,31.7,30.1,37.2,22.2,26.0,29.0,38.5,31.0,32.0,37.6,34.4,33.8,31.2,32.1,28.0,20.0,33.4,28.8,30.0,30.2,26.5,2,1,两个总体均值之差的估计,(例题分析),解:,根据样本数据计算得,合并估计量为:,两种方法组装产品所需平均时间之差的置信区间为,0.14分钟7.26分钟,两个总体均值之差的估计,(小样本:,1,2,2,2,),第一种情况:两个样本容量相等即,1.假定条件,两个,总体都服从正态分布,两个总体方差未知且不相等:,1,2,两个独立的小样本,(,n,1,30和,n,2,30)且,使用统计量,两个总体均值之差的估计,(小样本:,1,2,2,2,),两个总体均值之差,1,-,2,在1-,置信水平下的置信区间为,两个总体均值之差的估计,(小样本:,1,2,2,2,),第二种情况:两个样本容量不相等即,1.假定条件,两个,总体都服从正态分布,两个总体方差未知且不相等:,1,2,两个独立的小样本,(,n,1,30和,n,2,30)且,使用统计量,两个总体均值之差的估计,(小样本:,1,2,2,2,),两个总体均值之差,1,-,2,在1-,置信水平下的置信区间为,自由度,两个总体均值之差的估计,(例题分析),【例】,沿用前例。假定第一种方法随机安排12个工人,第二种方法随机安排8个工人,即n,1,=12,n,2,=8 ,所得的有关数据如表。假定两种方法组装产品的时间服从正态分布,且方差不相等。以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间,两个方法组装产品所需的时间,方法1,方法2,28.3,36.0,27.6,31.7,30.1,37.2,22.2,26.5,29.0,38.5,31.0,37.6,34.4,33.8,32.1,28.0,20.0,28.8,30.0,30.2,2,1,两个总体均值之差的估计,(例题分析),解:,根据样本数据计算得,自由度为:,两种方法组装产品所需平均时间之差的置信区间为,0.192分钟9.058分钟,两个总体均值之差的区间估计,(匹配样本),两个总体均值之差的估计,(匹配大样本),假定条件,两个匹配的大样本,(,n,1,30,和,n,2,30),两个总体各观察值的配对差服从正态分布,两个总体均值之差,d,=,1,-,2,在,1-,置信水平下的置信区间为,对应差值的均值,对应差值的标准差,两个总体均值之差的估计,(匹配小样本),假定条件,两个匹配的小样本,(,n,1,30,和,n,2,30),两个总体各观察值的配对差服从正态分布,两个总体均值之差,d,=,1,-,2,在,1-,置信水平下的置信区间为,两个总体均值之差的估计,(例题分析),【例】,由,10,名学生组成一个随机样本,让他们分别采用,A,和,B,两套试卷进行测试,结果如下表 。试建立两种试卷分数之差,d,=,1,-,2,95%,的置信区间,10,名学生两套试卷的得分,学生编号,试卷A,试卷B,差值d,1,78,71,7,2,63,44,19,3,72,61,11,4,89,84,5,6,91,74,17,5,49,51,-2,7,68,55,13,8,76,60,16,9,85,77,8,10,55,39,16,STATISTICS,两个总体均值之差的估计,(例题分析),解:,根据样本数据计算得,两种试卷所产生的分数之差的置信区间为,6.33,分,15.67,分,1.假定条件,两个,总体服从二项分布,可以用正态分布来近似,两个样本是独立的,2.两个总体比例之差,1,-,2,在1-置信水平下的置信区间为,两个总体比例之差的区间估计,两个总体比例之差的估计,(例题分析),【例】,在某个电视节目的收视率调查中,农村随机调查了,400,人,有,32%,的人收看了该节目;城市随机调查了,500,人,有,45%,的人收看了该节目。试以,95%,的置信水平估计城市与农村收视率差别的置信区间,1,2,两个总体比例之差的估计,(例题分析),解:,已知,n,1,=500 ,,n,2,=400,,p,1,=45%,,p,2,=32%,,1-=95%,,z,/2,=1.96,1,-,2,置信度为95%的置信区间为,城市与农村收视率差值的置信区间为6.68%19.32%,两个总体方差比的区间估计,1.比较两个总体的方差比,用,两个样本的方差比来判断,如果,S,1,2,/,S,2,2,接近于,1,说明两个总体方差很接近,如果,S,1,2,/,S,2,2,远离,1,说明两个总体方差之间存在差异,总体方差比在,1-,置信水平下的置信区间为,两个总体方差比的区间估计(图示),F,F,1-,F,总体方差比,1-,的置信区间,方差比置信区间示意图,两个总体方差比的区间估计,(例题分析),【例】,为了研究男女学生在生活费支出(元)上的差异,在某大学各随机抽取,25,名男学生和,25,名女学生,得到下面的结果:,男学生:,女学生:,试以,90%,置信水平估计男女学生生活费支出方差比的置信区间,两个总体方差比的区间估计,(例题分析),解:,根据自由度,n,1,=25-1=24 ,,n,2,=25-1=24,查得,F,/2,(24,24)=1.98,,F,1-,/2,(24,24)=1/1.98=0.505,1,2,/,2,2,置信度为90%的置信区间为,男女学生生活费支出方差比的置信区间为,0.471.84,课堂练习,一种新型减肥食品由含蛋白质的液体饮食组成,食品与药物管理局正在对这种减肥食品作投入市场前的检验。一个随机样本由5人组成,在他们服用这种减肥食品前记录下每个人的体重。然后让他们连续服用这种食品三周,再次记录他们的体重(以磅计量)。有一次这样的试验结果列于下表。,试对服用减肥食品前和后的真正平均体重之差构造95置信区间。,受试验者 服用减肥食品前的体重 服用减肥食品后的体重,l 150 143,2 195 190,3 188 185,4 197 191,5 204 200,课堂练习参考答案,一种新型减肥食品由含蛋白质的液体饮食组成,食品与药物管理局正在对这种减肥食品作投入市场前的检验。一个随机样本由5人组成,在他们服用这种减肥食品前记录下每个人的体重。然后让他们连续服用这种食品三周,再次记录他们的体重(以磅计量)。有一次这样的试验结果列于下表。,试对服用减肥食品前和后的真正平均体重之差构造95置信区间。(3037 , 6.63)磅,受试验者 服用减肥食品前的体重 服用减肥食品后的体重,l 150 143,2 195 190,3 188 185,4 197 191,5 204 200,作业,统计学第四版:,P206: 7.24,第七节,样本容量的确定,估计总体均值时样本容量的确定,估计总体比例时样本容量的确定,估计总体均值时样本量,n,为,样本量,n,与总体方差,2,、边际误差,E,、,可靠性系数,Z,或,t,之间的关系为,与总体方差成正比,与边际误差的平方成反比,与可靠性系数成正比,样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如,24.68,取,25,,,24.32,也取,25,等等,估计总体均值时样本量的确定,其中:,估计总体均值时样本量的确定,(例题分析),【例】,拥有工商管理学士学位的大学毕业生年薪的标准差大约为,2000,元,假定想要估计年薪,95%,的置信区间,希望边际误差为,400,元,应抽取多大的样本量?,估计总体均值时样本量的确定,(例题分析),解:,已知,=2000,,E,=400,1-,=95%,,z,/2,=1.96,应抽取的样本量为,即应抽取,97,人作为样本,例 6.11,一家广告公司想估计某类商店去年所花的平,均广告费有多少经验表明,总体方差约为 1 800 000 。如置信度取 95% ,并要使估计值处在总体平均值附近 500 元的范围内,这家广告公司应取多大的样本?,根据比例区间估计公式可得样本量,n,为,估计总体比例时样本量的确定,E,的取值一般小于,0.1,未知时,可取使方差达到最大的值,0.5,其中:,估计总体比例时样本容量的确定,(例题分析),【例】,根据以往的生产统计,某种产品的合格率约为,90%,,现要求边际误差为,5%,,在求,95%,的置信区间时,应抽取多少个产品作为样本?,解:,已知,=90%,,=0.05,,Z,/2,=1.96,,E,=5%,应抽取的样本容量,为,应抽取139个产品作为样本,例 6.12,一家市场调研公司想估计某地区有彩色电视,机的家庭所占的比例。该公司希望对,的估计误差不超过,0.05 ,要求的可靠程度为95% ,应取多大容量的样本?(没,有可利用的,估计值),作业,人大统计学第四版P204:7.18,结 束,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!