统计学第7章参数估计-139张课件

上传人:仙*** 文档编号:241286375 上传时间:2024-06-15 格式:PPT 页数:139 大小:1.07MB
返回 下载 相关 举报
统计学第7章参数估计-139张课件_第1页
第1页 / 共139页
统计学第7章参数估计-139张课件_第2页
第2页 / 共139页
统计学第7章参数估计-139张课件_第3页
第3页 / 共139页
点击查看更多>>
资源描述
第七章参数估计点估计区间估计抽样估计的进一步讨论1统计学-ch7 suyl第七章参数估计点估计1统计学-ch7 suyl 数理统计的基本问题之一是根据样本所提供的信息,对总体的分布以及分布的数字特征做出统计推断。通过样本估计总体未知参数的方法主要包括参数估计和非参数估计法。这里的参数可以是总体分布中的未知参数,也可以是总体的某个数字特征。参数估计通常是通过构造样本的函数样本统计量来实现的。2统计学-ch7 suyl 数理统计的基本问题之一是根据样本所提供参数估计示意图总体总体样本样本统计量统计量描述描述作出推断作出推断统计量是进行参数估计的关键统计量是进行参数估计的关键.不同的参数估计不同的参数估计方法得到的统计量可能不同方法得到的统计量可能不同.在这里在这里,我们介绍两我们介绍两种常用的参数估计方法种常用的参数估计方法:点估计法和区间估计法点估计法和区间估计法.随机抽样随机抽样3统计学-ch7 suyl参数估计示意图总体样本统计量描述作出推断统计量是进行参数估计点估计概念点估计概念求点估计量的两种方法求点估计量的两种方法4统计学-ch7 suyl点估计概念4统计学-ch7 suyl,其中,其中7.1.1 点估计概念点估计概念随机抽查随机抽查5050天的销售金额(单位:万元):天的销售金额(单位:万元):30,27,26,38,35,22,41 呢呢?据此据此,我们应如何估计我们应如何估计和和而全部信息就由这而全部信息就由这50个数组成个数组成.例例 某商场每日销售金额某商场每日销售金额X X未知未知7.1 点估计点估计5统计学-ch7 suyl,其中7.1.1 点估计概念随机抽查50天的销售金额设总体设总体X的分布的函数的形式为已知的分布的函数的形式为已知(如正态分布、泊松如正态分布、泊松分布等分布等),但它的一个或多个参数未知,借助总体,但它的一个或多个参数未知,借助总体X的一的一个样本来估计总体未知参数的值的问题,称为参数的个样本来估计总体未知参数的值的问题,称为参数的点估计点估计问题。问题。6统计学-ch7 suyl设总体X的分布的函数的形式为已知(如正态分布、泊松6统计学-如何寻找样本统计量?如何寻找样本统计量?有很多方法都可以用来构造样本统计有很多方法都可以用来构造样本统计量,比如矩估计法、极大似然估计法、量,比如矩估计法、极大似然估计法、最小二乘估计法、顺序统计量法最小二乘估计法、顺序统计量法 这里,我们主要介绍矩估计法和极大这里,我们主要介绍矩估计法和极大似然估计法。似然估计法。7统计学-ch7 suyl如何寻找样本统计量?有很多方法都可以用来构造样本7.1.2 矩估计法矩估计法统计学中,矩是指以期望值为基础而定义的数字特征,如数学期望、方差、协方差等。矩估计法是英国统计学家K.皮尔逊最早提出来的,其理论基础是大数定理。8统计学-ch7 suyl7.1.2 矩估计法统计学中,矩是指以期望值为基础而定义的矩估矩估计计法的基本思想就是:法的基本思想就是:样样本均本均值值是一是一阶样阶样本矩本矩,总总体均体均值值E(X)是一是一阶阶 总总体矩。体矩。把把样样本矩作本矩作为为相相应应的的总总体矩的估体矩的估计计量量就是把一就是把一阶阶样样本矩本矩 作作为为一一阶阶总总体矩体矩的估的估计计量量.作作为为E(X)的估的估计计量的做法量的做法,将将推广这种做法推广这种做法,把把二阶样本矩二阶样本矩作为二阶作为二阶总体矩总体矩的估计量的估计量,把三把三阶样阶样本矩作本矩作为为三三阶总阶总体矩的估体矩的估计计量量,.这这种方法就是种方法就是矩估矩估计计法法.9统计学-ch7 suyl矩估计法的基本思想就是:样本均值是一阶样本矩,总体均值E(矩估计法的一般步骤如下:设总体的分布中包含 个未知参数,则其分布函数可以表示为 。若总体 X 的 阶原点矩 存在,且为的函数,记为 。分别用样本的k阶原点矩 去估计总体的K阶原点矩,即 10统计学-ch7 suyl矩估计法的一般步骤如下:10统计学-ch7 suy 上式确定了包含个未知参数的个方程式,即有下列方程组 解联立方程组,就可得到未知参数 的矩估计量它是样本的函数。将样本观测值 代入矩估计量,即得到 的矩估计值 。11统计学-ch7 suyl 11统计学-ch7 suyl例例1 设总设总体体X的均的均值值 及方差及方差 均存在均存在,且且 0,但但 均均为为未知未知.又又设设 是一个是一个样样本本,试试求求 的估的估计计量量.解解 总总体的一体的一阶阶矩及二矩及二阶阶矩分矩分别为别为样样本的一本的一阶阶矩和二矩和二阶阶矩分矩分别为别为令令即即12统计学-ch7 suyl例1 设总体X的均值 及方差 均存在,且 0,但 均为解得解得13统计学-ch7 suyl解得13统计学-ch7 suyl例例2 设总设总体体X服从二点分布服从二点分布X 0 1P 1-P P其中其中0P0,有则称是参数的一致估计量。一致估计量是大样本所呈现的性质。若某个估计量是待估参数的一致估计量,意味着样本容量很大时,估计量和待估参数接近的可能性几乎等于100%。50统计学-ch7 suyl随着样本容量增大,估计量会越来越接近被估计的参数。即对任意的无偏估计量直接比较方差大小51统计学-ch7 suyl无偏估计量直接比较方差大小51统计学-ch7 suy7.2.1 区间估计的概念设是来自总体的一个样本,是总体未知参数。对给定的,如能确定两个统计量和,满足则称为置信度或置信概率,是的置信度的置信区间,称为显著性水平。置信度可以用频率来说明。如果是置信度0.95置信区间,当从总体中多次取样本容量为 n的样本时,则每次可得到一个置信区间,这些置信区间有的包含,而有的则不包含,但平均来说,包含的置信区间的频率应在0.95附近波动。7.2 区间估计52统计学-ch7 suyl7.2.1 区间估计的概念设是来自总体评价区间估计的两个标准:估计的可靠度。置信度1-反映了区间估计的可信度。置信水平=0.95,说明估计区间以95%的概率包含总体的参数。或者说,100个这样的估计区间中,平均有95个包含了总体参数;估计的精确度。区间的长度反映了区间估计的精确度。当区间的长度愈大,估计区间包含真值的可能性也就愈大,但是估计也愈不精确。可靠度和精确度是相互矛盾的。53统计学-ch7 suyl评价区间估计的两个标准:53统计学-ch7 suyl估估计计的的可可靠靠度度。置信度反映了区间估计的可信度。置信水平=0.95,说明估计区间以95%的概率包含总体的参数。或者说,100个这样的估计区间中,平均有95个包含了总体参数;54统计学-ch7 suyl54统计学-ch7 suyl55统计学-ch7 suyl55统计学-ch7 suyl区间的长度:(上限下限)区间的半径:(上限下限)/2反映了区间估计的精确度。当区间的长度愈大,虽然估计区间包含真值的可能性愈大,但是估计却不精确。估计的精确度估计的精确度56统计学-ch7 suyl 区间的长度:(上限下限)估计的精确度56 可靠度和精确度是相互矛盾的。当其中之一确定时,可靠度和精确度是相互矛盾的。当其中之一确定时,扩大样本容量可以改善另一个。扩大样本容量可以改善另一个。57统计学-ch7 suyl 可靠度和精确度是相互矛盾的。当其中之一确定时,扩步骤:首先,构造一个与待估计参数有关的统计量T;其次,找出统计量的分布,在一定的置信水平下,给出临界值;最后,计算总体参数的置信区间。58统计学-ch7 suyl步骤:58统计学-ch7 suyl抽样平均误差估计量的标准差也称为抽样平均误差。样本均值的标准差=均值的抽样平均误差在不重复抽样条件下,均值的抽样平均误差的计算公式为:不重复抽样修正系数59统计学-ch7 suyl抽样平均误差估计量的标准差也称为抽样平均误差。在不重复抽样条抽样极限误差一定置信水平下抽样误差的可能范围,称为抽样极限误差或允许误差。1-置信水平下,均值的抽样极限误差:重复抽样条件下不重复抽样条件下60统计学-ch7 suyl抽样极限误差一定置信水平下抽样误差的可能范围,称为抽样极限误(1)总体方差2(或总体标准差)。其它条件不变的条件下,总体差异程度大,抽样误差大。(2)样本容量n(Sample size;抽样数目)抽样数目).其它条件不变的条件下,n 愈大,抽样误差愈小影响抽样误差的因素61统计学-ch7 suyl(1)总体方差2(或总体标准差)。影响抽样误差的因素6(3)抽样方法。重复抽样的抽样平均误差较大;抽样比例很小时,修正系数接近于,重复抽样与不重复抽样的抽样误差相差很小对于无限总体,无论采用重复还是不重复抽样,都可用重复抽样的抽样误差公式来度量抽样误差;对于有限总体,当抽样比例很小时(小于5%),抽样误差常常都可采用重复抽样的公式来计算。影响抽样误差的因素(续)62统计学-ch7 suyl(3)抽样方法。影响抽样误差的因素(续)62统计学-ch7(4)估计的置信度(1-)抽样平均误差不受置信度大小影响在其他条件相同的情况下,抽样估计的置信水平越高,抽样极限误差越大。(5)抽样组织方式。不同抽样组织方式有不同的抽样误差影响抽样误差的因素(续)63统计学-ch7 suyl(4)估计的置信度(1-)影响抽样误差的因素(续)63统计样本均值的抽样分布样本均值的抽样分布:则:则:/2 /2 (1(1(1 )1.大样本时总体均值的置信区间7.2.2 单个总体参数区间估计的方法64统计学-ch7 suyl样本均值的抽样分布:则:a/2 a/2(1 )1.大总体均值的置信区间由此可得,在(由此可得,在(1)置信度下,)置信度下,总体均值总体均值的的置信区间置信区间可表示为:可表示为:或:或:65统计学-ch7 suyl总体均值的置信区间由此可得,在(1)置信度下,总体均值的某专业大学生的体重服从标准差为5.4kg的正态分布。随机抽取36名,测得他们的平均体重为65kg。在95%的置信度下,对总体平均体重进行估计的抽样平均误差和抽样极限误差为多少?并求其置信区间。例1【解】【解】:抽样平均误差:抽样平均误差:抽样极限误差抽样极限误差:总体平均体重的置信区间总体平均体重的置信区间:(:(65-1.764,65+1.764)66统计学-ch7 suyl某专业大学生的体重服从标准差为5.4kg的正态分布。随机抽取总体方差已知时,均值的置信区间的求解步骤(1)假定条件总体服从正态分布,且总体方差(2)已知如果非正态分布,n 30,可以由正态分布来近似(2)枢轴量为正态变量:(3)在()在(1)置信度下,)置信度下,抽样极限误差抽样极限误差为:为:(4)在()在(1)置信度下,)置信度下,总体均值总体均值 的的置信区间置信区间为:为:即67统计学-ch7 suyl总体方差已知时,均值的置信区间的求解步骤(1)假定条件(3 因此,给定置信度因此,给定置信度(1-),根据根据 t 分布表可得临界值分布表可得临界值 t/2。于是有:。于是有:枢轴量为枢轴量为 t 统计量:统计量:2.小样本时总体均值的区间估计/2 (1(1(1 )68统计学-ch7 suyl 因此,给定置信度(1-),根据 t 分布表可得临界2.总体方差 未知时,均值的置信区间(1)假定条件总体服从正态分布总体方差(2)未知(2)枢轴量为t 分布变量:(3 3)总体均值)总体均值)总体均值)总体均值 在(在(在(在(1 1 )置信度下的)置信度下的)置信度下的)置信度下的 抽样极限误差抽样极限误差抽样极限误差抽样极限误差 和和和和 置信区间置信区间置信区间置信区间 为:为:为:为:(4)大样本条件下,也可由正态分布近似。)大样本条件下,也可由正态分布近似。即69统计学-ch7 suyl2.总体方差 未知时,均值的置信区间(1)假定条件(3)假定某商场某袋装食品总量呈正态分布,现随机抽取10袋,测得重量分别为789、780、794、762、802、813、770、785、810、806(克),要求以95的置信度,估计这批食品平均每袋重量的区间范围。解:解:已知 n=10,1-=0.95,查表得:t/2(n-1)=t0.025(9)2.2622。由 样 本 数 据 算 得:样 本 均 值=791.1,s=17.136=(791.1-12.26,791.1+12.26)即(即(778.84,803.36)克。)克。例270统计学-ch7 suyl假定某商场某袋装食品总量呈正态分布,现随机抽取10袋,测得重某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,样本人均产量为35件,产量的样本标准差为4.5件,试以95.45%的置信度估计总体人均产量以及总产量的置信区间。例【解】已知【解】已知 N=1000,n=100,1-=0.9545,71统计学-ch7 suyl某企业生产某种产品的工人有1000人,某日采用不重复抽样从中350.86 350.86 0.86例解(P.119/126)【解】已知【解】已知 N=1000,n=100,1-=0.9545,总体人均产量的置信区间:总体人均产量的置信区间:总产量的置信区间:总产量的置信区间:100034.14N 100035.8672统计学-ch7 suyl350.86 350.86 0.86例解(P.11.1.总体方差已知时总体方差已知时:2.2.总体方差未知时总体方差未知时:总体均值的置信区间可表示为:总体均值的置信区间可表示为:小结:73统计学-ch7 suyl1.总体方差已知时:2.总体方差未知时:总体均值的置信区间3.总体成数(比率)的置信区间1.假定条件成数成数P是是XB(1,P)的均值的均值E(X);D(X)=P(1-P);大样本大样本n大于大于30且且 np 和和n(1-p)都大于都大于5条件下,样本条件下,样本成数的分布可以由正态分布来近似:成数的分布可以由正态分布来近似:2.枢轴量为正态枢轴量为正态分布分布变量:变量:3.3.总体成数总体成数总体成数总体成数 的置信区间为:的置信区间为:的置信区间为:的置信区间为:74统计学-ch7 suyl3.总体成数(比率)的置信区间1.假定条件2.枢轴量为正态分估计成数时的抽样平均误差成数的抽样平均误差成数的抽样平均误差=样本成数的标准差样本成数的标准差在不重复抽样条件下,成数的抽样平均误差为:在不重复抽样条件下,成数的抽样平均误差为:在重复抽样在重复抽样条件下条件下75统计学-ch7 suyl估计成数时的抽样平均误差成数的抽样平均误差=样本成数的标准差估计成数时的抽样极限误差当样本量当样本量当样本量当样本量n n充分大时,充分大时,充分大时,充分大时,成数的抽样极限误差成数的抽样极限误差成数的抽样极限误差成数的抽样极限误差为:为:为:为:(重复抽样)(重复抽样)(重复抽样)(重复抽样)总体成数总体成数总体成数总体成数 的置信区间为:的置信区间为:的置信区间为:的置信区间为:(不重复抽样)(不重复抽样)(不重复抽样)(不重复抽样)影响因素同前76统计学-ch7 suyl估计成数时的抽样极限误差当样本量n充分大时,成数的抽样极限误 某某企企业业对对职职工工进进行行调调查查。随随机机抽抽查查了了200人人。其其中中有有140人人平平均均每每天天看看电电视视一一小小时时以以上上。试试对对每每天天看看电电视视一小时以上职工的比例进行区间估计(置信度一小时以上职工的比例进行区间估计(置信度95%)解:解:已知已知 n=200,p0.7,n p=1405,n(1-p)=605,1-=0.95,/2=1.96以以95的的置置信信度度可可推推断断该该企企业业每每天天看看电电视视一一小小时时以以上上的职工比例在的职工比例在63.6%76.4%之间。之间。(0.7-0.064,0.7+0.064)(0.636,0.764)例77统计学-ch7 suyl 某企业对职工进行调查。随机抽查了200人。其中有140例随机从60000桶罐头中抽取300桶调查,发现有6桶不合格。以95.45%的概率估计全部罐头的不合格率和不合格桶数。解:解:已知已知 n=300,p0.02,n p=6 5,n(1-p)=2945,1-=0.9545,/2=2不合格率不合格率的置信区间的置信区间为:(2-1.616,2%+1.616%)不合格品总数不合格品总数的区间的区间为:(0.38460000,3.61660000)(230.4,2169.6)(单位:桶)78统计学-ch7 suyl例随机从60000桶罐头中抽取300桶调查,发现有6桶不合格4.正态总体方差的区间估计设设总总体体服服从从正正态态分分布布,则则与与样样本本方方差差S2和和待待估估计计的的总总体体方方差差2 有有关关的的枢枢轴轴量量及及其其分分布为:布为:79统计学-ch7 suyl4.正态总体方差的区间估计设总体服从正态分布,则与样本方差S正态总体方差的区间估计(续)置信度与卡方分布的分位数置信度与卡方分布的分位数c c2 2/2/2(1-)由于 对于给定的置信度对于给定的置信度(1-),有临界值有临界值 和和 满足:满足:80统计学-ch7 suyl正态总体方差的区间估计(续)置信度与卡方分布的分位数c2/总体方差总体方差2 的置信区间:的置信区间:或:或:正态总体方差的区间估计(续)由得:81统计学-ch7 suyl总体方差2 的置信区间:或:正态总体方差的区间估计(续)由 例,随随机机从从某某车车间间加加工工的的同同类类零零件件中中抽抽取取16件件,测测得得其其的的平平均均长长度度为为12.8厘厘米米,方方差差为为0.0023。假假定定零零件件的的长长度度服服从从正正态态分分布布,求求方方差差及及标标准准差差的的置置信信区区间(置信度为间(置信度为95)。)。82统计学-ch7 suyl 例,随机从某车间加工的同类零件中抽取16件,测 已知已知16,0.0023,1-0.95,查,查 分布表得分布表得:代入数据,可得所求方差的置信区间为代入数据,可得所求方差的置信区间为 (0.0013,0.0059)标准差的置信区间(标准差的置信区间(0.036,0.077)解:解:83统计学-ch7 suyl 已知16,0.0023,代入数据,可得大样本条件下,样本标准差大样本条件下,样本标准差S S的分布趋近于正的分布趋近于正态分布:态分布:其均值 E(S),其标准差(亦即S的抽样平均误差)所以,所以,总体标准差总体标准差的的1-的置信区间为:的置信区间为:大样本条件下总体标准差的置信区间84统计学-ch7 suyl大样本条件下,样本标准差S的分布趋近于正态分布:所以,总体标7.2.3抽样数目(样本量)的确定 对各地区人口进行随机抽样时,对每个地区的估计误差和置信度都有同样的要求(其他要求相同的条件下),对于人口多的地区,是否需要一个较大的样本量?85统计学-ch7 suyl7.2.3抽样数目(样本量)的确定 对各地区人确定样本量的意义及方法样本量与抽样误差和费用的关系n 大,抽样误差越小n 大,调查的耗费越多必要样本量的定义为使抽样误差在一定置信度下不超过允许范围所必须的样本量(最低限)。86统计学-ch7 suyl确定样本量的意义及方法86统计学-ch7 suyl1、估计总体均值必须的样本量、估计总体均值必须的样本量 在在 1 的置信度下估计总体均值的的置信度下估计总体均值的允许误差为允许误差为 ,则必要的样本量为:,则必要的样本量为:重复抽样下:重复抽样下:必要样本量的计算公式可由允许误差的公式反推出87统计学-ch7 suyl1、估计总体均值必须的样本量必要样本量的计算公式87统计学-不重复抽样下:不重复抽样下:88统计学-ch7 suyl不重复抽样下:88统计学-ch7 suyl 【例例】某某食食品品厂厂要要检检验验本本月月生生产产的的10,000袋袋某某产产品品的的重重量量,根根据据上上月月资资料料,这这种种产产品品每每袋袋重重量量的的标标准准差差为为25克克。要要求求在在95.45的的概概率率保保证证程程度度下下,平平均均每每袋袋重重量量的的误误差差范范围围不不超超过过5克,克,至少应抽查多少袋产品?袋产品?解:已知:已知:10,000,25,95.45,即即Z/2 289统计学-ch7 suyl 【例】某食品厂要检验本月生产的10,000袋某产品的重量在重复抽样条件下:(袋袋)在不重复抽样条件下:在不重复抽样条件下:=99(袋)90统计学-ch7 suyl在重复抽样条件下:(袋)在不重复抽样条件下:=99(袋)92、估计总体成数时的样本量、估计总体成数时的样本量设设 为为估估计计总总体体成成数数的的允允许许误误差差,在在1的的置信度下,样本量置信度下,样本量 n 为:为:重复抽样下:重复抽样下:不重复抽样下:不重复抽样下:91统计学-ch7 suyl2、估计总体成数时的样本量91统计学-ch7 suy1、总体方差(或总体标准差)其它条件不变的条件下,总体标准差与必要的抽样数目成反比。怎样估计总体方差呢?通常有下列代替方法:是用以前同类调查的资料代替,用同类地区的资料代替,若有多个方差数值供参考时,应选其中最大的方差。对于成数,选择最接近0.5的成数来计算影响样本容量的因素92统计学-ch7 suyl 1、总体方差(或总体标准差)影响样本容量的因素92统【例】某某企企业业对对一一批批产产品品进进行行质质量量检检验验,这这批批产产品品的的总总数数为为5,000件件,过过去去几几次次同同类类调调查查所所得得的的产产品品合合格格率率为为93、95和和96,为为了了使使合合格格率率的的允允许许误误差差不不超超过过3,在在99.73的的置信度下置信度下至少应抽查多少件产品?产品?解:解:已知已知5000,199.73,Z/2=3,P 取取 0.93 来计算来计算93统计学-ch7 suyl【例】某企业对一批产品进行质量检验,这批产品的总数为5,0【例例】一一家家公公司司想想估估计计某某地地区区电电脑脑的的家家庭庭所所占占的的比比例例。并并要要求求对对总总体体比比例例的的估估计计误误差差不不超超过过5,可可靠靠程程度度为为95%,应应抽抽多多大大容容量量的的样样本本(没没有有可可利用的利用的 P 估计值)。估计值)。解解:已已知知=0.05,1=0.95,Z/2=1.96,P 未未知知,用用最最大大方方差差0.25 来来计计算算,则则应应抽抽取取的的样样本本量量为:为:94统计学-ch7 suyl【例】一家公司想估计某地区电脑的家庭所占的比例。并要求对总体2、允许误差范围、允许误差范围 允允许许误误差差增增大大,意意味味着着推推断断的的精精度度要要求求降降低低,在在其其他他条条件件不不变变的的情情况况下下,必必要要的的样本量可减少。样本量可减少。反反之之,缩缩小小允允许许误误差差,就就要要增增加加必必要要的的抽抽样数目。样数目。95统计学-ch7 suyl 2、允许误差范围95统计学-ch7 suyl【例例】在其它条件不变的情况下在其它条件不变的情况下,若抽若抽样样允许误差扩大到原来的允许误差扩大到原来的 2倍倍,样本量会样本量会为原来的多少为原来的多少?若抽样允许误差减少到原若抽样允许误差减少到原来的来的1/2,样本容量会如何变化样本容量会如何变化?都采用重复抽样下的公式来推算都采用重复抽样下的公式来推算96统计学-ch7 suyl 【例】在其它条件不变的情况下,若抽样允许误差3、置信度、置信度 因因置置信信度度与与置置信信区区间间是是同同方方向向变变化化的的,所所以以在在其其它它条条件件不不变变的的情情况况下下,要要提提高高推推断断的的置信度,就必须增加抽样数目。置信度,就必须增加抽样数目。97统计学-ch7 suyl 3、置信度97统计学-ch7 suyl 4、抽样方法、抽样方法 相同条件下,采用重复抽样应比不重复抽相同条件下,采用重复抽样应比不重复抽样多抽一些样本单位。样多抽一些样本单位。不过,很大时,二者差异很小。为简便不过,很大时,二者差异很小。为简便起见,实际中当很大时,一般都按重复抽起见,实际中当很大时,一般都按重复抽样公式计算必要的抽样数目。样公式计算必要的抽样数目。98统计学-ch7 suyl 4、抽样方法98统计学-ch7 suyl 5、抽样组织方式、抽样组织方式上述公式适用于简单随机抽样下样本量的上述公式适用于简单随机抽样下样本量的确定确定其它抽样组织方式下样本量的计算也可根其它抽样组织方式下样本量的计算也可根据相应的误差公式来推导。据相应的误差公式来推导。99统计学-ch7 suyl 5、抽样组织方式99统计学-ch7 su两个正态总体均值差的区间估计两个正态总体均值差的区间估计1 1、总体均值差的区间估计总体均值差的区间估计 设 ,是总体X和Y的 的样本,且两样本相互独立。1、方差已知的两个正态总体均值差置信区间为:2、方差未知且相等的两个正态总体均值差的置信区间为:100统计学-ch7 suyl两个正态总体均值差的区间估计 设 特别:任意两个总体均值差的置信区间为(大样本条件下)101统计学-ch7 suyl 特别:任意两个总体均值差的置信区间为(大样本两个总体成数之差的置信区间设有两个独立总体X和Y,它们的总体成数分别为和。从两个总体中分别抽出容量为n和m的样本,样本中具有某种特征的单位数分别为n1和m1,两个样本相互独立,两个样本的成数分为。当样本容量足够大时,的的置信区间为102统计学-ch7 suyl两个总体成数之差的置信区间102统计学-ch7 su为调查城市居民与近郊对政府所指定的某项政策的态度之间的差别,从城市随机抽5000人,其中2400人赞成;从近郊随机抽选了2000人,其中有1200人赞成。分别求城市与近郊居民赞成此项政策人数比例之差异的90%和95%的置信区间。103统计学-ch7 suyl 为调查城市居民与近郊对政府所指定的某项政策的 设总体设总体 ,总体,总体 ,参数均未,参数均未知。知。和和 分别为总体分别为总体X和和Y的样本,的样本,对于给定的置信度对于给定的置信度 ,查,查F分布表确定临界值分布表确定临界值 方差比的方差比的 的置信区间为的置信区间为3、正态总体方差比的置信区间、正态总体方差比的置信区间104统计学-ch7 suyl 设总体 例例 进行的职工家计调查结果表明:进行的职工家计调查结果表明:在甲市抽取500户,样本平均每户年消费支出为3000元,标准差400元;在乙市抽取1000户,样本平均每户年消费支出4200元,标准差500元。试求:(1)在甲乙两个城市每户年消费支出方差比的置信区间(95%)。(2)在甲乙两个城市每户年平均消费支出间差异的置信区间。105统计学-ch7 suyl 例 进行的职工家计调查结果表明:105统计106统计学-ch7 suyl106统计学-ch7 suyl注:确定样本容量时,无论是总体还是样本方差均是未知的,所以要用其它的替代。若历史资料有若干个可供选择的,应该选最大的。107统计学-ch7 suyl 注:确定样本容量时,无论是总体还是样本方差均是未知的注:确定样本容量时,无论是总体还是样本成数均是未知的,所以要用其它的替代。若历史资料有若干个可供选择的,应该选最靠近50%的。108统计学-ch7 suyl 注:确定样本容量时,无论是总体还是样本成数正态总体已知方差两个总体均值差正态总体方差未知且相等估计两个总体均值差大样本条件估计两个总体均值差正态总体估计两个总体方差比109统计学-ch7 suyl正态总体两个总体均值差正态总体方差未知且相等估计两个 7.3 抽样估计的进一步讨论7.3.1抽样设计抽样估计的一般步骤抽样估计的一般步骤1、设计抽样方案:目的;范围、设计抽样方案:目的;范围N、n;怎样抽;怎样抽;内容内容调查标志、调查表、调查方式;时间;经调查标志、调查表、调查方式;时间;经费费2、抽取样本:随机、抽取样本:随机3、搜集样本资料(数据):、搜集样本资料(数据):4、整理:审查、分组汇总、计算样本指标、整理:审查、分组汇总、计算样本指标5、推断总体:、推断总体:110统计学-ch7 suyl7.3 抽样估计的进一步讨论7.3.1抽样设计110统计第四次国家卫生服务调查设计方案一、调查目的:主要目的是对前五年卫生工作进行回顾和总结,预测居民卫生服务需要、需求及长远健康问题,为卫生改革政策的制定提供依据并为今后卫生改革实施效果的评价提供基楚资料。(提供人群健康状况、卫生服务需求量、卫生服务费用、居民对卫生服务的反映性等信息,为制定政策和开展评价提供客观依据。这是第三次调查的)二、调查组织与时间国家卫生服务调查由卫生部统一组织,卫生部统计信息中心具体负责技术设计和实施。各省、自治区、直辖市卫生厅负责本省样本地区的卫生服务调查的领导、组织实施、质量控制和资料验收、技术指导和咨询等项工作样本县(市、区)的卫生局负责领导、组织调查指导员和调查员的培训、组织实施本地区卫生服务的调查和调查表的质量控制工作。111统计学-ch7 suyl第四次国家卫生服务调查设计方案一、调查目的:主要目的是对前五第四次国家卫生服务调查分为抽样调查和专题调查研究两部分。抽样调查的调查时间拟定于2019年6月中旬至7月上旬,与以往调查的时间保持一致。专题研究将根据工作需要在年内不同时间开展。调查对象和调查时间本次调查包括两部分:即家庭健康询问调查和小规模定性调查。家庭健康询问调查的对象为全国抽中样本住户的实际人口。小规模定性调查的对象包括所抽中样本地区及卫生服务相关的主要人群。住户健康询问调查的现场时间从2019年9月18日开始至10月20日结束。112统计学-ch7 suyl第四次国家卫生服务调查分为抽样调查和专题调查研究两部分。抽样三、调查内容城乡居民卫生服务调查、城乡居民卫生服务需求与利用、城乡居民医疗保障、居民的满意度、基层医疗卫生机构服务提供能力与质量、医务人员执业环境与满意度四、调查方法与对象本次调查采用居民调查与服务提供机构调查相结合、定量调查与定性调查相结合、代表性调查与专题研究相结合的方法。既了解现状也探究原因。家庭健康询问调查采用入户询问的方法收集数据。调查对象为所抽中样本住户的实际人口(凡居住并生活在一起的家庭成员和其他人,或单身居住、生活的,均作为一个住户)。113统计学-ch7 suyl三、调查内容113统计学-ch7 suyl基层医疗卫生机构问卷调查采用统一的调查问卷,由卫生机构自我填报。调查对象为样本乡或街道中所有的乡镇(街道)卫生院、社区卫生服务中心(站)和村卫生室。此次调查研究将充分利于统计年报资料等各种已有调查资料,对已有的数据不再作重复调查,以提高调查质量及效率。医务人员问卷调查的调查对象为样本地区中部分二、三级医院、社区卫生服务中心、乡镇卫生院的医生和护理人员,调查问卷由被抽中人员按调查问卷的内容进行自我填报。专题研究采用定性和定量相结合的研究方法,由卫生部统计信息中心与北京大学、复旦大学、华中科技大学、山东大学等国内著名院校的教授及研究人员共同实施,由被调查地区卫生行政管理部门配合完成。初步确定调查研究地区为北京、天津、上海、山东、湖北、广东、重庆、四川、甘肃、宁夏等地。114统计学-ch7 suyl基层医疗卫生机构问卷调查采用统一的调查问卷,由卫生机构自我填五、抽样设计国家卫生服务调查遵循经济而有效的原则,采用多阶段分层整群随机抽样的方法。本次调查样本地区与前三次保持一致,样本住户重新随机抽取。在调查设计过程中利用2000年人口普查资料,对原有样本的代表性进行了检验。结果表明,原有样本地区对国家整体人口、经济、教育及居民健康状况等方面具有较好的代表性。调查样本涉及全国31个省,共有94个县(市、区)、470个乡镇(街道)、940个村(居委会)。家庭健康询问调查最终的抽样单位是户,在每个样本村(居委会)中随机抽取60户,全国共抽取56400户(约20万人口)。抽样设计:国家卫生服务调查遵循经济而有效的原则,采用多阶段分层整群随机抽样的方法,通过样本估计总体。本次调查的全国样本地区为:95个县(市、区)、475个乡镇(街道)、950个村(居委会)。家庭健康询问调查最终的抽样单位是户,每个样本村中随机抽取60户,全国共抽取57000户(约21万人)。全国平均每户被抽取的概率为1:5800。115统计学-ch7 suyl五、抽样设计115统计学-ch7 suyl六、调查质量控制为了保证调查的顺利开展和调查的质量,必须对调查的每一个环节实行严格的质量控制,并措施贯穿于调查的全过程其中,抓好现场调查阶段的质量控制尤为重要。每个县(市、区)设立质量考核小组,在调查过程中抽查调查质量,调查完成后进行复查考核,家庭健康询问调查的复查考核应在已完成户数中随机抽取5%,通过电话或再入户的方式对复核调查表的内容进行询问,复核调查结果录入计算机后,观察复核调查与原调查结果的复合率。116统计学-ch7 suyl六、调查质量控制116统计学-ch7 suyl质量要求:调查员调查技术一致性考核的百分比:用来衡量调查员调查技术的一致性。要求经过培训后,调查人员调查技术的一致性达到95%以上;调查完成率:在三次上门未调查成功而放弃还该户时,应从候选户中按顺序递补。调查完成率应控制在96%以上。本人回答率:回答应以本人为主,本人不在场时可由熟悉情况的人代替回答;婴幼儿一般应由直接抚养者回答,育龄妇女应由本人回答;要求成年人的本人回答率不低于70%;复查的符合率:复查考核中,同户复查项目与原调查结果的符合率要求在95%以上。七、数据处理及上报方式样本地区(省或县)负责调查数据录入采取调查数据两遍录入的方式。录入数据通过电子邮件报送卫生部统计信息中心,机构调查数据应于2019年8月10前报送,家庭健康询问调查数据和医务人员调查数据应于2019年8月31日前报送。八、领导与实施117统计学-ch7 suyl质量要求:117统计学-ch7 suyl三、抽样方案设计的基本准则随机原则抽样误差最小费用最少118统计学-ch7 suyl三、抽样方案设计的基本准则随机原则118统计学-ch7 四、抽样方案设计的主要内容(一)编制抽样框(一)编制抽样框 确定抽样范围确定抽样范围抽样框:全部总体单位的名单目录。抽样框:全部总体单位的名单目录。依据研究对象特征不同,抽样框有三种形式:依据研究对象特征不同,抽样框有三种形式:(1)名单抽样框)名单抽样框 (2)区域抽样框)区域抽样框 (3)时间表抽样框)时间表抽样框119统计学-ch7 suyl四、抽样方案设计的主要内容(一)编制抽样框 确定抽样范围一个例子一个例子 1936年罗斯福年罗斯福(Franklin Delano Rooseverlt)任总统的第一任期届满,兰登任总统的第一任期届满,兰登(Alfred Landon)与其竞选总统。由于国家正与其竞选总统。由于国家正努力从大萧条中恢复过来,失业人数高达努力从大萧条中恢复过来,失业人数高达900万人。文学摘要自万人。文学摘要自1916年以来,历年以来,历届总统选举它都正确地预测出获胜的一方。届总统选举它都正确地预测出获胜的一方。但是,当但是,当Rooseverlt1936年以年以62%比比38%获获胜后不久,文学摘要就垮了。胜后不久,文学摘要就垮了。120统计学-ch7 suyl一个例子120统计学-ch7 suyl Rooseverlt(%)文学摘要预测选举结果文学摘要预测选举结果R 43 文学摘要预测选举结果文学摘要预测选举结果L 57 盖洛普的预测结果盖洛普的预测结果 L 44 盖洛普预测选举结果盖洛普预测选举结果R 56 实际选举结果实际选举结果R 62 121统计学-ch7 suyl Rooseverlt(%)121统计学-ch7 s具体的做法是:文学摘要的程序是将问卷邮寄给一千文学摘要的程序是将问卷邮寄给一千万人(万人(10,000,000),这一千万人的名),这一千万人的名字来自电话簿或会员俱乐部名册。字来自电话簿或会员俱乐部名册。盖洛普用了一个来自全美国的盖洛普用了一个来自全美国的50,000人样人样本。本。文学摘要差错出在哪里?文学摘要差错出在哪里?122统计学-ch7 suyl具体的做法是:122统计学-ch7 suyl 文学摘要的程序是将问卷邮寄给一千万文学摘要的程序是将问卷邮寄给一千万人(人(10,000,000),这一千万人的名字来自),这一千万人的名字来自电话簿或会员俱乐部名册。这就导致不属于俱电话簿或会员俱乐部名册。这就导致不属于俱乐部或没有安电话的穷人(当时仅有乐部或没有安电话的穷人(当时仅有25%的家的家庭有电话)。有很强的排斥穷人的选择偏差,庭有电话)。有很强的排斥穷人的选择偏差,这在这在1936年以前可能影响不大。当时年以前可能影响不大。当时1936年以年以后,政治上的划分更紧密地遵循经济路线:绝后,政治上的划分更紧密地遵循经济路线:绝大多数穷人投大多数穷人投Rooseverlt的票,而富人赞成的票,而富人赞成Landon。因此,文学摘要的差错如此之。因此,文学摘要的差错如此之大的大的原因之一是选择偏差原因之一是选择偏差。而盖洛普只用了一。而盖洛普只用了一个个50,000人的样本。人的样本。123统计学-ch7 suyl 文学摘要的程序是将问卷邮寄给一千万人(10,0 抽样应该以公平方式选择,以便有代表抽样应该以公平方式选择,以便有代表性,如果将这一类人或那一类人排除在样性,如果将这一类人或那一类人排除在样本以外,所表现出来的系统倾向称为本以外,所表现出来的系统倾向称为选择选择偏差。偏差。124统计学-ch7 suyl 抽样应该以公平方式选择,以便有代表性,如果将这一类 当选择程序有偏时,抽取一个大样本并当选择程序有偏时,抽取一个大样本并无帮助,它只不过是在较大的规模下去重无帮助,它只不过是在较大的规模下去重复基本错误。复基本错误。若被选入样本的大多数人实际上不回答问若被选入样本的大多数人实际上不回答问卷,那将产生严重的扭曲。差错的原因之卷,那将产生严重的扭曲。差错的原因之二是二是不回答偏倚不回答偏倚。不回答者可能非常有别于回答者,当出不回答者可能非常有别于回答者,当出现高不回答率时,谨防不回答偏倚。现高不回答率时,谨防不回答偏倚。125统计学-ch7 suyl 当选择程序有偏时,抽取一个大样本并无帮助,它只不因此因此 一个样本是否可取,查查它是如何选取一个样本是否可取,查查它是如何选取的。有选择偏差吗?有不回答偏倚吗?的。有选择偏差吗?有不回答偏倚吗?126统计学-ch7 suyl因此126统计学-ch7 suyl一个理想的抽样框应该与目标总体一致,即一个理想的抽样框应该与目标总体一致,即应包括全部总体单位,既不重复也不遗漏。应包括全部总体单位,既不重复也不遗漏。也就是说,每个总体单位在抽样框里必须也就是说,每个总体单位在抽样框里必须出现一次而且只能出现一次,以保证抽样出现一次而且只能出现一次,以保证抽样框能完全代表目标总体。框能完全代表目标总体。尽可能有辅助变量的信息尽可能有辅助变量的信息有序框。有序框。127统计学-ch7 suyl127统计学-ch7 suyl(二)确定二)确定抽样方法抽样方法 重复抽样和不重复抽样重复抽样和不重复抽样 重复抽样,也叫回置抽样重复抽样,也叫回置抽样,是指从总体的个单位中抽取,是指从总体的个单位中抽取一个容量为一个容量为n的样本,每次抽出一个单位后,再将其放回总的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽体中参加下一次抽取,这样连续抽n次即得到一个样本。次即得到一个样本。同一总体单位有可能被重复抽中,同一总体单位有可能被重复抽中,每次都是从个总体单位中抽取每次都是从个总体单位中抽取 次抽取就是次相互独立的随机试验。次抽取就是次相互独立的随机试验。不重复抽样,也叫不回置抽样,不重复抽样,也叫不回置抽样,是指抽中单位不再放回是指抽中单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。总体中,下一个样本单位只能从余下的总体单位中抽取。同一总体单位不可能被重复抽中同一总体单位不可能被重复抽中.每次抽取是在不同数目的总体单位中进行的每次抽取是在不同数目的总体单位中进行的 次抽取可看作是次互不独立的随机试验。次抽取可看作是次互不独立的随机试验。128统计学-ch7 suyl(二)确定抽样方法 重复抽样和不重复抽样 考虑顺序的重复抽样,可能样本数目不考虑顺序的重复抽样,可能样本数目考虑顺序的不重复抽样,可能样本数目不考虑顺序的不重复抽样,可能样本数目可能可能样本本数目目129统计学-ch7 suyl考虑顺序的重复抽样,可能样本数目可能样本数目129统计学-c(三)确定抽样组织方式 简单随机抽样(纯随机抽样)简单随机抽样(纯随机抽样)分层抽样(类型抽样)分层抽样(类型抽样)等距抽样(机械抽样、系统抽样)等距抽样(机械抽样、系统抽样)整群抽样(集团抽样)整群抽样(集团抽样)多阶段抽样多阶段抽样 其他抽样其他抽样130统计学-ch7 suyl(三)确定抽样组织方式 简单随机抽样(纯简单随机抽样(纯随机抽样)对总体单位逐一编号,按随机原则直接从总体中抽出若干单位构成样本。常用方法有抽签法、随机数表取数法和计算机取数法。总体中每个单位都有完全均等的机会被抽中。采用简单随机抽样所得到的样本称为简单随机样本.它是最基本、最简单的抽样组织方式。基本的抽样组织方式131统计学-ch7 suyl简单随机抽样(纯随机抽样)基本的抽样组织方式131统计学-c7.3.3 其他抽样组织方式的抽样误差分层抽样(类型抽样)先将总体依照一种或几种特征分为几个子总体(类群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本比如某中学有1000名学生装,其中男600人,女有400人,欲采用分层抽样从中抽取100人的一个样本,则其中男应有60人,女应有40人样本的精确度还与分层数目及样本大小密切相关,分层越细,样本越大,则样本的代表性越好。图示如下132统计学-ch7 suyl7.3.3 其他抽样组织方式的抽样误差分层抽样(类型抽样分别抽取子样本分别抽取子样本估计子总体估计子总体总总体体(N)子子样样本本样本样本(n)估计总体估计总体子子总总体体133统计学-ch7 suyl分别抽取子样本估计子总体总体子样本样本(n)估计总体子总体1重复抽样:不重复抽样134统计学-ch7 suyl重复抽样:134统计学-ch7 suyl等距抽样 等距抽样法又称系统抽样法。是介于随机抽样和和非随机抽样之间的一种抽样方法。其第一种样本可以依立意抽样法抽取;亦可用随机方式抽取。具体抽样流程为:抽样前,须将母体的每一个单位编号,先计算样本区间(即N/n,N表示母体的数目,n表示样本的大小),如果样本区间为分数,可四舍五入化为整数。然后从1到N/n号中随机抽出一个号码作为第一个样本单位,将第一个样本单位的号码加下样本区间即得第二个样本单位,依此类推,直到样本数抽够为止。135统计学-ch7 suyl等距抽样 等距抽样法又称系统抽样法。是介于随机抽样和和等距抽样(机械抽样、系统抽样)在某种有序的样本框中每隔一定距离抽选一个单位;半距起点:对称等距抽样,如下图所示(符号表示样本单位的位置):抽样组织方式(续)1 k 2k 3k 4kr 1 r k 2k 3k 4k 5k136统计学-ch7 suyl等距抽样(机械抽样、系统抽样)抽样组织方式(续)1 整群抽样(集团抽样)将总体划分为若干群体,以一群作为一个抽样单位,随机抽取若干群体构成样本。例如,抽取若干班(组,寝室)的同学构成样本抽样组织方式(续)总体总体ABCDEFGHIJKLMNOPLHPD 样本样本(r群群)(R群群)抽抽 r 群群137统计学-ch7 suyl整群抽样(集团抽样)抽样组织方式(续)总体ABCDEFGHI(四)确定抽样数目抽样数目的多少,与抽样误差及调查费用都有直接的关系。138统计学-ch7 suyl(四)确定抽样数目抽样数目的多少,与抽样误差及调查费用都有直谢谢!谢谢!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!