资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,抽样调查课,-,多阶段抽样,单位,:,浙江财经学院数统学院,课程,:,抽样调查课,教师,:,张锐,问题的提出,在整群抽样中,如果抽中的群内所含的次级单元个数相当多,此时对该群作普查会感到“心有余而力不足”。,当群内的次级单元差异不大时,对群内所有的次级单元一一访问似乎完全没有必要。,何不在抽中的群内再作一定方式的抽样呢?,多阶段抽样的概念,在总体各单位(初级单位)中抽取样本单位,在抽中的初级单位中再抽取若干个第二级单位(,Secondary Sampling Units,),,在抽中的第二级单位中再抽取若干个第三级单位(,Tertiary Sampling Units,),,,直至从最后一级单位中抽取所要调查的基本单位的抽样组织形式,就叫做多阶段抽样。,最简单的是两阶段抽样,即在整群抽样的基础上,对抽中的群不是全面调查,而是只抽取部分单位进行调查。,共同点:都将总体分为若干,子总体,(层、群),分层抽样,对总体中每个子总体(层)都进行抽样;,区别,整群抽样,对总体中被抽中的若干个子总体(群),进行普查;,二阶抽样,对总体中被抽中的若干个子总体(群),再进行抽样。,分层抽样、整群抽样、二阶抽样的共同点及区别,阶段抽样的特点,(一)便于组织抽样。,(二)可以使抽样方式更加灵活和多样化。,(三)能够提高估计精度。,(四)可以提高抽样的经济效益。,(五)可以为各级机构提供相应的信息。,两阶段抽样的研究,是多阶段抽样研究的基础和出发点。多阶段抽样的性质和特点,在二阶段抽样中都已经体现出来,。,1,初级单元大小相等的二阶抽样,基本假定,初级单元中所包含的次级单元数目相同,均为,M,,,因此从抽中的初级单元中再抽取的次级单元个数也相同,为,m,;,两个阶段的抽样方法都是简单随机抽样;,在抽中的初级单元中作第二阶抽样是相互独立进行的。,相关符号和说明,1,2,N,1,2,n,估计量及其性质,每个阶段都是简单随机抽样,简单随机抽样的性质,总体均值的估计,在初级单位大小相等的两阶段抽样中,总体均值的无偏估计量就是二级段抽样的样本均值,即:,(,1,),的无偏估计;,(,2,),分析,的期望就是第,i,个小盒子的均值 ,再对 求期望,相当于 中简单随机样本均值的期望,即为大盒子(总体)均值 。因此, 的无偏估计。,1,2,N,注意到: 是两次概率抽样的平均数,因此它的方差,(平方误差)应当由两部分形成:一部分取决于第一阶抽样的样本量,n,与初级单元间的方差,即为 ;另一部分取决于第二阶抽样的总样本量,mn,与初级单元内的方差,即为 ,因此:,的无偏估计是:,注意:为什么 的形式不完全相同?,这是因为: 的无偏估计,,因为 ,在 中带有个小盒子的方,差的缘故。,关于估计量方差的证明,定理,1.,对于两阶段抽样,有,证明:,只对方差做证明:,定理,2.,对于两阶段抽样,有以下三个性质。,性质一,证明:,性质二,证明:,性质三:,例,1,新华书店某柜台上月共用去发票,70,本,每本,100,张。现随机从中挑出,10,本,每本中随机抽出,15,张发票,得到数据如下:,求(,1,)估计上月该柜台的营业总额;,(,2,)估计以上估计值的方差;,(,3,)给出上月该柜台的营业总额置信度为,95%,的置信区间。,i,1,2,3,4,5,6,7,8,9,10,372.25,408.30,323.40,502.50,234.00,387.75,284.20,256.60,314.10,280.50,11280.25,12115.99,8752.76,17833.75,3953.00,11302.50,6573.04,4822.36,6921.01,5827.25,解:,(,1,)已知条件为:,N=70, n=10, M=100, m=15, f,1,=1/7, f,2,=0.15,故,故,故上月该柜台的营业总额的估计值为,157108.00,元。,(,2,)要求方差,需先计算 。,i,1,2,3,4,5,6,7,8,9,10,25.02,27.22,21.56,33.50,15.60,25.85,18.95,17.11,20.94,18.70,135.02,71.58,127.16,71.43,21.61,97.37,84.75,30.79,24.55,41.56,可以算得:,因而,的方差的估计为:,(,3,)因此, 的标准误差的估计为:,因而,绝对误差限,这样我们就得到上月该柜台的营业总额的置信度为,95%,的置信区间为:,(,157108.00-22165.35,,,157108.00+22165.35,),【,例,2】,欲调查,4,月份,100,家企业的某项指标,首先从,100,家企业中抽取了一个含有,5,家样本企业的简单随机样本,由于填报一个月的数据需要每月填写流水帐,为了减轻样本企业的负担,调查人员对这,5,家企业分别在调查月内随机抽取,3,天作为调查日,要求样本企业只填写这,3,天的流水帐。调查的结果如表,8.2,所示。,表,8.2,对,5,家企业的调查结果,样本企业,第一日,第二日,第三日,1,57,59,64,2,38,41,50,3,51,60,63,4,48,53,49,5,62,55,54,要求根据这些数据推算,100,家企业该指标的总量,并,给出估计的,95,置信区间。,解:对这个问题,我们可以利用两阶段的思路解决。,首先将企业作为初级单位,将每一天看作二级单位,,每个企业在调查月内都拥有,30,天(即拥有,30,个二级单位)。,调查人员首先在初级单位中抽取了一个,n,5,的简单随机样本,,然后对每个样本的二级单位分别独立抽取了一个,m,3,的,简单随机样本,这就是初级单位大小相等的两阶段问题。,由题意,,N,100,,,M,30,,,n,5,,,m,3,在置信度,95,的条件下,对应的,t,1.96,,,因此,置信区间为:,60800,9216.0078,,或者说在,142736.6,178863.4,之间。,在方差估计的时候,第一项是主要的,第二项要小的多,,因为第二项的分母是第一项的,m,倍,而且还要乘以小于,1,的,数,f1,。,因此当第一阶抽样比相当小,可以忽略的时候,方差,估计式可以从,简化为,这个结果在实际工作中可以作为参考。,
展开阅读全文