抽样调查-第3章分层随机抽样18203

上传人:痛*** 文档编号:244005155 上传时间:2024-10-02 格式:PPTX 页数:99 大小:994.36KB
返回 下载 相关 举报
抽样调查-第3章分层随机抽样18203_第1页
第1页 / 共99页
抽样调查-第3章分层随机抽样18203_第2页
第2页 / 共99页
抽样调查-第3章分层随机抽样18203_第3页
第3页 / 共99页
点击查看更多>>
资源描述
,*,返回,*,3.1,引 言,一、定义,先将总体,N,个单元划分成,L,个互不重复的子,总体,每个子总体称为层,它们的大小分别为,然后,在每个层中独立地进行抽样,称为,分层抽样,.,二、作用,分层抽样在实际工作中应用的非常广泛,主要是因为它具有其它抽样方法所没有的,特点:,1.,分层抽样的抽样效率较高,也就是说,分层抽样的估计精度较高。,2.,分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。,3.,层内抽样方法可以不同,而且便于抽样工作的组织。,三、使用场合,在对分层进行具体划分时,通常考虑如下原则:,1.,层内单元具有相同性质,通常按调查对象的不同类型进行划分。,2.,尽可能使层内单元的标志值相近,层间单元的差异尽可能大。,3.,既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。,4.,抽样组织实施的方便,通常按行政管理机构设置进行分层。,四、符号说明,我们用下标,h,表示层号,(,h=1,,,2,,,L),。,关于第,h,层的记号如下:,单元总数,:,样本单元数,:,第,i,个单元标志值,(,观察值,):,单元权数,:,总体均值,:,第,L,层总体方差,:,抽样比,:,样本均值,:,第,L,层样本方差,:,3.2,简单估计量及其性质,一、总体均值的估计,1.,估计量的定义,总体均值,的估计,:,=,如果得到的是分层随机样本,则总体均值,的简单估计为,:,2.,估计量的性质,性质一,对于,一般的,分层抽样,如果,是,的无偏估计,( h=1,2,L),则,是,的无偏,估计。,的方差为:,V,(,),=,值得注意的是:,只要对各层估计是无偏的,则对,总体的估计也是无偏的。,因此,各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对整体的推算也是无偏的,。,性质一的证明,:,由于对每一层有,因此,性质二,对于分层简单随机抽样,是,的,无偏估计,,的方差为:,性质二的证明,:,若各层独立进行简单随机抽样,对每一层有,由第二章性质二得,因此,性质三,对于分层随机抽样,的,无偏估计为:,性质三的证明,:,对于分层随机抽样,各层独立进行,简单随机抽样,由第二章性质三,得,因此,的一个无偏估计为,:,二、总体总量的估计,1.,估计量的定义,总体总量,Y,的估计为,:,如果得到的是分层随机样本,则总体总量,Y,的简单估计为,:,2.,估计量的性质,由于,与,只差一个常数,因此,,,与,具有,相同的性质。,性质一,对于一般的分层随机抽样,如果,是,的,无偏估计,则,是的,无偏估计,的方差为,:,性质二,对于分层随机抽样,的方差为,:,=,=,性质三,对于分层随机抽样,的,无偏估计为,:,【,例,3.1,】,调查某地区的居民奶制品年消费支出,以居民户为调查单元,根据经济及收入水平将居民户划分为,4,层,每层按简单随机抽样抽出,10,户,调查获得如下数据(单位:元)估计该地区居民奶制品年消费总支出及估计的标准差。,(数据见下表),样本户奶制品年消费支出,层,居民户总数,样本户奶制品年消费支出,(,元,),1,2,3,4,5,6,7,8,9,10,1,200,10,40,0,110,15,10,40,80,90,0,2,400,50,130,60,80,100,55,160,85,160,170,3,750,180,260,110,0,140,60,200,180,300,220,4,1500,50,35,15,0,20,30,25,10,30,25,由上表,N=2850,各层的层权及抽样比为,:,),4,3,2,1,(,10,=,=,h,n,h,各层样本均值及样本方差为,:,同理有,因此,估计奶制品年消费总支出为:,估计量方差及标准差的样本估计,三、总体比例的估计,1.,估计量的定义,总体比例,P,的估计为:,2.,估计量的性质,如果定义,第,i,个单元具有所考虑的特征;,其他。,(,i=1,2, ,N,),则对总体比例的估计类似对总体均值的估计,这时,,,与,具有同样的性质。,的,无偏估计(,h=1,2,L),则,性质一,对于一般的分层随机抽样,如果,是,P,的,无偏估计。,的方差为:,性质二,对于分层随机抽样,是,P,的,无偏估计。,证明:,注意到,及,因而,的方差为:,性质三,对于分层随机抽样,的无偏估计为,V,(,),【,例,3.2】,在例,3.1,的调查中,同时调查了居民拥有家庭电脑的情况,获得如下数据(单位:台),如表,3.2,。估计该地区居民拥有家庭电脑的比例及估计的标准差。,(数据见下表),样本户拥有家庭电脑情况,层,居民户总数,样本户拥有家庭电脑情况,1,2,3,4,5,6,7,8,9,10,1,200,0,0,0,1,0,0,0,1,0,0,2,400,0,1,0,0,0,0,0,0,1,0,3,750,1,1,0,0,0,0,1,0,1,0,4,1500,1,0,0,0,0,0,0,0,0,0,表,3.2,解,:,由上表可得,该地区居民拥有家庭电脑比例的估计为,:,估计量的方差为,:,3.3,比率估计量及其性质,将比率估计的思想和技术用于分层随机样本时,对,总体参数的估计有两种途径:,一种是对每层样本分别考虑比估计量,然后对各层的比估计量进行加权平均,此时所得的估计量称为,分别估计,(,separate ratio estimator);,另一种是对比率的分子、分母分别加权计算出分层估计量,然后用对应的估计量来构造比估计,这样所得的估计量称为,联合比估计,(,combined ratioestimator).,1.,分别比率估计,总体均值,总体总量,的分层比率估计为:,总体均值,:,总体总量,:,层权,L:,层数,为,的比率估计,为,比率估计,比率估计量的方差,:,式中,分别为第,i,层指标,Y,X,的方差及相关系数,.,分别比率估计量要求每一层的样本量,都比较大,否则,偏倚可能比较大,.,2.,联合比率估计,(,combined ratio estimator,),总体均值:,总体总量:,式中,:,表示,的,无偏估计,;,表示,的,无偏估计,.,均方误差为,:,3.,分别比率估计量与联合比率估计量的比较,一般而言,分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。,实际使用时,如果各层的样本量都较大,且有理由认为各层的比率,R,h,差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层比率,R,h,差异很小,则联合比率估计更好些。,【,例,4.4】,某市,1996,年对,950,家港口生产单位完成的,吞吐量进行了调查,,1997,年欲对全市港口生产单位完成的吞吐量进行调查。对港口生产单位按非国有,(h=1),和国有(,h=2),分为两层,单位数分别为,800,家和,150,家,分别在两层中调查了,10,家和,15,家港口生产单位,,调查数据如下表,试计算,1997,年全市港口生产单位完成的吞吐量。,1997,年国有和,非国有企业调,查数据如下页,i,xi,yi,i,xi,yi,1,95,80,1,495,530,2,220,210,2,210,320,3,359,384,3,360,496,4,120,117,4,230,400,5,177,180,5,600,651,6,253,258,6,1000,880,7,302,349,7,700,560,8,332,286,8,1100,1230,9,272,215,9,720,823,10,137,97,10,310,390,11,478,465,12,817,650,13,919,1160,14,1160,1070,15,735,698,(,将上述数据计算的中间结果列于,P77,的表中,),1.,按分别比率估计量估计,2.,按联合比率估计量估计,按联合比率估计量,估计比按分别比率估计,量估计要好一些,!,三、分别比率估计与联合比率估计的比较,具体情况分析参看教材,P87,3.4,回归估计量及其性质,与比估计相似,将回归估计的思想和技术用于分层随机抽样时,同样有两种方法:,一种是对每层样本分别求取回归估计量,然后对各层的回归估计量进行加权平均,此时所得的,估计量称为,分别回归估计,(,separate regression estimator);,另一种是对两个变量先分别计算出分层简单估计量然后再对它们的分层简单估计量来构造回归估计,这时所得的估计量称为,联合回归估计,(,combined regression estimator).,1.,分别回归估计,(separate regression estimator),总体均值,的估计,:,总体总量,的估计,:,当各层的回归系数为事先给定的常数时,分别回归估计量是无偏的。,其方差为,:,其中 是第,h,层的回归系数,并且当,时,达到最小,即,通常,未知,可用回归系数,作为,的估计,:,注 意,(,1,)分别回归估计量是有偏的,但当每一层的样,本量 都很大时,估计的偏倚可以忽略,其方差近,似为,:,(,2,)这里 是子总体的回归系数, 是子总体,样本的回归系数,前者是未知的,后者是可知的。,方差,的样本估计值为,:,式中,分别回归估计量要求每一层的样本量都较大,如,果这个条件得不到满足,则分别回归估计量的偏倚,可能很大,这时,采用联合回归估计量更好些。,2.,联合回归估计,(combined regression estimator),总体均值,的估计,:,总体总量,的估计,:,式中,,分别为,的分层估计。,是无偏的,其方差为:,并且,只要,取,时,,达到最小。,当回归系数未知时,取,为,的样本估计:,这时,联合,回归估计量是有偏的,但当样本量,n,较大时,,估计的偏倚可以忽略,其方差近似为,:,方差,的样本估计为:,分别回归估计与联合回归估计的比较,当回归系数设定时,分别回归估计优于,联合回归估计;,当回归系数由样本估计时,如果各层的样,本量不太小,采用,分别回归估计为宜,.,否则,,采用联合回归估计为好!,【,例,4.6】,(,续例,4.4,)利用回归估计量估计该市港口,生产单位,1997,年完成的吞吐量。,解:,样本回归系数:,h=1,非国有,h=2,国有,1.07017,0.856402,则,按,分别回归估计量估计,:(,见,P85,),按,联合,回归估计量估计,:,(,见教材,P86,),从本题看,联合回归估计量比分别回归估计量要优一些,!,分别比率估计、联合比率估计、分别回归,估计和联合回归估计的比较,(,参看教材,P96. 【,例,3.3】,),比率估计与回归估计总结:,在分层随机抽样中,当有辅助变量信息可以利,用时,我们可以采用分别比率估计、联合比率估计、,分别回归估计以及联合回归估计方法。在选用这些,估计量时,要注意以下几个问题:,1,、比估计是有偏估计量,当各层样本量都较大时,两种比估计都近似无偏;当某些层的样本量不够大,,而总样本量较大时,联合比率估计近似无偏。,2,、在回归估计中,若事先设定回归系数,其估计量,无偏;若用样本回归系数作为回归估计系数,其估计,量有偏,但在大样本情况下近似无偏。,3,、当主要变量,Y,和辅助变量,X,高度相关时,比率估,计和回归估计都是有效的,且能大幅度地提高估计精度。,3.3,样本量在各层的分配,对于分层抽样,当总的样本量一定时,还需研究各层应该分配多少样本量的问题,因为对总体推算时,估计量的方差与各层的方差有关,还与各层所分配的样本量有关。,一、,比例分配,这里的比例分配指的是按各层单元数占总体单元数的比例,也就是按各层的层权进行分配,这时,对于分层抽样,这时总体均值,的估计是:,总体比例,P,的估计是:,这是因为总体中的人一单元,不管它在哪一层,以同样的概率入样,因此,按比例分配的分层随机样本,估计量的形式特别简单。这种样本也称为自加权的样本。,二、,最优分配,1,.,最优分配,如果我们考虑简单线性费用函数,总费用,则,最优分配是,:,证明,:,作拉格朗日函数,求条件极值,:,解得,:,由此得出下面的准则:,如果某一层单元数较多,内部差异较大,费用比较,省,则对这一层的样本量要多分配些,,2.,Neyman(,内曼,),分配,对于分层随机样本,作为特例,如果每一层的,费用相同,即,时,最优分配可简化为:,这种分配称为,Neyman,分配,.,这时,,达到最小,。,【,例,3.3】,续例,3.1,如果样本量仍为,n=40 ,则,按比例分配和,Neyman,分配时,各层的样本量应,为多少,?(见,17,),解,:,按比例分配时,各层的样本量为,:,即各层的样本量分别为,3,6,11,20.,对于,Neyman,分配,根据前面计算所得的各层,权数和方差,得到,:,因此,按,Neyman,分配时,各层应分配的样本量为:,即各层的样本量分别为,3,,,.,【,例,3.5】,某市有甲、乙两个地区,现进行家庭收入,的调查。令,n=500,已知甲地区共有,20000,户居民,乙地,区共有,50000,户居民;甲地区居民和乙地区居民年收入,标准差估计分别为 ;同时对甲地和,乙地每户的平均抽样费用之比为,2,:,3,,请分别计算出,甲地和乙地进行比例分配、一般最优分配(考虑费用,因素)以及内曼分配(不考虑费用因素)的样本量。,【,解,】,根据已知的数据,通过计算整理可,得下表:,h,1,20000,0.2857,2500,2,713.2857,505.0763,2,50000,0.7143,2000,3,1428.5714,823.7861,总计,70000,1.0000,-,-,2141.8571,1328.8624,关于样本量分配的计算,(1),比例分配。,(,2,)一般最优分配,(,3,)内曼分配,结果比较 ,,对比上面三组结果可以发现,:,一般最优分配在乙地所抽取的样本量是最小的。,这是因为一般最优分配考虑了费用问题,在乙地抽样的单位平均费用较高,所以最优的原则应是适当增加甲地的样本量,减少乙地的样本量。,一般最优分配和内曼分配在甲地的样本量都比比例分配大,这是因为甲地总体的方差较大。为了保证估计量方差小,子总体方差大的就要多抽些样本,否则就要少抽样本。,3.,某些层要求大于,100%,抽样时的修正,又比较大,则可能按最优分配计算的这个层的样,按,最优分配时,可能抽样比,较大,某个层的,本量,超过,的情况,.,若出现这种情况,则对该层进行不,100%,的抽样,即,3.4,样本量的确定,(,1,)一般公式,令,其中,已经选定,于是当方差,V,给定时,有,得到确定样本量的一般公式为:,令,则,(,2,)若按比例分配,:,将 代入上式可得,()内曼分配:,将代入上面两式可得:,()最优分配:,将代入上式可得:,即,d:,绝对误差;,r,:相对误差;,t,:,标准正态分布的双侧,分位数,;,这时,样本量的一般形式可以表示为:,如果估计精度是以误差限的形式给出,下面将分别给出比例分配、内曼分配和最,优分配时的样本量分配形式:,(,1,)若按比例分配,:,将 代入上式可得,(,2,)当按,Neyman,分配时,,,(,3,)最优分配时:,将代入上式可得:,例,3.4,(续例,3.1,)如果要求在,95%,置信度下,相对误差不超过,10%,,则按比例分配和,Neyman,分配时,总样本量分别为多少?,解:当按比例分配时:,由前面的计算结果,可以得到各层的,W,h,s,2,h,。,在,95%,置信度时,对应的,t =1.96,,又,因此得到,由此可以得到,对,进行修正,得到修正后的,n,2.,最优分配需要考虑费用时的情形,在,最优分配时,如果,考虑费用为简单线性函数,则由式(,3.21,)有,:,当方差,V,给定时,代入式,(3.24),得到样本量为,:,3.5,分层时的若干问题,1.,抽样效果分析,对于固定样本量的情况,如果,相对于,1,可以忽略,则,式中,分别为分层随机抽样,最优,分配、,分层随机抽样按比例分配,以及简单,随机抽样,简单估计的方差。,二、层的划分,既然分层抽样比简单随机抽样效率高,那么如何,构造层,构造多少层,才能使分层抽样发挥其效率高,的特点呢?,这就涉及最优分层和确定层数的问题。,(一)最优分层,为了提高抽样效率,按调查目标量,进行分层当然是最好的,但我们在调查前并不知道 的值,因此分层只能通过与高度相关的辅助指标 来进行,.(,见,P56),(,二,),层的确定,当分层是按自然层或单元类型划分时,层数是自然的,但当遇到上述运用累积平方根法进行分层时,就存在层数问题。,在实际工作中,层数一般不超过六层。虽然增加层数可以提高估计精度,但在总费用一定的条件下增加层数必然导致降低样本量,这时就要考虑增加层数而降低样本量在精度上是否合算。,三、事后分层,我们一般在抽样之前,将总体中的所有单元分好,层,但在实际工作中,有时,没有层的抽样框,或总体特别大来不及事先分层等原因,.,这时我们又想采用分层抽样,就可以采用事后分层,.,事后分层要注意的问题,(1),要求我们可以通过某种途径知道各,层的层大小或层权,;,(2),层权与实际情况不能相差太大,否则,不可能提高精度,;,(3),事后分层的层数不宜太多,.,事后分层的具体实施办法,先采用简单随机抽样的方法从总体中抽取一个样本量为,n,的样本,然后对样本中的单元按某种特征进行分层。,假设在容量为,n,的样本中,落入第,h,层的样本单元数为 ,有 ,,则此时对总体均值的事后分层估计为:,这里, 下标“,pst”,表示事后分层;,代表落入第,h,层的第,i,个,样本单元的指标值。,理论上,只要,n,充分大,事后分层估计量是无偏的。且它的方差有如下性质:,由上式可以看出,第一项就是按比例分配分层抽样估计量的方差,第二项表示因事后分层而非事先按比例分配分层引起的方差增加量。由此看出,只要样本量足够大,事后分层的精度与比例分配事先分层的精度相当。,事后分层均值估计量 的方差 ,,可以用下面的式子来估计:,其中,例,3.7,某高校欲了解在校学生用于课外进修,(,考证等,),的开支,在全校,8000,名学生中抽出一个,200,人的简单随机样本,.,根据学生科的统计,本科生人数为全校学生的,70%,调查最近一个学期课外进修支出,(,单位,:,元,),的结果如下表,.,试估计全校学生用于课外进修的平均支出,.,层,层权,样本量,样本均值,样本标准差,本科生,0.7,120,253.4,231.00,研究生,0.3,80,329.4,367.00,合计,1,200,283.8,294.57,在校学生课外进修开支调查结果,解,:,全校学生用于课外进修的平均开支为,:,估计量的方差为:,如果采用简单估计,则估计的方差为:,很显然,事后分层抽样要比简单随机,抽样的估计量精度要高!,思考题,(教材,P131,题,3.7,),如果一个大的简单随机样本按类别分为,6,组,,然后按层的实际大小重新进行加权,这一过程称,为事后分层,采用这种方法是由于(判断以下说,法的对错):,(,1,)它是比简单随机抽样产生更精确的结果;,(,2,)它是比按比例分配产生更精确的结果;,(,3,)它是比按最优分配产生更精确的结果;,(,4,)在抽样时不能得到分层变量;,(,5,)它的估计量的方差与真正按比例分层随机,抽样的方差差不多。,本章小结,分层抽样技术在实际,中应用非常广泛;,其优点主要是便于组织,管理且抽样效率通常比简,单随机抽样要高;,与简单随机抽样相比分层抽样在抽样之前需要对总体抽样框进行分层,这个过程有时是现成的,有时需要增加额外的工作量。,本章作业,(,1,)熟悉本章的证明;,(,2,)思考书后习题,3.1,、习题,3.2,;,(,3,)在作业本上完成书后习题,3.3,,习题,3.4,,,习题,3.5,。,(第三章结束),谢谢观看,/,欢迎下载,BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES. BY FAITH I BY FAITH,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!