抽样调查-多阶段抽样培训课件

资源描述

,*,返回,8.1,引言,前面提到的整群抽样虽然,有很多优点，但是由于群内单,元通常具有相似性（表现为群,内相关系数大于零）。尤其是,当群比较大时，人们自然会想,到没有必要对群内所有单元都,进行调查，而只要对群内单元,进行再抽样，对被抽中的单元,进行调查，这就是常用的多阶,段抽样。,一、多阶段抽样的定义,先,在,总体单元（初级单元）中抽出样本单元，并不对这个样本单元中的所有下一级单元（二级单元）都进行调查，而是在其中再抽出若干个二级单元并进行调查。,这种抽样方法称为二阶段抽样。同样的道理，还可以有三阶段抽样、四阶段抽样等。对于二阶段以上的抽样，统称为,多阶段抽样,。,二、多阶段抽样的优点,(1),多阶段抽样保持了整群抽样的样本比较集中、,便于调查、节约费用等优点。,(2),多阶段抽样不需要编制所有小单元的样本框。,三、抽选方法与推断原理,多阶段抽样时，每一个阶段的抽样可以相同，也可以不同。它通常与分层抽样、整群抽样、系统抽样,结合使用。多阶段抽样时，抽样是分步进行的，因此，,讨论估计量的均值及其方差时，需要分阶段进行这要,用到下面的性质,。,性质,1,对于两阶段抽样，有,式中，为在固定初级单元时对第二阶抽样求均,值和方差；为对第一阶抽样求均值和方差。,性质,1,可以推广到多阶段抽样的情形，例如,对于三阶段抽样，有,8.2,初级单元大小相等的二阶抽样,第一阶段在总体,N,个初级单元中，以简单随机抽样抽取,n,个初级单元，第二阶段在被抽中的初级单元包含的,M,个二级单元中，以简单随机抽样抽取,m,个二级单元，即最终接受调查的单元,。,例如：某个新开发的小区拥有相同户型的,15,个单元的楼盘，居民已经陆续搬入新居，每个单元住有,12,户居民，为调查居民家庭装修情况，准备从,180,户居民户中抽取,20,户进行调查。如下表：,编号,单元,房号,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,一栋,A,座,一栋,B,座,一栋,C,座,二栋,A,座,二栋,B,座,二栋,C,座,三栋,A,座,三栋,B,座,三栋,C,座,四栋,A,座,四栋,B,座,四栋,C,座,五栋,A,座,五栋,B,座,五栋,C,座,1,2,3 4,5 6 7 8 9,10,11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1,2 3 4 5,6,7 8,9,10,11,12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4,5,6,7 8,9,10,11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4,5,6,7 8,9 10,11,12,1 2 3,4,5,6 7,8 9 10,11,12,1 2 3 4 5 6 7 8 9 10 11 12,1 2 3 4 5 6 7 8 9 10 11 12,表中红字为抽,中的房号。,这时，初级单元有,15,个，每个初级单元拥有二级单元,12,个。首先将单元从,1,到,15,编号，在,15,单元中随机抽取,5,个单元，分别是,1,，,6,，,9,，,12,，,13,号；然后在被抽中的,单元中，进行第二次抽样，即分别在,12,户居民户中随机,抽取,4,户。,一、符号说明,初级单元和初级单元拥有的二级单元个数：,N,，,M,第一阶段和第二阶段抽样的样本量：,n ,m,第,i,个初级单元中的第,j,个二级单元的观测值：,样本中第,i,个初级单元中的第,j,个二级单元的观测值：,第一阶段和第二阶段的抽样比：,第,i,个初级单元按,二级单元的平均值：,按二级,单元的平均值：,初级单元间的方差：,初级单元内的方差：,由的表达式可知，若记,则有,即是的平均值。同理有,二、估计量及其性质,（,一）总体均值的估计,性质,2,对于初级单元大小相等的二阶抽样，如果两个阶,段都是简单随机抽样，且对每个初级单元，第二阶抽样,是相互独立进行的，则对总体均值的无偏估计为：,其,方差为：,的无偏估计为：,【,例,8.1】,欲调查,4,月份,100,家企业的某项指标，首先,从,100,家企业中抽取了一个有板有,5,家样本企业的简单随,机样本，调查人员对,5,家企业分别在调查月内随机抽取,3,天作为调查日，要求样本企业只填写这,3,天的流水帐。,调查的结果如下。,样本企业,第一日,第二日,第三日,1,2,3,4,5,57,38,51,48,62,59,41,60,53,55,64,50,63,49,54,要求根据这些数据推算不,100,家企业该指标的总量，并,给出估计的,95%,置信区间。,解,将企业作为初级单元，将每一天看着二级单元。,调查月内拥有,30,天（即拥有,30,个二级单元）。,首先在初级单元中抽取一个,n=5,的简单随机样本再,对每个样本的二级单元分别独立抽取一个,m=3,的简单,随机样本,由,题意，,N=100,，,M=30,，,n=5,m=3,首先计算样本初级单元的均值、方差：,样本企业,1,2,3,4,5,60,43,58,50,57,13,39,39,7,19,于是得到：,置信度为,95%,的置信区间为：,160800,1.96,9216,在上面的方差估计式中，第一项是主要的，第二项,要小得多,!,（,二）对总体比例的估计,如果要估计总体中具有所研究特征的二级单元数占全,体全体二级单元数的比例，则,式,中，为第,i,个初级单元中具有所研究特征的二级单元,数,则对,P,的估计为：,式中，为第,i,个初级单元中具有所研究特征的二级单元,数。,性质,3,对于二阶抽样，如果两个阶段都是简单随机,抽样，则有,估计量,的方差为：,的无偏,估计为：,式,中，,【,例,8.2】,欲调查某个新小区居民家庭装潢聘请装潢,公司的比例。我们在,15,个单元中随机抽取了,5,个单元，在,这,5,个单元分别随机抽取了,4,户居民进行调查，对这,20,户,的调查结果如下表：,样本单元,第一户,第二户,第三户,第四户,一栋,A,座,二栋,C,座,三栋,C,座,四栋,C,座,五栋,B,座,是,否,否,否,是,是,是,否,否,否,否,否,否,否,否,否,否,是,否,否,要求根据这些数据推算,居民家庭装潢聘请装潢,公司的比例。,解：,记,聘请装潢公司的居民户为“,1”,，否则记为“,0”,。,这里，,N=15,，,M=12,，,n=5,m=4 ,因此，,其,方差的估计为：,P,的置信区间为：,8.3,初级单元大小不等的二阶抽样,一般而言，初级单元的大小是不相等的，如果按初,级单元的大小分层后，层内初级单元的大小差别仍很大，,则需用本节介绍的方法来处理二阶抽样的问题。当初级,单元大小不等时，一般采用不等概抽样。,一、符号说明,总体中初级单元个数及第一阶抽取的样本量：,N,，,n,第,i,个初级单元中二级单元数：,第,i,个初级单元中第二阶抽样的样本量：,第,i,个初级单元中第,j,个二级单元的观测值：,样本中第,i,个初级单元中第,j,个二级单元的观测值：,第一阶和第二阶的抽样比：,二级,单元个数：,指标总和：,第,i,个初级单元指标总和：,第,i,个初级单元按二级单元的平均值：,按二级,单元的平均值：,初级单元间的方差：,第,i,个初级单元二级单元间的方差：,二、估计量及其性质,（,一）对初级单元进行简单随机抽样,如果二阶抽样中每个阶段都采用简单随机抽样，并且,每个初级单元中二级单元的抽样是相互独立的，则对,总体总和的估计可以采用简单估计，也可以考虑采用,比率估计。,1.,简单估计量,对总体总和的简单估计为：,根据,性质,1,，不仅可以证明这个估计量是无偏的，并,且它的方差为：,的,一个无偏估计为：,式,中，,2.,比率估计量,由于初级单元的大小不同，往往,造成初级单元的观测值差异很大，使得估计量方差,的第一项很大，从而估计量的方差也就变得很大。,这时，可以考虑将初级单元的大小作为辅助变量，,采用比率估计量对总体总和进行估计。,对,总体总和的估计量为：,这是一个有偏估计量，但随着样本量的增加，,其偏倚将趋于零。其近似均方误差为：,的样本估计为：,式,中，,（,二）对初级单元进行放回不等概抽样,利用第五章的方法，事先规定每个初级单元被抽中的,概率对被抽中的初级单元，再抽取,个二级单元。,对总体总和的估计通常是构造初级单元指标总量,的无偏估计，然后利用第五章介绍的,Hansen-,Hu,Rwitz,估计量对总体总量,Y,进行估计。,由于是的无偏估计，由性质,1,，可以证明,是,Y,的无偏估计。且的方差为：,的,一个无偏估计为：,注意上述对第二阶抽样并没有做出特别的规定，而,且估计量的方差估计式与第二阶抽样的方式无关。,在实际工作中，如果初级单元大小不相等，通常人,们喜欢在第一阶抽样时按放回的与二级单元数成比例,的不等概抽样；第二阶抽样则采用简单随机抽样，且,每个样本初级单元的样本量都相等，此时，估计量的,形式非常简单。,【,例,8.3】,某小区拥有,10,座高层建筑，每座高层建筑,拥有的楼层数如下表：,高层建筑,A,B,C,D,E,F,G,H,I,J,楼层,12,12,16,15,10,16,10,18,16,20,用二阶抽样方法抽出,10,个楼层进行调查，第一阶抽样,为放回的、按与每座建筑拥有的楼层数成比例的不等概,抽样抽取,5,座建筑，第二阶按简单随机抽样对每座建筑抽,取两层。对,10,个楼层居民人数的调查结果如下表：,一阶,样本序号,1,2,3,4,5,居民数,18,12,15,18,19,13,16,10,16,11,解：,已知,n=5,m=2,注意到这个样本是自加权的，根据,P181,公式（,8.29,）,得,估计量的方差为：,=9776.625,估计量的标准差为：,（,三）对初级单元进行不放回不等概抽样,不,放回,不等概抽样的效率比放回的效率高，因此，,有时人们也会倾向于用不放回不等概抽样来抽取初级单,元。这时可利用第五章介绍的不放回不等概抽样的结果,对总体总量进行推算。当然估计量的推算比较复杂。,对总体总量,Y,的估计可以采用,Horvitz-Thompson(,赫,魏兹,-,汤普森）估计。,8.4,其他问题,一、总样本量及最优样本量的配置,对于二阶抽样，应该抽多少二级单元，即确定,n m,为,多少，一般可采用两种方法：,1.,根据调查费用，确定可以调查的样本量。,2.,根据简单随机抽样时应抽样本量，再乘以设计,效应,deff,获得。,由于影响精度的主要原因是初级单元之间的差异，,所以多抽一些初级单元，少抽一些二级单元较好。但,往往初级单元的调查费用比二级单元要高。,考虑费用函数为最简单的一种形式：,式中，为与样本量无关的固定费用，如公司的办,公费、场租费等；为每调查一个初级单元的费用；为,每调查一个二级单元的费用。,则,m,的最优值,为：,式中，,实际使用时，,m,应为整数，但计算出的往往不,是整数，令为的整数部分，则,m,的取值规则为：,求出,m,之后，根据总费用函数，就可以确定,n,从而,确定最优抽样比和,二、三阶及多阶抽样,（,一）各级单元大小相等的多阶段抽样,如果总体拥有,N,个初级单元，每个初级单元拥有,M,个,二级单元，每个二级单元又拥有,K,个三级单元，各阶的,样本量分别为,n,m,k,每个阶段都按简单随机抽样，则三,级单元总体均值的估计为：,其,方差为：,方差的无偏估计为：,由于方差的主要项为第一项，其次为第二项，第三项,几乎可以忽略。所以对于更高阶的抽样，估计量的方差,计算一般只计算到第二阶至第三阶就可以了。,（,二）各级单元大小不相等时的多阶段抽样,（略）,（,三）多阶抽样的实例,某调查公司接受了一项关于全国城市成年居

展开阅读全文

抽样调查-多阶段抽样培训课件

最新文档