第5章-不等概率抽样课件

上传人:仙*** 文档编号:241645433 上传时间:2024-07-12 格式:PPT 页数:94 大小:829KB
返回 下载 相关 举报
第5章-不等概率抽样课件_第1页
第1页 / 共94页
第5章-不等概率抽样课件_第2页
第2页 / 共94页
第5章-不等概率抽样课件_第3页
第3页 / 共94页
点击查看更多>>
资源描述
?-非概率,等概率,不等概非概率,等概率,不等概每个单元入样的概率每个单元入样的概率第五章第五章 不等概抽样不等概抽样例nOBrien et al.(1995)对Philadelphia地区的病人进行抽样,目的是了解病人对于医疗服务的偏好。目标总体是这一区域的所有注册的医院的病人。总共有294家医院,27652个床位(抽样以前,研究人员只知道床位数,不知道病人数)。等概率的抽取样本医院的缺点?n首先,可能医院中愿意接受CPR治疗的病人数量会正比于医院床位的数量,采用等概简单估计量可能会有大的方差。n其次,自加权的等概率样本可能难于管理。可能仅仅为了调查一两个病人就需要去一家医院,并且合理分配调查人员的工作负担也是比较困难的。n第三,调查成本在调查开始的时候是未知的-一个40家医院的样本可能包括了主要的大的医院,这会导致比预计更大的成本。其他办法?n调查人员还可以采用与医院病床数量成比例的方法抽取57个医院,然后从每个样本医院中抽取30个简单随机样本床位。n如果病人数等于床位数,并且医院实际的床位数和抽样时依据的病床数据一致,每个病人是否有相同的入样概率?n而且成本在调查实施前是已知的,因为每个访员在每个医院访问的病人数量是相同的。而且,总体总量的方差可能更小。n分层抽样:抽样选择概率小的单位会有较高的权数。n采用不等概率抽样来减少抽样方差而不采用清晰的分层。采用不同的概率来选择初级样本单元,并且在估计中采用不同的权数来进行弥补。n抽样的关键是每个样本的选择概率是已知的。5.1 不等概抽样一、不等概抽样的必要性:一、不等概抽样的必要性:在简单随机抽样中,总体(或层)中的每个在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。单元入样的概率都相等。如果总体中的每如果总体中的每个单元在该总体中的地位个单元在该总体中的地位(或重要性或重要性)相差相差不多,则这种基于等概率的抽样是理所当不多,则这种基于等概率的抽样是理所当然的选择。等概率抽样不仅实施简单,而然的选择。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概抽多实际问题中,我们还需要使用不等概抽样样(sampling with unequal(sampling with unequal probabilities)probabilities)。二、不等概率抽样的适用场合:二、不等概率抽样的适用场合:一种情况是调查的总体单元与抽样总体的单元可能不一种情况是调查的总体单元与抽样总体的单元可能不一致;一致;另一种需要用到不等概抽样的情况是,抽样单元在总另一种需要用到不等概抽样的情况是,抽样单元在总体中所占的地位不一致;体中所占的地位不一致;最重要的一种不等概抽样乃是使每个单元入样的概率最重要的一种不等概抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样与该单元的大小成比例的抽样(sampling with(sampling with probabilities proportional to sizesprobabilities proportional to sizes,简称,简称PPSPPS抽抽样样)。二、不等概率抽样的适用场合:二、不等概率抽样的适用场合:第三种需用不等概率抽样的情况是为了改善估计第三种需用不等概率抽样的情况是为了改善估计量的特性。量的特性。每个可能的样本若被抽的概率与样本中单元的每个可能的样本若被抽的概率与样本中单元的辅助变量之和成正比的话,则按此进行不等概辅助变量之和成正比的话,则按此进行不等概抽样所得到的样本,用通常的比估计方法所得抽样所得到的样本,用通常的比估计方法所得的估计量是无偏的。的估计量是无偏的。9 总总之之,在在实实际际工工作作中中需需要要我我们们经经常常采采用用不不等等概概率率抽抽样样。另另外外,从从上上面面列列举举的的情情况况也也可可看看到到,凡凡需需使使用用不不等等概概抽抽样样的的场场合合,必必须须提提供供总总体体单单元元的的某某种种辅辅助助信信息,例如每个单元的息,例如每个单元的“大小大小”度量度量MiMi或辅助变量或辅助变量XiXi等。等。10三、不等概抽样的主要分类 不不等等概概抽抽样样可可按按多多种种原原则则进进行行分分类类。鉴鉴于于不不等等概概抽抽样样同同时时会会带带来来目目标标量量估估计计及及其其方方差差估估计计的的复复杂杂性性,可分为可分为 放放回回抽抽样样:每每次次在在总总体体(或或层层)中中按按一一定定概概率率抽抽取取一一个个单单元元,抽抽取取后后放放回回总总体体,再再进进行行下下一一次次抽抽样样,每每次抽样都是独立的。次抽样都是独立的。不不放放回回抽抽样样。其其代代价价是是:由由于于丧丧失失了了独独立立性性,无无论论是是抽抽样样方方法法还还是是方方差差估估计计,都都要要比比放放回回抽抽样样繁繁复复得得多。多。11 另另一一种种分分类类是是:视视每每次次抽抽样样(放放回回抽抽样样的的情情形形)概概率率或或每每个个单单元元的的入入样样概概率率(不不放放回回抽抽样样的的情情形形)是是否否严严格格地地与与单单元元的的大大小小成成比比例例。另另外外,看看样样本本量量n n是是固固定定的的还还是是随随机机的的。最最重重要要的的情情形形乃乃是是当当n n固固定定,且且上上述述概概率率与与单单元元大大小小严严格格成成比比例例的的不不等等概概率率抽抽样样。以以后后我我们们将将这这种种情情形形的的放放回回抽抽样样称称为为PPSPPS抽抽样样,称称相相应应的的不不放回抽样为放回抽样为PSPS抽样。抽样。12 对对于于不不放放回回抽抽样样,按按其其样样本本单单元元抽抽取取方方式式的的不不同同又可分为以下几种方法:又可分为以下几种方法:1.1.逐逐个个抽抽取取法法。每每次次从从尚尚未未入入样样的的单单元元中中以以一一定定概概率率抽抽取取一一个个单单元元,这这个个概概率率通通常常与与已已经经入入样样的的单单元元有关,有关,2.2.重重抽抽法法。以以一一定定概概率率逐逐个个进进行行放放回回抽抽样样,若若一一旦旦抽抽到到重重复复单单元元,则则放放弃弃所所有有已已抽抽到到的的单单元元而而重重新新抽抽取,直到抽到规定单元数且所有入样单元都不同为止。取,直到抽到规定单元数且所有入样单元都不同为止。Back13 3.3.系系统统抽抽取取法法。将将总总体体单单元元按按某某种种顺顺序序排排列列,且且将将规规定定的的单单元元入入样样(或或其其倍倍数数)累累计计起起来来,并并确确定定抽抽样样间间隔隔,在在这这个个范范围围内内产产生生一一个个随随机机数数以以确确定定初初始始入入样单元,然后按上述抽样间隔确定其余的样本单元。样单元,然后按上述抽样间隔确定其余的样本单元。4.4.全全样样本本方方法法。对对每每个个可可能能样样本本规规定定一一个个被被抽抽中中的概率,按这个概率一次抽取整个样本。的概率,按这个概率一次抽取整个样本。Back四、不等概抽样的特点 不等概抽样的主要优点是:由于使用了辅助信息,提高了抽样策略的统计效率,与简单随机抽样甚至与分层抽样相比,能显著地减少抽样误差。不等概抽样有以下的缺点:1)抽样框中的所有单元,都要有高质量的、能用作大小度量的辅助信息;n2)抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要度量和存储总体中每一个单元的大小;n3)并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量;n4)抽样及估计(特别对不放回抽样)相当复杂;n5)当单元大小度量不准确或不稳定时不适用,此时更好的办法是将单元按大小分组并使用分层抽样。5.2 放回不等概抽样一、多项抽样与一、多项抽样与PPSPPS抽样:抽样:1.1.多项抽样多项抽样:*这种放回的不等概率抽样为何又叫多项抽样?这种放回的不等概率抽样为何又叫多项抽样?2.PPS2.PPS抽样抽样 :19 2.PPS2.PPS抽样抽样 PPSPPS抽抽样样是是与与大大小小(或或规规模模)成成比比例例的的概概率率抽抽样样,是是一一种种使使用用辅辅助助信信息息从从而而使使入入样样概概率率不不相相等等的的抽抽样样技技术。术。如如果果总总体体单单元元的的大大小小或或规规模模变变化化很很大大,且且这这些些大大小小是是已已知知的的,这这样样的的信信息息就就可可以以用用在在抽抽样样中中,以以提提高高统统计计效效率率。如如果果单单元元大大小小的的度度量量是是准准确确的的,而而且且所所研研究究的的变变量量与与单单元元的的大大小小相相关关,PPSPPS抽抽样样能能极极大大地地提提高高精精度度。但但如如果果大大小小的的度度量量不不大大准准确确,最最好好按按大大小小分分组组并并使用分层抽样。使用分层抽样。20 PPSPPS抽样的入样概率。如上所述,抽样的入样概率。如上所述,PPSPPS抽样时可取抽样时可取为为第第i i个个单单元元的的入入样样概概率率,其其中中 是是总总体体中中所有单元的所有单元的“大小大小”之和,之和,为第为第i i个单元的大小。个单元的大小。21 二、多项抽样的实施方法二、多项抽样的实施方法 如如何何抽抽取取一一个个不不等等概概率率样样本本呢呢?有有三三种种主主要要方方法法:代代码码法法、系系统统法法及及随随机机系系统统法法。以以下下的的讨讨论论以以PPSPPS抽样为例,并假定单元大小皆为整数。抽样为例,并假定单元大小皆为整数。22 (1 1)代代码码法法(累累计计和和法法,随随机机法法或或汉汉森森赫赫维维茨茨法法)设设N N不不太太大大,且且 为为第第i i单单元元大大小小的的度度量量,且且为为整整数数,对对总总体体中中的的每每个个单单元元计计算算累累计计大大小小,得得到到总总体体所所有有单单元元代代码码的的累累计计和和 ,对对总总体体中中每每个个单单元元确确定定与与它它相相对对应应的的代代码码范范围围;在在1 1到到总总的的累累计计大大小小 范范围围内内抽抽取取一一个个随随机机数数,该该随随机机数数相相应应的的代代码码范范围围中中的的单单元元即即为为入入样样单单元元。重重复复上上述述步步骤骤,直直到到抽抽得得n n个个单单元元为止。为止。23PPSPPS抽样时,单元的代码如下表:抽样时,单元的代码如下表:24 (2 2)拉希里法(二次抽样法)拉希里法(二次抽样法)代代码码法法要要将将 累累计计,在在N N不不太太大大时时是是适适用用的的,但但当当N N很很大大时时,就就很很不不方方便便。此此时时可可用用LahiriLahiri(拉拉希希里里)19511951年提出的方法。年提出的方法。令令 每次抽取一个范围内的随机数每次抽取一个范围内的随机数 及及 范范围围内内的的随随机机数数m m,若若 ,则则第第 单单元元入入样样;否否则则,重重抽抽 。此此时时,第第i i个个单单元元的的入入样样概概率率与与 成成正正比比,从从而而 。重重复复这这一一过过程程,直直到到抽抽够够所需的所需的 个单元。个单元。2.2.拉希里法拉希里法(二次抽取法二次抽取法):26 (3 3)系统)系统PPSPPS抽样方法抽样方法 对总体中的每个单元,计算累计大小对总体中的每个单元,计算累计大小;对总体中每个单元确定与它相对应的代码范围;对总体中每个单元确定与它相对应的代码范围;确定抽样间隔确定抽样间隔k=k=总累计大小总累计大小/n/n;在在1 1和和k k的范围内确定一个随机起点的范围内确定一个随机起点r r;与与代代码码r r,r+kr+k,r+2kr+2k,r+r+(n-1n-1)k k所所在在范范围围相对应的单元入样相对应的单元入样。注注意意,当当r+r+(n-1n-1)k k超超过过总总累累计计大大小小时时,应应使使用圆形系统抽样中的模余数法。用圆形系统抽样中的模余数法。27 (4 4)随机系统抽样法)随机系统抽样法 在在这这种种方方法法中中,名名录录在在系系统统抽抽样样前前要要进进行行随随机机排排序序。如如果果完完全全按按原原来来的的排排序序,会会把把一一些些可可能能的的样样本本排排除除在在外外。在在上上面面介介绍绍的的系系统统抽抽样样的的例例子子中中,不不可可能能把把单单元元3 3和和4 4同同时时抽抽入入同同一一个个样样本本。把把名名录录重重新新随随机机排排列列后会增加潜在的可能抽到的样本数量。后会增加潜在的可能抽到的样本数量。实实际际上上这这些些方方法法都都有有些些问问题题。例例如如,对对系系统统抽抽样样法法或或随随机机系系统统抽抽样样法法,一一个个大大小小大大于于抽抽样样间间隔隔的的单单元元,就就有有重重复复被被抽抽中中的的可可能能。只只有有把把这这些些大大单单元元放放入入单单独独的的一一个个层层,并并独独立立地地对对它它们们进进行行抽抽样样,才才能能克克服服这这个个问题。另一个问题是估计值的抽样方差估计比较困难。问题。另一个问题是估计值的抽样方差估计比较困难。28 三、三、Hansen-HurwitzHansen-Hurwitz估计量及其性质:估计量及其性质:对对于于多多项项抽抽样样,由由于于抽抽样样是是不不等等概概率率的的,每每个个样样本本单单元元的的观观测测值值就就不不再再是是“平平等等的的”,因因此此对对于于总总体体参参数数的的 估估 计计 与与 等等 概概 率率 抽抽 样样 不不 同同。汉汉 森森 赫赫 维维 茨茨 提提 出出,如如 果果 是是按按 为为入入样样概概率率的的多多项项抽抽样样抽抽得得的的样样本本指指标标值值,相应的相应的 为为 ,则总体总和,则总体总和Y Y的无偏估计量如下:的无偏估计量如下:29且且若若n n1 1,则,则 的无偏估计量为的无偏估计量为30对于对于PPSPPS抽样,抽样,所以有,所以有其其中中 是是第第i i个个样样本本单单元元的的观观测测值值,例例如如商商店店的的年年销销售售额额,而而 是是该该单单元元的的大大小小,例例如如商商店店的的员员工工人人数数,则则 即是第即是第i i个商店人均年销售额。对个商店人均年销售额。对n n个个 取平均即是样本商业网点人均年销售额的平均,取平均即是样本商业网点人均年销售额的平均,将将此此数数乘乘以以 (即即该该地地所所有有商商业业网网点点的的员员工工总总数数),即可获得该地商业销售总额的估计。即可获得该地商业销售总额的估计。三、三、Hansen-HurwitzHansen-Hurwitz估计量及其性质:估计量及其性质:32举例:举例:下下表表是是某某系系统统全全部部N=36N=36个个单单位位上上一一年年职职工工人人数数 及及当当年年职职工工人人数数 的的数数据据,以以 为为单单位位大大小小 的的度度量量,对对单单位位进进行行PPSPPS抽抽样样,n=6n=6,估估计计全全系系统统当当年年职职工工总人数总人数Y Y,并与简单随机抽样做精度比较。,并与简单随机抽样做精度比较。某系统各单位上一年与当年职工人数单位号159863322118363065643012327353723866142164710721145某系统各单位上一年与当年职工人数单位号8432501921623510169817781115701541125024861349751614723786某系统各单位上一年与当年职工人数单位号15712740163353521726729918165817141923125520152421172181某系统各单位上一年与当年职工人数单位号22234243233123382435137125252281261942102714916628173189某系统各单位上一年与当年职工人数单位号29318344302042273152633218817433971223421824235475136838879n解:对单位进行PPS抽样:根据公式,Y的汉森-赫维茨估计 的理论方差为:n而若对单位进行简单随机抽样,同样样本量时Y的简单估计 的方差可计算如下:n因此在此例中,PPS抽样的设计效应为:n可见对PPS抽样,估计量的精度提高非常显著。n在实际中 当然是未知的,只有抽样才能观测到。下面列出4组PPS样本,分别计算Y的估计量并作方差估计。4组样本抽得的单位号码如下:n样本I:4,10,23,11,13,3;n样本II:1,34,18,11,29,8;n样本III:12,10,36,4,24,4;n样本IV:14,4,18,11,34.n对每个样本 ,计算Y的估计量,记为 。为方便起见,令n则n计算结果列在下表中。对前面表的总体进行n=6的PPS抽样的结果样本号12341.04635481.07090131.04907581.0652787193131976619363196620.0155840.0252070.0177420.019740287.6426465.2464327.4601364.3344n注意到不同样本计算的估计量 的值相差不大,说明它的方差并不大,但方差估计量 的稳定性较差(表中列出的只是标准差的估计),其中原因之一是样本量还不够大。例例1 1 n某部门要了解所属8500家生产企业当月完成的利润,该部门手头已有一份去年各企业完成产量的报告,将其汇总得到所属企业去年完成的产量为3676万吨。考虑到时间紧,准备采用抽样调查来推算当月完成的利润。根据经验,企业的产量和利润相关性比较强,且企业的特点是规模和管理水平差异比较大,通常大企业的管理水平较高些,因此采用以与去年产量成比例的PPS抽样,从所属企业中抽出一个样本量为30的样本,1*38.2310926106.501900191.5010213.7010241115.00864208.008030.7513127.00172128.421367242.85301316.00104522*9.01384552.0011021412.30220230.7548065.00600153.864600246.00311710.802901615.8023702528.43928482.00430179.00940269.9784298.8199218*21.00640276.20510757087(元)174118 相对误差相对误差达到20时所需样本量?有放回不等概整群抽样四四.按与群大小按与群大小M Mi i成比例的成比例的PPSPPS抽样抽取群:抽样抽取群:例例2 2:某公司分:某公司分8 8个部门,共有职工个部门,共有职工1295012950人,各部门职工人,各部门职工数如下:数如下:按与职工数成比例的概率抽按与职工数成比例的概率抽3 3个部门。个部门。部门号部门号i i职工数职工数1 12 23 34 45 56 67 78 81200120045045021002100860860284028401910191039039032003200(1 1)随机数为)随机数为20112011、79727972、1028110281,问抽中哪几个部,问抽中哪几个部门?门?(2 2)若三个部门的职工病假天数依次为)若三个部门的职工病假天数依次为43204320、41604160、57905790。估计该公司每个职工平均病假天数及标准差。估计该公司每个职工平均病假天数及标准差。解:解:5.3 多阶段有放回不等概抽样一、对初级单元进行放回不等概率抽样时一、对初级单元进行放回不等概率抽样时,总体总和总体总和Y Y的估计的估计第一阶抽样按放回不等概率抽样第一阶抽样按放回不等概率抽样(多项抽样多项抽样)抽取初级元,抽取初级元,第二阶抽样并没有作出特别的规定第二阶抽样并没有作出特别的规定,只要初级单元指标只要初级单元指标YiYi的估计的估计 是无偏的是无偏的.自加权情形:自加权情形:第一阶抽样按放回不等概率抽样抽取初级单元,第一阶抽样按放回不等概率抽样抽取初级单元,第二阶抽样都抽取第二阶抽样都抽取m m个。个。自加权情形:自加权情形:第一阶抽样按第一阶抽样按PPSPPS抽样抽取初级单元,抽样抽取初级单元,第二阶抽样按简单随机抽样抽取次级单元,都抽取第二阶抽样按简单随机抽样抽取次级单元,都抽取m m个。个。实际工作中,对于各级单元大小不相等时多实际工作中,对于各级单元大小不相等时多阶抽样,自加权通常的做法是:阶抽样,自加权通常的做法是:除了最后一阶采用等概率抽样除了最后一阶采用等概率抽样(放回的或不放放回的或不放回的均可回的均可),前几阶均采用,前几阶均采用PPSPPS抽样,并且自第二抽样,并且自第二阶开始,每一阶的样本量都相同阶开始,每一阶的样本量都相同(即即mi=mmi=m,kjkj=k,=k,),则样本是自加权的,其估计量的形式,则样本是自加权的,其估计量的形式非常简单。非常简单。总体总和的估计为总体总和的估计为 的方差估计为的方差估计为二、各级单元大小不相等时,多阶抽样的总样本量及最二、各级单元大小不相等时,多阶抽样的总样本量及最优样本量的配置优样本量的配置 二阶自加权情形:二阶自加权情形:第一阶抽样按第一阶抽样按PPSPPS抽样抽取初级单元,抽样抽取初级单元,第二阶抽样按简单随机抽样抽取次级单元,都抽取第二阶抽样按简单随机抽样抽取次级单元,都抽取m m个。个。这时,多阶抽样的总样本量可以这样确定:这时,多阶抽样的总样本量可以这样确定:1.1.根据简单随机抽样时应抽样本量根据简单随机抽样时应抽样本量2.2.再乘以设计效应再乘以设计效应deffdeff获得。获得。多阶抽样与简单随机抽样相比其效率比较低,多阶抽样与简单随机抽样相比其效率比较低,deffdeff应该大于应该大于1 1。实际工作中,可取。实际工作中,可取deffdeff的经验数据。不同项的经验数据。不同项目的目的deffdeff不同。不同。例例:某调查公司接受了一项关于全国城市成年居民人均奶制品消某调查公司接受了一项关于全国城市成年居民人均奶制品消费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。确定费支出及每天至少喝一杯鲜奶的人数的比例情况的调查。确定抽样范围为全国地级及以上城市中的成年居民。成年居民指年抽样范围为全国地级及以上城市中的成年居民。成年居民指年满满1818周岁以上的居民。周岁以上的居民。第一步:确定抽样方法。第一步:确定抽样方法。调查公司决定采用多阶抽样方法进行方案设计,调查的最调查公司决定采用多阶抽样方法进行方案设计,调查的最小单元为成年居民。确定调查的各个阶为城市、街道、居委会、小单元为成年居民。确定调查的各个阶为城市、街道、居委会、居民户,在居民户中利用二维随机表居民户,在居民户中利用二维随机表(Kish(Kish随机表的简化随机表的简化)抽取抽取成年居民。成年居民。第二步:确定样本量及各阶样本量的配置。第二步:确定样本量及各阶样本量的配置。按简单随机抽样时,在按简单随机抽样时,在9595置信度下,绝对误差为置信度下,绝对误差为5 5,取,取使方差达到最大时的消费奶制品的居民比例为使方差达到最大时的消费奶制品的居民比例为5050,则全国样,则全国样本量应为:本量应为:根据以往调查的经验,估计回答率根据以往调查的经验,估计回答率b=80b=80,因此调整样,因此调整样本量为:本量为:多阶抽样的效率比简单随机抽样的效率低,这里取设计多阶抽样的效率比简单随机抽样的效率低,这里取设计效应效应deffdeff=3.2=3.2,则在全国范围内应调查的样本居民为:,则在全国范围内应调查的样本居民为:各阶的样本量配置为:各阶的样本量配置为:初级单元:初级单元:2020个城市;个城市;二级单元:每个样本市内抽二级单元:每个样本市内抽4 4个街道,共个街道,共8080个街道;个街道;三级单元:每个样本街道内抽三级单元:每个样本街道内抽2 2个居委会,共个居委会,共160160个居委会;个居委会;四级单元:每个样本居委会内抽四级单元:每个样本居委会内抽1010个居民户,个居民户,16001600个居户。个居户。在样本居民户内,利用二维随机表抽在样本居民户内,利用二维随机表抽1 1名成年居民。名成年居民。第三步:确定抽样方法。第三步:确定抽样方法。第一阶,在全国城市中按与人口数成比例的放回的不等第一阶,在全国城市中按与人口数成比例的放回的不等概抽样,即概抽样,即PPSPPS抽样。抽样。第二阶和第三阶分别按与人口数成比例的不等概等距抽第二阶和第三阶分别按与人口数成比例的不等概等距抽样。样。以第二阶为例,在某个被抽中的样本城市中,将其所属以第二阶为例,在某个被抽中的样本城市中,将其所属的街道编号,搜集各街道的人口数,赋予每个街道与其人口的街道编号,搜集各街道的人口数,赋予每个街道与其人口相同的代码数;根据该市总人口数除以样本量相同的代码数;根据该市总人口数除以样本量4 4,确定抽样间,确定抽样间距;然后对代码进行随机起点的等距抽样,则被抽中代码所距;然后对代码进行随机起点的等距抽样,则被抽中代码所在的街道为样本街道。在的街道为样本街道。第四阶,分别在每个样本居委会中,按等距抽样抽出第四阶,分别在每个样本居委会中,按等距抽样抽出1010个个民户。民户。即根据居委会拥有的居民户数除以样本量即根据居委会拥有的居民户数除以样本量1010得到抽样距,得到抽样距,然后随机起点等距抽样。然后随机起点等距抽样。在每个样本居民户中,调查员按二维随机表抽取在每个样本居民户中,调查员按二维随机表抽取1 1名成年居民。名成年居民。二维随机表的使用方法如下。二维随机表的使用方法如下。(1)(1)随机号的确定。应事先在随机表的第一行数字上,选好一个随机号的确定。应事先在随机表的第一行数字上,选好一个数字,并划上一个圈,被圈好的这个数字就是这份问卷的随机数字,并划上一个圈,被圈好的这个数字就是这份问卷的随机号。随机号的选择一般由小到大或循环给出。可以根据便于操号。随机号的选择一般由小到大或循环给出。可以根据便于操作又保证实现随机的原则,选择确定随机号的适当方法。作又保证实现随机的原则,选择确定随机号的适当方法。(2)(2)选出被访者。将所有符合基本要求的家庭成员按年龄从大到选出被访者。将所有符合基本要求的家庭成员按年龄从大到小的顺序列入随机表中,以事先做好的随机号为纵坐标、以最小的顺序列入随机表中,以事先做好的随机号为纵坐标、以最小家庭成员为横坐标,交叉处对应的数字即为被访者的序号。小家庭成员为横坐标,交叉处对应的数字即为被访者的序号。例如,某受访户的随机号确定为例如,某受访户的随机号确定为4 4,该户中家庭成员符合本次,该户中家庭成员符合本次调查要求的共有调查要求的共有4 4人。将这人。将这4 4人的基本情况按年龄从大到小的顺人的基本情况按年龄从大到小的顺序填入下面的二维随机表中。序填入下面的二维随机表中。序号序号 姓名姓名 性别性别 年龄年龄 1 2 3 4 5 6 7 8 9 10 11 12 1 肖明肖明 男男 53 1 1 1 1 1 1 1 1 1 1 1 1 2 汪红汪红 女女 52 2 1 1 2 1 2 1 2 1 2 2 1 3 肖晓波肖晓波 男男 23 3 2 1 1 3 2 2 1 3 1 2 3 4 肖晓玲肖晓玲 女女 21 4 1 3 2 2 3 1 4 3 2 4 1 5 5 4 1 2 3 4 1 2 3 5 4 2 6 7 8 9 10 11 12 表中,序号为表中,序号为4的列与年龄最小的家庭成员肖晓玲所在的的列与年龄最小的家庭成员肖晓玲所在的第第4行交叉的数字是行交叉的数字是2。因此,第。因此,第2号家庭成员汪红为被访号家庭成员汪红为被访者。者。第四步:推算方法。第四步:推算方法。记各样本城市的记各样本城市的8080位样本居民中,每天至少喝一杯鲜位样本居民中,每天至少喝一杯鲜奶的人数为奶的人数为aiai,则各样本城市每天至少喝一杯鲜奶的人,则各样本城市每天至少喝一杯鲜奶的人数所占比例为数所占比例为:全国全国16001600名居民组成的样本中,每天至少喝一杯鲜奶名居民组成的样本中,每天至少喝一杯鲜奶的总人数为的总人数为 ,则成年居民每天至少,则成年居民每天至少喝一杯鲜奶的人数所占比例为喝一杯鲜奶的人数所占比例为:的方差的估计为的方差的估计为:我国劳动力调查我国劳动力调查 约调查约调查6060万人万人,其中城镇其中城镇4040万万,农村农村2020万。万。以全国为总体以全国为总体,各省市区独立实施抽样。可采用:分层各省市区独立实施抽样。可采用:分层两阶整群抽样、分层三阶整群抽样、分层四阶整群抽样。两阶整群抽样、分层三阶整群抽样、分层四阶整群抽样。1 1、分层四阶整群抽样分层四阶整群抽样(1 1)对县级单元(县、县级市或市辖区)按照人口和劳动力)对县级单元(县、县级市或市辖区)按照人口和劳动力等特征分层;在第一阶段采用等特征分层;在第一阶段采用PPSPPS在每一层抽取县级单位;在每一层抽取县级单位;(2 2)对抽中的县级单位,采用)对抽中的县级单位,采用PPSPPS抽取乡级单位(街道、镇或抽取乡级单位(街道、镇或乡)乡);(3 3)对抽中的乡级单位)对抽中的乡级单位 ,采用,采用PPSPPS抽取村级单位(居委会或抽取村级单位(居委会或村委会)村委会);(4 4)对抽中的村级单位,系统抽样抽取调查小区(由)对抽中的村级单位,系统抽样抽取调查小区(由3030个最个最相邻的住址组成)。相邻的住址组成)。抽中的小区调查其全部住户及家庭成员。抽中的小区调查其全部住户及家庭成员。2 2、分层三阶整群抽样、分层三阶整群抽样(1 1)对乡级单元按照城乡及人口和劳动力等特征分)对乡级单元按照城乡及人口和劳动力等特征分层;层;在第一阶段采用在第一阶段采用PPSPPS在每一层抽取乡级单位;在每一层抽取乡级单位;(2 2)对抽中的乡级单位,采用)对抽中的乡级单位,采用PPSPPS抽取村级单位;抽取村级单位;(3 3)对抽中的村级单位,系统抽样抽取调查小区。)对抽中的村级单位,系统抽样抽取调查小区。抽中的小区调查其全部住户及家庭成员。抽中的小区调查其全部住户及家庭成员。3 3、分层两阶整群抽样、分层两阶整群抽样(1 1)对村级单元按照城乡及人口和劳动力等特征分)对村级单元按照城乡及人口和劳动力等特征分层;在第一阶段采用层;在第一阶段采用PPSPPS在每一层抽取村级单位;在每一层抽取村级单位;(2 2)对抽中的村级单位,采用系统抽样抽取调查小)对抽中的村级单位,采用系统抽样抽取调查小区。区。抽中的小区调查其全部住户及家庭成员。抽中的小区调查其全部住户及家庭成员。705.4 5.4 不放回不等概率抽样不放回不等概率抽样 一、包含概率与一、包含概率与PSPS抽样抽样 放放回回不不等等概概率率抽抽样样实实施施简简单单,数数据据处处理理也也不不复复杂杂,在在不不等等概概率率抽抽样样中中占占有有一一定定的的地地位位。但但是是由由于于放放回回抽抽样样有有可可能能重重复复抽抽到到同同一一单单元元,特特别别是是个个别别大大单单元元被被重重复复抽抽到到的的可可能能性性比比较较大大,这这就就在在一一定定程程度度上上影影响响了了样样本本的的代代表表性性,降降低低了了抽抽样样效效率率,也也不不易易被被实实际际工工作作者者所所接接受受。即即使使在在相相同同样样本本量量下下,放放回回抽抽样样的的精精度度比比不不放放回回抽抽样样的的差差。因因此此,我我们们仍仍有有必必要要研研究究不不放放回回不不等等概率抽样。概率抽样。事事实实上上,由由于于不不放放回回抽抽样样的的样样本本不不是是独独立立的的,因因此此无无论论是是实实施施还还是是数数据据处处理理,特特别别是是方方差差估估计计,都都要要比放回的多项抽样复杂得多。比放回的多项抽样复杂得多。71 在在放放回回的的不不等等概概率率抽抽样样中中,每每个个单单元元的的入入样样概概率率起起着着关关键键作作用用。在在不不放放回回抽抽样样中中,每每个个单单元元被被包包含含到到样样本本的的概概率率也也即即入入样样概概率率及及任任意意两两个个单单元元都都包包含含到到样样本本的的概概率率都都起起着着十十分分重重要要的的作作用用,它它们们通通称称为包含概率。为包含概率。对于固定的对于固定的n n包含概率满足以下性质:包含概率满足以下性质:(1 1)(2 2)(3 3)其其中中性性质质1 1是是显显然然的的。性性质质2 2是是对对每每个个已已在在样样本本中中的的单单元元而而言言的的,固固定定了了这这个个特特定定单单元元,总总体体中中其其它它N-1N-1个个单元在样本中只可能有单元在样本中只可能有n-1n-1个单元,因此个单元,因此其其中中最最后后一一个个等等式式利利用用了了性性质质1 1。性性质质3 3则则直直接接利利用用性性质质2 2:与与放放回回的的PPSPPS抽抽样样类类似似,对对于于不不放放回回不不等等概概率率抽抽样样,我我们们最最感感兴兴趣趣的的是是 与与单单元元大大小小 成成比比例例的的情情形。形。若仍记若仍记 ,则由性质,则由性质1 1有:有:以以后后我我们们将将这这种种不不放放回回的的与与单单元元大大小小成成比比例例的的概概率抽样称为率抽样称为PSPS抽样。抽样。严严格格的的PSPS抽抽样样实实施施起起来来非非常常复复杂杂。事事实实上上,只只有有当当n=2n=2时时,才才有有一一些些简简单单且且实实用用的的方方法法。在在不不放放回回抽抽样样的的情情形形,如如果果抽抽选选的的单单元元多多于于一一个个,要要使使入入样样概概率率与与单单元元大大小小成成正正比比以以及及对对调调查查估估计计值值的的误误差差进进行行估估计计都都比比较较复复杂杂。在在用用不不放放回回PSPS抽抽样样抽抽取取多多于于两两个个单单元元时时,情情况况就就更更加加复复杂杂。实实际际上上,这这仍仍是是一一个个需需要要进进行行认认真真研研究究的的问问题题。除除了了实实施施方方面面的的原原因因外外,当当n n大大时时,的的计计算算也也极极其其困困难难,而而这这对对于于方方差差估估计计是是不不可少的。可少的。二、霍维茨二、霍维茨汤普森估计量及其性质汤普森估计量及其性质 对对不不放放回回的的不不等等概概率率抽抽样样,总总体体总总和和Y Y的的估估计计采采用用霍霍维维茨茨(HorvitzHorvitz)与与汤汤普普森森(ThompsonThompson)提提出出的的以下估计量:以下估计量:注注意意这这个个估估计计量量与与多多项项抽抽样样的的汉汉森森赫赫维维茨茨估估计计量量 非非常常相相似似。事事实实上上,对对于于PSPS抽抽样样,由由于于 ,与相应与相应PPSPPS抽样的抽样的 完全一致。完全一致。霍维茨霍维茨汤普森估计量具有如下性质:汤普森估计量具有如下性质:(1 1)若若 ,则则 是是Y Y的的无无偏偏估估计,且它的方差为:计,且它的方差为:当当n n固定时,又有固定时,又有 (2 2)若)若 ,则,则 是是 的无偏估计。的无偏估计。又又当当n n固固定定时时,以以下下的的耶耶茨茨(YatesYates)格格伦伦迪迪(GrundyGrundy)森森(SenSen)估估计计量量 也也是是 的的无偏估计:无偏估计:不放回的不等概率整群抽样不放回的不等概率整群抽样 当当当当 固定时,对不放回抽样,如果总体每个固定时,对不放回抽样,如果总体每个固定时,对不放回抽样,如果总体每个固定时,对不放回抽样,如果总体每个群的入样概率与其群的大小群的入样概率与其群的大小群的入样概率与其群的大小群的入样概率与其群的大小 严格成比例,则严格成比例,则严格成比例,则严格成比例,则称之为严格的称之为严格的称之为严格的称之为严格的 抽样。抽样。抽样。抽样。若群的抽取是用严格的若群的抽取是用严格的若群的抽取是用严格的若群的抽取是用严格的 抽样方法进抽样方法进抽样方法进抽样方法进行的,则行的,则行的,则行的,则 的估计应该用霍维茨汤普森方的估计应该用霍维茨汤普森方的估计应该用霍维茨汤普森方的估计应该用霍维茨汤普森方法(法(法(法(Horvitz-ThompsonHorvitz-Thompson)。)。)。)。(n固定时)(n固定时)两阶段不放回的不等概抽样两阶段不放回的不等概抽样两阶段不放回的不等概抽样两阶段不放回的不等概抽样 设总体由设总体由设总体由设总体由N N N N个一阶单元组成,第个一阶单元组成,第个一阶单元组成,第个一阶单元组成,第i i i i个一阶单元个一阶单元个一阶单元个一阶单元包含包含包含包含 个二阶单元。第一阶段抽样是不放回的个二阶单元。第一阶段抽样是不放回的个二阶单元。第一阶段抽样是不放回的个二阶单元。第一阶段抽样是不放回的不等概率抽样,不等概率抽样,不等概率抽样,不等概率抽样,为第为第为第为第i i i i个一阶单元入样的概率,个一阶单元入样的概率,个一阶单元入样的概率,个一阶单元入样的概率,,为第为第为第为第i i i i和第和第和第和第j j j j个一阶单元同时入样的概率。第个一阶单元同时入样的概率。第个一阶单元同时入样的概率。第个一阶单元同时入样的概率。第二阶段是简单随机抽样。二阶段是简单随机抽样。二阶段是简单随机抽样。二阶段是简单随机抽样。此时,总体总和可采用以下形式估计:此时,总体总和可采用以下形式估计:此时,总体总和可采用以下形式估计:此时,总体总和可采用以下形式估计:可以证明可以证明可以证明可以证明 是是是是Y Y Y Y的无偏估计量,其方差为:的无偏估计量,其方差为:的无偏估计量,其方差为:的无偏估计量,其方差为:方差方差方差方差 的一个无偏估计量为:的一个无偏估计量为:的一个无偏估计量为:的一个无偏估计量为:83 三、三、n=2n=2的严格的严格PSPS抽样抽样 对对于于PSPS抽抽样样,由由于于作作为为总总体体总总和和的的霍霍维维茨茨汤汤普普森森估估计计量量的的形形式式相相当当简简单单,因因此此就就应应用用角角度度来来说说,是否便利主要在于它的实施方法以及是否便利主要在于它的实施方法以及 的的计计算算。当当n=2n=2时时,有有几几种种比比较较实实用用的的方方法法(但但在在具具体体应应用用中中,n=2n=2并并不不是是一一个个十十分分严严重重的的限限制制)。这这些些方方法法常常用用在在对对总总体体分分层层,在在每每层层中中抽抽取取两两个个样样本本单单元元的情况。的情况。84 (1 1)布鲁尔()布鲁尔(BrewerBrewer)方法)方法 该该方方法法要要求求对对每每个个i i,都都满满足足 ,即即总总体体(层层)中中的的最最大大单单元元必必须须小小于于全全部部单单元元大大小小总总和和的的1/21/2(若若不不然然可可以以将将这这个个“特特大大”单单元元作作为为必必调调查查的的单单元元)。两两个个样样本本单单元元采采用用逐逐个个抽抽取取法法抽抽取取:第第一一个个单元按与单元按与 成成比比例例的的概概率率抽抽取取;第第二二个个单单元元则则在在剩剩下下的的N-1N-1个个单单元中按与成比例的概率抽取。元中按与成比例的概率抽取。85 (2 2)德宾()德宾(DurbinDurbin)方法)方法 两两个个样样本本单单元元仍仍用用逐逐个个抽抽取取法法抽抽取取。第第一一个个样样本本单单元元以以 概概率率抽抽取取,设设抽抽到到的的是是单单元元i i;第第二二个个样样本本单单元元则则按按与与 成成比比例例的的概概率率抽抽取。取。由由于于此此时时的的 ,且且 与与布布鲁鲁尔尔方方法法的的相相等等,因因此此德德宾宾方方法法与与布布鲁鲁尔尔方方法法实实际际上上是是等等价价的的。应应用德宾方法也要求对每个用德宾方法也要求对每个i i,都满足,都满足 。86 四、四、n2n2的严格的严格PSPS抽样抽样 n2n2的的严严格格PSPS抽抽样样要要比比n=2n=2的的情情况况复复杂杂得得多多,即即使使可可以以实实现现,的的计计算算也也相相当当复复杂杂。下下面面仅仅介介绍绍三三种种方法。方法。(1 1)水野()水野(MidzunoMidzuno)方法)方法 这这也也是是一一种种逐逐个个抽抽取取方方法法,关关键键是是第第一一个个样样本本单单元的抽取,它是以概率元的抽取,它是以概率 抽抽取取的的。在在抽抽取取第第一一个个单单元元以以后后,在在剩剩下下的的N-1N-1个个单元中不放回地等概率抽取单元中不放回地等概率抽取n-1n-1个单元。个单元。87 (2 2)布鲁尔()布鲁尔(BrewerBrewer)方法)方法 这这是是n=2n=2的的布布鲁鲁尔尔方方法法在在n n2 2情情形形的的推推广广,也也采采用逐个抽取法。第一个单元是以与用逐个抽取法。第一个单元是以与 成比例的概率抽取。在第成比例的概率抽取。在第r r次抽取时,以与次抽取时,以与 成比例的概率从当时尚未入样的成比例的概率从当时尚未入样的单元中抽取一个单元。单元中抽取一个单元。88 (3 3)拉奥()拉奥(RaoRao)桑普福特(桑普福特(SampfordSampford)方法)方法 这这种种方方法法是是先先以以 的的概概率率抽抽取取第第一一个个样样本本单单元元,然然后后以以 与与成成比比例例的的概概率率有有放放回回地地抽抽取取n-1n-1个个单单元元(设设所所有有的的 )。一一旦旦有有单单元元被被重重复复抽抽中中,则则放放弃弃所所有有已已经经抽抽到到的的单单元元重重抽抽,直直到到抽抽中中的的n n个个单单元元都都不不同同为为止止。这这种种方方法法的的 也也比比较较复复杂杂,需需要要通通过计算机计算。过计算机计算。89 五、五、n2n2的两种非严格的的两种非严格的PSPS抽样抽样 当当n2n2时时,严严格格的的PSPS抽抽样样比比较较复复杂杂,特特别别是是在在对对包包含含概概率率 的的计计算算上上。为为此此统统计计学学家家研研究究了了一一些些非非严严格的格的PSPS抽样方法。抽样方法。(1 1)莫蒂()莫蒂(MurthyMurthy)方法)方法 (2 2)拉拉奥奥(RaoRao)哈哈特特利利(HartleyHartley)科科克克伦伦(CochranCochran)方法)方法本章内容讲授结束本章内容讲授结束915.4 5.4 不放回不等概抽样不放回不等概抽样 一、包含概率与一、包含概率与PSPS抽样抽样 放放回回不不等等概概抽抽样样实实施施简简单单,数数据据处处理理也也不不复复杂杂,在在不不等等概概抽抽样样中中占占有有一一定定的的地地位位。但但是是由由于于放放回回抽抽样样有有可可能能重重复复抽抽到到同同一一单单元元,特特别别是是个个别别大大单单元元被被重重复复抽抽到到的的可可能能性性比比较较大大,这这就就在在一一定定程程度度上上影影响响了了样样本本的的代代表表性性,降降低低了了抽抽样样效效率率,也也不不易易被被实实际际工工作作者者所所接接受受。即即使使在在相相同同样样本本量量下下,放放回回抽抽样样的的精精度度比比不不放放回回抽抽样样的的差差。因因此此,我我们们仍仍有有必必要要研研究究不不放放回回不不等等概概抽样。抽样。事事实实上上,由由于于不不放放回回抽抽样样的的样样本本不不是是独独立立的的,因因此此无无论论是是实实施施还还是是数数据据处处理理,特特别别是是方方差差估估计计,都都要要比放回的多项抽样复杂得多。比放回的多项抽样复杂得多。92 在在放放回回的的不不等等概概抽抽样样中中,每每个个单单元元的的入入样样概概率率起起着着关关键键作作用用。在在不不放放回回抽抽样样中中,每每个个单单元元被被包包含含到到样样本本的的概概率率也也即即入入样样概概率率及及任任意意两两个个单单元元都都包包含含到到样样本本的的概概率率都都起起着着十十分重要的作用,它们通称为包含概率。分重要的作用,它们通称为包含概率。对于固定的对于固定的n n包含概率满足以下性质:包含概率满足以下性质:(1 1)(2 2)(3 3)其其中中性性质质1 1是是显显然然的的。性性质质2 2是是对对每每个个已已在在样样本本中中的的单单元元而而言言的的,固固定定了了这这个个特特定定单单元元,总总体体中中其其它它N-1N-1个个单元在样本中只可能有单元在样本中只可能有n-1n-1个单元,因此个单元,因此其其中中最最后后一一个个等等式式利利用用了了性性质质1 1。性性质质3 3则则直直接接利利用用性性质质2 2:
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!