资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十一章 非抽样误差,经济与管理类统计学系列教材,第十一章 非抽样误差 经济与管理类统计学系列教材,1,本章要点,本章对非抽样误差的构成和各种非抽样误差的影响进行分析。具体要求:,正确理解非抽样误差的涵义、来源和特点;,对抽样框误差、无回答误差和计量误差的成因及其对抽样的影响有比较系统的理解;,掌握控制非抽样误差的基本思想。,本章要点 本章对非抽样误差的构成和各种非,2,第一节 非抽样误差构成,第一节 非抽样误差构成,3,一、非抽样误差的来源,非抽样误差就是由抽样误差以外因素引起的,因样本观察数据非同质、或残缺、或不真实而产生的误差。,为了使非抽样误差问题简单化,我们可以按照抽样调查的过程来考察其来源。,抽样方案设计阶段,数据收集阶段,数据处理阶段,一、非抽样误差的来源 非抽样误差就是由抽样误差以外,4,在抽样方案设计阶段,非抽样误差的来源:,(1)抽样框的编制与准备不够充分完善;,(2),问卷设计不够科学合理。,在数据收集阶段,非抽样误差的来源:,(1)调查数据的残缺;,(2),调查数据的错误。,在数据处理阶段,非抽样误差存在于对调查资料,的,整理、分组、计算、编码和计算机录入等过程中,,,是一种工作上的差错。,在抽样方案设计阶段,非抽样误差的来源:,5,把上述三个阶段的各种非抽样误差加以归纳,可以概括为,抽样框误差、无回答误差和计量误差,三类。,其中计量误差包括抽样方案设计阶段有缺陷的问卷设计、数据收集阶段有错误的调查数据和数据处理阶段工作上的差错所带来的误差,也就是调查性误差。,把上述三个阶段的各种非抽样误差加以归纳,可以概括为抽样框误,6,二、非抽样误差的特点,非特有性,:为,非抽样调查所特有;,非一致性,:,使抽样估计结果产生偏差,,并且样本越大产生偏差的可能性越大;,难测定性,:,难以对其进行描述和测定,具有很强的隐蔽性;,难评价性,:非抽样误差的存在使得,对抽样效果的评价与衡量复杂化,;,全过程性,:,存在于抽样调查的所有阶段。,二、非抽样误差的特点非特有性 :为非抽样调查所特有;,7,第二节 抽样框误差分析,第二节 抽样框误差分析,8,一、抽样框误差的成因,丢失目标总体中的单位:覆盖不足,丢失单位,使总体总值的估计值偏低;,包含非目标总体单位:过涵盖,空名单,异质单位;,如果在抽样框中同时出现“丢失单位”和“异质单位”,那么也许可能会相互抵消一部分,形成“净涵盖误差”。,复合联接,:,目标总体中的一个调查单位与抽样框中的多个抽样单位相联接,或抽样框中的一个抽样单位与目标总体中的多个调查单位相联接;,不够准确或不够完善的辅助信息;,抽样框陈旧,即抽样框老化;,一、抽样框误差的成因丢失目标总体中的单位:覆盖不足,丢失单位,9,二、抽样框误差的影响,(一)丢失单位的影响,在假定不存在其他原因的抽样框误差时,丢失单位对抽样效果的影响主要取决于两个方面:丢失单位的分布特征和丢失单位数所占的比重。其中,对总体均值的估计只与前者有关,而对总体总值的估计则与两者都有关。,二、抽样框误差的影响 (一)丢失单位的影响,10,(1)丢失单位是目标总体中的一个随机样本,具有与目标总体相同的期望与方差,则其对总体均值的估计影响不大,但对总体总值的估计会低估,。,(1)丢失单位是目标总体中的一个随机样本,具有与目标总体相同,11,抽样调查的原理与方法第十章抽样调查中的非抽样误差ppt课件,12,(2)丢失的单位是特殊群体,不具有与目标总体相同的期望与方差,那么对目标总体总值、均值的估计会产生偏差。,(2)丢失的单位是特殊群体,不具有与目标总体相同的期望与方差,13,偏差率为:,目标总体总值估计量的偏差为,:,目标总体总值估计量的偏差为:,14,抽样调查的原理与方法第十章抽样调查中的非抽样误差ppt课件,15,(二)包含异质单位的影响,(二)包含异质单位的影响,16,如果是目标总体总值的估计,则其估计量偏差和偏差率分别为:,很显然,这时的偏差或偏差率都是正的,即若抽样框中包含了异质单位必定会使目标总体总值的估计偏高。,如果是目标总体总值的估计,则其估计量偏差和偏差率分别为:很显,17,均值估计量方差会被高估或低估,总值估计量方差则一定是高估,即:,均值估计量方差会被高估或低估,总值估计量方差则一定是,18,如果在调查中异质单位可以被识别并被予以剔除的,可以把目标总体看成抽样框中的一个子总体或域。异质单位的标志值就取0。,在调查中剔除异质单位会增加估计量的方差,原因在于它使实际的样本容量变小了。增加的量为:,如果在调查中异质单位可以被识别并被予以剔除的,可以,19,(三)复合联接的影响,(三)复合联接的影响,20,抽样调查的原理与方法第十章抽样调查中的非抽样误差ppt课件,21,抽样调查的原理与方法第十章抽样调查中的非抽样误差ppt课件,22,抽样调查的原理与方法第十章抽样调查中的非抽样误差ppt课件,23,抽样调查的原理与方法第十章抽样调查中的非抽样误差ppt课件,24,(四)不正确辅助信息的影响,重在预防,积极补救,心理准备,(四)不正确辅助信息的影响,25,第三节 无回答误差分析,第三节 无回答误差分析,26,一、无回答误差的成因,(一)无回答的含义,无回答(,Nonresponse,),是指未能取得所要搜集资料的一种现象,它包括两种情况:,个体无回答和项目无回答。,个体无回答,也称全无回答,是指被调查者没有接受调查、造成整张问卷出现空白的 现象;,项目无回答,也称部分无回答,是指被调查者回答了问卷中的部分调查项目未能回答其它调查项目的现象。,不论是个体无回答还是项目无回答,都将导致调查数据残缺不全,从而最终影响估计结果,降低估计精度或可靠程度。因无回答而造成的估计误差,就称为无回答误差。,一、无回答误差的成因 (一)无回答的含义,27,(二)无回答的成因,1、遗漏了被调查者;,2、,被调查者地址不详;,3、调查内容未达被调查者;,4、,被调查者拒绝回答;,5、回答不准确或不知如何回答;,6、,忘记回答。,以上各种原因,有的属于客观性,有的则属于主观性;有的属于有意识,有的则属于无意识;有的属于调查人员方,有的则属于被调查者方。,(二)无回答的成因1、遗漏了被调查者;,28,二、无回答误差的影响,为了测定无回答对抽样的影响,先把总体分为两层:,回答层与无回答层。,就调查项目而言,如果无回答不是故意造成的(即与调查内容无直接关系),且无回答现象不集中于某类特殊单位组成的群体,那么就可以认为这种无回答是由随机因素引起的,这时无回答对抽样的影响是因实际有效的样本容量减少而使估计量方差增大,但却不会造成估计量偏差。估计量方差增大的程度取决于无回答率。,如果无回答是故意造成的(即与调查内容直接有关),或无回答现象集中于某类特殊的群体,那么无回答层与回答层之间就存在明显的非随机性差异,这时,无回答对抽样效果的影响,除了会增加估计量方差外,还会带来较严重的估计量偏差。,二、无回答误差的影响,29,如果在调查中出现 个无回答、 个有回答,( + = ),,那么当总体无回答层与回答层之间无差异时,估计量方差就变为:,=,从而估计量方差增大的量为:,= = =,其中 = = 1 为样本无回答率。,如果在调查中出现 个无回答、,30,估计量方差增大的程度则为:,1=,在这种情况下,为了达到抽样方案所规定的抽样估计效果,就需要增加样本容量。如果总体无回答率为 = ,那么样本容量应该确定为 = 。,估计量方差增大的程度则为:,31,如果令 = 为总体回答率, + =1,总体中回答层与无回答层的均值分别为 和 ,样本中回答层的均值为 ,那么当以 来估计总体均值 时,就会有偏差,为:,E( ) = ,= ( + ),=,( ),如果令 = 为总体回答率, +,32,偏差率为:,=,其中 = 为回答层均值与无回答层均值之比。,不难发现, 越接近于1(即无回答率越高), 越远离于1(即回答层与无回答层之间的均值差异越大),那么估计量的偏差就会越大,偏差率就会越高,估计结果就越不准确、越不可信。,偏差率为:,33,还要注意的一个问题是,虽然从理论上讲无回答会使估计量方差增大(即,),但在实际上却难以得到客观的反映,因为我们所能计算的只是 (此处的 是总体中的回答层方差,未知时要以样本方差 估计)。这样, 与 相比,当,时就会高估,当, 时估计量方差高估,当 ,, 那么当 =1时,必然会有 = ,,估计量方差低估或高估的现象也就自然会消除。可见,提高回答率是消除无回答影响的关键所在。,所以当 时估计,35,三、无回答误差的控制,(一)事前准备充分,争取尽量高的首 次回答率;,(二)搞清无回答的原因,有针对性地 进行复调查;,(三)必要时,对无回答者进行替;,(四)对于一些敏感性问题,可以采用随 机化回答技术(沃纳模型,西蒙斯模型,,格林伯格模型等),;,(五)当无回答不可避免时,可采用一些专门技术来调整估计结果,以减少估计偏差。,三、无回答误差的控制 (一)事前准备充分,36,具体的调整方法技术有以下几种:,1.,汉森与赫维茨,(,Hansen and Hurwitz,1946),方法。,2.,复制估算法。,3.,加权调整法。,具体的调整方法技术有以下几种:,37,1.,汉森与赫维茨,(,Hansen and Hurwitz,1946),方法。,这种方法是先对抽中的被调查者进行邮寄(问卷)调查,然后从那些无回答者中抽选出一个子样本进行访问调查并尽量取得完整资料,最后把邮寄调查结果与子样本访问调查结果综合起来得出总体指标的估计值。,这种方法的优点是比多次复调查法节省费用,且估计量无偏、估计精度容易掌握和控制,因此当子样本的个体资料能全部取得时比较适用。但所花的时间较长,且要保证取得子样本的完整资料也不容易。,1.汉森与赫维茨(Hansen and Hurwitz,38,设 为首次邮寄调查的样本容量, 为回答者数, 为无回答者数, = + 。,为从 中随机抽取的子样本容量。 为与 相对应的均值, 为与 相对应的均值,那么当令 = , = 时,总体均值 的无偏估计量为:,= +,设 为首次邮寄调查的样本容量, 为回答者数,,39,该估计量的方差为:,V( ) = +,其中 = , = , = , 为总体中无回答者数, 为总体方差, 为无回答层方差。,这个估计过程事实上是双重分层抽样估计过程,所不同的是回答层作了全面调查。,该估计量的方差为:,40,如果设为 首次邮寄调查的单位平均费用, 为回收问卷进行数据处理的单位平均费用, 为对子样本进行调查并数据处理的单位平均费用,那么总调查费用函数为:,= + +,如果设为 首次邮寄调查的单位平均费用, 为,41,当 既定时,使估计量方差达到最小的 和 为:,=,=,若,V( ),事先已定,则使总费用 达到最小 的可由下式给出:,=,当 既定时,使估计量方差达到最小的,42,2.复制估算法,这种方法是当无回答出现时,用其它已有的数据来顶替无回答的缺失数据,进而对总体作出估计。用来顶替的数据可以从同次调查的回答者数据中抽选,也可以从以前的同类调查数据中选取或推算而得。在实践中最常用的是从同次调查已取得的数据中随机抽取。,复制估算法的特点是,当顶替数据与无回答缺失数据充分接近时(这就要求与这两者数据相对应的单位来自于同一类别,具有相似的特征),能有效减少估计偏差,但却会增大估计量方差(均方误差)。因此,如果我们能对总体进行分层且适当增大样本容量,那么复制估算法就能很好地解决无回答偏差问题,且保证有较高的估计精度。这种方法尤其适用于“项目无回答”。,2.复制估算法 这种方法是当无回答出现时,用其它已有的,43,Hansen,等人曾给出当顶替数据从回答数据中随机抽取时的复制估计量及其方差。总体均值估计量为(此处表达方式作了改变):,=,其中 从 个已知数据中随机抽取。当 0.5 时,每个已知数据最多被抽取一次,当 0.5 时则可能被抽取两次。,Hansen等人曾给出当顶替数据从回答数据中随机抽,44,当 0.5 时,该估计量的方差为:,V( ) = 1+ ,当 0或 0。,二、计量误差的影响 计量误差存在于调查单位之中。如果设,53,1、,如果调查单位的计量误差是随机出现的,那么总正差与总负差大致相等,即,E,( )=,E,( ),,也即,E,( )=,0,。,这时,计量误差的存在不会改变估计量的偏差性,但会改变估计量方差的大小。,设 为总体均值,,E,( )= ,,那么有:,= +,= +,2,( )+,E,=,E,+,E,( ),+,2E,(,),1、 如果调查单位的计量误差是随机出现的,那么总正差,54,由于,E,( )=,0,,,E,( )=,E,=,V,( ),,故,MSE,( )=,V,( )+,V,( ) +,2E,( ),其中,E,( ),为调查单位计量误差与真实离差之间的协方差。,由于E( )= 0,E( )=E,55,当样本容量为 时,无计量误差的总体均值估计量方差为:,( )=,有计量误差的估计量方差(均方误差)为:,MSE,( )= (,1,),即:,MSE,( ),=,(,),+,V,( ),+,2E,( ),当样本容量为 时,无计量误差的总体均值估计量方,56,若,2,E ( )+ V( )0,,那么,MSE( ) V( ),MSE( ),0,,,那么,MSE( )V( ), MSE( ) ( ),,,即估计量方差被高估了。不论是高估还是低估,估计效果都不能得到真实的反映。,若2E ( )+ V( ),57,2 、,如果调查单位的计量误差不是随机出现、而是存在一定的系统性,那么就会正差大于负差,这时计量误差就变成为估计量的计量偏差, 即,E,( ),E,( )= ,,从而计量误差的存在既改变了估计量的偏差性,也改变了估计量方差的大小。在这种情况下,我们可以得到:,=,E,( )+,E,( )-,u,E,=,E,+,MSE,( )=,V,( )+,其中,V,( ),为有计量误差时的观测值的估计量方差。,2 、如果调查单位的计量误差不是随机出现、而是存在一定,58,注意到,E( ) 0,E( ) V( ),,,可得:,( )=,V( )+ E( )+2E ( ) ,如果, ,E( )+2E ( ) ,,,则,V( ) ( ),,,估计量方差低估。如果相反,则估计量方差高估。非随机性的计量误差越严重,估计量方差低估或高估的程度就越强。,注意到E( ) 0,E( ) V( ),可得:,59,三、计量误差的控制,(一)精心设计;,(二)对调查员要严格要求,精心挑选,加强培训;,(三)在每次调查中,都要对被调查者作耐心的宣传说服工作;,(四)加强统计执法,规范统计调查活动;,(五)要合理确定调查时间、调查方式和调查周期;,(六)必要的检查和调整;,(七)控制计量工具或技术设备原因的误差;,(八)对最后的估计结果要进行必要的质量检查。,三、计量误差的控制(一)精心设计;,60,必要的检查和调整:,对于一些重要的统计调查,要通过必要的方法和手段对调查数据进行检查,以发现各种计量误差(尤其是有意识的误差),并通过检查结果来调整对总体的估计,提高估计的精度和可靠度。检查的方法一般是,从容量为,n,的样本中抽取一个容量为 的子样本(0 1),对其进行更细致、更认真的复查,取得尽量准确的数据。如果发现子样本的原调查数据存在计量误差,就要对由原样本作出的估计进行调整,并根据双重抽样的原理计算估计量方差。,必要的检查和调整:,61,具体的调整方法有(以纯随机抽样为例):,1.替换调整法。,这种方法先以子样本的复查数据替换原调查数据,然后再计算出新的样本指标值(如样本均值)来估计总体。这时,总体均值估计量为:,=,其中 =,当,1,时,估计量是有偏的。,具体的调整方法有(以纯随机抽样为例):,62,估计量的均方误差为:,MSE( )= +(1 ),其中 为观测值的总体方差(含计量误差), 为真实的总体方差(不含计量误差)。 为估计量偏差( )。,估计量的均方误差为:,63,2.比率估计调整法。,这种方法以观测值为辅助标志,以子样本复查均值与原调查均值之比作为调整比率。这时总体均值估计量为:,=,其中,= , = , = 。,2.比率估计调整法。,64,估计量的均方误差为:,MSE( )= + ( 2 + ),其中 为总体真实均值与总体观测均值之比, 为真实值与观测值之间的相关系数。,= , = 。,估计量的均方误差为:,65,3.回归估计调整法。,这时的总体均值估计量为:,= + ( ),其中 = 。,估计量的均方误差为:,MSE,( )= + (,1,),当然,在实际调整时,以上的 、 、 、 和 等都要由子样本的资料来估计。,3.回归估计调整法。,66,编号为奇数的习题答案,11.1判断题,(1)对;(3)对;(5)对;(7)对;(9)对;(11)错;,11.2试分析以下几种情况可能包含哪些非抽样误差,(1)抽样框误差;(3)抽样框误差;(5)计量误差,11.3选择题,(1),b;(3)d;,11.4(,略); 11.5(略); 11.6(略),11.7,(1)无回答偏差估计为:,(2)偏差率为:,(3)增加最初样本的容量,但如果无回答率和回答者与无回答者之间的赞成率没有变化,则无回答引起的偏差不会变化。,编号为奇数的习题答案11.1判断题,67,
展开阅读全文