资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,Statistics,第五章 比率估计与回归估计,本章要点,本章讨论了简单随机抽样和分层随机抽样下比率估计量和回归估计量的构造及性质。要求:,掌握总体比率、比率估计量及回归估计量的概念。,了解比率估计量、回归估计量的偏倚、方差及方差的估计量。,掌握应用比率估计量及回归估计量的条件。,2,第一节 问题的提出,在许多实际问题中常常涉及两个调查变量(指标),Y,和,X。,对于包含个抽样单元的总体除了对总体信息进行估计外,常常要估计总体比率,R。,总体比率在形式上总是表现为两个变量总值或均值之比。,在涉及两个变量的抽样调查中,有两种情况需要应用比率估计量。一种情况是利用双变量样本对总体比率进行估计需应用比率估计量,此时两个变量均为调查变量。另一种情况是一个变量为调查变量,另一个变量表现为与调查变量有密切关系的辅助变量,在对调查变量总体总值、总体均值等目标量进行估计时,利用已知的辅助变量信息构造比率估计量可以改进估计的精度。,基于这种考虑利用已知的辅助变量信息构造比率估计量就可使估计精度加以改进。,3,第二节 比率估计,一、比率估计量,设对有两个调查变量,Y,和,X,的总体进行简单随机抽样,分别以,y,x,表示样本总值,以 表示样本均值,以 为样本比率,用 作为总体比率,R,的估计称为的比率估计。,比率估计量除了使用调查变量样本信息外,还要使用辅助变量总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂估计量。由于比率估计量使用的信息比简单估计量多,因而有可能比简单估计量有更高的精度。同时由于比率估计量是非线性估计量,因而对其性质的研究比对简单估计量要复杂得多。,4,二、,比率估计量的偏倚与均方误差,比率估计量是有偏估计量,但当样本量增大时其偏倚将趋于零。,理论上可以证明,分别为 的近似无偏估计量,而且对于比率估计量,其方差主要取决于 与 之间的差异,当 时,估计量方差将很小。换言之,比率估计量将有很高的精度。这告诉我们,只有当两个变量大致成正比例关系时,应用比率,估计量才能使估计精度有较大改进。,5,三、比率估计量方差的估计与置信区间,对于一般的,n,,比率估计量呈右偏分布,只有当,n30,0.1,0.1,这些条件同时满足时才能直接用正态分布构造置信区间。,R,的置信区间为,其中 是标准正态分布的上,/2,分位点,,0,1。,类似可得 、,Y,的置信区间。,6,案例一,7,解 答过程,8,案例二,9,解答过程,10,四、比率估计量优于简单估计量的条件,定量分析计算表明,并非任何情况下比率估计量都优于简单估计量,只有当调查变量与辅助变量有较高的正相关性时比率估计量才能使估计精度有较大提高。若 ,则只需当,0.5,时比率估计量就比简单估计量精度高。,11,五、多元比率估计,对于调查变量,Y,,若有,p,个具有正相关性的辅助变量 则可构造多元比率估计。,设 是 的基于第,k,个辅助变量的比率估计,则 的多元比率估计量为:,其中 是相应变量的样本总值,是辅助变量总体均值,是适当选取的权,满足 。,利用拉格朗日乘数法可计算得,此时最小方差为,12,案例三,13,解答过程,14,六、乘积估计,当辅助变量,X,与调查变量,Y,呈负相关关系时,不能应用比率估计而应改用乘积估计,乘积估计优于简单估计的条件是,此时,在实际问题中与调查变量呈负相关的变量很少见,因此乘积估计应用极为有限。,15,第三节 回归估计,一、定义,在简单随机抽样下,总体均值 和总体总值,Y,的回归估计量定义为:,其中 ,分别为调查变量、辅助变量的样本均值,是辅助变量的总体均值,称为回归系数。,16,二、,为设定常数情形,设 是设定常数,取,,,则回归估计量,是 的无偏估计量。其方差为,当 时,达最小值,17,三、,取样本回归系数情形,若,需根据样本确定,一个合理的选择是取,为样本回归系数,此时 的回归估计量,为一复杂估计量,不再具有无偏性。,18,四、回归估计与比率估计及简单估计的大样本比较,对于大的样本量,总有,这就是说在大样本下回归估计总是优于简单估计,仅在,0,时两者效果相同。,的充分必要条件为,这等价于,因此除非,Y,关于,X,的总体回归系数,BR,,否则回归估计总是优于比率估计,仅在,BR,时两者效果相同。,19,案例四,20,解答过程(,1,),21,解答过程(,2,),22,解答过程(,3,),23,第四节 分层比率估计与分层回归估计,一、分别比率估计与联合比率估计,(一),分别比率估计,24,(二),联合比率估计,25,二 分别回归估计与联合回归估计,(一)分别回归估计,26,(二)联合回归估计,27,三、各种估计量的比较,对分层随机抽样在有辅助变量可利用时,为提高估计精度可以采用分别比率估计、联合比率估计、分别回归估计、联合回归估计等多种形式的估计量,因此自然存在一个问题,即如何对这些估计量进行比较。,由以上各种估计量的构造可以知道,分别比率估计和分别回归估计必须使用总体各层的辅助变量均值 或总值 的信息,而联合比率估计和联合回归估计不要求使用总体各层的辅助变量信息,只要求使用总体的辅助变量均值 或总值,X,的信息,分别估计量比联合估计量对总体信息的使用更详细一些,因此,当各层样本量 都比较大时,分别比率估计精度比联合比率估计高,分别回归估计精度比联合回归估计高。,但是各层样本量 较小时,分别比率估计、分别回归估计将有较大偏倚,从而均方误差比较大。此时如果总样本量比较大,则采用联合比率估计、联合回归估计更好一些。,28,案例五,29,解答过程(,1),相邻两年产量之间存在较高的正相关性,因此对今年平均亩产进行估计时以去年产量为辅助变量构造分层比率估计和分层回归估计是适宜的,此处,(,1,)分别比率估计,30,解答过程(,2),(2,)联合比率估计,31,解答过程(,3,),(3,)分别回归估计,32,解答过程(,4,),(4),联合回归估计,以上结果表明不论是比率估计还是回归估计,总有分别估计量优于联合估计量;不论是分别估计量还是联合估计量,总有回归估计优于比率估计。,33,编号为奇数的习题答案,5.1,2000,36,1 0.95,t1.96,0.018,,0.000015359,,,0.00392,置信区间为 。,5.3,当 时用第一种方法,,当 时用第二种,方法,当 时两种方法都可使用。这是因为:,,,若 则 0,0,34,5.5,证明:由(5.6)得:,5.7,解:,故估计量 虽然与 一样都是 的无偏估计,但方差不小于 的方差,当,时,,故 不优于 。,35,
展开阅读全文