比估计与回归估计ppt课件

资源描述

第七章比估计与回归估计 1 第七章比估计与回归估计教学目的通过本章的教学使学生了解比率估计回归估计的意义掌握简单随机抽样的比率估计回归估计的方法以及差值估计的方法等重点与难点本章的重点是简单随机抽样的比率估计回归估计的方法以及差值估计的方法等难点是简单随机抽样的比率估计回归估计的方法 2 本章结构 3 前面讨论的简单随机抽样和分层抽样我们所关心的参数都是单指标的给出的估计量也是线性形式这一章我们将要讨论比较复杂的情况我们关心的参数不再是单指标的而是两个或两个以上的指标此时遇到的统计量不再是线性形式往往呈现出非线性形式比如两个变量之比或呈现变量之间的回归关系 4 所谓回归关系就是变量之间的关系不是确定的是带有随机影响的比如身高和体重的关系身高增加时一般来说体重也会增加但又不能说一定如此要确定身高和体重的关系一般用回归的方法这类问题首先是由英国统计学家高尔顿研究儿子的身高与父亲身高关系时提出的他发现儿子的身高有回到家族平均身高的趋势因而把所得关系式称为回归方程于是回归的名词就沿用下来了 5 7 1比估计及其性质设有一个二元变量的总体有4个参数是我们所熟悉的指标的平均数指标的方差 6 7 如果简单随机样本为则及的估计为 7 3 7 4 8 在讨论比估计之前先考察总体的两个平均数之比即由于分别是的无偏估计的估计自然定义为 9 假如或已知总体平均数与总体总和的比估计量定义为 7 5 7 6 通常的比估计是指 7 5 式与 7 6 式而则称为比值的估计由 7 5 式与 7 6 式可知与的习性主要依赖于估计量因此在不少场合我们常用来说明 10 尽管分别是的无偏估计由于的非线性形式因此关于是有偏的从而关于也是有偏的一个合理的估计量应该随着样本容量n的增加估计量的期望与参数之差应该越来越小并渐渐趋于零即渐近无偏 11 比估计是否渐近无偏呢利用Taylor展开式有将比估计表示为 7 7 12 当n相当大时与相当接近而是常数又是的无偏估计因此实质上所以 7 7 式的好处不单单告诉我们这一事实而且告诉了我们当n相当大时表明可以表示成的平均数因此的分布可近似正态分布因此可利用近似标准正态分布获得的置信区间 7 10 13 公式 7 8 7 9 7 10 为我们提供了的估计量的形式具体计算时只要将分别换为即可我们将由此得到的估计量分别记为那么的置信水平为的置信区间分别为 14 下面说明比估计的优点主要针对与来说明因为它们仅相差一个常数因子因此只需讨论其中一个就可以当n充分大时而欲使仅需或 15 7 12 表明如果变量X与Y正相关且相关程度非常密切的话那么比估计的精度高于简单随机抽样的精度如果相关程度不那么密切此时已知的X信息并没有较多地提供Y的信息借助X来推断也许会帮倒忙假如X与Y是负相关则更不能采用比估计方法此时应采用所谓乘积估计即 7 13 成立 16 例7 1某县小麦种植面积为218756亩分布在N 576个村为估计全县产量随机无放回地抽取n 24个村所得数据如下 17 每个村有两个指标面积和产量即经计算可得所以该县平均亩产小麦估计为采用比估计可得和分别为 18 仅利用数据估计该县小麦总产量与估计量方差分别为显然的方差远远小于的方差理由很清楚小麦亩产量与土地拥有量呈现正相关且相关程度相当密切因此在抽样调查中对每个村了解有关产量和土地亩数利用已知该县土地的固有已知数能比较精确地推断总产量事实上在实际操作中人们正是这样去做的现在来求总产量的95 的置信区间 19 7 2分层抽样中的比估计 1 分别比估计设总体分为k层第h层的样本均值记为在该层中与的比估计记为又记和为第h层中指标的平均数与总和与分别为该层中的方差和协方差若换为换为则显然表示该层样本的方差和协方差我们可以得到有关总体和的分别比估计为分层抽样中的比估计有两种一是分层之后先在各层获得比估计然后按层权平均得到总体参数估计二是先对作分层估计然后再采用比估计方法前者称为分别比估计后者称为联合比估计 20 7 15 7 16 由上节可知各层中的是的渐近无偏估计量因此是的渐近无偏估计量各层的抽样又是独立进行的由 7 10 式可以近似得到的方差或均方误差当各个都相当大时 7 17 7 18 21 7 17 7 18 告诉我们即使每层相当大但如果层数k比较大由于误差的积累产生的偏倚与误差可能相当大 2 联合比估计而的相应联合比估计可以写成 7 20 7 21 22 为与分别比估计进行比较我们讨论联合比估计的期望和方差当n相当大时有 7 23 其中为总体的比值 7 22 7 22 表明是的渐近无偏估计 7 23 与 7 18 非常相似唯一不同的是在 7 18 中用的是各层的比值而 7 23 中用的是总体的比值 23 3 分别比估计与联合比估计的比较 7 24 仅就总体总和进行比较如果各层的相当大由 7 18 和 7 23 可得当对一切h有时这两种估计方差相同也就是说当分层对比值并无多大意义情况下谈论分别比估计与联合比估计孰优孰劣已经无多大意义 24 然而如果各层有自己的特色不可能在每一层均等于此时倘若对每一层来说与之间的关系是比例关系即此时于是 7 24 式内求和式内每一项中括号内第二部分等于零这样显然有即分别比估计比联合比估计精度高一些其实只要比估计非常有效即对一切h 时这一项值相对地就小此时中括号中均以第一部分占主导地位仍有当然有些层的不是相当大这种场合分别比估计的偏倚可能很大而使总的均方误差增大于是我们宁可采用联合比估计的方法 25 7 3数值例子例7 2某地区有976个自然村根据该地区的地貌将各村所属耕地划为三种类型各村按类型上报了耕地面积以亩计算为核实这些上报数据采用按比例分配的分层随机抽样方法在每一种类型中抽取若干村进行实测核实倘若以X表示上报数据以Y表示实测数据抽样结果如下表 26 27 有关计算结果及其它数据如下表试对总体总和该地区实际耕地面积总和用各种手法进行估计 28 1 简单随机抽样估计由于分层抽样是在各层按比例分配进行的因此可以将23个村所得数据看作是从总体976个村中抽取的一个较合理的简单随机样本上表中最后一行的数据都是基于这样的简单随机样本而计算的为求精度常用其标准差若用则有 29 然而我们的这些数据毕竟是从分层抽样而得到的利用分层估计真正的简单随机抽样的平均数的方差可以借用一个近似公式用于按比例分配的分层抽样情况也许更为精确 7 25 此时两种算法的差距并不大 30 2 简单随机抽样比估计 3 分层随机抽样简单估计 31 4 分层随机抽样分别比估计 5 分层随机抽样联合比估计 32 从以上五种情况的结果分析两种简单估计的精度较差因为他们没有充分利用已知的及的信息三种比估计由于利用了的信息显然精度大大提高了同时我们注意到分层随机抽样的两种比估计比起简单随机抽样的比估计效果略好一些这是因为在实际测量中已分的三层的确有所区别最后我们指出在分层随机抽样中分别比估计与联合比估计有着几乎差不多的效果这正是我们在正文中所阐述的理由当每层抽样容量不很大时联合比估计不比分别比估计来的差 33 一个有趣的事实是对于的估计恰好三个比估计比起两个简单估计要略低一些由于随机性当然我们不能指认到底哪一个估计比较接近事实但是三种比估计统统略低会使我们产生这样一个想法这是否会是由于比估计本身时有偏性而引起的呢对于上面具体例子我们缺乏根据说它们偏小了些但是比估计的有偏性却在理论上是无法否认的事实调查工作者与统计学家一直在设法尽力减少偏差这称为估计量的纠偏 34 7 4回归估计量前面讨论的比估计之所以能在精度方面获益匪浅是因为我们充分利用了已知的辅助变量X的信息而且这个辅助变量X与我们所关心的变量Y之间有着密切的关系这种关系越密切对Y的某些指标的估计精度就越高现在假定变量Y与X之间存在着线性回归关系但不是通过原点又假设X的信息已知或部分已知我们想利用X的信息提高对Y的估计精度 1 简单随机抽样情况设从总体中随机无放回的抽取样本若变量关于的回归直线不通过原点具有如下形式 7 26 35 的回归值估计为相应的总体总和的回归估计为这里可以是一个设定的常数也可以是估计得到的回归系数例如若设定则即为简单估计量若令是一个估计量则其中是的估计量为方便起见记我们可以用所有N个的回归值的平均值来估计总体平均数这样就得到的线性回归估计倘若已知有即为比估计量可见回归估计包含简单估计和比估计 7 27 7 28 7 29 36 1 为设定常数的情形这种情况在实际应用中是存在的比如为同一目的进行的调查已重复进行多次将以前数据中关于计算而得的回归系数倘若前几次该系数比较稳定在某一数值的话直接作为最新调查的设定值首先研究这种简单回归估计值的期望注意到是的无偏估计又是的无偏估计因此有 7 30 即回归估计量是总体平均数的无偏估计的方差可计算为 7 31 37 由 7 30 以及 7 31 可知无论是怎样的设定值总是的无偏估计估计的精度与的设定值有关 7 31 式的右端实际上是的二次三项式又由于前的系数为是个正数因此只要适当选取就可使达到最小值利用高等数学的知识可得使达到最小值的应为其中为X和Y的相关系数此时最小方差为 7 33 7 32 38 2 取样本回归系数的情形 7 34 这实际上就是样本回归系数利用得到的回归由于是比值型随机变量与比估计一样的理由不可能是总体平均数的无偏估计 39 因此对简单随机抽样当样本容量n相当大时回归估计不管是否设定的方差均近似地看作与简单随机抽样时的简单估计的方差相比只要则回归估计一定优于简单估计至于的情况则表示X与Y没有任何线性关系那么用X Y的线性回归来估计就相当于单纯依赖去估计回归估计与简单随机抽样时的比估计相比孰优孰劣呢当n相当大时比估计的方差为 40 欲使回归估计优于比估计当且仅当即这是一个当然的不等式一般情况总是回归估计优于比估计除非此时这两种估计量效果几乎一样当n相当大时或如何估计呢 41 42 实质上是残差平方和其自由度为 n 2 因此得到或的估计为 7 36 43 为样本回归系数故例7 3 续例7 1 使用回归估计继续讨论某县小麦亩产与总产量问题样本回归系数小麦产量的估计为 44 小麦总产量的估计为显见回归估计比起比估计精度略高一点但相差不大它们比简单估计则要精确的多 2 分层随机抽样情况与比估计情形一样在分层随机抽样中考虑两种形式的回归估计分别回归估计与联合回归估计 45 1 分别回归估计所谓分别回归估计就是先在各层中对该层的平均数或总和进行回归估计然后再按层权平均或相加设第h层的样本平均数回归估计为那么分别回归估计为其中分别为第h层的样本均值回归参数 7 38 7 37 46 当各层的为预先设定时那么这两个估计量都是无偏估计量又由于各层抽样都是相互独立的由 7 31 式立即可得 7 39 并且当时达到最小值 7 40 47 7 41 7 42 7 43 若以表示第h层的相关系数那么的估计为当各层的都比较大时如果需要利用样本来估计还是采用最小二乘估计 48 2 联合回归估计然后构造与的联合回归估计联合回归估计是先对与作分层估计同样当事先给定时它们是无偏估计方差为 7 46 7 44 7 45 49 它在取如下值时达到极小值 7 47 7 49 这里的恰好就是分别回归估计中的它使分别回归平均数估计的方差达到最小为比较分别回归估计与联合回归估计之间的优劣将代入 7 46 式再减去 7 40 式右边得到差为 50 直观上这是因为分别方法比起联合方法更多地关心到各层的指标与特征只要分层有意义也就是说所划分的层各具有自己鲜明的特色那么分别对各层过多的关注将当然地得到精度上的回报以回归估计来说如果各层的回归系数相差很大那么分别回归估计的效果将更加显著 7 51 式表明若在分别回归估计中设定最优又在联合回归估计中设定最优那么除非一切最优均等于分别回归估计总是优于联合回归估计的我们又一次谈到对于分层抽样来讲分别估计总是优于联合估计不管是比估计还是回归估计都是如此当必须根据样本来进行估计时我们当然地取的样本来估计 51 7 50 如果样本量按比例分配又用代替 7 50 式中的则 7 51 7 52 的方差可以近似计算为 52 它可用下式进行估计 7 53 以上讨论都是建立在X Y之间有较强烈回归关系的基础之上倘若在各层内回归规律性不是很强则除非均相当大否则也许还是采用联合估计比较稳妥一些若各层的抽样容量不太大的变化也不大各层特色不明显则为了避免由过小而引起的偏倚此时宜用联合回归估计若的变化比较大各也比较大由以上分析自然采用分别回归估计效果会更好一些 53

展开阅读全文

比估计与回归估计ppt课件

最新文档