计量经济学04

上传人:1505****484 文档编号:240723664 上传时间:2024-05-03 格式:PPT 页数:42 大小:1.52MB
返回 下载 相关 举报
计量经济学04_第1页
第1页 / 共42页
计量经济学04_第2页
第2页 / 共42页
计量经济学04_第3页
第3页 / 共42页
点击查看更多>>
资源描述
计量经济学计量经济学0404Copyright2011PearsonAddison-Wesley.Allrightsreserved.大纲大纲1.遗漏变量偏差2.因果关系与回归分析3.多元回归与OLS4.拟合优度5.OLS估计量的抽样分布6-2Copyright2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差遗漏变量偏差(教材教材6.1节节)遗漏变量总是存在的误差u产生于那些影响Y但没有被包含在回归方程中的因素或变量。存在遗漏变量的后果在有些情况下,遗漏这些变量会导致OLS统计量有偏。6-3Copyright2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差(续)遗漏变量偏差(续)因为遗漏的因素或变量导致OLS估计量的偏差叫做遗漏变量偏差。遗漏变量“Z”必须满足以下两个条件:1.Z是Y的决定因素(即Z是u的一部分);并且2.Z与回归变量X相关(即corr(Z,X)0)两个条件同时成立才导致遗漏变量偏差。6-4Copyright2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差(续)遗漏变量偏差(续)测试成绩的例子中:1.英语语言能力(学生是否将英语作为第二语言)似乎影响标准化成绩分数:Z是Y的一个决定因素。2.移民社区往往并不富裕,因此学校预算较少,学生/教师比更高:Z与X相关。因此,是有偏的。这一偏差的方向是怎样的?常识判断如何?若不能用常识来判断,则有公式5Copyright2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差公式遗漏变量偏差公式回顾方程:1=其中vi=(Xi)ui(XiX)ui.在最小二乘假设#1下,E(XiX)ui=cov(Xi,ui)=0.但若E(XiX)ui=cov(Xi,ui)=Xu0,则结果会怎样?6Copyright2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差遗漏变量偏差公式公式(续)续)在最小二乘假设#2及#3下(即仅LSA#1不成立),1=,其中Xu=corr(X,u).若假设#1成立,则Xu=0,但如果不成立,我们有7Copyright2011PearsonAddison-Wesley.Allrightsreserved.遗漏变量偏差公式遗漏变量偏差公式:若遗漏变量Z同时满足:1.是Y的一个决定因素(即包含于u中);并且2.与X相关,则Xu0且OLS估计量是有偏的且不一致的。例如,英语为第二语言者少的地区(1)标准化测试成绩较好(2)班级规模小(较多预算)因此,忽略这个因素的影响会导致班级规模的效应被高估。在加州的数据中,这一现象存在么?1+8Copyright2011PearsonAddison-Wesley.Allrightsreserved.较少英语学习者地区的测试分数高些英语学习者比例较低地区的班级规模较小在英语学习者比例相当的地区中,班级规模效应很小(回顾:总体“测试分数差”=7.4)9Copyright2011PearsonAddison-Wesley.Allrightsreserved.因果关系及回归分析因果关系及回归分析测试分数/学生教师之比/英语学习者比例的例子表明:若遗漏变量满足遗漏变量偏差的两个条件,则OLS估计量是有偏的且非一致的。因此,即便样本n很大,估计量也不会逼近真实1.由此产生了一个深层次问题:1是如何定义的?进行回归分析时到底想要估计什么?10Copyright2011PearsonAddison-Wesley.Allrightsreserved.进行回归分析时到底想要估计什么进行回归分析时到底想要估计什么?该问题的三个(至少)合理回答:1.估计穿过散点图的直线的斜率作为数据的简单概括,并没有赋予太多实际的含义。该方法有时很有用,但不是很有意思,也不是本课程所讨论11Copyright2011PearsonAddison-Wesley.Allrightsreserved.2.基于我们所知的X值,预测不在数据集内的Y值预测是经济学家的重要工作,出色的预测可以通过回归方式实现,却不一定需要知道因果关系。我们后面会讨论预测。12Copyright2011PearsonAddison-Wesley.Allrightsreserved.3.我们需要估计X的每一单位变化对Y产生的因果效应这是我们对班级规模感兴趣的原因。假设校董会每个班级减少2个学生,将会对测试分数产生什么影响呢?这是一个因果关系问题(即学生/教师之比对测试分数的因果效应如何?)为此,我们需要估计这种效应。除了预测,本课程的目的也是用回归方法估计因果效应。6-13Copyright2011PearsonAddison-Wesley.Allrightsreserved.准确地讲,什么是因果效应?准确地讲,什么是因果效应?“因果”是一个复杂的概念!本课程采用一种实际的方式来定义因果关系:因果效应被定义为在理想化随机对照实验中所度量出的效应。5-14Copyright2011PearsonAddison-Wesley.Allrightsreserved.理想随机对照试验理想随机对照试验理想:所有试验对象都服从处理方案完全遵守,无报告差错等随机:来自关注总体的试验对象被随机分配至处理组与对照组(因此没有混淆其他因素)对照:采用对照组度量处理结果的不同效应试验:处理组作为试验的一部分:实验对象没有选择,所以不存在“反向因果”,即实验对象选择他们认为好的处理方式。6-15Copyright2011PearsonAddison-Wesley.Allrightsreserved.回到班级规模实例中回到班级规模实例中:设想一个理想随机对照试验来度量减少学生/教师之比对测试成绩的影响效应试验中,学生被随机分配到不同规模的班级由于随机分配,所有的学生特征(因而ui)的分布将独立于学生/教师比STRi因此,E(ui|STRi)=0即在随机对照试验中LSA#1满足6-16Copyright2011PearsonAddison-Wesley.Allrightsreserved.观察数据与理想数据如何不同?观察数据与理想数据如何不同?处理组的试验对象并非随机分配的考虑学区中PctEL英语学习者比例.该变量满足遗漏变量偏差的两个标准:Z=PctEL是:1.Y的一个决定变量;且2.与回归变量X相关故,“对照组”与“处理组”存在系统性不同,所以corr(STR,PctEL)0。6-17Copyright2011PearsonAddison-Wesley.Allrightsreserved.随机+对照组意味着处理组与控制组之间的差异是随机的与处理没有系统性关联通过比较同一英语学习者比例地区间的班级规模效应,可消除控制组(大比例组)与处理组(小比例组)在英语学习者比例上的差异。若大、小班级规模组间仅有的系统性差异存在于PctEL中,则回到每一个PctEL组的随机对照试验。估计STR效应时,此为一种“控制”PctEL效应的方法。6-18Copyright2011PearsonAddison-Wesley.Allrightsreserved.回到遗漏变量偏差回到遗漏变量偏差克服遗漏变量偏差的三个方式1.进行一个随机对照试验,其中处理组(STR)随机分配:则PctEL依然是TestScore的一个决定变量,但PctEL与STR不相关.(此种解决遗漏变量偏差的方式在实践中不可行)2.采用“交叉列表”的方法,在每一组里有更细化的STR与PctEL分组所有班级有一样的PctEL,故可控制PctEL(但很快会发现数据用完了,那么家庭收入和家庭教育等其他决定因素会如何影响?)3.使用一个PctEL变量没有遗漏的回归模型:在一个多元回归中将PctEL作为一个新增回归变量。6-19Copyright2011PearsonAddison-Wesley.Allrightsreserved.总体多元回归模型总体多元回归模型(教材教材6.2节节)考虑两个回归变量的情况:Yi=0+1X1i+2X2i+ui,i=1,nY是因变量X1,X2是两自变量(回归变量)(Yi,X1i,X2i)表示第ith个Y,X1,X2的观测值0=未知的总体截距1=X2保持不变的前提下,X1每变化一单位对Y的影响2=X1保持不变的前提下,X2每变化一单位对Y的影响ui=回归误差(遗漏变量)6-20Copyright2011PearsonAddison-Wesley.Allrightsreserved.多元回归中系数的解释多元回归中系数的解释Yi=0+1X1i+2X2i+ui,i=1,n保持X2不变的前提下,用X1表示X1的变化量:变化前的总体回归线:Y=0+1X1+2X2变化后的总体回归线:Y+Y=0+1(X1+X1)+2X26-21Copyright2011PearsonAddison-Wesley.Allrightsreserved.变化前:Y=0+1(X1+X1)+2X2变化后:Y+Y=0+1(X1+X1)+2X2差:Y=1X1故:1=,X2保持不变2=,X1保持不变0=X1=X2=0时Y的预测值.6-22Copyright2011PearsonAddison-Wesley.Allrightsreserved.多元回归中多元回归中OLS的估计量的估计量(教材教材6.3节节)二元回归变量的OLS估计量是下式的解:OLS估计量为真实值Yi和预测值(基于回归线得出)之差的平方和的最小化结果最小化问题可通过微积分求解由此得出0与1的OLS估计量6-23Copyright2011PearsonAddison-Wesley.Allrightsreserved.例例:加利福利亚测试分数数据加利福利亚测试分数数据TestScore对STR的回归:=698.92.28STR现加入地区英语学习者比例(PctEL):=686.01.10STR0.65PctELSTR的系数有什么变化?为什么?Corr(STR,PctEL)=0.196-24Copyright2011PearsonAddison-Wesley.Allrightsreserved.STATA的多元回归的多元回归regtestscrstrpctel,robust;RegressionwithrobuststandarderrorsNumberofobs=420F(2,417)=223.82ProbF=0.0000R-squared=0.4264RootMSE=14.464-|Robusttestscr|Coef.Std.Err.tP|t|95%Conf.Interval-+-str|-1.101296.4328472-2.540.011-1.95213-.2504616pctel|-.6497768.0310318-20.940.000-.710775-.5887786_cons|686.03228.72822478.600.000668.8754703.189-=686.01.10STR0.65PctEL其他输出结果稍后讨论25Copyright2011PearsonAddison-Wesley.Allrightsreserved.多元回归的拟合优度多元回归的拟合优度(教材教材6.4节节)真实值=预测值+残差:Yi=+SER=的回归标准误(有自由度矫正)RMSE=的回归标准误(无自由度矫正)R2=X解释Y方差的比例=“调整R2”=经过自由度修正的R2,调整了估计的不确定性;R26-26Copyright2011PearsonAddison-Wesley.Allrightsreserved.SER与与RMSE正如一元回归一样,SER、RMSE都是度量Y的分布在回归线周围的离散程度SER=RMSE=6-27Copyright2011PearsonAddison-Wesley.Allrightsreserved.R2与与(调整调整R2)同一元回归一样,R2是可由回归变量解释的Y方差的比例:R2=,其中ESS=,SSR=,TSS=增加新的回归变量后R2通常会增大(为什么?)“拟合”工具存在的一点问题6-28Copyright2011PearsonAddison-Wesley.Allrightsreserved.R2与与(续)(“调整R2”)通过“惩罚”加入的新回归变量来修正R2的这个问题。加入新的回归变量之后不一定增大。调整R2:=注意R2,若样本n较大,则两者接近6-29Copyright2011PearsonAddison-Wesley.Allrightsreserved.拟合优度拟合优度(续)续)测试分数的例子:(1)=698.92.28STR,R2=0.05,SER=18.6(2)=686.01.10STR0.65PctEL,R2=0.426,=0.424,SER=14.5准确地,与回归方程(1)相比,方程(2)的拟合说明了什么?(2)中为何R2与很接近?30Copyright2011PearsonAddison-Wesley.Allrightsreserved.多元回归的最小二乘假设多元回归的最小二乘假设(教材教材6.5节节)Yi=0+1X1i+2X2i+kXki+ui,i=1,n1.给定Xs时,u的条件均值为零。即E(ui|X1i=x1,Xki=xk)=0.2.(X1i,Xki,Yi),i=1,n,独立同分布3.不可能出现异常值:X1,Xk,及Y有四阶矩:E(),E(),E()F=0.0000R-squared=0.0512RootMSE=18.581-|Robusttestscr|Coef.Std.Err.tP|t|95%Conf.Interval-+-str|-2.279808.5194892-4.390.000-3.300945-1.258671str|(dropped)_cons|698.93310.3643667.440.000678.5602719.3057-6-34Copyright2011PearsonAddison-Wesley.Allrightsreserved.当一个回归变量是其他回归变量的完全线性组合时就当一个回归变量是其他回归变量的完全线性组合时就产生了完全多重共线性。产生了完全多重共线性。在前面的回归中,1为在保持STR不变的前提下,每一单位STR变对化对TestScore产生的效应(?)稍后更多关于完全(非完全)多重共线性例子基于这些最小二乘的假设,可以推知,的抽样分布6-35Copyright2011PearsonAddison-Wesley.Allrightsreserved.OLS估计量的抽样分布估计量的抽样分布(教材教材6.6节节)在四个最小二乘的假设下,抽样分布的均值是1(无偏性)var()与n成反比除了均值与方差,的精确分布(有限-n)较为复杂;但对于大样本是一致的:1(大数定理)近似服从N(0,1)(中心极限定理)这些性质对于,都成立6-36Copyright2011PearsonAddison-Wesley.Allrightsreserved.多重共线性,完全与非完全多重共线性,完全与非完全(教材教材6.7节节)当一个回归变量是其他回归变量的完全线性组合时就产生了完全多重共线性。更多完全多重共线性的例子:1.之前的例子:有2个STR变量,2.用TestScore对常量,D和B进行回归,其中:若STR20,Di=1,反之,Di=0;若STR20,Bi=1,反之,Bi=0,则Bi=1Di故存在完全多重共线性3.若截距(常量)剔除出回归方程,是否会存在多重共线性?这个例子是特殊情况37Copyright2011PearsonAddison-Wesley.Allrightsreserved.虚拟变量陷阱虚拟变量陷阱假设回归变量中包含多个二元变量或虚拟变量,彼此互斥且覆盖所有范畴,即包含了多个范畴,每一观测值都落入有且只有一个范畴内(新生,二年级学生,青少年,老年,其他)。若回归方程涵盖所有虚拟变量以及截距项,将会出现完全多重共线性此种情况称为虚拟变量陷阱。为何会出现完全多重共线性?解决虚拟变量陷阱的方法:1.将其中一个二元变量剔除(例如老年人),或2.剔除截距项对于系数的解释,(1)或(2)各有什么含义?38Copyright2011PearsonAddison-Wesley.Allrightsreserved.完全多重共线性完全多重共线性(续)完全多重共线性通常反应的是回归变量的定义错误或数据的异常若存在完全多重共线性,统计软件要么崩溃,要么给一个错误信息,要么自行丢掉一个变量完全多重共线性的解决办法是修正回归变量清单以致于消除完全多重共线性6-39Copyright2011PearsonAddison-Wesley.Allrightsreserved.不完全多重共线性不完全多重共线性尽管完全多重共线性与不完全多重共线性的名称相似,但实质是完全不同的不完全多重共线性不完全多重共线性是指两个或多个回归变量间是高度相关的为什么叫“多重共线性”?若两个回归变量高度相关,则其散点图看上去非常像一条直线共线但除非相关系数是1,否则共线性是非完全的。40Copyright2011PearsonAddison-Wesley.Allrightsreserved.不完全多重共线性不完全多重共线性(续)回归变量间存在着不完全多重共线性意味着至少其中一个回归变量的系数无法精确估计思路:X1的系数是在X2不变时,X1变化对Y的效应;若X1与X2高度相关,则一旦X2是常量,X1的变化不大故当X2不变而X1变化时,相关数据并不会包含更多信息。这种情况下,X1系数的OLS估计量的方差会比不相关时大不完全多重共线性导致了一个或多个OLS系数的标准误较大数学表达式参见App.6.2下一主题:假设检验与置信区间41
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!