3多元回归分析估计ppt课件

上传人:痛*** 文档编号:186690978 上传时间:2023-02-08 格式:PPT 页数:85 大小:470.50KB
返回 下载 相关 举报
3多元回归分析估计ppt课件_第1页
第1页 / 共85页
3多元回归分析估计ppt课件_第2页
第2页 / 共85页
3多元回归分析估计ppt课件_第3页
第3页 / 共85页
点击查看更多>>
资源描述
1多元回归分析:估计1)Multiple Regression Analysis:Estimation(1)y=b0+b1x1+b2x2+.bkxk+u2本章大纲n使用多元回归的动因n普通最小二乘法的操作和解释n估计量的期望值nOLS估计量的方差nOLS的有效性:高斯马尔可夫定理3课堂大纲n使用多元回归的动因n n普通最小二乘法的操作和解释n假定MLR.1 MLR.4 nOLS估计值的无偏性4动因:优点n经验研究中使用简单回归模型的主要缺陷是:它很难得到在其它条件不变的情况下,x对y的影响。n多元回归分析更适合于其它条件不变情况下的分析,因为多元回归分析允许我们明确地控制其它许多也同时影响因变量的因素。n多元回归模型能容纳很多可能相关的解释变量,所以在简单回归分析可能误导的情况下,可以寄希望于多元回归模型来推断因果关系。5动因:优点n在实证工作中使用简单回归模型的主要缺陷是:要得到在其它条件不变的情况下,x对y的影响非常困难。n在其它条件不变情况假定下我们估计出的x对y的影响值是否可信依赖,完全取决于条件均值零值假设是否现实。n如果影响y的其它因素与x不相关,则改变x可以保证u不变,从而x对y的影响可以被识别出来。6动因:优点n可以解释更多的因变量变动。n它可以表现更一般的函数形式。n多元回归模型是实证分析中最广泛使用的工具。7动因:一个例子n考虑一个简单版本的解释教育对小时工资影响的工资方程。nexper:在劳动力市场上的经历,用年衡量n在这个例子中,“在劳动力市场上的经历被明确地从误差项中提出。012expwageeduceru8动因:一个例子n考虑一个模型:家庭消费是家庭收入的二次方程。n Cons=b0+b1 inc+b2 inc2+un如今,边际消费倾向可以近似为nMPC=b1+2b2 9含有k个自变量的模型n一般的多元线性回归模型可以写为01 122kkyxxxu10类似于简单回归模型n0仍是截距n1到k都称为斜率参数nu仍是误差项或干扰项)n仍需作零条件期望的假设,所以现在假设n E(u|x1,x2,xk)0n仍然最小化残差平方和,所以得到k1个一阶条件11如何得到OLS估计值n普通最小二乘法选择能最小化残差平方和的估计值,()2122110minniikkiiixxxy12如何得到OLS估计值()niikkiiixxxy1221100()niikkiiiixxxyx12211010()niikkiiiixxxyx12211020()niikkiiiikxxxyx1221100k+1个一阶条件:13n在估计之后,我们得到OLS回归线,或称为样本回归方程SRF)n得到OLS回归式之后,对每次观测都得到一个拟合值或预测值,对观测点i,其拟合值就是n第i个观测的残差为:ikkiixxy.110如何得到OLS估计值ikkiiixxxy22110iiiyyu14OLS拟合值和残差的性质n残差项的均值为零n每个自变量和OLS协残差之间的样本协方差为零。n点 总位于OLS回归线上。12(,)kx xxykkixxxy221100 iu00iikiyuxu15对多元回归的解释n由n可知n所以,坚持 不变意味着:n 即,每一个j都有一个偏效应(partial effect),或其他情况不变(ceteris paribus)的解释。kxx,.,2kkxxxy.2211011xykkxxxy.221116例子:大学GPA的决定因素n两个解释变量的回归n pcolGPA:大学成绩预测值nhsGPA :高中成绩绩n ACT :成绩测验分数(achievement test score)npcolGPA=1.29+0.453hsGPA+0.0094ACTn一个解释变量的回归npcolGPA=2.4+0.0271ACTnACT的系数大三倍。n如果这两个回归都是对的,它们可以被认为是两个不同实验的结果。17“保持其它因素不变的含义n多元回归分析的优势在于它使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情:保持其它因素不变。18对“排除其它变量影响的解释n考虑回归线n 的一种表达式为:n 是由以下回归得出的残差:122110 xxyi1ir211111()/nniiiiir yr12201irxx19“排除其它变量影响”(续)n上述方程意味着:将y同时对x1和x2回归得出的x1的影响与先将x1对x2回归得到残差,再将y对此残差回归得到的x1的影响相同。n 这意味着只有x1中与x2不相关的部分与y有关,所以在x2被“排除影响之后,我们再估计x1对y的影响。20“排除其它变量影响”(一般情况)n在一个含有k个解释变量的一般模型中,仍然可以写成n n n 但残差 来自x1对x2,xk的回归。n于是 度量的是,在排除x2,xk等变量的影响之后,x1对y的影响。11211111()/nniiiiir yr1r21比较简单回归和多元回归估计值n比较简单回归模型n和多元回归模型n一般来说,除非:n 或 样本中x1和x2不相关。110 xy22110 xxy 11 0222比较简单回归和多元回归估计值n这是因为存在一个简单的关系nn这里,是x2对x1的简单回归得到的斜率系数。12111231212112211212112221111121111122211122110)()()()()()()()(),()(xxxxxxxxxxxxxxxxyyxxxxxxyyuxxy由此得,所以因为24简单回归和多元回归估计值的比较11,0,1,.,0,1,.,1.jjkjkk-jjjkjjkjkxxx,.,xx 令为用全部解释变量回归的OLS估计量。令 为用除 外的解释变量回归的OLS估计量。令 为 向回归中 的斜率系数。那么25简单回归和多元回归估计值的比较n在k个自变量的情况下,简单回归和多元回归只有在以下条件下才能得到对x1相同的估计n(1对从x2到xk的OLS系数都为零n(2)x1与x2,xk中的每一个都不相关。拟合优度n每一个观察值可被视为由解释部分和未解释部分构成:n定义:nSST=SSE+SSR26()()总平方和SSTsquares of sum total 2 yyi()()解释平方和SSEsquares of sum explained 2yyi()残差平方和 SSRsquares of sum residual2iu27拟合优度续)我们怎样衡量我们的样本回归线拟合样本数据有多好呢?可以计算总平方和SST中被模型解释的部分,称此为回归R2 R2=SSE/SST=1 SSR/SST28拟合优度续)我们也可以认为R2等于实际的yi与估计的 之间相关系数的平方iy()()()()()()()2222yyyyyyyyRiiii29更多关于R2n当回归中加入另外的解释变量时,R2通常会上升。n例外:如果这个新解释变量与原有的解释变量完全共线,那么OLS不能使用。n此代数事实成立,因为当模型加入更多回归元时,残差平方和绝不会增加。30更多关于R2n考虑从一个解释变量开始,然后加入第二个。nOLS性质:最小化残差平方和。n如果OLS恰好使第二个解释变量系数取零,那么不管回归是否加入此解释变量,SSR相同。n如果OLS使此解释变量取任何非零系数,那么加入此变量之后,SSR降低了。n实际操作中,被估计系数精确取零是极其罕见的,所以,当加入一个新解释变量后,一般来说,SSR会降低。31OLS估计量的期望值n我们现在转向OLS的统计特性,而我们知道OLS是估计潜在的总体模型参数的。n统计性质是估计量在随机抽样不断重复时的性质。我们并不关心在某一特定样本中估计量如何。32假定 MLR.1线性于参数)n总体模型可写成ny=b0+b1x1+b2x2+bkxk+un其中,b1,b2,bk 是我们所关心的未知参数(常数),而u则是无法观测的随机误差或随机干扰。n上述方程规范地表述了总体模型或真实模型。由于因变量y与自变量都可以为任意函数,所以上式是灵活多变的。n33假定 MLR.2随机抽样性)n我们有一个包含n次观测的随机样本(xi1,xi2,xik;yi):i=1,n,它来自假定MLR。1中的总体模型。n有时我们将模型写为n yi=b0+b1xi1+b2xi2+bkxik+uin其中,i 表示观测次数,j=1,k代表第j个回归元(变量序号)34假定MLR.3(不存在完全共线性)n在样本(因而在总体)中,没有一个自变量是常数,自变量之间也不存在严格的线性关系。n如果方程中一个自变量是其它自变量的一个线性组合时,我们说此模型遇到完全共线性(perfect collinearity)问题,此时不能用OLS估计参数。35假定MLR.3 n完全共线性的例子:ny=b0+b1x1+b2x2+b3x3+u,x2=3x3ny=b0+b1log(inc)+b2log(inc2)+uny=b0+b1x1+b2x2+b3x3+b4x4+u,x1+x2+x3+x4=1n当y=b0+b1x1+b2x2+b3x3+u,n 0Corr(x1,x2)0偏误为正偏误为负2 0偏误为负偏误为正51遗漏变量偏误n但是,通常我们不能观测到b2,而且,当一个重要变量被缺省时,主要原因也是因为该变量无法观测,换句话说,我们无法准确知道Corr(x1,x2)的符号。怎么办呢?n我们将依靠经济理论和直觉来帮助我们对相应符号做出较好的估计。52例3.6:小时工资方程n假定模型 log(wage)=b0+b1educ+b2abil+u,在估计时遗漏了abil。b1的偏误方向如何?n因为一般来说ability对y有正的局部效应,并且ability和education years正相关,所以我们预期b1上偏。526n 20.186R educwage083.0584.0)(log53更一般的情形n从技术上讲,要推出多元回归下缺省一个变量时各个变量的偏误方向更加困难。n注意:若有一个对y有局部效应的变量被缺省,且该变量至少和一个解释变量相关,那么所有系数的OLS估计量都有偏。54更一般的情形n假设总体模型n 满足假定MLR.1MLR.4。但我们遗漏了变量x3,并估计了模型n 假设X2和X3无关,X1和X3相关。n 是1的一个有偏估计量,但 是否有偏?uxxxy3322110uxxy2211012更一般的情形n此时,我们通常假设X1和X2无关。n当X1和X2无关时,可以证明:55()()()niiniiixxxxxE1211131131156更一般的情形0112233model10112233model2011221323221(,)0,(,)0trueyxxxuyxxxyxxcorr xxcorr xx若。很容易想到是的一个有偏估计量。而是有偏的吗?57更一般的情形312301 122113122321213111,.000 xxxxxxcorr(x,x)corr(x,x)的确。这是因为如果我们将 向 和 回归,我们有如下关系成立:当,即使,也有。因此,是 的一个有偏估计量。58OLS估计量的方差现在我们知道估计值的样本分布是以真实参数为中心的。我们还想知道这一分布的分散状况。在一个新增假设下,度量这个方差就容易多了:59假定MLR.5同方差性)(Homoskedasticity)同方差性假定:Var(u|x1,x2,xk)=s2.意思是,不管解释变量出现怎样的组合,误差项u的条件方差都是一样的。如果这个假定不成立,我们说模型存在异方差性。60OLS估计量的方差续)n用x表示(x1,x2,xk)n假定Var(u|x)=s2,也就意味着Var(y|x)=s2n假定MLR.1-5共同被称为高斯马尔可夫假定(Gauss-Markov assumptions)61定理 3.2OLS斜率估计量的抽样方差)n给定高斯-马尔可夫假定()()()222221RxxRxxSSTRSSTVarjjjijjjjj回归所得到的向所有其它是其中,62对定理3.2的解释n定理3.2显示:估计斜率系数的方差受到三个因素的影响:n误差项的方差n总的样本变异n解释变量之间的线性相关关系63对定理3.2的解释1):误差项方差n更大的s2意味着更大的OLS估计量方差。n更大的s2意味着方程中的“噪音越多。n这使得得到自变量对因变量的准确局部效应变得更加困难。n引入更多的解释变量可以减小方差。但这样做不仅不一定可能,而且也不一定总令人满意。ns2 不依赖于样本大小64对定理3.2的解释2):总的样本变异n更大的SSTj意味着更小的估计量方差,反之亦然。n其它条件不变情况下,x的样本方差越大越好。n增加样本方差的一种方法是增加样本容量。n参数方差的这一组成部分依赖于样本容量。65对定理3.2的解释3):多重共线性n更大的Rj2意味着更大的估计量方差。n如果Rj2较大,就说明其它解释变量解释可以解释较大部分的该变量。n当Rj2非常接近1时,xj与其它解释变量高度相关,被称为多重共线性。n严重的多重共线性意味着被估计参数的方差将非常大。66对定理3.2的解释3):多重共线性续)n多重共线性是一个数据问题n可以通过适当的地舍弃某些变量,或收集更多数据等方法来降低。n注意:虽然某些自变量之间可能高度相关,但与模型中其它参数的估计程度无关。67总结本堂课重要的几点:高斯马尔科夫假定模型过度设定和设定不足的后果遗漏变量偏差是什么被估计参数方差的三个组成部分是什么,以及它们如何影响被估计参数方差的大小。68多元回归分析:估计3)Multiple Regression Analysis:Estimation(3)y=b0+b1x1+b2x2+.bkxk+u69本章大纲n使用多元回归的动因n普通最小二乘法的操作和解释nOLS估计量的期望nOLS估计量的方差nOLS的有效性:高斯马尔可夫定理70课堂大纲n误设模型中偏误和方差间的替代关系n估计误差项方差n高斯马尔可夫定理71误设模型中的方差n在考虑一个回归模型中是否该包括一个特定变量的决策中,偏误和方差之间的消长关系是重要的。n假定真实模型是 y=b0+b1x1+b2x2+u,我们有()211211)(RSSTVar72误设模型中的方差n考虑误设模型是nn估计的方差是n 当x1和x2不相关时n 否则 ,110 xy()121SSTVar()(11VarVar()(11VarVar73舍弃x2的后果R12=0R1202=0两个对1的估计都是无偏的,方差相同两个对1的估计量都是无偏的,舍弃x2使得方差更小20舍弃x2导致对1的估计量有偏,但方差和从完整模型得到的估计相同舍弃x2导致对1的估计量有偏,但其方差变小74误设模型中的方差n假如 ,一些计量经济学家建议,将因漏掉x2而导致的偏误的可能大小与方差的降低相比较以决定漏掉该变量是否重要。n如今,我们更喜欢包含x2,因为随着样本容量的扩大,增加x2导致的多重共线性变得不那么重要,但舍弃x2导致的遗漏变量误偏却不一定有任何变化模式。2075不同情形下估计量的期望和方差估计量期望估计量方差估计量期望估计量方差估计量期望估计量方差模型设定不足时模型过度设定时模型设定正确时76估计误差项方差我们希望构造一个s2 的无偏估计量如果我们知道 u,通过计算 u 2的样本平均可以构造一个s2的无偏估计量我们观察不到误差项 ui,所以我们不知道误差项方差s2。77估计误差项方差我们能观察到的是残差项i。我们可以用残差项构造一个误差项方差的估计 df=n (k+1),or df=n k 1 df(自由度,degrees of freedom)df=观察点个数被估参数个数()()dfSSRknui12278估计误差项方差n上式中除以n-k-1是因为残差平方和的期望值是(n-k-1)s2.n为什么自由度是n-k-1 n因为推导OLS估计时,加入了k+1个限制条件。也就是说,给定n-k-1个残差,剩余的k+1个残差是知道的,因此自由度是n-k-1。n定理3.3(s2的无偏估计)n在高斯马尔可夫假定 MLR.1-5下,我们有n定义术语:n s2 正的平方根称为 标准偏差标准离差)(SD),n 正的平方根称为 标准误差标 准 差)(SE)。n 的标准误差是79估计误差项方差()()2121jjjRSSTsej222)(E80OLS的有效性:高斯马尔可夫定理n问题:在假定 MLR.1.5下有许多bj的估计量,为什么选OLS?n在假定 MLR.1.5下,OLS是最优线性无偏估计量BLUE)。n最优(Best):方差最小n线性(Linear):因变量数据的线性函数n无偏(Unbiased):参数估计量的期望等于参数的真值。n估计量(Estimator):产生一个估计量的规则81高斯马尔科夫定理图示线性估计量线性无偏估计量无偏估计量所有估计量设此点估计量方差最小,则该估计量为OLS估计量82高斯马尔可夫定理的重要性n当标准假定成立,我们不需要再去找其它无偏估计量了。n如果有人向我们提出一个线性无偏估计量,那我们就知道,此估计量的方差至少和OLS估计量的方差一样大。83OLS估计量为线性的一些细节的线性估计量。是相对于即。则(令(为例,则以yywxxxxwyxxxxxxyxxxiiiiiiiiiii112111121111211111110).)y 84OLS估计量为线性的一些细节()ii2i211111ww0,1w.()1.iiiixxw xxw x有以下特性(请课后自己证明):85复习n多元回归中OLS估计量的性质n高斯马尔科夫假定和OLS估计量的无偏性n模型过度设定和设定不足是什么,两种情况下,期望和方差间的替代关系n遗漏变量偏误是什么,什么情况下此偏误为零,如何确定偏误符号nOLS斜率估计量方差由什么决定,如何计算它们的标准离差和标准差,如何估计误差项方差,以及如何推导被估参量的标准离差n新加的假定和高斯马尔可夫定理
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 成人自考


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!