第二章一元线性回归-课件

资源描述

第二章第二章简单线性回归模型简单线性回归模型v v 这章我们会从最简单的线这章我们会从最简单的线性回归模型入手性回归模型入手,来介绍在来介绍在基本假定完全满足的条件下基本假定完全满足的条件下,规范的计量经济研究的基本规范的计量经济研究的基本理论和方法理论和方法,为以后的内容为以后的内容打下基础。打下基础。本章主要内容：本章主要内容：v第一节第一节回归模型与回归函数回归模型与回归函数v第二节第二节最小二乘估计最小二乘估计 v第三节第三节最小二乘估计的性质最小二乘估计的性质第一节第一节回归分析与回归函数回归分析与回归函数本节主要介绍：本节主要介绍：一一变量关系及变量关系及回归分析回归分析二二总体回归函数总体回归函数三三随机扰动项随机扰动项四四样本回归函数样本回归函数一、变量间的关系及回归一、变量间的关系及回归分析分析1、经济变量之间的关系v确定的函数关系：确定的函数关系：Y Yf f（X X）v不确定性的统计关系不确定性的统计关系相关关系相关关系相关关系X影响的值，函数关系X决定的值不能确定。例如：例如：销售收入销售收入=销售量销售量价格价格粮食产量与施肥量之间的关系粮食产量与施肥量之间的关系储蓄额与居民收入之间的关系储蓄额与居民收入之间的关系广告支出与商品销售额广告支出与商品销售额确定性关系：确定性关系：函数关系函数关系非确定性关系：非确定性关系：相关关系相关关系“回归”一词的历史渊源v“回归”一词最早由Francis Galton引入。Galton发现，虽然父母的身高对子女的身高起到决定性作用，但给定父母的身高后，他们儿女辈的平均身高却趋向于或者“回归”到社会平均水平。回归的古典意义：回归的古典意义：高尔顿遗传学的回归概念高尔顿遗传学的回归概念回归的现代意义：回归的现代意义：一个应变量对若干解释变量一个应变量对若干解释变量依存关系的研究依存关系的研究2、回归分析回归分析关心的是根据解释变量回归分析关心的是根据解释变量的已知或给定值，考察被解释变的已知或给定值，考察被解释变量的总体均值量的总体均值，即当解释变量取，即当解释变量取某个确定值时，与之统计相关的某个确定值时，与之统计相关的被解释变量所有可能出现的对应被解释变量所有可能出现的对应值的平均值。值的平均值。v 假设我们研究个人消费支出对个人可支假设我们研究个人消费支出对个人可支配收入的依存关系，对应于各种个人可支配配收入的依存关系，对应于各种个人可支配收入，个人消费支出虽不确定，但总会在一收入，个人消费支出虽不确定，但总会在一定的范围内变动。而且，平均说来，个人消定的范围内变动。而且，平均说来，个人消费支出总是随着收入水平的增加而上升的。费支出总是随着收入水平的增加而上升的。v 回归分析就是要根据对个人消费支出与回归分析就是要根据对个人消费支出与可支配收入的观测数据，确定当解释变量可可支配收入的观测数据，确定当解释变量可支配收入确定时，因变量个人消费支出平均支配收入确定时，因变量个人消费支出平均水平的变动轨迹水平的变动轨迹 v回归分析与相关分析不同回归分析与相关分析不同v联系：联系：两者相互补充。两者相互补充。v区别：区别：v相关分析相关分析：不考虑变量之间的因果关系，不：不考虑变量之间的因果关系，不区分解释变量和因变量，两变量对称区分解释变量和因变量，两变量对称.v所涉及的变量都为随机变量。所涉及的变量都为随机变量。v回归分析回归分析：v需要区分变量之间的因果关系；需要区分变量之间的因果关系；v则要通过建立回归方程，寻求具体数学形式，则要通过建立回归方程，寻求具体数学形式，去估计（预测）因变量的平均值；因变量是去估计（预测）因变量的平均值；因变量是随机变量（有一定的概率分布），自变量是随机变量（有一定的概率分布），自变量是非随机变量。非随机变量。二、二、总体回归函数（总体回归函数（PRF PRF）v被解释变量被解释变量Y Y的条件期望的条件期望随着解随着解释变量释变量X X的变化而有规律地变化。把这种变化的变化而有规律地变化。把这种变化关系用函数表示出来，就是总体回归函数：关系用函数表示出来，就是总体回归函数：v回归函数在坐标系中用图形表示出来就是回回归函数在坐标系中用图形表示出来就是回归线。它归线。它表示了因变量和自变量之间的平均表示了因变量和自变量之间的平均关系关系。每每月月家家庭庭可可支支配配收收入入 X X2000250030003500400045005000550060006500131215301631184320372277246929243515352113401619172619742210238828893338372139541400171317862019232525263090365038654108每每1548175018352265241926813156380240264345月月1688181418852367252228873300408741654812家家173819851943248526653050332142984380庭庭180020412037251527993189365443124580消消19022186207826892887335338424413费费220021792713291335244074支支231222982898303837104165出出2316292331673834Y2387305333102498268931873286351015911591191519152092209225862586275427543039303933963396385338534036403641584158例例2.1 2.1 见课本见课本 “线性线性”一词的含义（有两种解释）一词的含义（有两种解释）1、模型就模型就变量变量而言是线性的而言是线性的,例如例如 2、模型就模型就参数参数而言是线性的而言是线性的,例如例如注注：在计量经济学中，主要考虑的是模型就在计量经济学中，主要考虑的是模型就参参数数而言是线性的情形。（即第二种情况）而言是线性的情形。（即第二种情况）三三、随机扰动项、随机扰动项对于一定的对于一定的，Y的各个个别值的各个个别值分分布在布在的周围，其差令为的周围，其差令为总体回归模型总体回归模型o总体回归模型图解总体回归模型图解XiPRFYiAE(Y|Xi)PRFui随机扰动项包括哪些因素随机扰动项包括哪些因素未知影响因素的代表未知影响因素的代表无法取得数据的已知影响因素的代表无法取得数据的已知影响因素的代表众多细小影响因素的综合代表众多细小影响因素的综合代表模型的设定误差模型的设定误差变量的观测误差变量的观测误差变量内在随机性变量内在随机性四四、样本回归函数、样本回归函数（SRF）v1 1、概念概念因变量因变量Y Y的样本观测值的条件均值表示成解的样本观测值的条件均值表示成解释变量释变量X X的某种函数，即为样本回归函数。的某种函数，即为样本回归函数。（其函数形式与总体回归函数的函数形式（其函数形式与总体回归函数的函数形式一致。）一致。）如：如：2 2、对样本回归函数的说明、对样本回归函数的说明v每次抽样都能够获得一个样本，就可以每次抽样都能够获得一个样本，就可以拟合一条样本回归线，所以样本回归线拟合一条样本回归线，所以样本回归线随抽样波动而变化，可以有多条。随抽样波动而变化，可以有多条。SRF1SRF2XY如课本如课本2727页页v不同的样本就会有不同的样本回归线不同的样本就会有不同的样本回归线v样本样本1v样本样本2X X20002000250025003000300035003500400040004500450050005000550055006000600065006500Y Y15481548181418142179217924852485266526653050305033213321365036504087408742654265X X20002000250025003000300035003500400040004500450050005000550055006000600065006500Y Y168816881750175020792079236723672665266531893189332133213802380241654165434543453、残差v定义：定义：那么有：那么有：v对上例，有：对上例，有：SRFSRF 样本回归函数与总体回归函数区别样本回归函数与总体回归函数区别1 1、总体回归线是未知的，只有一条。样本回归、总体回归线是未知的，只有一条。样本回归线是根据样本数据拟合的，每抽取一组样本，线是根据样本数据拟合的，每抽取一组样本，便可以拟合一条样本回归线。便可以拟合一条样本回归线。2 2、总体回归函数中的、总体回归函数中的1 1和和2 2是未知的参数，是未知的参数，表现为常数。而样本回归函数中的表现为常数。而样本回归函数中的是随机变量，其具体数值随所抽取的样本观是随机变量，其具体数值随所抽取的样本观测值不同而变动。测值不同而变动。v1 1、在回归分析中下列有关解释变量和被解在回归分析中下列有关解释变量和被解释变量的说法中正确的是释变量的说法中正确的是()()vA.A.被解释变量和解释变量均为随机变量被解释变量和解释变量均为随机变量vB.B.被解释变量和解释变量均为非随机变量被解释变量和解释变量均为非随机变量vC.C.被解释变量为随机变量，解释变量为非被解释变量为随机变量，解释变量为非随机变量随机变量vD.D.被解释变量为非随机变量，解释变量为被解释变量为非随机变量，解释变量为随机变量随机变量v2 2、下图中、下图中“”“”所指的距离是（）所指的距离是（）v A.A.随机误差项随机误差项 B.B.残差残差YiA3 3、下列哪些形式是正确的（）。、下列哪些形式是正确的（）。vA.D.vB.E.vC.F.vG.vH、SRFSRF PRFPRF？都代表什么？都代表什么第二节第二节最小二乘估计（最小二乘估计（OLS）v本节主要介绍：本节主要介绍：一、普通最小二乘法（一、普通最小二乘法（OLSOLS）二、简单线性回归模型的基本假定二、简单线性回归模型的基本假定三、三、OLSOLS回归线的性质回归线的性质v在在Y Y与与X X的散点图上画出直线的方法的散点图上画出直线的方法很多。很多。v找出一条能够最好地描述找出一条能够最好地描述Y Y与与X X之间之间的直线。问题是：怎样算的直线。问题是：怎样算“最好最好”？OLSOLS的基本思想的基本思想不同的估计方法可得到不同的样本回归参数不同的估计方法可得到不同的样本回归参数和和，所估计的，所估计的也不同。也不同。理想的估计方法应使理想的估计方法应使与与的差即剩余的差即剩余越小越好越小越好因因可正可负，所以可以取可正可负，所以可以取最小最小一、普通最小二乘法一、普通最小二乘法（rdinary Least Squaresrdinary Least Squares ）最小二乘法最小二乘法（图示）（图示）X XY Y(Xn,Yn)(X1,Y1)(X2,Y2)(Xi,Yi)ei=Yi-Yi最小二乘法的基本思想（原则）：寻找实际值与最小二乘法的基本思想（原则）：寻找实际值与拟合值的离差平方和为最小的回归直线。拟合值的离差平方和为最小的回归直线。v对对求偏导数，并令其等于零求偏导数，并令其等于零，得，得:最小二乘估计量最小二乘估计量简化形式简化形式例：例：XY20001548250018143000217935002485400026654500305050003321550036506000408765004265Y=299.11+0.61348*XVariableVariableCoefficientCoefficientStd.ErrorStd.Errort-Statistict-StatisticProb.Prob.C C299.115299.11556.60456.6045.2843095.2843090.00070.0007X X0.613480.613480.01260.012648.6202648.620260.00000.0000R-squaredR-squared0.9966270.996627 Mean dependent varMean dependent var2906.402906.40Adjusted R-squaredAdjusted R-squared0.9962060.996206 S.D.dependent varS.D.dependent var930.270930.270S.E.of regressionS.E.of regression57.3032557.30325 Akaike info criterionAkaike info criterion11.11111.111Sum squared residSum squared resid26269.3026269.30 Schwarz criterionSchwarz criterion11.17211.172Log likelihoodLog likelihood-53.5572-53.5572 F-statisticF-statistic2363.932363.93Durbin-Watson statDurbin-Watson stat2.3813592.381359 Prob(F-statistic)Prob(F-statistic)0.0000.000操作方式：quickestimateequation例例设设Y和和X的的5期观测值如下表所示，试估计期观测值如下表所示，试估计方程方程Yt=+Xt+ut 序号序号 1 2 3 4 5 Yt 14 18 23 25 30 Xt 10 20 30 40 50 解：计算过程如下：解：计算过程如下：5432150304025302320181014831-4-81603004016011015020100-10-200039010004001000100400估计方程为思思考考什么是随机扰动项和残差什么是随机扰动项和残差?它们之间的区别它们之间的区别?最小二乘估计的基本思想是什么？最小二乘估计的基本思想是什么？二、二、简单线性回归的基本假定简单线性回归的基本假定v1 1 为什么要做基本假定为什么要做基本假定模模型型中中有有随随机机扰扰动动，估估计计的的参参数数是是随随机机变变量量，只只有有对对随随机机扰扰动动的的分分布布作作出出假假定定，才才能能确确定定所所估估计计参参数数的的分分布布性质性质只只有有具具备备一一定定的的假假定定条条件件，所所作作出出的的估估计计才才具具有有较较好好的的统统计计性性质质,也也才才可能进行假设检验和区间估计可能进行假设检验和区间估计 2 2、假定的两个方面：假定的两个方面：（1 1）关于变量和模型的基本假定关于变量和模型的基本假定v 是非随机的，或者虽然是非随机的，或者虽然是是随机的，但是与随机的，但是与是不相关的；是不相关的；v 无测量误差；无测量误差；v 变量和函数形式设定正确。变量和函数形式设定正确。假定的两个方面：假定的两个方面：（2 2）关于随机扰动项）关于随机扰动项v假定1 零均值：当解释变量取值当解释变量取值时，因变量时，因变量Y的值的值可能大于或小于可能大于或小于，但平均来，但平均来看，随即扰动项对看，随即扰动项对Y没有影响没有影响假定2 同方差：是说无论解释变量是说无论解释变量X X在其可行范围内取在其可行范围内取何值，随机扰动项的方差都是相同的。我何值，随机扰动项的方差都是相同的。我们把这个假设称为随机扰动项的同方差性们把这个假设称为随机扰动项的同方差性假设。假设。如果违背该假设，则属于异方差内容。如果违背该假设，则属于异方差内容。异方差XYXY假定假定3 3 无自相关：无自相关：假设假设(3)(3)的意义是的意义是对应不同观测值的误差项之对应不同观测值的误差项之间没有相关性。间没有相关性。这一点不成立意味着误差项的这一点不成立意味着误差项的取值变化存在规律性，这与误差项只是微小随取值变化存在规律性，这与误差项只是微小随机因素的综合影响的建模思想不符。这条假设机因素的综合影响的建模思想不符。这条假设也是保证线性回归分析的性质和价值的重要基也是保证线性回归分析的性质和价值的重要基础，因为误差值之间存在相关性时，会对线性础，因为误差值之间存在相关性时，会对线性回归分析的效果产生很不利的影响。回归分析的效果产生很不利的影响。如果违背如果违背该假设，则属于自相关内容。该假设，则属于自相关内容。序列自相关XXYY负相关正相关假定4随机扰动项与不相关。表明随机变量表明随机变量y中能够用从解释中能够用从解释的部分完全从随机扰动项中分离了的部分完全从随机扰动项中分离了出来，因而，在随机扰动项中不再出来，因而，在随机扰动项中不再包括与解释变量中有任何相关的因包括与解释变量中有任何相关的因素了。素了。假定假定5 5：对随机扰动项分布的正态性假定：对随机扰动项分布的正态性假定即即假假定定服服从从均均值值为为零零、方方差差为为的的正正态态分布分布（说说明明：正正态态性性假假定定不不影影响响对对参参数数的的点点估估计计，但但对对确确定定所所估估计计参参数数的的分分布布性性质质是是需需要要的的。且且根根据据中中心心极极限限定定理理，当当样样本本容容量量趋趋于于无无穷穷大大时时，的的分分布布会会趋趋近近于于正正态态分分布布。所所以以正正态性假定是合理的）态性假定是合理的）三、三、OLS回归线的性质回归线的性质v1.1.回归线过样本均值点回归线过样本均值点 v2 2残差和为零残差和为零v3 3Y Y的真实值的真实值和拟合值和拟合值有共同均值有共同均值v4 4残差残差与自变量与自变量不相关不相关v5 5残差残差与拟合值与拟合值不相关不相关1、回归线过样本均值回归线过样本均值v由由，知：，知：即样本均值点即样本均值点满足回归线方程满足回归线方程SRFYX2、残差和为零残差和为零（ResidualsSumtoZero）v由由 OLSOLS数学过程直接可得。且易推出残数学过程直接可得。且易推出残差的平均数也等于零。差的平均数也等于零。110543215030402530232018101429.825.92218.114.20.040.8110.010.041101500.2-0.91-0.1-0.201.9100040010001004003 3、Y Y的真实值和拟合值有共同的均值的真实值和拟合值有共同的均值性质性质4、5：（证明略）（证明略）v4 4、残差与自变量不相关（残差与自变量不相关（Residuals Residuals are unrelated with independent are unrelated with independent variablevariable）v5 5、估计残差与拟合值不相关估计残差与拟合值不相关（Residuals are unrelated with fitted Residuals are unrelated with fitted value of value of ）练习题练习题2.12.1样本回归直线性质总结样本回归直线性质总结残差和残差和=0 均值相等均值相等拟合值与残差不相关拟合值与残差不相关自变量与残差不相关自变量与残差不相关过样本均值过样本均值第三节第三节最小二乘估计式的统计性质最小二乘估计式的统计性质v不同的样本就会得到不同的参数估计值不同的样本就会得到不同的参数估计值对真实参数的代表性，是由对真实参数的代表性，是由的的统计性质（均值，方差）决定的统计性质（均值，方差）决定的为什么使用最小二乘法来估计参为什么使用最小二乘法来估计参数呢？数呢？一、一、无偏性无偏性v由前面，知：由前面，知：无偏性保证参数估计值在参数真实值左无偏性保证参数估计值在参数真实值左右波动，并且估计值平均水平就是参数右波动，并且估计值平均水平就是参数的真实值的真实值二、最小方差性二、最小方差性v v 方差是描述随机变量特性和进行方差是描述随机变量特性和进行推断分析的另一个重要特征。在参推断分析的另一个重要特征。在参数估计是无偏、线性估计的基础上，数估计是无偏、线性估计的基础上，方差较小的则意味着参数估计的精方差较小的则意味着参数估计的精确程度较高，统计推断的效果也较确程度较高，统计推断的效果也较好。我们先推导出最小二乘估计量好。我们先推导出最小二乘估计量的方差。的方差。参数的方差v证明略。证明略。v以下只给出其方差：以下只给出其方差：VariableVariableCoefficientCoefficientStd.ErrorStd.Errort-Statistict-StatisticProb.Prob.C C299.115299.11556.60456.6045.2843095.2843090.00070.0007X X0.613480.613480.01260.012648.6202648.620260.00000.0000R-squaredR-squared0.9966270.996627 Mean dependent varMean dependent var2906.402906.40Adjusted R-squaredAdjusted R-squared0.9962060.996206 S.D.dependent varS.D.dependent var930.270930.270S.E.of regressionS.E.of regression57.3032557.30325 Akaike info criterionAkaike info criterion11.11111.111Sum squared residSum squared resid26269.3026269.30 Schwarz criterionSchwarz criterion11.17211.172Log likelihoodLog likelihood-53.5572-53.5572 F-statisticF-statistic2363.932363.93Durbin-Watson statDurbin-Watson stat2.3813592.381359 Prob(F-statistic)Prob(F-statistic)0.0000.000课本例题课本例题v 最小方差说明最小二乘估计在所最小方差说明最小二乘估计在所有线性无偏估计中是分布分散程度有线性无偏估计中是分布分散程度最小的。最小的。在具有无偏性的前提下，在具有无偏性的前提下，最小二乘估计量最小二乘估计量的分布分散程度最的分布分散程度最小、能保证最小二乘估计值与参数小、能保证最小二乘估计值与参数真实值比较接近，因此是对最小二真实值比较接近，因此是对最小二乘估计价值的进一步支持。乘估计价值的进一步支持。三、线性：三、线性：最小二乘估计量是关于最小二乘估计量是关于YiYi的线性函数的线性函数v线性性线性性使得我们容易通过基本假定使得我们容易通过基本假定求得估计量服从正态分布，为统计求得估计量服从正态分布，为统计检验打下基础；检验打下基础；v无偏性无偏性说明说明OLSOLS估计量是以其真实估计量是以其真实值为中心的估计，这种估计当然是值为中心的估计，这种估计当然是好的；好的；v最小方差性最小方差性说明说明OLSOLS估计量偏离其估计量偏离其真实值的程度最小，取值与真实值真实值的程度最小，取值与真实值附近的可能性最大附近的可能性最大为什么在对参数进行最小二乘估计为什么在对参数进行最小二乘估计之前，要对模型提出古典假定？之前，要对模型提出古典假定？v答：在古典假定条件下，答：在古典假定条件下，OLSOLS估计得到估计得到的参数估计量是该参数的最佳线性无偏的参数估计量是该参数的最佳线性无偏估计，具有无偏性、有效性、线性。总估计，具有无偏性、有效性、线性。总之，作古典假定是为了使所作出的估计之，作古典假定是为了使所作出的估计具有较好的统计性质和方便地进行统计具有较好的统计性质和方便地进行统计推断。推断。谢谢

展开阅读全文

第二章一元线性回归-课件

最新文档