第二章-简单线性回归模型-课件

资源描述

第二章第二章简单线性回归模型本章主要讨论本章主要讨论:回归分析与回归函数回归分析与回归函数简单线性回归模型参数的估计简单线性回归模型参数的估计拟合优度的度量拟合优度的度量回归系数的区间估计和假设检验回归系数的区间估计和假设检验回归模型预测回归模型预测第一节第一节回归分析与回归函回归分析与回归函数数一、相关分析与回归分析一、相关分析与回归分析（一）经济变量之间的相互关系（一）经济变量之间的相互关系相关关系相关关系1、总体相关、总体相关变量之间具有本质上的联系变量之间具有本质上的联系2、样本相关、样本相关变量的样本观察值之间相关变量的样本观察值之间相关在概率统计中，我们将随机变量在概率统计中，我们将随机变量之间的关系总结为：之间的关系总结为：相互独立（没有任何联系）相互独立（没有任何联系）不独立不独立线性相关线性相关非线性相关非线性相关正相关正相关负相关负相关相互独立：相互独立：比如，张三的身体健康水比如，张三的身体健康水平与李四的学习成绩之间，没有任何平与李四的学习成绩之间，没有任何联系。联系。不独立（有联系）：不独立（有联系）：张三的身体健康张三的身体健康水平与他自己的学习成绩之间，有联水平与他自己的学习成绩之间，有联系。系。线性相关：线性相关：比如，收入与消费、投资比如，收入与消费、投资与与GDP、收入水平与汽车销售量等等。、收入水平与汽车销售量等等。美国的收入与消费的散点图：美国的收入与消费的散点图：非线性相关：非线性相关：非线性相关：非线性相关：非线性相关的模拟数据：非线性相关的模拟数据：正相关：两个量变化的方向相同正相关：两个量变化的方向相同负相关：两个量变化的方向相反负相关：两个量变化的方向相反（二）简单线性相关关系的度量（二）简单线性相关关系的度量1、简单线性相关系数、简单线性相关系数（简称为相关系数）（简称为相关系数）总体相关系数：总体相关系数：式中，式中，Cov(X,Y)，表示，表示X与与Y的协的协方差，方差，Var(X)、Var(Y)表示表示X、Y的方差的方差样本相关系数：样本相关系数：式中，式中，Xi、Yi分别表示分别表示X与与Y的样的样本数据，本数据，分别表示分别表示X、Y的均的均值。值。在在Eviews中计算相关系数的命中计算相关系数的命令为：令为：CORX，Y2、相关系数的性质、相关系数的性质1）-1r12）r的绝对值越近于的绝对值越近于1，说明线性相，说明线性相关程度越关程度越高高，越近于，越近于0，说明线性相关程度，说明线性相关程度越越低低。3）r=1，称为完全，称为完全正正相关。相关。4）r=-1，称为完全，称为完全负负相关。相关。5）接近于）接近于1，比如，比如0.98，称为，称为高度正高度正相关相关。6）接近于）接近于-1，比如，比如-0.95，称为，称为高度高度负相关负相关。完全正相关：完全正相关：比如，在价格比如，在价格P不变时，不变时，销售收入销售收入Y与销售量与销售量X之间。之间。完全负相关：完全负相关：高度正相关：高度正相关：高度负相关：高度负相关：（三）回归分析（三）回归分析 “回回归归（Regression）”一一词词最最早早出出现现在在生生物物学学的的遗遗传传现现象象研研究究中中，用用来来指指子子辈辈身身高高相相对对于于父父辈辈身身高高趋趋向向其其平平均均水水平平的的倾倾向向。现现在在这这一一术术语语广广泛泛地地用用来来指指随随机机因因果果关关系系中中变变量量之之间间的的统统计计规规律律。回回归归分分析析方方法法是是计计量量经经济学的基础。济学的基础。经济变量之间的因果关系有两种：经济变量之间的因果关系有两种：确定性的因果关系确定性的因果关系与与随机的因果关系随机的因果关系。前者可以表示为数学中的函数关系，前者可以表示为数学中的函数关系，后者不能像函数关系那样比较精确地后者不能像函数关系那样比较精确地描述其变化规律，但是可以通过分析描述其变化规律，但是可以通过分析大量的统计数据，找寻出它们之间的大量的统计数据，找寻出它们之间的一定的数量变化规律，这种通过大量一定的数量变化规律，这种通过大量统计数据归纳出的数量变化规律称之统计数据归纳出的数量变化规律称之为为统计相关关系统计相关关系，进而称为，进而称为回归关系回归关系。研究回归关系的方法称为研究回归关系的方法称为回归分析方回归分析方法法，表示回归关系的数学式子称为，表示回归关系的数学式子称为回回归方程归方程。比如，在市场经济条件下，当商品比如，在市场经济条件下，当商品的价格变化时，虽然商品的销售量的价格变化时，虽然商品的销售量受其价格变化的影响，但销售量并受其价格变化的影响，但销售量并不能由价格惟一确定，它还受到人不能由价格惟一确定，它还受到人们的消费习惯、收入水平以及可替们的消费习惯、收入水平以及可替代品价格等因素代品价格等因素的影响。的影响。像这种销售量与其价格之间的关系，像这种销售量与其价格之间的关系，我们称之为非确定性的因果关系，我们称之为非确定性的因果关系，这时尽管我们不能像函数关系那样这时尽管我们不能像函数关系那样比较精确地描述其变化规律，但是，比较精确地描述其变化规律，但是，可以通过分析有关销售量与其价格可以通过分析有关销售量与其价格的统计数据，的统计数据，找寻出它们之找寻出它们之间的一定的间的一定的数量变化数量变化规律。规律。二、总体回归模型二、总体回归模型假假设设 X为为一一个个经经济济变变量量，Y为为另另一一个个经经济济变变量量，且且变变量量X与与Y之之间间存存在在着着非非确确定定性性的的因因果果关关系系，即即当当X变变化化时时会会引引起起Y的的变变化化，但但这这种种变变化化是是随随机机的的。例例如如，某某种种饮饮料料的的销销售售量量与与气气温温的的关关系系，销销售售量量受受气气温温的的影影响响而而变变化化，但但其其变变化化又又不不能能由由气气温温惟惟一一确确定定；再再比比如如，家家庭庭的的周周消消费费额额与与周收入之间的关系等等。周收入之间的关系等等。由于变量由于变量Y的非确定性是由于它受的非确定性是由于它受一些随机因素的影响，因此可以认一些随机因素的影响，因此可以认为，当给定变量为，当给定变量X的一个确定值的一个确定值之时，所对应的变量之时，所对应的变量Y是一个随是一个随机变量，记作机变量，记作Y|X。假定条件随机。假定条件随机变量变量Y|X的数学期望值是存在的，的数学期望值是存在的，即即E(Y|X)存在，由于同一随机变存在，由于同一随机变量的数学期望值是惟一的，故量的数学期望值是惟一的，故E(Y|X)能够由能够由X的值惟一地确定，的值惟一地确定，于是于是E(Y|X)是变量是变量X的函数，的函数，令令(2.1)我们称我们称(2.1)式为变量式为变量Y关于变关于变量量X的总体回归方程（的总体回归方程（Population Regression Equation）或称总体）或称总体回归函数（回归函数（Population Regression Function），回归函数的图像称为），回归函数的图像称为回归曲线。这里，回归曲线。这里，(X)是是X的一元的一元函数，它可以是任何一种形式，其函数，它可以是任何一种形式，其中最简单的形式就是线性函数，当中最简单的形式就是线性函数，当为线性函数之时，为线性函数之时，令令这时这时(2.1)式变为式变为(2.2)现在的总体回归方程为线性方程，我们现在的总体回归方程为线性方程，我们称称(2.2)式为变量式为变量Y关于变量关于变量X的总的总体线性回归方程，由于只有一个解释变体线性回归方程，由于只有一个解释变量，故称为总体一元线性回归方程。此量，故称为总体一元线性回归方程。此时，回归曲线变成了直线，我们称它为时，回归曲线变成了直线，我们称它为总体回归直线总体回归直线令令U=YE(Y|X)(2.3)即即U为为变变量量Y中中不不能能由由变变量量X的的线线性性关关系系表表示示的的部部分分，由由于于对对应应X的的每每一一个个给给定定值值X=X0，所所对对应应的的Y为为一一个个随随机机变变量量，因因此此，可可以以将将Y看看成成一一簇簇随随机机变变量量（即即一一系系列列随随机机变变量量组组成成的的集集合合），从从而而U也也为为一一簇簇随随机机变变量量。将将(2.2)、(2.3)结结合可得：合可得：我们称（我们称（2.4）为）为变量变量Y关于变关于变量量X的总体一元线性回归模型的总体一元线性回归模型。式中，式中，X称为称为解释变量解释变量，Y称为称为被解释变量被解释变量，称为称为总体总体回归参数回归参数，U称为称为随机扰动项随机扰动项，或称或称随机项随机项，或称，或称扰动项扰动项，或称，或称误差项误差项。三、扰动项的本质含义三、扰动项的本质含义在在上上述述总总体体一一元元线线性性回回归归模模型型中中，将将被被解解释释变变量量Y与与回回归归函函数数部部分分之之差差定定义义作作扰扰动动项项，即即将将被被解解释释变变量量Y分分为为两两部部分分，一一部部分分是是可可以以由由X的的线线性性函函数数解解释释的的部部分分，即即，另另一一部部分分是是不不能能由由X的的线线性性函函数数解解释释的的部部分分，即即扰扰动动项项U，扰扰动动项项U具具体包含以下四部分内容：体包含以下四部分内容：1.被忽略的有关因素被忽略的有关因素在一元线性回归模在一元线性回归模型中，我们讨论由于解释变量型中，我们讨论由于解释变量X的变化而引的变化而引起被解释变量起被解释变量Y的变化，但事实上，影响经的变化，但事实上，影响经济变量济变量Y的不止一个因素的不止一个因素X，比如说还有，比如说还有其他其他m个因素对个因素对Y有影响，而当变量有影响，而当变量X是是影响变量影响变量Y的主要一个因素时，且我们又着的主要一个因素时，且我们又着重考虑重考虑X对对Y的影响之时，就忽略了其他的影响之时，就忽略了其他有关有关的的m个变量，只考虑个变量，只考虑X对对Y的影响，的影响，这时，其他这时，其他m个被省略的有关变量对个被省略的有关变量对Y的影的影响仍然是存在的，其影响即并入扰动项响仍然是存在的，其影响即并入扰动项U中。中。2.回归函数的设定误差回归函数的设定误差在实际应用中，在实际应用中，为了避免计算的复杂性，或者由于技术处理为了避免计算的复杂性，或者由于技术处理上的局限性，我们在选取总体回归函数时，上的局限性，我们在选取总体回归函数时，往往是取其近似形式。这时，所选用的回归往往是取其近似形式。这时，所选用的回归函数与本质上存在的回归函数之间有一定的函数与本质上存在的回归函数之间有一定的误差。再则，如前所述，大多数情况下，总误差。再则，如前所述，大多数情况下，总体回归函数的形式是未知的，我们只能根据体回归函数的形式是未知的，我们只能根据样本观察点的分布情况来近似地设定总体回样本观察点的分布情况来近似地设定总体回归函数，这种设定自然会产生一定的误差，归函数，这种设定自然会产生一定的误差，上述误差也包括在扰动项之中。上述误差也包括在扰动项之中。3.变量的测量误差变量的测量误差变量的测量误差变量的测量误差包含两方面的内容，一方面，在观包含两方面的内容，一方面，在观察或测量变量数据的过程中，总要察或测量变量数据的过程中，总要产生某些主观或客观上的误差，使产生某些主观或客观上的误差，使有关变量的观察值并不精确地等于有关变量的观察值并不精确地等于其实际值；另一方面，有些经济变其实际值；另一方面，有些经济变量是一种综合性变量，其统计数据量是一种综合性变量，其统计数据通过若干个变量的统计数据归并而通过若干个变量的统计数据归并而得，归并过程中的各种误差也是一得，归并过程中的各种误差也是一种测量误差。种测量误差。例如，统计资料中，同一经济例如，统计资料中，同一经济指标，常常由于计算口径不一致指标，常常由于计算口径不一致而造成数据的不一致，其中大部而造成数据的不一致，其中大部分是由于指标的分类与归并方法分是由于指标的分类与归并方法不同不同而造成的。而造成的。4.随机误差随机误差经济过程的运行不可能像经济过程的运行不可能像自然科学那样在可控实验室中进行，这自然科学那样在可控实验室中进行，这就不可避免地会涉及到一些不可控制的就不可避免地会涉及到一些不可控制的因素的影响，如气候变量等自然因素的因素的影响，如气候变量等自然因素的影响、消费偏好等人文因素的影响等等。影响、消费偏好等人文因素的影响等等。即使没有以上即使没有以上13项误差，在相同的条项误差，在相同的条件下运行同一经济过程，所得结果往往件下运行同一经济过程，所得结果往往也不一样。这种差异就是随机误差，它也不一样。这种差异就是随机误差，它是由于一些随机或偶然的因素而造成的。是由于一些随机或偶然的因素而造成的。四、样本回归模型四、样本回归模型在在经经济济现现象象的的研研究究中中，经经济济变变量量的的总总体体分分布布大大多多数数是是未未知知的的，比比如如，消消费费支支出出的的精精确确分分布布我我们们无无从从所所知知。因因此此总总体体线线性性回回归归方方程程中中的的参参数数具具体体等等于于多多少少也也是是未未知知的的，总总体体参参数数只只是是理理论论上上存存在在的的。我我们们只只能能根根据据样样本本观观察察值值进进行行统统计计推推断断，以以此此来来估估计计总总体体回归方程和总体回归参数。回归方程和总体回归参数。假设取得假设取得X与与Y的的n个样本观个样本观察点（察点（X1,Y1），（），（X2,Y2），），.，(Xn,Yn)，设法用这，设法用这n个点个点拟合一直线，使之近似地代替总拟合一直线，使之近似地代替总体回归直线，令体回归直线，令该直线方程为该直线方程为我们称（我们称（2.8）式为变量）式为变量Y关于关于变量变量X的的样本回归方程样本回归方程（SampleRegressionEquation）或称样本回归函数）或称样本回归函数（SampleRegressionFunction），称该直线为），称该直线为样本回归直线样本回归直线，称为称为样本回归参数样本回归参数。令令(2.9)称称为为Yi的的拟拟合合值值。则则是是样样本本回回归直线上的点。归直线上的点。设设(2.10)则则(2.11)我们称我们称(2.11)式为变量式为变量Y关于变量关于变量X的的样本一元线性回归模型样本一元线性回归模型。ei称为称为残差项残差项（RESIDAL）。）。例例2.1家庭消费模型家庭消费模型假定某地区共有假定某地区共有100个家庭，我们个家庭，我们来研究家庭月消费支出来研究家庭月消费支出Y与可支配收入与可支配收入X之间的联系，之间的联系，X与与Y之间的关系如何？我之间的关系如何？我们收集样本数据（如表们收集样本数据（如表2.1），收入水平），收入水平X的取值分别为的取值分别为1000、1500、2000、2500、3000、3500、4000、4500、5000、5500，同一收入水平的下的家庭个数，同一收入水平的下的家庭个数不等，比如收入为不等，比如收入为1000的家庭有的家庭有4个，而个，而收入为收入为3000的家庭有的家庭有14个。个。第一步：输入数据第一步：输入数据在在Eviews中建立一个中建立一个CrossSection的的Workfile：1、用命令：用命令：CreateU11002、用用Menu：File/New/Workfile/Undatedorirregular再输入：再输入：StartobservationEndobservation点击点击OK即可。即可。11100100这时进入这时进入Workfile界面。界面。第二步：输入、保存数据第二步：输入、保存数据1、用命令：用命令：DataXY2、保存数据：保存数据：File/SaveFile/Saveas注意：注意：1、Eviews数据在旧版本下不能保数据在旧版本下不能保存在中文路径，只能存在英文路径下。存在中文路径，只能存在英文路径下。2、保存数据时要在工作文件为活、保存数据时要在工作文件为活动状态下，否则会出错。动状态下，否则会出错。第三步：作散点图第三步：作散点图1、用命令：用命令：ScatXY2、用用Menu：Quick/Graph/Scatter输入：输入：XY家庭消费关于收入的散点图：家庭消费关于收入的散点图：散点图：加入趋势线散点图：加入趋势线总体回总体回总体回总体回归线归线归线归线第一个样本的散点图：第一个样本的散点图：第一个样本的散点图：第一个样本的散点图：样本回样本回样本回样本回归线归线归线归线第二个样本的散点图：第二个样本的散点图：第二个样本的散点图：第二个样本的散点图：样本回样本回样本回样本回归线归线归线归线第二节第二节一元线性回归模型的参数估一元线性回归模型的参数估计计一、拟合一条直线的准则一、拟合一条直线的准则前面谈到的前面谈到的总体线性回归方程总体线性回归方程只是理论上存只是理论上存在的，一般是未知的，我们只能用样本观察点在的，一般是未知的，我们只能用样本观察点来拟合一条直线，即来拟合一条直线，即样本回归直线样本回归直线，以此来推，以此来推断被解释变量相对于解释变量的变化特征。然断被解释变量相对于解释变量的变化特征。然而，给定一组观察点之后，在坐标平面上可以而，给定一组观察点之后，在坐标平面上可以作出不止一条与这些点有关有直线，作出不止一条与这些点有关有直线，选取哪一选取哪一条直线条直线作为样本回归直线为佳呢？首先我们需作为样本回归直线为佳呢？首先我们需要给出拟合一条直线的准则。要给出拟合一条直线的准则。下面我们逐渐来探讨这个问题。下面我们逐渐来探讨这个问题。设用这设用这n个点个点(X1,Y1),(X2,Y2),(Xn,Yn)拟合而得的直线方程为拟合而得的直线方程为称称为为Yi的拟合值，称的拟合值，称ei为为Yi点的拟合误差。点的拟合误差。图图2-2拟合误差的直观图拟合误差的直观图由图由图2-2可以看出，当观察点可以看出，当观察点（Xi,Yi）落在拟合直线上方时，拟）落在拟合直线上方时，拟合误差为正值，当观察点（合误差为正值，当观察点（Xi,Yi）落在拟合直线之上时，拟合误差为落在拟合直线之上时，拟合误差为0。当观察点（。当观察点（Xi,Yi）落在拟合直）落在拟合直线下方时，拟合误差为负值。显然线下方时，拟合误差为负值。显然拟合的优劣与拟合误差有关，我们拟合的优劣与拟合误差有关，我们分三种情况来讨论如何确定拟合直分三种情况来讨论如何确定拟合直线的标准。线的标准。1假设假设以拟合误差之和为最小以拟合误差之和为最小作作为拟合直线的标准，为拟合直线的标准，即要求即要求为最小。这时，当为最小。这时，当拟合误差中有符号相反时，和式中拟合误差中有符号相反时，和式中就会正负抵消，即使拟合直线离散就会正负抵消，即使拟合直线离散布点大多数都很远，也可能此和式布点大多数都很远，也可能此和式很小。很小。2.为了克服上述准则中由于误差为了克服上述准则中由于误差符号相反所带来的缺点，我们改符号相反所带来的缺点，我们改造一下上述准则，以造一下上述准则，以误差绝对值误差绝对值之和为最小之和为最小作为拟合的准则，即作为拟合的准则，即以以为最小。这时，虽然为最小。这时，虽然可排除大的正负误差相抵，但可可排除大的正负误差相抵，但可能会照顾了一些点而忽略了个别能会照顾了一些点而忽略了个别点。点。图 2-4 (a)图 2-4 (b)3.第二种消除正负相抵的方法第二种消除正负相抵的方法是以是以拟合误差平方和为最小拟合误差平方和为最小作为作为拟合准则，即以拟合准则，即以为最小。采用这一准则，一方面为最小。采用这一准则，一方面消除了误差正负相抵，另一方面消除了误差正负相抵，另一方面避免了像避免了像2那样有个别点是大误那样有个别点是大误差绝对值的情况。依照这一标准，差绝对值的情况。依照这一标准，图图2-4中的（中的（a）优于（）优于（b）的拟）的拟合。合。进一步的研究表明，这一进一步的研究表明，这一标准是一条可取的准则，直观标准是一条可取的准则，直观上看，它从总体上考虑到了所上看，它从总体上考虑到了所有的散布点，使样本信息得到有的散布点，使样本信息得到了充分利用。因而，我们采用了充分利用。因而，我们采用拟合误差平方和最小作为拟合拟合误差平方和最小作为拟合一条直线的准则。这一准则称一条直线的准则。这一准则称为为“最小二乘最小二乘”或或“最小平方最小平方”准则。准则。二、最小二乘法二、最小二乘法用用最小二乘准则最小二乘准则即拟合误差的平即拟合误差的平方和为最小来求解样本回归参数的方方和为最小来求解样本回归参数的方法称为法称为普通最小二乘法普通最小二乘法（OrdinaryLeastSquare）简称）简称OLS。这是计这是计量经济学中常用的参数估计方法。量经济学中常用的参数估计方法。用最小二乘准则求解样本回归参用最小二乘准则求解样本回归参数可以分为以下几步：数可以分为以下几步：1、构造拟合误差平方和令令即即Q为拟合误差的平方和。为拟合误差的平方和。2、导出正规方程导出正规方程由于由于Q是回归参数的二次连是回归参数的二次连续可导函数，由极值原理可知：使续可导函数，由极值原理可知：使Q达到最小的达到最小的必定满足方程组：必定满足方程组：而而整理得：整理得：称之为正规方程。称之为正规方程。3 3、求解正规方程、求解正规方程用用线线性性代代数数中中的的克克莱莱姆姆（Cramm）法则求解正规方程得：）法则求解正规方程得：整理得：整理得：其中：其中：分别表示分别表示Xi与与Yi的平均值，的平均值，分别表示分别表示Xi与与Yi的离差。的离差。将将代代入入第第一一个个方方程程即即得得的的解，于是：解，于是：称称该该解解为为模模型型中中参参数数的的最最小小二二乘估计量（乘估计量（OLS）。）。三、一元线性回归模型的基本假设三、一元线性回归模型的基本假设现在的问题是用现在的问题是用OLS方法估计出来的方法估计出来的样本回归直线样本回归直线方程是否可靠，是否一定方程是否可靠，是否一定可以用来推断总体的特性，也就是说是可以用来推断总体的特性，也就是说是否一定可以用它来代表否一定可以用它来代表X与与Y的总体回的总体回归关系？当然不一定，这有赖于经济变归关系？当然不一定，这有赖于经济变量的总体特征，因此，为了使所估计出量的总体特征，因此，为了使所估计出来的样本回归直线能够说明总体的特征，来的样本回归直线能够说明总体的特征，我们需要对变量的总体分布作一些假设：我们需要对变量的总体分布作一些假设：对于一元线性回归模型：对于一元线性回归模型：我我们们假假设设：（在在此此Yi应应理理解解为为Xi所对应的随机变量所对应的随机变量Y，即即(Y|X=Xi)，不不仅仅仅仅是是某某一一个个样样本本观观察值。）解释变量是非随机的，且察值。）解释变量是非随机的，且假假设1：零均：零均值E(ui)=0i=1,2,.,n称称为为扰扰动动项项具具有有零零均均值值，也也称称零零均值均值假设。假设。假设假设2：同方差：同方差Var(ui)=i=1,2,.,n即即所所有有的的扰扰动动项项具具有有相相同同的的方方差差，该该假假设设称称为为扰扰动动项项具具有有同同方方差差，或或称称同同方方差差性性，该该假假设设不不满满足足时时称称为为异异方方差性，或异方差模型。差性，或异方差模型。假设假设3序列无关或无自相关序列无关或无自相关Cov(ui,uj)=0ij,i,j=1,2,n即即扰扰动动项项序序列列不不相相关关。该该项项假假设设称称为为扰扰动动项项序序列列无无关关，或或称称无无自自相相关关假假设设。否否则则，模模型型称称为为序序列列相相关关或或自自相相关关。假假设设4扰扰动动项项ui与与解解释释变变量量X i i从从不不相相关关Cov(ui,Xi)=0i=1,2,n即扰动项序列即扰动项序列ui与解释变量与解释变量Xi i之间没有线性关系。之间没有线性关系。假设假设5扰动项扰动项ui服从正态分布服从正态分布即即uiN(,)此外我们还假设解释变量此外我们还假设解释变量X为为非随机变量的。在这一假设下，非随机变量的。在这一假设下，第第4条假设自然成立。条假设自然成立。我们将解释变量我们将解释变量X为非随机变为非随机变量的假设以及假设量的假设以及假设1、2、3、5合合称为一元线性回归模型的称为一元线性回归模型的经典假经典假设设，或称，或称基本假设基本假设，或，或古典假设古典假设，满足经典假设的一元线性回归模满足经典假设的一元线性回归模型称为型称为经典一元线性回归模型经典一元线性回归模型。关于关于解释变量的非随机性解释变量的非随机性，这一条，这一条要求比较高，一般不能满足，因为经济要求比较高，一般不能满足，因为经济现象中大多数变量是随机的，具体应用现象中大多数变量是随机的，具体应用中，我们首先对解释变量进行抽样，这中，我们首先对解释变量进行抽样，这样一般是可以达到的，对于抽定的样本样一般是可以达到的，对于抽定的样本随机性问题就暂时可以不考虑了，然后随机性问题就暂时可以不考虑了，然后研究对解释变量给定的样本被解释变量研究对解释变量给定的样本被解释变量随解释变量变化的规律等等，由于抽样随解释变量变化的规律等等，由于抽样的随机性，这样做理论上讲有一定的局的随机性，这样做理论上讲有一定的局限性，但是一定程度上还是可以反映变限性，但是一定程度上还是可以反映变量之间的变化规律。量之间的变化规律。关于零均值假设，由模型式：关于零均值假设，由模型式：在在解解释释变变量量非非随随机机的的前前提提下下，对对上式两边取数学期望，得：上式两边取数学期望，得：即零均值等价于：即零均值等价于：也即变量也即变量Y与与X之间的回归方程之间的回归方程是线性的，即模型是线性模型。假是线性的，即模型是线性模型。假设设2的要求是对于不同的的要求是对于不同的X的值的值Xi，Y的离散程度是一样的。的离散程度是一样的。线性：线性：非线性：非线性：方差不同时的图示：方差不同时的图示：方差：离散程度测度方差：离散程度测度有人对历史上有生死日期的有人对历史上有生死日期的有人对历史上有生死日期的有人对历史上有生死日期的209209209209位皇帝的寿命做了位皇帝的寿命做了位皇帝的寿命做了位皇帝的寿命做了调查，发现平均寿命为调查，发现平均寿命为调查，发现平均寿命为调查，发现平均寿命为39393939岁，其中乾隆皇帝寿命最长岁，其中乾隆皇帝寿命最长岁，其中乾隆皇帝寿命最长岁，其中乾隆皇帝寿命最长88888888岁。为什么会是这样呢？岁。为什么会是这样呢？岁。为什么会是这样呢？岁。为什么会是这样呢？比如有一组三个学生的成绩分别比如有一组三个学生的成绩分别比如有一组三个学生的成绩分别比如有一组三个学生的成绩分别是是是是6060、6565、7070分；分；分；分；另一组三个学生的成绩分别是另一组三个学生的成绩分别是另一组三个学生的成绩分别是另一组三个学生的成绩分别是3030、7575、9090，这两组学，这两组学，这两组学，这两组学生的均分都是生的均分都是生的均分都是生的均分都是6565分，那么分，那么分，那么分，那么这两组成绩有区别吗？这两组成绩有区别吗？这两组成绩有区别吗？这两组成绩有区别吗？显然是有的，直观上看，后一组两极分化。那么如显然是有的，直观上看，后一组两极分化。那么如显然是有的，直观上看，后一组两极分化。那么如显然是有的，直观上看，后一组两极分化。那么如何体现这一区别呢？这就是数据的离散程度。何体现这一区别呢？这就是数据的离散程度。何体现这一区别呢？这就是数据的离散程度。何体现这一区别呢？这就是数据的离散程度。极差极差（全距）（全距）（全距）（全距）最大值最大值最大值最大值-最小值最小值最小值最小值极差大的离散程度大，极差小的离散程度小。方差（Variance）变量与其平均数差（离差）的平方的均值：以上两组数据的方差分别为：16.67与650，显然，方差小的离散程度小。方差大的离散程度大，方差小的离散程度小。标准差（Standard Deviation）方差的平方根，与方差的用法类似。91哪家供货哪家供货哪家供货哪家供货商更好？商更好？商更好？商更好？四、最小二乘估计量的性质四、最小二乘估计量的性质高斯马尔可夫定理对于满足经典假设对于满足经典假设的一元线性回归模型，在所有的线性、无的一元线性回归模型，在所有的线性、无偏估计量中，偏估计量中，OLS估计量具有方差最小的估计量具有方差最小的性质。性质。高高斯斯马马尔尔可可夫夫定定理理说说明明，对对于于经经典典的的一一元元线线性性回回归归模模型型，OLS估估计计量量是是总总体体回回归归参参数数的的线线性性、无无偏偏以以及及方方差差最最小小的的估估计量（方差最小性也称有效性）。计量（方差最小性也称有效性）。前面谈到，之所以对模型作以上前面谈到，之所以对模型作以上假设，是为了规范方法的研究。对假设，是为了规范方法的研究。对于经典的一元线性回归模型，由上于经典的一元线性回归模型，由上可知可知OLS估计量是由解释变量及被估计量是由解释变量及被解释变量的样本观察值计算而得，解释变量的样本观察值计算而得，而被解释变量具有随机性，于是而被解释变量具有随机性，于是OLS估计量估计量也具有随机性，也具有随机性，且有以下性质：且有以下性质：1线性性线性性线性性指线性性指为为Yi的线性函数。的线性函数。2.无偏性无偏性无无偏偏性性指指为为的的无无偏偏估估计计量量，就就是是说说，OLS估估计计量量的的数数学学期期望即均值正好是所要估计的参数本身。望即均值正好是所要估计的参数本身。也即也即无无偏偏性性是是衡衡量量一一个个估估计计量量的的可可信信度度的的一一个非常重要的指标。个非常重要的指标。无偏性与有偏性：无偏性与有偏性：无偏无偏无偏无偏有偏有偏有偏有偏比如：比如：取数学期望得：取数学期望得：即即是是的无偏估计量。同理可的无偏估计量。同理可证得证得是是的无偏估计量。的无偏估计量。3.方差最小性（也称有效性）方差最小性（也称有效性）方方差差最最小小性性也也称称为为有有效效性性，它它指指在在所所有有的的总总体体参参数数的的线线性性、无无偏偏估估计计量量中中，普普通通最最小小二二乘乘估估计计量量具具有有方方差差最小的性质。最小的性质。无偏性体现的是估计量的无偏性体现的是估计量的均值水均值水平平与总体参数之间的关系，而有效性与总体参数之间的关系，而有效性体现的是估计量相对于其均值的体现的是估计量相对于其均值的离散离散程度程度，随机变量的方差越大其离散程随机变量的方差越大其离散程度就越大，方差越小离散程度就越小。度就越大，方差越小离散程度就越小。方差最小性：方差最小性：方差较小方差较小方差较小方差较小方差较大方差较大方差较大方差较大第三节回归参数的显著性检验及置信区间前前面面谈谈到到，对对所所估估计计出出的的模模型型要要进进行行统统计计检检验验，第第一一个个统统计计检检验验即即参参数数的的显显著著性性检检验验，也也称称 t-显显著著性性检检验验，在在作作t-检检验验之之前前，我我们们首首先先需需知知道道参参数数估计量所服从的分布。估计量所服从的分布。在经典假设条件下，在经典假设条件下，OLS估计量估计量也服从正态分布。由上可知，也服从正态分布。由上可知，于是：于是：但是，由于总体的方差但是，由于总体的方差未知，我未知，我们只能用其估计量们只能用其估计量来代替之，可来代替之，可以证明，以证明，为为的无偏估计量。的无偏估计量。令令则则为为的标准差的的标准差的估计量。估计量。于是于是为服从自由度为为服从自由度为n-2的的 t分布，即分布，即一般地，由于一般地，由于t-分布的极限分分布的极限分布为正态分布，因此，当样本容量布为正态分布，因此，当样本容量n30即大样本时，我们作即大样本时，我们作Z-显著显著性检验，当样本容量性检验，当样本容量n30时，作时，作t-显著性检验，显著性检验，Z-显著性检验的步显著性检验的步骤与骤与t-显著性检验的步骤完全相同，显著性检验的步骤完全相同，只是所查的临界值表不同，前者查只是所查的临界值表不同，前者查得是正态分布的临界值表，后者查得是正态分布的临界值表，后者查得是得是t-分布的临界值表。分布的临界值表。t-显著性著性检验可以可以检验总体回体回归参数参数为任意任意值的的显著性，但著性，但计量量经济模型中的模型中的t-检验一般只一般只检验为零的零的显著性，因著性，因为为零的零的显著性等价于解著性等价于解释变量量对被解被解释变量量的的线性影响的有效性。性影响的有效性。t-显著性著性检验的步的步骤如下：如下：对作作显著性著性检验：(1)提出提出原假原假设H0：；作作对立假立假设H1：；(2)在假在假设H0成立的条件下成立的条件下计算算t-统计量：量：(3)给定定显著著水水平平=0.05，查自自由由度度为v=n-2的的t-分分布布表表，得得到到临界界值，(4)比比较与与：若若，则接受假设，则接受假设H0:，说明回归参数说明回归参数在统计上在统计上是不显著的，即是不显著的，即解释变量解释变量X对被对被解释变量解释变量Y没有显著的线性影响没有显著的线性影响，也即也即X与与Y的均值之间不存在线性的均值之间不存在线性关系。换言之，线性回归模型无关系。换言之，线性回归模型无意义。意义。若若，则拒绝假设，则拒绝假设H0，接受假设接受假设H1：，说明回归，说明回归参数参数在统计上是显著的，即在统计上是显著的，即解释解释变量变量X对被解释变量对被解释变量Y有显著的线有显著的线性影响性影响，也即，也即X与与Y的均值之间存的均值之间存在线性关系。换言之，线性回归模在线性关系。换言之，线性回归模型有意义。型有意义。下面给出下面给出OLS估计量的估计量的置信区间（区置信区间（区间估计）间估计）：由上可知，由上可知，服从服从t分布，由分布，由临界值临界值的定义可以导出的定义可以导出的置信的置信区间，给定显著水平，由临界值的定区间，给定显著水平，由临界值的定义可知：义可知：上式等价于：上式等价于：即即以以95%的可能性落在下面区间上：的可能性落在下面区间上：称称该该区区间间为为的的置置信信区区间间，或或称称区区间间估计估计，置信度为，置信度为95%，同理可得，同理可得置信度为置信度为95%的的的置信区间为：的置信区间为：很显然，很显然，置信区间越小越好，置信区间越置信区间越小越好，置信区间越小可信度越高小可信度越高，而置信区间的半径中变化不大，而置信区间的半径中变化不大，因此估计量的可信度主要取决于其标准差的估因此估计量的可信度主要取决于其标准差的估计量，标准差越小，可信度越高，标准差越大，计量，标准差越小，可信度越高，标准差越大，可信度就越低。这与可信度就越低。这与t-检验的显著性是等价的，检验的显著性是等价的，从从T统计量的计算可知，标准差越小，则统计量的计算可知，标准差越小，则T统统计量的绝对值越大，即计量的绝对值越大，即T值通过临界值的可能值通过临界值的可能性也大，从而性也大，从而t-检验显著的可能性也大。此检验显著的可能性也大。此外从标准差的计算公式可知外从标准差的计算公式可知，标准差的大小主要取决于总体方差的大小以标准差的大小主要取决于总体方差的大小以及解释变量的离差平方和，它与总体方差成及解释变量的离差平方和，它与总体方差成正比，与解释变量的离差平方和成反比，也正比，与解释变量的离差平方和成反比，也就是说，当被解释变量的离散程度较大（即就是说，当被解释变量的离散程度较大（即总体方差较大）以及解释变量的取值过于集总体方差较大）以及解释变量的取值过于集中（即解释变量的离差平方和较小）时，线中（即解释变量的离差平方和较小）时，线性回归模型的可信度会大大降低，不利于作性回归模型的可信度会大大降低，不利于作线性回归分析。线性回归分析。第四节第四节拟合优度的度量拟合优度的度量用用在在作作普普通通最最小小二二乘乘估估计计之之时时，我我们们谈谈到到，对对于于给给定定的的样样本本观观察察值值，用用样样本本回回归归直直线线来来拟拟合合这这些些观观察察值值，那那么么拟拟合合的的程程度度如如何何呢呢？是是不不是是任任何何两两个个经经济济变变量量的的一一组组样样本本观观察察值值的的拟拟合合直直线线都都可可作作为为此此二二变变量量的的线线性性关关系系的的精精确确描描述述呢呢？问问题题在在于于拟拟合合程程度度的的优优劣劣表表述述，我我们们称称之之为为拟拟合合优优度度检检验验，为为此此，定定义义可可决决系系数数。在在定定义可决系数之前，我们先介绍几个有关的结论。义可决系数之前，我们先介绍几个有关的结论。一、总变差的分解首先定义几个符号：首先定义几个符号：令令称为样本总变差；称为样本总变差；称为回归总变差；称为回归总变差；即残差平方和。即残差平方和。可以证明：可以证明：TSS=ESS+RSS于是样本总变差可以分解为回于是样本总变差可以分解为回归总变差与残差平方和之和。归总变差与残差平方和之和。二、可决系数二、可决系数对对于于给给定定的的样样本本观观察察值值，TSS不不变变，前前面面谈谈到到，拟拟合合的的好好即即残残差差平平方方和和较较小小，由由于于此此三三项项均均为为平平方方和和，都都大大于于0，于于是是拟拟合合的的好好就就等等价价于于RSS较较接接近近于于TSS，换换言言之之，回回归归总总变变差差越越接近于样本总离差，拟合的就越好接近于样本总离差，拟合的就越好。令令称称R2为为变变量量Y与与变变量量X的的样样本本s可可决决系系数数，或或称称样样本本决决定定系系数数、样样本本判判定定系系数数等等。之之所所以以称称为为样样本本可可决决系系数数，是是因因为为它它由由X与与Y的的样样本本观观察察值值(Xi,Yi)决定。决定。前面谈到拟合的好坏取决于前面谈到拟合的好坏取决于RSS较接较接近于近于TSS的程度，由的程度，由R2的定义可知，等价的定义可知，等价于于R2接近于接近于1的程度，于是我们用的程度，于是我们用R2接近接近于于1的程度来衡量样本回归直线对样本观的程度来衡量样本回归直线对样本观察值的拟合的优度，即拟合优度检验。察值的拟合的优度，即拟合优度检验。R2越接近于越接近于1，说明拟合的越好，说明拟合的越好，R2越接近越接近于于0，说明拟合的越差。，说明拟合的越差。三、三、可决系数与相关系数的关系可决系数与相关系数的关系变量变量Y关于变量关于变量X的的样本可决系数样本可决系数正好等于正好等于Y与与X的相关系数的平方的相关系数的平方。而而于是于是又又四、四、样本决定系数的本质意义样本决定系数的本质意义样样本本可可决决系系数数是是由由样样本本观观察察值值(Xi,Yi)所所决决定定的的，我我们们进进一一步步要要想想它它由由样样本本观观察察值值的的哪哪些些方方面面的的性性质质决决定定呢呢？研研究究表表明明实实质质上上R2由由X与与Y的的样样本本观观察察值值(Xi,Yi)的的线线性性相相关关程程度度来来决决定定，当当样样本本散散布布点点过过于于离离散散时时，即即样样本本总总离离差差TSS较较大大时时，不不可可能能作作一一条条直直线线很很好好地地拟拟合合这这些些散散布布点点，自自然然所所得得回回归归直直线线的的残残差差平平方方和和就就较较大大，同同时时R2就就相相对离对离1较远。较远。图 2-5 (a)图 2-5 (b)第五节第五节一元线性回归模型的预测一元线性回归模型的预测计计量量经经济济模模型型的的预预测测分分为为条条件件预预测测与与无无条条件件预预测测两两类类，当当给给定定解解释释变变量量X的的样样本本区区间间之之外外的的值值，来来计计算算被被解解释释变变量量Y的的相相应应值值时时，称称为为条条件件预预测测；当当解解释释变变量量X的的值值也也未未知知，且且要要预预测测被被解解释释变变量量的的相相应应值值时时，称称为为无无条件预测。条件预测。本节介绍的是条件预测，无本节介绍的是条件预测，无条件预测要先采用其它方法计算条件预测要先采用其它方法计算出解释变量出解释变量X的值，比较复杂，比的值，比较复杂，比如说借助于时间序列模型先来预如说借助于时间序列模型先来预测解释变量测解释变量X的值等。的值等。条件预测又分为点预测与区间预测。条件预测又分为点预测与区间预测。一、点预测一、点预测设设变变量量Y关关于于变变量量X的的样样本本回回归归方方程程为：为：给给定定X的的一一个个值值Xf，利利用用上上述述回回归归方方程程求得求得的估计值：的估计值：就是就是Yf的点预测值，同时的点预测值，同时也是也是Yf的均值的均值E(Yf|Xf)的预测值的预测值二、区间预测二、区间预测由于回归方程代表的由于回归方程代表的是被解释变量的一个主要部分，不是全部，是被解释变量的一个主要部分，不是全部，另一部分用扰动项来代表，因此，点预测另一部分用扰动项来代表，因此，点预测值值与其真实值与其真实值Yf之间之间有误差存在，有误差存在，令令称称ef为预测误差，可以导出为预测误差，可以导出Yf的预的预测区间，测区间，Yf以以95%的可能性落在下面的可能性落在下面区间上：区间上：称它为称它为Yf的区间预测。的区间预测。其中，其中，SE(ef)为预测误差为预测误差ef的标准差：的标准差：预测区间的半径主要与预测区间的半径主要与SE(ef)的大的大小有关，从小有关，从SE(ef)的的计算可知，它主要计算可知，它主要受两个因素的影响，一是总体方差的受两个因素的影响，一是总体方差的估计量，二是估计量，二是Xf与解释变量的平均值与解释变量的平均值之间的距离，之间的距离，因此，预测精度主要取决于因此，预测精度主要取决于被解释变被解释变量总体离散程度以及解释变量取值与量总体离散程度以及解释变量取值与其样本均值之间的距离大小。其样本均值之间的距离大小。当然，当然，预测精度问题还受到其它因素的影响，预测精度问题还受到其它因素的影响，比如当样本之外的未来时期比如当样本之外的未来时期X与与Y之之间的变化趋势改变时，即变量间的变化趋势改变时，即变量Y与与X在样本观察期间之内与在观察期之外在样本观察期间之内与在观察期之外变化规律不完全相同，这时样本所给变化规律不完全相同，这时样本所给出的信息不能较准确地预测其出的信息不能较准确地预测其样本外的变化；此外是当出现样本外的变化；此外是当出现了突发性事件，如大地震、金了突发性事件，如大地震、金融危机等，这些随机事件的发融危机等，这些随机事件的发生使随机扰动项的值增大，由生使随机扰动项的值增大，由回归方程给出预测值时扰动项回归方程给出预测值时扰动项是当作其均值水平是当作其均值水平0来处理的，来处理的，这时，预测结果的可信度显然这时，预测结果的可信度显然产生了较大的问题。产生了较大的问题。第二章第二章第六节第六节第六节第六节一元线性回归模型应用实例一元线性回归模型应用实例例例2.2中国城镇居民消费行为实证分析中国城镇居民消费行为实证分析。研研究究中中国国城城镇镇居居民民生生活活消消费费支支出出关关于于可可支支配配收收入入的的关关系系。设设Y表表示示2019年年城城镇镇居居民民生生活活消消费费支支出出，X表表示示2019年年城城镇镇居居民民可可支支配配收收入入。数数据据来来源源于于中中国国国国家家统统计计网：网：stats.gov/。图2-6 我国城镇居民收入与消费散点图数据来源：中国国家统计局网，中国统计年鉴2019 数据来源：截面（CROSS SECTION）数据转换：从EXCEL到EVIEWS 图。图。图4-4中那个最高点是上海市的数据，上海市的居民人均消费水平、人均GDP、城镇居民人均可支配收入以及农村居民人均纯收入在我国均处在第一位。从图中可以看出，我国城镇低收入与低消费水平省市占多数，高收入与高消费水平省市只有个别几个。因此今后我国缩小居民收入差距任重而道远，需要提高收入水平的省市是一大批而不只是几个。用Eviews进行参数估计得：即中国城镇居民即中国城镇居民2019年的边年的边际消费倾向是际消费倾向是0.69，即城镇居民平，即城镇居民平均来讲收入每增加均来讲收入每增加100元，有元，有69元元用于了消费。用于了消费。谢谢！

展开阅读全文

第二章-简单线性回归模型-课件

最新文档