第二章-一元线性回归模型(蓝色)课件

上传人:无*** 文档编号:241657440 上传时间:2024-07-13 格式:PPT 页数:280 大小:3.08MB
返回 下载 相关 举报
第二章-一元线性回归模型(蓝色)课件_第1页
第1页 / 共280页
第二章-一元线性回归模型(蓝色)课件_第2页
第2页 / 共280页
第二章-一元线性回归模型(蓝色)课件_第3页
第3页 / 共280页
点击查看更多>>
资源描述
经济计量学经济计量学 第二章第二章 一元线性回归模型一元线性回归模型 本章介绍一元线性回归模型的概念及本章介绍一元线性回归模型的概念及一元线性回归模型所依据的理论与应用。一元线性回归模型所依据的理论与应用。一元线性回归模型只包含一个解释变量和一元线性回归模型只包含一个解释变量和一个被解释变量,是最简单的线性回归模一个被解释变量,是最简单的线性回归模型。通过一元线性回归模型的学习,可较型。通过一元线性回归模型的学习,可较容易地理解回归分析的基本理论与应用。容易地理解回归分析的基本理论与应用。第一节第一节第一节第一节 回归分析的相关概念回归分析的相关概念回归分析的相关概念回归分析的相关概念 一、回归的含义一、回归的含义一、回归的含义一、回归的含义 回归一词最早由回归一词最早由回归一词最早由回归一词最早由F F F F高尔顿高尔顿高尔顿高尔顿(Francis(Francis GaltonGalton)提出。在一篇研究父母身高与子女提出。在一篇研究父母身高与子女提出。在一篇研究父母身高与子女提出。在一篇研究父母身高与子女身高相互关系的论文中,高尔顿发现,虽身高相互关系的论文中,高尔顿发现,虽身高相互关系的论文中,高尔顿发现,虽身高相互关系的论文中,高尔顿发现,虽然有一个趋势,父母高,子女也高;父母然有一个趋势,父母高,子女也高;父母然有一个趋势,父母高,子女也高;父母然有一个趋势,父母高,子女也高;父母矮,子女也矮,但给定父母的身高,子女矮,子女也矮,但给定父母的身高,子女矮,子女也矮,但给定父母的身高,子女矮,子女也矮,但给定父母的身高,子女的平均身高却趋向于或者回归到全体人口的平均身高却趋向于或者回归到全体人口的平均身高却趋向于或者回归到全体人口的平均身高却趋向于或者回归到全体人口的平均身高。的平均身高。的平均身高。的平均身高。也就是说,当父母双亲都异常高或异常也就是说,当父母双亲都异常高或异常矮,则子女的身高有趋向于人口总体平矮,则子女的身高有趋向于人口总体平均身高的趋势。这种现象被称为高尔顿均身高的趋势。这种现象被称为高尔顿普遍回归定律。这就是回归一词的原始普遍回归定律。这就是回归一词的原始含义。含义。在现代,回归一词已演变为一种新的概在现代,回归一词已演变为一种新的概念。念。回归分析就是研究被解释变量对解释回归分析就是研究被解释变量对解释变量的依赖关系,其目的就是通过解释变变量的依赖关系,其目的就是通过解释变量的已知或设定值,去估计或预测被解释量的已知或设定值,去估计或预测被解释变量的总体均值。变量的总体均值。在下面的几个例子中,在下面的几个例子中,我们可以清晰地看到回归分析的实际意义。我们可以清晰地看到回归分析的实际意义。1高尔顿普遍回归定律。高尔顿普遍回归定律。高尔顿的目高尔顿的目的在于发现为什么人口的身高分布有一种的在于发现为什么人口的身高分布有一种稳定性。在现代,我们并不关心这种解释,稳定性。在现代,我们并不关心这种解释,我们关心的是:在给定父辈身高的情形下,我们关心的是:在给定父辈身高的情形下,找到儿辈平均身高的变化规律。找到儿辈平均身高的变化规律。就是说,我们如果知道了父辈的身高,就是说,我们如果知道了父辈的身高,就可就可预测预测儿辈的平均身高。假设我们得儿辈的平均身高。假设我们得到了一组父亲、儿子身高的数据,制成到了一组父亲、儿子身高的数据,制成如下的散点图。图中按统计分组的方法如下的散点图。图中按统计分组的方法将父亲身高分为若干组。将父亲身高分为若干组。父亲身高(父亲身高(父亲身高(父亲身高(cmcmcmcm)儿儿儿儿子子子子身身身身高高高高(c c c cm m m m)图图图图2.12.12.12.1 给定父亲身高儿给定父亲身高儿给定父亲身高儿给定父亲身高儿子身高的分布子身高的分布子身高的分布子身高的分布 图图2.1中对应于设定的父亲身高,儿中对应于设定的父亲身高,儿子身高有一个分布范围。随着父亲身高子身高有一个分布范围。随着父亲身高的增加,儿子的平均身高也在增加,画的增加,儿子的平均身高也在增加,画一条通过儿子平均身高的线,说明儿子一条通过儿子平均身高的线,说明儿子的平均身高是如何随着父亲身高的增加的平均身高是如何随着父亲身高的增加而增加的,这条线就是而增加的,这条线就是回归线回归线。2在经济学中,经济学家要研究个人在经济学中,经济学家要研究个人消费支出与个人可支配收入的依赖关系。消费支出与个人可支配收入的依赖关系。这种分析有助于估计边际消费倾向,就是这种分析有助于估计边际消费倾向,就是可支配收入每增加一元引起消费支出的平可支配收入每增加一元引起消费支出的平均变化。均变化。3 3在企业中,我们很想知道人们对在企业中,我们很想知道人们对企业产品的需求与广告费开支的关系。这企业产品的需求与广告费开支的关系。这种研究有助于估计出相对于广告费支出的种研究有助于估计出相对于广告费支出的需求弹性,即广告费支出每变化百分之一需求弹性,即广告费支出每变化百分之一的需求变化百分比,这有助于制定最优广的需求变化百分比,这有助于制定最优广告策略。告策略。4农业工作需要预计粮食产量,需要农业工作需要预计粮食产量,需要研究粮食产量与播种面积、施肥量、降雨研究粮食产量与播种面积、施肥量、降雨量之间的依赖关系。量之间的依赖关系。这种一个变量依赖于另一个或多个变量这种一个变量依赖于另一个或多个变量的事例在经济系统中普遍存在。回归分析的事例在经济系统中普遍存在。回归分析就是要研究这种变量之间的依存关系。就是要研究这种变量之间的依存关系。二、统计关系与确定性关系二、统计关系与确定性关系 如果给定一个变量如果给定一个变量X的结果值就可确定的结果值就可确定另一个变量另一个变量Y 的结果值,则称变量的结果值,则称变量Y是变量是变量X 的函数,即的函数,即X、Y之间是函数关系。之间是函数关系。在经典物理学中,给定电阻在经典物理学中,给定电阻Q Q,电流电流I I 和电压和电压V V 之间的关系即为函数关系,即之间的关系即为函数关系,即 I=V/Q I=V/Q。这种典型的变量关系就是确。这种典型的变量关系就是确定性关系。定性关系。在经济系统中,在经济系统中,这种变量之间的函数关这种变量之间的函数关系或确定性关系就很少见系或确定性关系就很少见。常见的是变量。常见的是变量之间是一种不确定的关系,既使变量之间是一种不确定的关系,既使变量X 是是变量变量Y 的原因,的原因,给定变量给定变量X 的值也不能具的值也不能具体确定变量体确定变量Y的值,的值,而只能确定变量而只能确定变量Y 的统的统计特征,通常称变量计特征,通常称变量X 与与Y 之间的这种关之间的这种关系为统计关系。系为统计关系。例如,企业总产出例如,企业总产出Y Y 与企业的资本投与企业的资本投入入K K 、劳动力投入、劳动力投入L L 之间的关系就是统计之间的关系就是统计关系。虽然资本关系。虽然资本K K 和劳动力和劳动力L L 是影响产出是影响产出Y Y 的两大核心要素,但是给定的两大核心要素,但是给定K K、L L 的值并的值并不能确定产出不能确定产出Y Y 的值。因为,总产出的值。因为,总产出Y Y 除除了受资本投入了受资本投入K K、劳动力投入、劳动力投入L L 的影响外,的影响外,还要受到技术进步、自然条件等其它因素还要受到技术进步、自然条件等其它因素的影响。的影响。三、回归分析与相关分析三、回归分析与相关分析三、回归分析与相关分析三、回归分析与相关分析 与回归分析密切相联的是相关分析。与回归分析密切相联的是相关分析。相关分析主要测度两个变量之间的线性相关分析主要测度两个变量之间的线性关联度,相关系数就是用来测度两个变关联度,相关系数就是用来测度两个变量之间的线性关联程度的。例如,吸烟量之间的线性关联程度的。例如,吸烟与肺癌、统计学成绩与数学成绩、身高与肺癌、统计学成绩与数学成绩、身高与体重等等之间的相关程度,就可用相与体重等等之间的相关程度,就可用相关系数来测度。关系数来测度。而在回归分析中,我们的主要目的在于而在回归分析中,我们的主要目的在于根据其它变量的给定值来估计或预测某一根据其它变量的给定值来估计或预测某一变量的平均值。例如,我们想知道能否从变量的平均值。例如,我们想知道能否从一个学生的数学成绩去预测他的统计学平一个学生的数学成绩去预测他的统计学平均成绩。均成绩。在回归分析中,被解释变量在回归分析中,被解释变量Y 被当作被当作是随机变量,而解释变量是随机变量,而解释变量X 则被看作非随则被看作非随机变量。而在相关分析中,我们把两个变机变量。而在相关分析中,我们把两个变量都看作是随机变量。量都看作是随机变量。例如例如 ,在学生的数学成绩与统计学,在学生的数学成绩与统计学成绩的分析中,如为回归分析,则统计学成绩的分析中,如为回归分析,则统计学成绩是随机变量,数学成绩是非随机变量,成绩是随机变量,数学成绩是非随机变量,即数学成绩被固定在给定的水平上,以此即数学成绩被固定在给定的水平上,以此求得统计学的平均成绩。而在相关分析中,求得统计学的平均成绩。而在相关分析中,两者处于平等地位,不存在谁为解释变量,两者处于平等地位,不存在谁为解释变量,谁为被解释变量的问题,两者均为随机变谁为被解释变量的问题,两者均为随机变量。量。第二节第二节第二节第二节 一元线性回归模型一元线性回归模型一元线性回归模型一元线性回归模型 一、引例一、引例一、引例一、引例 假定我们要研究一个局部区域的假定我们要研究一个局部区域的居民消费问题,该区域共有居民消费问题,该区域共有8080户家庭组户家庭组成,将这成,将这8080户家庭视为一个统计总体。户家庭视为一个统计总体。我们研究每月我们研究每月家庭消费支出家庭消费支出Y 与与每月每月可支配收入可支配收入X 的关系。就是说,已知家庭的关系。就是说,已知家庭每月可支配收入,要预测家庭每月消费支每月可支配收入,要预测家庭每月消费支出的总体平均水平。为此,将出的总体平均水平。为此,将80户家庭分户家庭分为为10组。组。表表4.1给出了人为数据。给出了人为数据。X Y 每月家庭可支配收入(元)每月家庭可支配收入(元)1000150020002500300035004000450050005500每每月月家家庭庭消消费费支支出出(元)(元)7007407808208609009401050107011201170122012701320137014201380144015001560162016801740180018601780184019001960202020802140220022602180224023002360242024802540260026602620268027402820290029803160290029803060314032203300338034603540332034203520362037203820392037103810391040204130423043304090420043104420453046404750合计合计5740 10980 14580 18180 21780 19740 22540 25340 28140 30940表表表表2.1 2.1 2.1 2.1 居民收入、消费数据居民收入、消费数据居民收入、消费数据居民收入、消费数据 从从从从表表表表2.12.12.12.1中可以看出,对于每月中可以看出,对于每月中可以看出,对于每月中可以看出,对于每月10001000元元元元收入的收入的收入的收入的7 7 7 7户家庭,每月消费支出为户家庭,每月消费支出为户家庭,每月消费支出为户家庭,每月消费支出为700700元到元到元到元到940940元元元元不等。同样,当不等。同样,当不等。同样,当不等。同样,当X X=3000=3000元时,元时,元时,元时,9 9户家庭的每月户家庭的每月户家庭的每月户家庭的每月消费支出在消费支出在消费支出在消费支出在2180218021802180元到元到元到元到2660266026602660元之间。元之间。元之间。元之间。表表2.1给出了以给出了以X 的给定值为的给定值为条件的条件的Y 的条件分布。的条件分布。对于对于Y 的每一条件分布,我们能计算出的每一条件分布,我们能计算出它的条件期望,记为它的条件期望,记为E(Y/X=Xi),即在,即在X取特定取特定Xi 值时值时Y 的期望值。例如,的期望值。例如,X=1000时,时,Y 的期望值为:的期望值为:将将表表2.1中的数据在直角坐标系中中的数据在直角坐标系中描出,则得到描出,则得到图图2.2的散点图。的散点图。X XY1000200030004000500010001000 15001500 20002000 25002500 30003000 35003500 40004000 45004500 50005000 55005500 收入收入收入收入、消费散点图消费散点图消费散点图消费散点图 图图图图2.22.22.22.2 该图表明了对应于各该图表明了对应于各X 值的值的Y 的条件的条件分布。虽然每个个别家庭的消费支出都分布。虽然每个个别家庭的消费支出都有异,但有异,但图图2.2清楚地表明随着收入的增清楚地表明随着收入的增加,消费支出平均地说也在增加。就是加,消费支出平均地说也在增加。就是说,散点图启示我们,说,散点图启示我们,Y 的条件均值随的条件均值随X 的增加而增加。的增加而增加。如果我们观察如果我们观察图图2.2中那些代表中那些代表Y 的的各个条件均值的粗圆点,则表明这些条各个条件均值的粗圆点,则表明这些条件平均值落在一根有正斜率的直线上。件平均值落在一根有正斜率的直线上。我们称这根直线叫做我们称这根直线叫做总体回归线总体回归线,它是,它是Y 对对X 的回归的回归。总体回归线就是当解释变量取给定值总体回归线就是当解释变量取给定值时时,被解释变量的条件均值或期望值的轨被解释变量的条件均值或期望值的轨迹。迹。图图2.2表明,对每一表明,对每一Xi 都有都有Y 值的一个值的一个总体和一个相应的均值。而回归线是穿总体和一个相应的均值。而回归线是穿过这些条件均值的线。过这些条件均值的线。二、总体回归函数二、总体回归函数二、总体回归函数二、总体回归函数 从从图图2.22.2我们可以看出,条件均我们可以看出,条件均值值E E(Y Y/X Xi i)是是Xi 的函数,即的函数,即:E(Y/Xi)=f(Xi)(2.12.12.12.1)其中,其中,f(Xi)表示解释变量表示解释变量Xi 的某个函数。的某个函数。在我们的引例中,在我们的引例中,E(Y/Xi)是是Xi 的一个线性的一个线性函数。函数。式(式(2.1)就是总体回归函数,简称就是总体回归函数,简称总体回归。它表明在给定总体回归。它表明在给定Xi 下下Y 的分布的分布的总体均值与的总体均值与Xi有函数关系,就是说它有函数关系,就是说它给出了给出了Y 的均值是怎样随的均值是怎样随X 值的变化而值的变化而变化的。变化的。函数函数f(Xi)采取什么函数形式,是一采取什么函数形式,是一个需要解决的重要问题。在实际经济系个需要解决的重要问题。在实际经济系统中,我们不会得到总体的全部数据,统中,我们不会得到总体的全部数据,因而就无法据已知数据确定总体回归函因而就无法据已知数据确定总体回归函数的函数形式。同时,对总体回归函数数的函数形式。同时,对总体回归函数的形式只能据经济理论与经验去推断。的形式只能据经济理论与经验去推断。例如,我们可以假定消费支出与收入例如,我们可以假定消费支出与收入有线性关系。则总体回归函数为有线性关系。则总体回归函数为(2.22.22.22.2)其中,其中,1 1 和和 2 2 为未知而固定为未知而固定的参数,称为回归系数;的参数,称为回归系数;1为截距系数为截距系数,2为斜率系数。为斜率系数。式(式(2.22.2)为线性总体回为线性总体回归函数。归函数。三、线性的含义三、线性的含义三、线性的含义三、线性的含义1 1对变量为线性对变量为线性 对线性的第一种解释是指对线性的第一种解释是指Y 的条件期望的条件期望是是Xi 的线性函数,例如的线性函数,例如式(式(2.22.2)就是线性回就是线性回归函数,该回归线是一条直线。归函数,该回归线是一条直线。按这种解释按这种解释 就不是线性的,因为就不是线性的,因为 对对 的一阶导数不是常数。的一阶导数不是常数。2 2对参数为线性对参数为线性 对线性的第二种解释是指对线性的第二种解释是指Y 的条件期望的条件期望 是参数是参数 的一个线性函数。的一个线性函数。它可以是也可以不是变量的它可以是也可以不是变量的X 的线性函数。的线性函数。此时,此时,就是就是线性回归函数。但线性回归函数。但 则不是线性回归函数,而是非线性回归则不是线性回归函数,而是非线性回归函数。函数。在本课中,主要考虑的是对参数为线性在本课中,主要考虑的是对参数为线性的回归模型,线性回归是指对参数的回归模型,线性回归是指对参数为线为线性的一种回归(即参数只以它的性的一种回归(即参数只以它的1次方出次方出现);对解释变量现);对解释变量X则可以不是线性的。则可以不是线性的。从图从图4.2可清楚地看到,随着家庭收入可清楚地看到,随着家庭收入Xi的增加,家庭平均消费支出的增加,家庭平均消费支出E(Y/Xi)也在增加,也在增加,这表明了这表明了Xi与与Y的平均水平的关系。我们想的平均水平的关系。我们想知道对于具体家庭而言,消费支出知道对于具体家庭而言,消费支出Y与它的与它的收入水平收入水平Xi的关系。的关系。四、总体回归函数的随机设定四、总体回归函数的随机设定四、总体回归函数的随机设定四、总体回归函数的随机设定 就个别家庭而言,收入水平增加,就个别家庭而言,收入水平增加,消费支出不一定会增加。消费支出不一定会增加。例如从例如从表表2.12.1可以看到,对于每月可以看到,对于每月30003000元的收入水平,有一户家庭的消费支出为元的收入水平,有一户家庭的消费支出为21802180元,少于每月收入为元,少于每月收入为25002500元的两户家元的两户家庭的消费支出(庭的消费支出(22002200元和元和22602260元)。但应元)。但应看到,每月收入为看到,每月收入为30003000元的家庭的平均消元的家庭的平均消费支出大于每月收入费支出大于每月收入25002500元的家庭的平均元的家庭的平均消费支出(消费支出(24202420元大于元大于20202020元)。元)。从从图图2.2可以看到,给定收入水平可以看到,给定收入水平Xi 的的个别家庭的消费支出处于在该收入水平的个别家庭的消费支出处于在该收入水平的家庭平均消费支出左右,也就是围绕着它家庭平均消费支出左右,也就是围绕着它的条件均值。我们把个别的的条件均值。我们把个别的Yi 围绕它的期围绕它的期望值的离差表示如下:望值的离差表示如下:或或(2.32.32.32.3)其中,离差其中,离差u ui i 是一个不可观测的可正是一个不可观测的可正可负的随机变量,在专业术语中,把可负的随机变量,在专业术语中,把u ui i 称称为随机干扰项或随机误差项。为随机干扰项或随机误差项。在在式(式(2.3)中,给定收入中,给定收入X 的的水平,个别家庭的消费支出,可水平,个别家庭的消费支出,可表示为两个成份之和。表示为两个成份之和。(1)E(Y/X1)E(Y/Xi i)代表相同收入水平的所代表相同收入水平的所有家庭的平均消费支出。这是系统性或确有家庭的平均消费支出。这是系统性或确定性成份。定性成份。(2 2)u ui i 为随机或非系统性成份,代为随机或非系统性成份,代表所有可能影响表所有可能影响Y Y,但又未能包括到回归模,但又未能包括到回归模型中来的被忽略变量的代理变量。型中来的被忽略变量的代理变量。假设假设 E(Y/Xi)对对 Xi 为线性的,则:为线性的,则:(2.42.42.42.42.42.4)式(式(2.4)表示一个家庭的消表示一个家庭的消费支出线性地依赖于它的收入加费支出线性地依赖于它的收入加干扰项。干扰项。例如,给定例如,给定例如,给定例如,给定X X X X=1000=1000=1000=1000,各家庭的消费支出可表达为,各家庭的消费支出可表达为,各家庭的消费支出可表达为,各家庭的消费支出可表达为五、随机误差项五、随机误差项五、随机误差项五、随机误差项u u u u 的意义的意义的意义的意义 1 1 1 1理论的欠缺。理论的欠缺。理论的欠缺。理论的欠缺。虽然有决定虽然有决定虽然有决定虽然有决定Y Y Y Y 的行为的理论,但常的行为的理论,但常的行为的理论,但常的行为的理论,但常常是不能完全确定的,理论常常有一定的常是不能完全确定的,理论常常有一定的常是不能完全确定的,理论常常有一定的常是不能完全确定的,理论常常有一定的含糊性。我们可以肯定每月收入含糊性。我们可以肯定每月收入含糊性。我们可以肯定每月收入含糊性。我们可以肯定每月收入X X X X 影响每影响每影响每影响每月消费支出月消费支出月消费支出月消费支出Y Y Y Y。但不能确定是否有其它变。但不能确定是否有其它变。但不能确定是否有其它变。但不能确定是否有其它变量影响量影响量影响量影响Y Y Y Y,只好用,只好用,只好用,只好用u u u ui i i i 作为模型所忽略的全作为模型所忽略的全作为模型所忽略的全作为模型所忽略的全部变量的替代变量。部变量的替代变量。部变量的替代变量。部变量的替代变量。2数据的欠缺。数据的欠缺。即使能确定某些变量对即使能确定某些变量对Y 有显著影有显著影响,但由于不能得到这些变量的数据信响,但由于不能得到这些变量的数据信息而不能引入该变量。例如,从经济理息而不能引入该变量。例如,从经济理论分析,家庭财富量是影响家庭消费的论分析,家庭财富量是影响家庭消费的重要因素,应该引入该变量作为解释变重要因素,应该引入该变量作为解释变量。但是,通常我们得不到有关家庭财量。但是,通常我们得不到有关家庭财富的信息。因此,我们只得把这个很重富的信息。因此,我们只得把这个很重要的解释变量舍弃掉。要的解释变量舍弃掉。3 3核心变量与非核心变量。核心变量与非核心变量。例如,在引例的居民消费模型中,除例如,在引例的居民消费模型中,除了收入了收入X X1 1 外,家庭的人口数外,家庭的人口数X X2 2 、户主宗教、户主宗教信仰信仰X X3 3、户主受教育水平、户主受教育水平X X4 4也影响家庭消也影响家庭消费支出。但很可能费支出。但很可能X X2 2、X X3 3、X X4 4合起来的影响合起来的影响也是很微弱的,是一种非系统的或随机的也是很微弱的,是一种非系统的或随机的影响。从效果与成本角度来看,引入它们影响。从效果与成本角度来看,引入它们是不合算的。所以,人们把它们的联合效是不合算的。所以,人们把它们的联合效用当作一个随机变量来看待。用当作一个随机变量来看待。4 4人类行为的内在随机性。人类行为的内在随机性。即使我们成功地把所有有关的变量即使我们成功地把所有有关的变量都引进到模型中来,在个别的都引进到模型中来,在个别的Y Y 中仍不免中仍不免有一些有一些“内在内在”的随机性,无论我们花了的随机性,无论我们花了多少力气都解释不了的。随机误差项多少力气都解释不了的。随机误差项u ui i 能能很好地反映这种随机性。很好地反映这种随机性。5节省原则,我们想保持一个尽可节省原则,我们想保持一个尽可能简单的回归模型。能简单的回归模型。如果我们能用两个或三个变量就基如果我们能用两个或三个变量就基本上解释了本上解释了Y 的行为,就没有必要引进的行为,就没有必要引进更多的变量。让更多的变量。让ui 代表所有其它变量是代表所有其它变量是一种很好的选择。一种很好的选择。在实际回归分析中,我们无法获得像引在实际回归分析中,我们无法获得像引例中的总体数据,而只能获得对应于某些固例中的总体数据,而只能获得对应于某些固定定X的的Y值的一个样本。我们只能根据抽样值的一个样本。我们只能根据抽样信息估计总体回归函数。信息估计总体回归函数。六、样本回归函数六、样本回归函数六、样本回归函数六、样本回归函数 我们从表我们从表我们从表我们从表4.14.1随机抽取对应于固定随机抽取对应于固定随机抽取对应于固定随机抽取对应于固定X X 值的值的值的值的Y Y 值的一个样本如表值的一个样本如表值的一个样本如表值的一个样本如表2.22.2所示,对应所示,对应所示,对应所示,对应于给定的每个于给定的每个于给定的每个于给定的每个X Xi i 值只有一个值只有一个值只有一个值只有一个Y Y 值。为了值。为了值。为了值。为了对比分析,按同样的方法再抽取另一个样对比分析,按同样的方法再抽取另一个样对比分析,按同样的方法再抽取另一个样对比分析,按同样的方法再抽取另一个样本,如表本,如表本,如表本,如表4.34.3所示。所示。所示。所示。X XY Y10001000150015002000200025002500300030003500350040004000450045005000500055005500900900132013201620162021402140248024802740274033003300352035204020402043104310表表表表2.2 2.2 2.2 2.2 总体的一个随机样本总体的一个随机样本总体的一个随机样本总体的一个随机样本X XY Y10001000150015002000200025002500300030003500350040004000450045005000500055005500700700132013201620162018401840242024202820282033803380342034203810381046404640表表表表2.3 2.3 2.3 2.3 总体的另一个随机样本总体的另一个随机样本总体的另一个随机样本总体的另一个随机样本 将将表表2.2和和表表2.3的数据描点,得到的数据描点,得到图图2.3。在这个散点图中画两根样本回归线。在这个散点图中画两根样本回归线以尽好地拟合这些散点。以尽好地拟合这些散点。我们可以看出,两个样本存在着差异,我们可以看出,两个样本存在着差异,我们可以看出,两个样本存在着差异,我们可以看出,两个样本存在着差异,这是由于抽样的随机性而造成的波动。这是由于抽样的随机性而造成的波动。这是由于抽样的随机性而造成的波动。这是由于抽样的随机性而造成的波动。X XY1000200030004000500010001000 15001500 20002000 25002500 30003000 35003500 40004000 45004500 50005000 55005500 S2S1第一个样本(表第一个样本(表4.24.2)第二个样本(表第二个样本(表4.34.3)图图图图2.3 2.3 2.3 2.3 两个不同样本的回归线两个不同样本的回归线两个不同样本的回归线两个不同样本的回归线 S1是根据第是根据第1个样本画的;个样本画的;S2是根据第是根据第2个样本画的。那么,两条样本回归线中个样本画的。那么,两条样本回归线中哪一条代表哪一条代表“真实真实”的总体回归线呢?的总体回归线呢?在未知总体数据的情况下,我们就不可在未知总体数据的情况下,我们就不可能知道哪一条代表真实的总体回归线。能知道哪一条代表真实的总体回归线。图图2.3中的回归线称为样本回归线,因中的回归线称为样本回归线,因抽样波动,它们都是总体回归线的一个近抽样波动,它们都是总体回归线的一个近似。一般地讲,由几个不同的样本会得到似。一般地讲,由几个不同的样本会得到几个不同的样本回归线,通常这些样本回几个不同的样本回归线,通常这些样本回归线会彼此不同。归线会彼此不同。据任一样本,我们可得样本回归线,其函据任一样本,我们可得样本回归线,其函数形式为数形式为(2.52.52.52.5)其中,其中,正如总体回归函数,样本回归函数也存正如总体回归函数,样本回归函数也存在随机形式。在随机形式。(2.62.62.62.6)其中,其中,ei为残差项,概念上,为残差项,概念上,ei 类似类似于于ui,并可把它当作,并可把它当作ui 的估计量。将的估计量。将ei 引引入样本回归函数中,其理由与总体回归函入样本回归函数中,其理由与总体回归函数中引入数中引入ui 是一样的。是一样的。回归分析中的主要目的就是根据样本回归分析中的主要目的就是根据样本回归函数回归函数:来估计总体回归函数来估计总体回归函数(2.72.72.72.7)(2.82.82.82.8)由于抽样的波动,我们根据样本回由于抽样的波动,我们根据样本回归函数估计出来的总体回归函数只能是归函数估计出来的总体回归函数只能是一个近似结果。因此,怎样构造样本回一个近似结果。因此,怎样构造样本回归函数能使归函数能使 尽可能接近真实的尽可能接近真实的j就成就成为回归分析的核心。为回归分析的核心。第三节第三节第三节第三节 最小二乘估计最小二乘估计最小二乘估计最小二乘估计 在回归分析中有很多种构造样本回归在回归分析中有很多种构造样本回归函数的方法,而最广泛使用的一种是普通函数的方法,而最广泛使用的一种是普通最小二乘法最小二乘法(method of ordinary least method of ordinary least squares,squares,简记简记OLSOLS)一、普通最小二乘法(一、普通最小二乘法(OLS)普通最小二乘法是由普通最小二乘法是由德国数学家德国数学家高斯(高斯(C.F.Gauss)最早提出和使用的。最早提出和使用的。在一定的假设条件下,最小二乘估计量在一定的假设条件下,最小二乘估计量有着非常好的统计性质,从而使它成为有着非常好的统计性质,从而使它成为回归分析中最有功效和最为流行的方法回归分析中最有功效和最为流行的方法之一。之一。我们首先从最小二乘原理谈起。对于我们首先从最小二乘原理谈起。对于一元线性回归模型(总体)一元线性回归模型(总体)(2.92.92.92.9)这是一个不可观测的模型。因为通常这是一个不可观测的模型。因为通常得不到总体的全部观测值,我们只能通过得不到总体的全部观测值,我们只能通过总体的一个样本去推测它。即,只能通过总体的一个样本去推测它。即,只能通过样本回归模型去估计总体回归模型。样本回归模型去估计总体回归模型。其中,其中,是是Yi 的估计值。的估计值。样本回归模型为样本回归模型为(2.102.102.102.10)那么,样本回归模型又是怎样确定呢?那么,样本回归模型又是怎样确定呢?将将式(式(2.102.10)写成:写成:残差残差e ei i 是实际值是实际值Y Yi i 与其估计值与其估计值 之差。对于给定的之差。对于给定的Y Y 和和X X 的的n n 对观测值,对观测值,我们希望样本回归模型的估计值我们希望样本回归模型的估计值 尽可尽可能地靠近观测值能地靠近观测值Y Yi i。(2.112.112.112.11)为了达到此目的,我们就必须使用最小为了达到此目的,我们就必须使用最小二乘准则,使:二乘准则,使:(2.122.122.122.12)尽可能地小,其中,尽可能地小,其中,是残差的平方。是残差的平方。由由式式 (2.122.12)可以看出可以看出:就是说,残差平方和就是说,残差平方和 是估计量是估计量 的函数,对任意给定的一组数据(样本),的函数,对任意给定的一组数据(样本),选择不同的选择不同的 和和 值将得到不同的值将得到不同的e ei i ,从而有不同的,从而有不同的 值。值。(2.132.132.132.13)微积分知识告诉我们微积分知识告诉我们 对对 和和 的偏导数为的偏导数为0时,将使时,将使 最小。最小。(2.142.142.142.14)(2.152.152.152.15)令令 得到得到 :(2.162.162.162.16)(2.172.172.172.17)n 是样本容量。求解该联立方程,可得是样本容量。求解该联立方程,可得(2.182.182.182.18)(2.192.192.192.19)上面得到的估计量上面得到的估计量 ,是从最是从最小二乘原理演算而得的。因此,称其为小二乘原理演算而得的。因此,称其为最最小二乘估计量小二乘估计量。其中,其中,其中,其中,分分分分别为别为别为别为X X X X 和和和和Y Y Y Y 的样本均值。的样本均值。的样本均值。的样本均值。估计量(估计量(estimator)与估计值()与估计值(estimate)的区别。的区别。估计值:由具体样本资料计算出来的估计值:由具体样本资料计算出来的结果就是估计值或点估计。是估计结果就是估计值或点估计。是估计量量 的一个具体数值。的一个具体数值。估计量:估计量:是的一个表达式,是是的一个表达式,是 的函数,而的函数,而 是随机变量,所是随机变量,所以以 也是随机变量。也是随机变量。小样本性质小样本性质估计量的优劣标准:估计量的优劣标准:1.线性性线性性2.无偏性无偏性3.有效性有效性 有偏估计案例:有偏估计案例:1936年美国总统大选预测。年美国总统大选预测。竞选人:阿尔夫竞选人:阿尔夫.兰顿(兰顿(Alf M.Landon)富兰克林富兰克林.罗斯福(罗斯福(Franklin D Roosevelt)预测人:预测人:文学报文学报 预测:兰顿获胜,优势比为预测:兰顿获胜,优势比为59:41。结果:罗斯福获胜,优势比为结果:罗斯福获胜,优势比为59:41。错误预测的原因:样本是有偏的,从而错误预测的原因:样本是有偏的,从而估计结果有偏。估计结果有偏。样本:电话记录何汽车登记文件中获取样本:电话记录何汽车登记文件中获取的。都是比较富有的人,而这些人是支持的。都是比较富有的人,而这些人是支持共和党的。共和党的。大样本性质大样本性质 4.渐进无偏性:样本容量无穷大渐进无偏性:样本容量无穷大时均值系列趋于总体真值。时均值系列趋于总体真值。5.一致性:样本容量无穷大时依一致性:样本容量无穷大时依概率收敛于总体真值。概率收敛于总体真值。6.渐进有效性:样本容量无穷大渐进有效性:样本容量无穷大时,它在所有的一致估计量中具有时,它在所有的一致估计量中具有最小的渐进方差。最小的渐进方差。二、经典线性回归模型二、经典线性回归模型二、经典线性回归模型二、经典线性回归模型 如果我们的目的仅仅是估计如果我们的目的仅仅是估计 1 和和2 ,那么普通最小二乘法就足够用了。但在,那么普通最小二乘法就足够用了。但在回归分析中,我们的目的不仅仅是获得回归分析中,我们的目的不仅仅是获得1 ,2 的估计值的估计值 ,,而是要对真而是要对真实实 1 和和 2 做出推断。做出推断。例如,我们想知道例如,我们想知道 和和 离它们的离它们的总体真值总体真值 和和 有多近,或者有多近,或者 靠靠其期望值其期望值 E(Y/Xi)有多近。有多近。为达这一目的,我们不仅要确定为达这一目的,我们不仅要确定模型的函数形式,还要对模型的函数形式,还要对Yi的产生的产生方式做出某些假定。方式做出某些假定。在总体回归模型中,在总体回归模型中,Y Yi i 依赖于依赖于X Xi i 和和u ui i 。因此,除非我们明因此,除非我们明确确X Xi i 和和u ui i 是怎样产生的,否则,我们将无是怎样产生的,否则,我们将无法对法对Y Yi i 做出任何统计推断,同时,也无法做出任何统计推断,同时,也无法对用对用 和和 推断其真实值推断其真实值 ,的效果进行判断。的效果进行判断。为了回归估计的有效解释,对为了回归估计的有效解释,对Xi 变量和误差项变量和误差项ui 做出假设是极其重做出假设是极其重要的。要的。假定假定1 1 误差项误差项u ui i 的均值为零。对于给定的的均值为零。对于给定的X X 值,随机误差项值,随机误差项u ui i 的均值或期望值为零,的均值或期望值为零,即即u ui i 的条件均值为零,记为的条件均值为零,记为E(ui/Xi)=0 (2.202.20)这一假定的实际意义为:凡是模这一假定的实际意义为:凡是模型中不显含的并因而归属于型中不显含的并因而归属于ui 的因素,的因素,对对Y 的均值都没有系统的影响,正的的均值都没有系统的影响,正的ui 值抵消了负的值抵消了负的ui 值,它们对值,它们对Y 的平的平均影响为零。均影响为零。假定假定2 2 同方差性或同方差性或u ui i 的方差相等。对所有的方差相等。对所有给定的给定的X Xi i,u ui i 的方差都是相同的。就是说,的方差都是相同的。就是说,u ui i 的条件方差是恒定的,即:的条件方差是恒定的,即:该假定表示对应于不同该假定表示对应于不同Xi 值,值,ui 的方差的方差都是某个等于都是某个等于 的正的常数。的正的常数。其中,其中,Var表示方差。表示方差。(2.212.212.212.212.212.21)假定假定3 3 各个误差项之间无自相关,各个误差项之间无自相关,u ui i 和和u uj j(i ijj)之间的相关为零。之间的相关为零。(2.222.222.222.222.222.22)其中,其中,i 和和j 为两次不同的观测,而为两次不同的观测,而Cov表示协方差,该假定还可以称为无表示协方差,该假定还可以称为无序列相关或无自相关假定。序列相关或无自相关假定。假定假定4 4 u ui i 和和X Xi i 的协方差为零或的协方差为零或E E(u ui i X Xi i)=0=0 该假定表示误差项该假定表示误差项u 和解释变量和解释变量X 是不是不相关的。也就是说在总体回归模型中,相关的。也就是说在总体回归模型中,X 和和u 对对Y 有各自的影响。但是,如果有各自的影响。但是,如果X 和和u 是相关的,就不可能评估他们各自对是相关的,就不可能评估他们各自对Y 的的影响。影响。假定假定5 5 正确地设定了回归模型,即在经验分正确地设定了回归模型,即在经验分析中所用的模型没有设定偏误。析中所用的模型没有设定偏误。正确设定回归模型是至关重要的。如正确设定回归模型是至关重要的。如果模型遗漏了重要变量或选择了错误的函果模型遗漏了重要变量或选择了错误的函数形式,那么,要对所估计的回归模型做数形式,那么,要对所估计的回归模型做出有效的解释是靠不住的。回归分析以及出有效的解释是靠不住的。回归分析以及由此而得到的结果,是以所选模型为条件由此而得到的结果,是以所选模型为条件的。因此,在建立经济计量模型时,必须的。因此,在建立经济计量模型时,必须谨慎而小心。谨慎而小心。假定假定6 6 对于多元线性回归模型,没有完全的多对于多元线性回归模型,没有完全的多重共线性。就是说解释变量之间没有完全的重共线性。就是说解释变量之间没有完全的线性关系。线性关系。至此,我们完成了关于经典线性回归至此,我们完成了关于经典线性回归模型的基本假定的讨论。上述所有假定都模型的基本假定的讨论。上述所有假定都是针对总体回归模型而言的,而不是关于是针对总体回归模型而言的,而不是关于样本回归模型的。样本回归模型的。三、最小二乘估计量的性质三、最小二乘估计量的性质三、最小二乘估计量的性质三、最小二乘估计量的性质高斯高斯高斯高斯马尔可夫定理马尔可夫定理马尔可夫定理马尔可夫定理 在经典线性回归模型的假定条件下,在经典线性回归模型的假定条件下,最小二乘估计量具有较好的统计性质,这最小二乘估计量具有较好的统计性质,这些性质包含在高斯些性质包含在高斯马尔可夫定理之中。马尔可夫定理之中。高斯高斯马尔可夫定理:马尔可夫定理:在给在给定经典线性回归模型的假定下,定经典线性回归模型的假定下,最小二乘估计量是最佳线性无偏最小二乘估计量是最佳线性无偏估计量。估计量。该定理说明最小二乘估计量该定理说明最小二乘估计量 是是 的最佳线性无偏估计量。即的最佳线性无偏估计量。即:第一第一,它是线性的,即它是回归模,它是线性的,即它是回归模型中的被解释变量型中的被解释变量Y 的线性函数。的线性函数。第二第二,它是无偏的,即它的均值或期望,它是无偏的,即它的均值或期望值值 等于其真值等于其真值 ,即,即 。第三第三,它在所有这样的线性无偏估计量,它在所有这样的线性无偏估计量中具有最小方差。具有最小方差的无偏估计中具有最小方差。具有最小方差的无偏估计量叫做有效估计量。量叫做有效估计量。下面,就普通最小二乘估计量的下面,就普通最小二乘估计量的性质给予说明。性质给予说明。1线性性线性性线性性线性性 (2.232.232.232.23)(2.242.242.242.24)(2.252.252.252.25)令令则则 这说明这说明 是是Yi的一个线性函数,它是的一个线性函数,它是以以ki为权的一个加权平均数,从而它是一为权的一个加权平均数,从而它是一个线性估计量。同理,个线性估计量。同理,也是一个线性也是一个线性估计量。估计量。2无偏性无偏性无偏性无偏性 ,即,即 是无偏的,是无偏的,是无偏的。就是说,虽然由不同的样本得是无偏的。就是说,虽然由不同的样本得到的到的 可能大于或小于它们的真可能大于或小于它们的真实值实值 ,但平均起来等于它们的,但平均起来等于它们的真实值真实值 。由由式(式(2.25)可知:可知:(2.262.262.262.26)因为因为 ,则则 (2.272.272.272.27)据经典假定,据经典假定,ki 非随机,非随机,E(ui)=0,则,则 因此,因此,的一个无偏估计量。同的一个无偏估计量。同理,可证明理,可证明 的一个无偏估计的一个无偏估计量。量。(2.282.282.282.28)在此要特别注意在此要特别注意,无偏性是,无偏性是 的抽样分布的性质,并没有告诉我们从特的抽样分布的性质,并没有告诉我们从特定样本中得到定样本中得到 的估计值是什么,我的估计值是什么,我们希望得到较好的样本,那样就会得到接们希望得到较好的样本,那样就会得到接近于总体参数近于总体参数 的估计值。但由于是的估计值。但由于是随机获得样本,就有可能得到远离总体参随机获得样本,就有可能得到远离总体参数数 的估计值的较差样本。并且,我的估计值的较差样本。并且,我们无法判定所得到的样本是哪一种。们无法判定所得到的样本是哪一种。当当X 是非随机变量、是非随机变量、E(u)=0 这些经典假定不满足时,那么无这些经典假定不满足时,那么无偏性也就不成立了。偏性也就不成立了。3方差最小方差最小方差最小方差最小 (1 1)最小二乘估计的方差与标准误)最小二乘估计的方差与标准误 普通最小二乘估计量普通最小二乘估计量 的方差的方差 代表了估计参数代表了估计参数 的估计精度。的估计精度。据式(据式(2.27)据方差定义,可知:据方差定义,可知:(2.292.292.292.29)据经典假定据经典假定据经典假定据经典假定 ,且且且且 EE(uuiiuujj)=0)=0,iijj故故(2.302.302.302.30)式(式(2.30)是依赖于同方差和无序列相关是依赖于同方差和无序列相关假定的。假定的。同理,同理,的方差为:的方差为:(2.312.312.312.31)影响影响 估计精度的因素为随估计精度的因素为随机误差项的方差机误差项的方差 和和Xi的总变的总变异异 。随机误差项的方差随机误差项的方差随机误差项的方差随机误差项的方差 越大,越大,越大,越大,越大。越大。越大。越大。因为,影响因为,影响因为,影响因为,影响Y Y 的不的不的不的不可观测的因素变异越大,要准确地估计可观测的因素变异越大,要准确地估计可观测的因素变异越大,要准确地估计可观测的因素变异越大,要准确地估计 就越难就越难就越难就越难。另一方面,自变量的变异越大,估计另一方面,自变量的变异越大,估计的精度就越高。因为的精度就越高。因为Xi 的变异性增时,的变异性增时,的方差就会减小,就是说,解释变量的样的方差就会减小,就是说,解释变量的样本分布越分散,就越容易找出本分布越分散,就越容易找出E(Y/Xi)和和Xi 间的关系,即越容易准确估计间的关系,即越容易准确估计 。如果如果Xi 没有什么变化,就难以准没有什么变化,就难以准确地确定确地确定E(Y/Xi)是如何随着是如何随着Xi 的变化而的变化而变化的。当样本容量扩大时,变化的。当样本容量扩大时,Xi 的总变异的总变异也增加。因此,较大的样本容量会产生较也增加。因此,较大的样本容量会产生较小的小的 的方差。的方差。最小二乘估计的标准误为最小二乘估计的标准误为(2.322.322.322.32)(2.332.332.332.33)式中,式中,式中,式中,表示表示表示表示 的的的的标准误,标准误,标准误,标准误,表示表示表示表示 的标准误。除的标准误。除的标准误。除的标准误。除 外,上述方程中的数据都是已知的。外,上述方程中的数据都是已知的。外,上述方程中的数据都是已知的。外,上述方程中的数据都是已知的。从从式(式(2.302.30)、式(式(2.312.31)可以看可以看到,影响到,影响 和和 的因的因素除素除 外,均为已知数。通常误差项的外,均为已知数。通常误差项的方差方差 是未知的,只能通过观测数据去是未知的,只能通过观测数据去估计估计 ,从而估计出,从而估计出 和和 。(2 22 2)的最小二乘估计量的最小二乘估计量的最小二乘估计量的最小二乘估计量 我们要区分误差与残差的概念。误差我们要区分误差与残差的概念。误差ui 出现在总体回归模型出现在总体回归模型 中,中,ui 是第是第i次观测的误差,由于次观测的误差,由于 未知,未知,ui无无法观测到。残差法观测到。残差ei出现在样本回归模型出现在样本回归模型 m 中,中,是估计参数,是估计参数,通过观测值通过观测值Yi,Xi可得到残差可得到残差 ei。已知已知 。由于。由于ui 不可观,不可观,无法计算。无法计算。我们可通过最我们可通过最小二乘法的残差小二乘法的残差ei 估计估计 。用残差用残差ei 代替代替ui就得到就得到 的一个估计量的一个估计量 ,但这,但这是一个有偏估计量。是一个有偏估计量。这是使用残差代替误差的缘故,调整这是使用残差代替误差的缘故,调整自由度后,我们就得到自由度后,我们就得到 的无偏估计量的无偏估计量(2.352.35)在经典假定条件下,可以证明在经典假定条件下,可以证明 。的估计量为的估计量为(2.362.362.362.36)我们称其为回归的标准误。估计量我们称其为回归的标准误。估计量 是对影响是对影响Y的不可观测因素的标准误的估计。的不可观测因素的标准误的估计。就是说,它估计了把就是说,它估计了把X 的影响排除之后的影响排除之后Y 的标准误。的标准误。至此,用至此,用 代替代替 ,我们可利用,我们可利用式式(2.32)、()、(2.33)估计估计 的标准误。的标准误。(2.372.372.372.37)(2.382.382.382.38)当对当对Y 的不同样本使用普通最小二乘的不同样本使用普通最小二乘法时,我们要注意将法时,我们要注意将 看作一个看作一个随机变量,这是因为随机变量,这是因为 是随着样本的不是随着样本的不同而变化的。对于一个给定的样本,同而变化的。对于一个给定的样本,是一个数字,就像我们用给定的数据计算是一个数字,就像我们用给定的数据计算 时一样,它也只是一个数字。时一样,它也只是一个数字。(3)可以证明,在满足经典假定条件下,)可以证明,在满足经典假定条件下,普通最小二乘估计量普通最小二乘估计量 是所有线性无是所有线性无偏估计量中方差最小的。偏估计量中方差最小的。四、判定系数四、判定系数四、判定系数四、判定系数RR22拟合优度的度量拟合优度的度量拟合优度的度量拟合优度的度量 为了评价一个回归方程的优劣,我们为了评价一个回归方程的优劣,我们引入拟合优度的概念。即考查对一组数据引入拟合优度的概念。即考查对一组数据所拟合的回归线的拟合优度,表示出样本所拟合的回归线的拟合优度,表示出样本回归线对数据拟合的有多么好。回归线对数据拟合的有多么好。如果全部观测点都落在样本回归线如果全部观测点都落
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!