计量经济学(庞皓)-第二章-简单线性回归模型课件

上传人:风*** 文档编号:241695331 上传时间:2024-07-16 格式:PPT 页数:77 大小:1.76MB
返回 下载 相关 举报
计量经济学(庞皓)-第二章-简单线性回归模型课件_第1页
第1页 / 共77页
计量经济学(庞皓)-第二章-简单线性回归模型课件_第2页
第2页 / 共77页
计量经济学(庞皓)-第二章-简单线性回归模型课件_第3页
第3页 / 共77页
点击查看更多>>
资源描述
1 第二章第二章 简单线性回归模型简单线性回归模型 计量经济学1计量经济学引子引子:中国旅游业总收入将超过中国旅游业总收入将超过30003000亿美元吗?亿美元吗?未来我国旅游需求将快速增长,根据中国政府所制定的未来我国旅游需求将快速增长,根据中国政府所制定的远景目标,到远景目标,到20202020年,中国入境旅游人数将达到年,中国入境旅游人数将达到2.12.1亿人亿人次;国际旅游外汇收入次;国际旅游外汇收入580580亿美元,国内旅游收入亿美元,国内旅游收入25002500亿亿美元。到美元。到20202020年,中国旅游业总收入将超过年,中国旅游业总收入将超过30003000亿美元,亿美元,相当于国内生产总值的相当于国内生产总值的8%8%至至11%11%。(来源:(来源:2008年中国旅行社发展研究咨询报告年中国旅行社发展研究咨询报告)(参考现状:第一产业占(参考现状:第一产业占GDP的的15%,建筑业占,建筑业占GDP的的7%)什么决定性因素能使中国什么决定性因素能使中国旅游业总收入超过旅游业总收入超过30003000亿美元亿美元?旅游业的发展与这种决定性因素的数量关系究竟是什么?旅游业的发展与这种决定性因素的数量关系究竟是什么?怎样具体测定旅游业发展与这种决定性因素的数量关系怎样具体测定旅游业发展与这种决定性因素的数量关系?2引子:中国旅游业总收入将超过3000亿美元吗?未来我国旅游需要研究经济变量之间数量关系的方法需要研究经济变量之间数量关系的方法为了不使问题复杂化为了不使问题复杂化,我们先在某些标准的我们先在某些标准的(古典的古典的)假定条件下,用最简单的模型,对最简单的变量间数假定条件下,用最简单的模型,对最简单的变量间数量关系加以讨论量关系加以讨论显然,对旅游起决定性影响作用的是显然,对旅游起决定性影响作用的是“中国居民的收入中国居民的收入水平水平”以及以及“入境旅游人数入境旅游人数”等因素。等因素。“旅游业总收入旅游业总收入”(Y Y)与)与“居民平均收入居民平均收入”(X1X1)或)或者者“入境旅游人数入境旅游人数”(X2X2)有怎样的数量关系呢?有怎样的数量关系呢?能否用某种线性或非线性关系式能否用某种线性或非线性关系式 Y=f(X)Y=f(X)去表现去表现这种数量关系呢这种数量关系呢?具体该具体该怎样去表现和计量呢怎样去表现和计量呢?需要研究经济变量之间数量关系的方法为了不使问题复杂化,我们4 第一节第一节 回归分析与回归函数回归分析与回归函数 一、相关分析与回归分析一、相关分析与回归分析1 1、相关分析、相关分析 变量性质:变量性质:都是随机变量且关系对等。都是随机变量且关系对等。分析方法:分析方法:图表法和相关系数。图表法和相关系数。分析目的:分析目的:判定变量之间相关的方向和关系的密切判定变量之间相关的方向和关系的密切程度。程度。4第一节回归分析与回归函数5相关关系度量:相关关系度量:X和和Y的的总体线性相关系数总体线性相关系数:其中:其中:-X的方差的方差-Y的方差的方差-X和和Y的协方差的协方差5相关关系度量:6如果只知道如果只知道X和和Y的样本观测值,则的样本观测值,则X和和Y的的样本线性样本线性相关系数为:相关系数为:其中:其中:和和分别是变量分别是变量X和和Y的样本观测值,的样本观测值,和和分别是变量分别是变量X和和Y样本值的平均值样本值的平均值注意注意:是随抽样而变动的随机变量。是随抽样而变动的随机变量。相关系数较为简单相关系数较为简单,也可以在一定程度上测定变量也可以在一定程度上测定变量间的数量关系间的数量关系,但是对于具体研究变量间的数量规律但是对于具体研究变量间的数量规律性还有局限性。性还有局限性。6如果只知道X和Y的样本观测值,则X和Y的样本线 X X和和Y Y 都是相互对称的随机变量,都是相互对称的随机变量,线线性性相相关关系系数数只只反反映映变变量量间间的的线线性性相相关关程程度度,不不能说明非线性相关关系能说明非线性相关关系 样样本本相相关关系系数数是是总总体体相相关关系系数数的的样样本本估估计计值值,由由于抽样波动,样本相关系数是随抽样而变动的随机变量,于抽样波动,样本相关系数是随抽样而变动的随机变量,其统计显著性还有待检验其统计显著性还有待检验 7对相关系数的正确理解和使用对相关系数的正确理解和使用X和Y都是相互对称的随机变量,7对相关系数82 2、回归分析、回归分析回归的古典意义古典意义:高尔顿遗传学的回归概念高尔顿遗传学的回归概念 (父母身高与子女身高的关系父母身高与子女身高的关系)子女的身高有向人的平均身高子女的身高有向人的平均身高 回归回归 的趋势的趋势回归的现代意义现代意义:一个被解释变量对若干个一个被解释变量对若干个解释变量依存关系的研究解释变量依存关系的研究回归的目的目的(实质实质):由解释变量去估计被解释变由解释变量去估计被解释变量的平均值量的平均值82、回归分析回归的古典意义:9 被解释变量被解释变量Y Y的的条件分布和条件概率条件分布和条件概率:当当解解释释变变量量X X取取某某固固定定值值时时(条条件件),Y Y 的的值值不不确确定定,Y Y的的不不同同取取值值会会形形成成一一定定的的分分布布,这这是是 Y Y 的的条条件件分分布布。X X取某固定值时,取某固定值时,Y Y 取不同值的概率称为取不同值的概率称为条件概率条件概率。被解释变量被解释变量 Y Y 的的条件期望条件期望:对于对于 X X 的每一个取值,的每一个取值,对对 Y Y 所形成的分布确所形成的分布确 定其期望或均值,称定其期望或均值,称 为为 Y Y 的的条件期望或条件均条件期望或条件均 值,值,用用 表示。表示。注意注意:Y:Y的条件期望是随的条件期望是随X X的变动而变动的的变动而变动的 YX明确几个概念明确几个概念(为深刻理解“回归”)9YX明确几个概念(为深刻理解“回归”)10回归线回归线:对于每一个:对于每一个X的取值的取值,都有,都有Y的条件期望的条件期望与与之之对对应应,代代表表Y的的条条件件期期望望的的点点的的轨轨迹迹形形成成的直线或曲线称为回归线。的直线或曲线称为回归线。回归函数回归函数:被解释变量:被解释变量Y的条件期望的条件期望随随解释变量解释变量X的变化而有规律的变化而有规律的变化,如果把的变化,如果把Y的条件期的条件期望表现为望表现为X的某种函数的某种函数,这个函数称为回归函数。这个函数称为回归函数。回归函数分为:总体回归函数和样本回归函数回归函数分为:总体回归函数和样本回归函数XY10XY11每每月月家家庭庭可可支支配配收收入入X2000250030003500400045005000550060006500131215301631184320372277246929243515352113401619172619742210238828893338372139541400171317862006232525263090365038654108每每1548175018352265241926813156380240264345月月1688181418852367252228873300408741654812家家173819851943248526653050332142984380庭庭180020412037251527993189365443124580消消19022186207826892887335338424413费费220021792713291335344074支支231222982898303837104165出出2316292331673834Y Y238730533310249831873510268932861591191520922586275430393396385340364148举例举例:假如已知由假如已知由100100个家庭构成的总体的数个家庭构成的总体的数据据 (单位单位:元元)二、总体回归函数二、总体回归函数(PRF)11每月家庭可支配收入X20002500312消费支出的条件期望与收入关系的图形消费支出的条件期望与收入关系的图形对于本例的总体,家庭消费支出的条件期望对于本例的总体,家庭消费支出的条件期望与家庭收入与家庭收入 基本是线性关系基本是线性关系,可以把家庭消费支可以把家庭消费支出的条件均值表示为家庭收入的线性函数:出的条件均值表示为家庭收入的线性函数:12消费支出的条件期望与收入关系的图形对于本例的总体,家庭消13 1.1.总体回归函数的概念总体回归函数的概念前提:前提:假如已知假如已知所研究的经济现象的总体的被解释变量所研究的经济现象的总体的被解释变量Y和解释变量和解释变量X的每个观测值的每个观测值(通常这是不可能的!)(通常这是不可能的!),那,那么,可以计算出总体被解释变量么,可以计算出总体被解释变量Y的条件期望的条件期望,并将其表现为解释变量并将其表现为解释变量X的某种函数的某种函数这个函数称为这个函数称为总体回归函数(总体回归函数(PRF)本质本质:总体回归函数实际上表现的是特定总体中被解释变总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关系的规律计量经济学的根本目的是要探寻变量间数量关系的规律,也也就要努力去寻求总体回归函数就要努力去寻求总体回归函数。1314条件期望条件期望表现形式表现形式例如例如Y的条件期望的条件期望是解是解释变量释变量X的线性函数,可表示为:的线性函数,可表示为:个别值个别值表现形式表现形式(随机设定形式)(随机设定形式)对于一定的对于一定的,Y的各个别值的各个别值并不一定等于条件期望,而并不一定等于条件期望,而是分布在是分布在的周围,若令各个的周围,若令各个与条件期望与条件期望的的偏差为偏差为,显然,显然是个随机变量是个随机变量则有则有2.2.总体回归函数的表现形式总体回归函数的表现形式PRF14条件期望表现形式2.总体回归函数的表现形式PRF作为总体运行的客观规律,总体回归函数是客观存在作为总体运行的客观规律,总体回归函数是客观存在的,但在实际的经济研究中总体回归函数通常是的,但在实际的经济研究中总体回归函数通常是未知未知的,的,只能根据经济理论和实践经验去只能根据经济理论和实践经验去设定设定。计量经济学研究中计量经济学研究中“计量计量”的根本目的就是要寻求总体的根本目的就是要寻求总体回归函数。回归函数。我们所设定的计量模型实际就是在设定总体回归函我们所设定的计量模型实际就是在设定总体回归函数的具体形式。数的具体形式。总体回归函数中总体回归函数中 Y Y 与与 X X 的关系可以是的关系可以是线性线性的,也可的,也可以是以是非线性非线性的。的。153.3.如何理解总体回归函数如何理解总体回归函数作为总体运行的客观规律,总体回归函数是客观存在153.如何16计量经济学中计量经济学中计量经济学中计量经济学中,线性回归模型的线性回归模型的线性回归模型的线性回归模型的“线性线性线性线性”有两种解释有两种解释有两种解释有两种解释:就变量而言就变量而言就变量而言就变量而言是线性的是线性的是线性的是线性的 Y Y Y Y的条件期望(均值)是的条件期望(均值)是的条件期望(均值)是的条件期望(均值)是X X X X的线性函数的线性函数的线性函数的线性函数 就参数而言就参数而言就参数而言就参数而言是线性的是线性的是线性的是线性的 Y Y Y Y的条件期望(均值)是参数的条件期望(均值)是参数的条件期望(均值)是参数的条件期望(均值)是参数的线性函数的线性函数的线性函数的线性函数例如:例如:例如:例如:对变量、参数均为对变量、参数均为对变量、参数均为对变量、参数均为“线性线性线性线性”对参数对参数对参数对参数“线性线性线性线性”,对变量,对变量,对变量,对变量”非线性非线性非线性非线性”对变量对变量对变量对变量“线性线性线性线性”,对参数,对参数,对参数,对参数”非线性非线性非线性非线性”注意:注意:在计量经济学中,线性回归模型主要指在计量经济学中,线性回归模型主要指就参数而言就参数而言是是“线线性性”的的,因为只要对参数而言是线性的因为只要对参数而言是线性的,都可以用类似的方法去估都可以用类似的方法去估计其参数,都可以归于线性回归。计其参数,都可以归于线性回归。“线性线性”的判断的判断16“线性”的判断概念概念在总体回归函数中,各个在总体回归函数中,各个的值与其条件期望的值与其条件期望的偏差的偏差有很重有很重要的意义。若只有要的意义。若只有的影响的影响,与与不应有偏差。若偏不应有偏差。若偏差差存在,说明还有其他影响因素。存在,说明还有其他影响因素。实际代表了排除在模型以外的所有因素对实际代表了排除在模型以外的所有因素对Y的影响。的影响。性质性质是其期望为是其期望为0有一定分布的随机变量有一定分布的随机变量重要性:重要性:随机扰动项的性质决定着计量经济分析结随机扰动项的性质决定着计量经济分析结果的性质和计量经济方法的选择果的性质和计量经济方法的选择17三、随机扰动项三、随机扰动项概念17三、随机扰动项 是是未知未知影响因素影响因素的代表的代表(理论的模糊性理论的模糊性)是是无法取得数据无法取得数据的已知影响因素的代表的已知影响因素的代表(数据欠缺数据欠缺)是是众多细小影响因素众多细小影响因素的综合代表的综合代表(非系统性影响非系统性影响)模型可能存在模型可能存在设定误差设定误差(变量、函数形式的设定)变量、函数形式的设定)模型中变量可能存在模型中变量可能存在观测误差观测误差(变量数据不符合实际变量数据不符合实际)变量可能有内在变量可能有内在随机性随机性(人类经济行为的内在随机性人类经济行为的内在随机性)18引入随机扰动项引入随机扰动项的原因的原因是未知影响因素的代表(理论的模糊性)18引入随机扰动项样本回归线:样本回归线:对于对于X的一定值,取得的一定值,取得Y的样本观测值,可计算其条件均值,的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。样本观测值条件均值的轨迹,称为样本回归线。样本回归函数:样本回归函数:如果把被解释变量如果把被解释变量Y的样本条件均值的样本条件均值表示为解释变量表示为解释变量X的某种函数,的某种函数,这个函数称为样本回归函数(这个函数称为样本回归函数(SRF)19XYSRF四、样本回归函数四、样本回归函数(SRF)样本回归线:19XYSRF四、样本回归函数(SRF)20样本回归函数如果为线性函数,可表示为样本回归函数如果为线性函数,可表示为其中:其中:是与是与相对应的相对应的Y的样本条件均值的样本条件均值和和分别是样本回归函数的参数分别是样本回归函数的参数个别值(实际值)形式:个别值(实际值)形式:被被解解释释变变量量Y的的实实际际观观测测值值不不完完全全等等于于样样本本条条件件均均值值,二者之差用二者之差用表示,表示,称为称为剩余项剩余项或或残差项残差项:则则或或样本回归函数的函数形式样本回归函数的函数形式条件均值形式:条件均值形式:20样本回归函数如果为线性函数,可表示为样本回归函数的函样本回归线随抽样波动而变化样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回每次抽样都能获得一个样本,就可以拟合一条样本回归线,归线,(SRF不唯一不唯一)样本回归函数的函数形式样本回归函数的函数形式应与设定的总体回归函数的应与设定的总体回归函数的函数形式一致。函数形式一致。样本回归线只是样本条件均值的轨迹,还不是总体样本回归线只是样本条件均值的轨迹,还不是总体回归线,它至多只是未知的总体回归线的近似表现。回归线,它至多只是未知的总体回归线的近似表现。21样本回归函数样本回归函数的特点的特点SRF1SRF2YX样本回归线随抽样波动而变化:21样本回归函数的特点SRF AX22PRFSRF样本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系如果能够通过某种方式获得如果能够通过某种方式获得和和的数值,显然的数值,显然:和和是对总体回归函数参数是对总体回归函数参数和和的估计的估计是对总体条件期望是对总体条件期望的估计的估计在概念上类似总体回归函数中的在概念上类似总体回归函数中的,可视,可视为对为对的估计。的估计。23对比:对比:总体回归函数总体回归函数 样本回样本回归函数归函数对样本回归的理解对样本回归的理解23对比:总体回归函数24 目的:计计量量经经济济分分析析的的目目标标是是寻寻求求总总体体回回归归函函数数。即即用用样样本本回回归函数归函数SRF去估计总体回归函数去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,由于样本对总体总是存在代表性误差,SRF总会总会过高或过低估计过高或过低估计PRF。要解决的问题:要解决的问题:寻求一种规则和方法,使其得到的寻求一种规则和方法,使其得到的SRF的参数的参数和和尽可能尽可能“接近接近”总体回归函数中的参数总体回归函数中的参数和和的的真真实实值值。这这样样的的“规规则则和和方方法法”有有多多种种,如如矩矩估估计计、极极大大似似然然估估计计、最最小小二二乘乘估估计计等等。其其中中最最常常用用的的是是最最小小二乘法。二乘法。回归分析的目的回归分析的目的24回归分析的目的用样本去估计总体回归函数,总要使用特定的方法,而任何估用样本去估计总体回归函数,总要使用特定的方法,而任何估计参数的方法都需要有一定的前提条件计参数的方法都需要有一定的前提条件假定条件假定条件 一、简单线性回归的基本假定一、简单线性回归的基本假定为什么要作基本假定?为什么要作基本假定?只只有有具具备备一一定定的的假假定定条条件件,所所作作出出的的估估计计才才具具有有良良好好的的统统计计性质。性质。模模型型中中有有随随机机扰扰动动项项,估估计计的的参参数数是是随随机机变变量量,显显然然参参数数估估计计值值的的分分布布与与扰扰动动项项的的分分布布有有关关,只只有有对对随随机机扰扰动动的的分分布布作作出出假假定定,才才能能比比较较方方便便地地确确定定所所估估计计参参数数的的分分布布性性质质,也才可能进行假设检验和区间估计等统计推断。也才可能进行假设检验和区间估计等统计推断。假定分为:假定分为:对模型和变量的假定对模型和变量的假定对随机扰动项的假定对随机扰动项的假定25第二节第二节 简单线性回归模型的最小二乘估计简单线性回归模型的最小二乘估计用样本去估计总体回归函数,总要使用特定的方法,而任何估25第例如对于例如对于假定模型设定是正确的(变量和模型无设定误差)假定模型设定是正确的(变量和模型无设定误差)假定解释变量假定解释变量X在重复抽样中取固定值。在重复抽样中取固定值。假定解释变量假定解释变量X是非随机的,或者虽然是非随机的,或者虽然X是随机的,是随机的,但与扰动项但与扰动项u是不相关的。是不相关的。(从变量从变量X角度看是外生的角度看是外生的)注意注意:解释变量非随机在自然科学的实验研究中相对解释变量非随机在自然科学的实验研究中相对容易满足,经济领域中变量的观测是被动不可控的,容易满足,经济领域中变量的观测是被动不可控的,X X非随机的假定并不一定都满足。非随机的假定并不一定都满足。261.1.对模型和变量的假定对模型和变量的假定例如对于261.对模型和变量的假定假定假定1 1:零均值假定:零均值假定:在给定在给定X X的条件下,的条件下,的条件期望为零的条件期望为零 假定假定2 2:同方差假定:同方差假定:在给定在给定X X的条件下,的条件的条件下,的条件方差为某个常数方差为某个常数27XY2.2.对随机扰动项对随机扰动项u u的假定的假定假定1:零均值假定:27XY2.对随机扰动项u的假28 假定假定3 3:无自相关假定无自相关假定:随机扰动项随机扰动项 的逐次值互不相关的逐次值互不相关 假定假定4 4:解释变量解释变量 是非随机的,或者虽然是非随机的,或者虽然 是随机的但与扰动项是随机的但与扰动项 不相关不相关(从随机扰动从随机扰动 角度看角度看)28假定3:无自相关假定:假定假定5 5:对随机扰动项分布的对随机扰动项分布的对随机扰动项分布的对随机扰动项分布的正态性假定正态性假定,即假定即假定即假定即假定 服从均值为零、方差为服从均值为零、方差为服从均值为零、方差为服从均值为零、方差为 的正态的正态的正态的正态分布分布分布分布 (说明:说明:正态性假定并不影响对参数的点估计,所以有时不正态性假定并不影响对参数的点估计,所以有时不正态性假定并不影响对参数的点估计,所以有时不正态性假定并不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。列入基本假定,但这对确定所估计参数的分布性质是需要的。列入基本假定,但这对确定所估计参数的分布性质是需要的。列入基本假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时,且根据中心极限定理,当样本容量趋于无穷大时,且根据中心极限定理,当样本容量趋于无穷大时,且根据中心极限定理,当样本容量趋于无穷大时,的分布的分布的分布的分布会趋近于正态分布。所以正态性假定有合理性)会趋近于正态分布。所以正态性假定有合理性)会趋近于正态分布。所以正态性假定有合理性)会趋近于正态分布。所以正态性假定有合理性)29假定5:对随机扰动项分布的正态性假定,29由于由于其中的其中的和和是非随机的,是非随机的,是随机变量,因此是随机变量,因此Y是随机变量,是随机变量,的分布性质决定了的分布性质决定了的分布性质。的分布性质。对对的一些假定可以等价地表示为对的一些假定可以等价地表示为对的假定:的假定:假定假定1:零均值假定:零均值假定假定假定2:同方差假定:同方差假定假定假定3:无自相关假定:无自相关假定假定假定5:正态性假定:正态性假定30在对在对 的基本假定下的基本假定下 Y Y 的分布性质的分布性质由于30在对的基本假定下Y的分布性质1.OLS的基本思想的基本思想对对于于,不不同同的的估估计计方方法法可可以以得得到到不不同同的的样样本本回回归归参参数数和和,所估计的,所估计的也就不同。也就不同。理理想想的的估估计计结结果果应应使使估估计计的的与与真真实实的的的的差差(即即剩剩余余)总总的的来来说越小越好说越小越好因因可正可负,总有可正可负,总有,所以可以取,所以可以取最小,即最小,即在观测值在观测值Y和和X确定时,确定时,的大小决定于的大小决定于和和。要解决的问题要解决的问题::如何寻求能使如何寻求能使最小的最小的和和。31二、普通最小二乘法(二、普通最小二乘法(OLSOLS)(rdinary Least Squares)rdinary Least Squares)1.OLS的基本思想31二、普通最小二乘法(OLS)用克莱姆法则求解得以观测值表现的用克莱姆法则求解得以观测值表现的OLS估计量:估计量:32取偏导数并令其为取偏导数并令其为0,可得正规方程,可得正规方程或整理得或整理得即即2.正规方程和估计量正规方程和估计量32取偏导数并令其为0,可得正规方程或整理得即2.正规方程33 为表达得更简洁,或者用离差形式的为表达得更简洁,或者用离差形式的OLS估计量估计量:容易证明容易证明由正规方程:由正规方程:注意:注意:其中:其中:本课程中本课程中:大写的大写的 和和 均表示观测值;均表示观测值;小写的小写的 和和 均表示观测值的离差均表示观测值的离差而且由而且由样本回归函数可用离差形式写为样本回归函数可用离差形式写为 用离差表现的用离差表现的OLSOLS估计量估计量33用离差表现的剩余项剩余项的均值为零的均值为零OLS回归线通过样本均值回归线通过样本均值估计值估计值的均值等于实际观测的均值等于实际观测值值的均值的均值34(由OLS第一个正规方程直接得到)(由OLS正规方程两边同除n得到)3.OLS3.OLS回归线的数学性质回归线的数学性质剩余项的均值为零34(由OLS第一个正规方程直 解释变量解释变量与剩余项与剩余项不相关不相关 由OLS正规方程有:被解释变量估计值被解释变量估计值 与剩余项与剩余项 不相关不相关解释变量与剩余项不相关由OLS36面临的问题面临的问题:参数参数估计值估计值参数真实值参数真实值对参数估计式的优劣需要有评价的标准对参数估计式的优劣需要有评价的标准为什么呢为什么呢?参数无法直接观测,只能通过样本去估计。样本的获得存参数无法直接观测,只能通过样本去估计。样本的获得存 在在抽样波动抽样波动,不同样本的估计结果不一致。,不同样本的估计结果不一致。估估计计参参数数的的方方法法有有多多种种,不不同同方方法法的的估估计计结结果果可可能能不不相相同同,通通过过样样本本估估计计参参数数时时,估估计计方方法法及及所所确确定定的的估估计计量量不不一一定定完完备,不一定能得到理想的总体参数估计值。备,不一定能得到理想的总体参数估计值。对各种估计方法优劣的比较与选择需要有评价标准。对各种估计方法优劣的比较与选择需要有评价标准。估计准则的基本要求:估计准则的基本要求:参数估计值应参数估计值应尽可能地接近尽可能地接近总体参数真实值总体参数真实值”。什么是什么是“尽可能地接近尽可能地接近”原则呢?原则呢?用统计语言表述就是用统计语言表述就是:无偏性、有效性、一致性无偏性、有效性、一致性等等 4.OLS 4.OLS估计量的统计性质估计量的统计性质36面临的问题:参数估计值37 (1)无偏性前提:前提:重复抽样重复抽样中中估计方法固定估计方法固定、样本数不变样本数不变、由重复抽样得到的观测值由重复抽样得到的观测值,可得一系列参数估计可得一系列参数估计值值 ,的分布称为的分布称为 的抽样分布,其密度的抽样分布,其密度函数记为函数记为概念概念:如如果果 ,则则称称 是是参参数数 的的无无偏估计量,偏估计量,如果如果 ,则称,则称 是有偏的估计,其偏倚为是有偏的估计,其偏倚为 (见下页图)37(1)无偏性前提:重复抽样中估计方法固38概率密度估计值偏倚偏倚3839 (2)(2)有效性有效性前提:前提:样本相同、用不同的方法估计参数,可以找到若样本相同、用不同的方法估计参数,可以找到若干个不同的无偏估计式干个不同的无偏估计式目标目标:努力寻求其抽样分布具有最小方差的估计量努力寻求其抽样分布具有最小方差的估计量 (见下页图)(见下页图)既既是是无无偏偏的的同同时时又又具具有有最最小小方方差差特特性性的的估估计计量量,称称为为最佳(有效)估计量。最佳(有效)估计量。39(2)有效性前提:样本相同、用不40概概率率密密度度估计值估计值40估计值思想思想:当样本容量较小时,有时很难找到方差最小的无偏估计,当样本容量较小时,有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(需要考虑样本扩大后的性质(估计方法不变估计方法不变,样本数逐步增大样本数逐步增大)一致性:一致性:当样本容量当样本容量n趋于无穷大时,如果估计式趋于无穷大时,如果估计式依概率收敛于总体参数的依概率收敛于总体参数的真实值,就称这个估计式真实值,就称这个估计式是是 的一致估计式。即的一致估计式。即或或(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式)估计式)(见下页图见下页图)渐近有效性:渐近有效性:当样本容量当样本容量n趋于无穷大时,在所有的一致估计趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。式中,具有最小的渐近方差。413、渐近性质、渐近性质(大样本性质)(大样本性质)思想:当样本容量较小时,有时很难找到方差最小的无偏估计,4142概率密度估计值图 442图4概念概念:样本回归线是对样本数据的样本回归线是对样本数据的一种拟合。一种拟合。不同的模型(不同函数形式不同的模型(不同函数形式)可拟合出不同的样本回归线可拟合出不同的样本回归线相同的模型用不同方法去估计相同的模型用不同方法去估计参数,也可以拟合出不同的回归线参数,也可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归线拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度,可对样本观测数据拟合的优劣程度,可称为称为拟合优度拟合优度。如何度量拟合优度呢?如何度量拟合优度呢?拟合优度的度量建立在对拟合优度的度量建立在对Y的总变差分解的基础上的总变差分解的基础上43 第三节第三节 拟合优度的度量拟合优度的度量概念:43第三节拟合优度的度量分析分析Y的观测值的观测值、估计值、估计值与平均值与平均值有以下关系有以下关系将上式两边平方加总,可证得将上式两边平方加总,可证得(提示:交叉项(提示:交叉项)(TSS)(ESS)(RSS)或者表示为或者表示为总变差总变差(TSS):被解释变量:被解释变量Y的观测值与其平均值的离差平的观测值与其平均值的离差平方和方和(总平方和)(总平方和)(说明说明Y的总变动程度)的总变动程度)解释了的变差解释了的变差(ESS):被解释变量:被解释变量Y的估计值与其平均值的的估计值与其平均值的离差平方和离差平方和(回归平方和)(回归平方和)剩余平方和剩余平方和(RSS):被解释变量观测值与估计值之差的平方:被解释变量观测值与估计值之差的平方和和(未解释的平方和)(未解释的平方和)44 一、总变差的分解一、总变差的分解分析Y的观测值、估计值与平均值YX45变差分解的图示变差分解的图示(以某一个观测值为例以某一个观测值为例)Y以以TSS同除总变差等式同除总变差等式两边:两边:或或定义:定义:回归平方和(解释了的变差回归平方和(解释了的变差ESS)在总变在总变差(差(TSS)中所占的比重称为可决系数,用中所占的比重称为可决系数,用或或表示表示:46或或 二、可决系数二、可决系数以TSS同除总变差等式可可决决系系数数越越大大,说说明明在在总总变变差差中中由由模模型型作作出出了了解解释释的的部部分分占占的的比比重重越越大大,模模型型拟拟合合优优度度越越好好。反反之之可可决决系系数越小,说明模型对样本观测值的拟合程度越差。数越小,说明模型对样本观测值的拟合程度越差。可决系数的特点可决系数的特点:可决系数取值范围:可决系数取值范围:随抽样波动,样本可决系数随抽样波动,样本可决系数是随抽样而变是随抽样而变动的随机变量动的随机变量可决系数是非负的统计量可决系数是非负的统计量47可决系数的作用可决系数的作用可决系数越大,说明在总变差中由模型作出了解释的部分占联系:联系:数值上可决系数是相关系数的平方数值上可决系数是相关系数的平方48可决系数与相关系数的关系可决系数与相关系数的关系联系:数值上可决系数是相关系数的平方48可决系数与相关系数的区别:区别:可决系数可决系数相关系数相关系数是就模型而言是就模型而言是就两个变量而言是就两个变量而言说明解释变量对被解释说明解释变量对被解释说明两变量线性依存程度说明两变量线性依存程度变量的解释程度变量的解释程度度量不对称的因果关系度量不对称的因果关系度量对称的相关关系度量对称的相关关系取值取值01取值取值-1r1有非负性有非负性可正可负可正可负494950第四节第四节 回归系数的区间估计和假设检验回归系数的区间估计和假设检验为什么要作区间估计?为什么要作区间估计?运用运用OLS法可以估计出法可以估计出参数的一个估计值,但参数的一个估计值,但OLS估计只是通过样本得到的估计只是通过样本得到的点估计,它不一定等于真实参数,还需要寻求真实参点估计,它不一定等于真实参数,还需要寻求真实参数的可能范围,并说明其可靠性。数的可能范围,并说明其可靠性。为什么要作假设检验?为什么要作假设检验?OLS估计只是用样本估计的结果,是否可靠?估计只是用样本估计的结果,是否可靠?是否抽样的偶然结果呢?还有待统计检验。是否抽样的偶然结果呢?还有待统计检验。区间估计和假设检验都是建立在确定参数估计区间估计和假设检验都是建立在确定参数估计值值 概率分布性质的基础上。概率分布性质的基础上。50第四节回归系数的区间估计和假设检验为什么要作区间估计51一、一、OLSOLS估计的分布性质估计的分布性质基本思想基本思想是是随随机机变变量量,必必须须确确定定其其分分布布性性质质才才可可能能进进行行区区间间估估计和假设检验计和假设检验怎样确定怎样确定的分布性质呢的分布性质呢?是服从正态分布的随机变量,决定是服从正态分布的随机变量,决定了了也是服从正态分布的随机变量;也是服从正态分布的随机变量;是是的线性函数,决定了的线性函数,决定了也服从正态分布也服从正态分布正态正态 正态正态 正态正态只要确定只要确定的期望和方差,即可确定的期望和方差,即可确定的分布性质的分布性质线性特征线性特征(线性估计的重要性(线性估计的重要性)51一、OLS估计的分布性质52的期望:的期望:(已证明是无偏估计)已证明是无偏估计)的方差和标准误差的方差和标准误差(证明见证明见P39、P40)(标准误差是方差的平方根标准误差是方差的平方根)注意:注意:以上各式中以上各式中 均未知,但是个常数,其余均是已均未知,但是个常数,其余均是已知的样本观测值,这时知的样本观测值,这时 和和 都不是随机变量。都不是随机变量。的期望和方差52的期望:53基本思想:基本思想:是是的方差,而的方差,而不能直接观测,只能从由样本得不能直接观测,只能从由样本得到的到的去获得有关去获得有关的某些信息,去对的某些信息,去对作出估计。作出估计。可以证明(见附录可以证明(见附录2.2)其无偏估计为其无偏估计为 (这里的这里的n-2为自由度为自由度,即可自由变化的样本观测值个数即可自由变化的样本观测值个数)注意区别:注意区别:是未知的确定的常数;是未知的确定的常数;是由样本信息估计的,是个随机变量是由样本信息估计的,是个随机变量对随机扰动项方差对随机扰动项方差 的估计的估计53对随机扰动项方差的估计基本思想基本思想:对参数作出的点估计是随机变量,虽然是无偏估计,但还不对参数作出的点估计是随机变量,虽然是无偏估计,但还不能说明这种估计的可靠性和精确性。如果能找到包含真实参数能说明这种估计的可靠性和精确性。如果能找到包含真实参数的一个范围,并确定这样的范围包含参数真实值的可靠程度,的一个范围,并确定这样的范围包含参数真实值的可靠程度,将是对真实参数更深刻的认识将是对真实参数更深刻的认识。方法:方法:如果在确定参数估计式概率分布性质的基础上,可找到两如果在确定参数估计式概率分布性质的基础上,可找到两个正数个正数和和,能使得这样的区间,能使得这样的区间包含真实包含真实的概率为的概率为,即,即这样的区间称为所估计参数的置信区间。这样的区间称为所估计参数的置信区间。讨讨论论:“如如果果已已经经得得出出了了 的的特特定定估估计计值值,并并确确定定了了某某个个置置信信区区间间,这这说说明明真实参数落入这个区间的概率为真实参数落入这个区间的概率为1-1-”。这种说法对吗。这种说法对吗?54 二、回归系数的区间估计基本思想:54二、回归系数的区间估计方法:方法:用无偏估计用无偏估计去代替未知的去代替未知的,由于样本容量较,由于样本容量较小,小,“标准化变量标准化变量”t(统计量)不再服从正态分布,而服从(统计量)不再服从正态分布,而服从t分布。分布。这时可用这时可用t分布去建立参数估计的置信区间。选定分布去建立参数估计的置信区间。选定,查,查t分分布表得显著性水平为布表得显著性水平为,自由度为,自由度为n-2的临界值的临界值(n-2),则有则有即即55方法:用无偏估计去代替未知的,由于样本容量例例1:研究某市城镇居民人均鲜蛋需求量研究某市城镇居民人均鲜蛋需求量Y(公斤公斤)与人均可支配收入与人均可支配收入X(元元,1980年不变价计年不变价计)的关系的关系设定模型设定模型:1995-2005年样本数据:估计参数:估计参数:年份19951996199719981999200020012002200320042005Y14.414.414.414.717.016.318.018.518.219.317.1X847.3821.0884.2903.7984.11035.31200.91289.81432.91539.01633.6例1:研究某市城镇居民人均鲜蛋需求量Y(公斤)与人均可支配收计算可决系数计算可决系数例例1:由前面的估计结果可计算出由前面的估计结果可计算出由数据由数据Y可计算出可计算出:则则估计结果估计结果:计算可决系数估计结果:估计估计:给定给定查查df=n-2=9df=n-2=9的的t t分布临界值分布临界值参数区间估计参数区间估计:若给定若给定查查df=9df=9的的t t分布临界值分布临界值58若给定若给定则则若给定若给定则则则则58若给定则若给定5959统计量统计量t计算的统计量为计算的统计量为:相对于显著性水平相对于显著性水平的临界值为的临界值为:(单侧)(单侧)或或(双侧)(双侧)基本概念回顾基本概念回顾:临界值与概率、大概率事件与小概率事件临界值与概率、大概率事件与小概率事件0(大概率事件)(大概率事件)(小概率事件)(小概率事件)目的:目的:简单线性回归中,检验简单线性回归中,检验X对对Y是否真有显著影响是否真有显著影响三、三、回归系数的假设检验回归系数的假设检验5959统计量t计算的统计量为:相对于显著性水平的 回归系数的检验方法回归系数的检验方法 确立假设:确立假设:原假设为原假设为备择假设为备择假设为 (本质本质:检验检验是否为是否为0,即检验,即检验是否对是否对Y有显著影响有显著影响)则:则:回归系数的检验方法确立假设:原假设为61给定给定,查查t分布表得分布表得如果如果或者或者则拒绝原假设则拒绝原假设而不拒绝备择假设而不拒绝备择假设xi对对y有显著影响;有显著影响;如果如果则不拒绝原假设则不拒绝原假设xi对对y没有显著影响;没有显著影响;61给定,查t分布表得用用 P 值判断参数的显著性值判断参数的显著性假设检验的假设检验的 p p 值值:p值是基于既定的样本数据所计算的统计量,拒绝值是基于既定的样本数据所计算的统计量,拒绝原假设的最低显著性水平。原假设的最低显著性水平。统计分析软件中通常都给出了检验的统计分析软件中通常都给出了检验的p值值P统计量t计算的统计量:相对于显著性水平的临界值:或注意:注意:t检验是比较检验是比较和和P值检验是比较值检验是比较和和p与相对应与P相对应用P值判断参数的显著性假设检验的p值:P统计量t63用用P值判断参数显著性的方法值判断参数显著性的方法方法方法:将给定的显著性水平将给定的显著性水平与与p值比较:值比较:若若值,必有值,必有,则在显著性水平,则在显著性水平下拒绝原假设下拒绝原假设,即认为,即认为对对Y有显著影响有显著影响 若若值,必有值,必有,则在显著性水平,则在显著性水平下下不拒绝原假设不拒绝原假设,即认为,即认为对对Y没有显著没有显著影响影响规则规则:当当时,P值越小,越能拒越小,越能拒绝原假原假设63用P值判断参数显著性的方法方法:将给定的显著性水平64举例举例:对例对例1 1参数的显著性检验参数的显著性检验给定给定查查df=9的的t分布临界值分布临界值计算统计量计算统计量判断判断:因因拒绝拒绝说明说明显著不为显著不为0,X对对Y确有显著影响确有显著影响用用P P值检验值检验:(需要确定与(需要确定与 对应的对应的P P值)值)由由,df=9,查,查t分布表知道分布表知道P0.0005(t=4.781时)因因t=5.00时的时的P值值0.0005(t=4.781)则在显著性水平则在显著性水平下更应拒绝原假设下更应拒绝原假设即认为即认为对对Y有显著影响有显著影响64举例:对例1参数的显著性检验 第五节第五节 回归模型预测回归模型预测一、回归分析结果的报告一、回归分析结果的报告经经过过模模型型的的估估计计、检检验验,得得到到一一系系列列重重要要的的数数据据,为为了了简简明明、清清晰晰、规规范范地地表表述述这这些些数数据据,计计量量经经济济学学通通常采用以下规范化的方式:常采用以下规范化的方式:例如:回归结果为例如:回归结果为=244545+05091(64138)(00357)标准误差SEt=(38128)(142605)t统计量=09621df=8可决系数和自由度F=20287DW=2.3F统计量DW统计量第五节回归模型预测一、回1.1.基本思想基本思想经估计的计量经济模型可用于经估计的计量经济模型可用于:经济结构分析经济结构分析经济预测经济预测政策评价政策评价验证理论验证理论运用计量经济模型作预测:指利用所估计的样本回归函数运用计量经济模型作预测:指利用所估计的样本回归函数作预测工具,用解释变量的已知值或预测值,对预测期或样作预测工具,用解释变量的已知值或预测值,对预测期或样本以外的被解释变量的数值作出定量的估计。本以外的被解释变量的数值作出定量的估计。计量经济预测是一种条件预测:计量经济预测是一种条件预测:条件:条件:模型设定的关系式不变模型设定的关系式不变所估计的参数不变所估计的参数不变解释变量在预测期的取值已作出预测解释变量在预测期的取值已作出预测66 二、被解释变量平均值预测二、被解释变量平均值预测1.基本思想66二、被解释变量平均值预测 预测值、平均值、个别值的相互关系 Y是对真实平均值的点估计是对真实平均值的点估计,也是对个别值的点估计也是对个别值的点估计点预测值真实平均值个别值预测值、平均值、个别值的相互关系2、Y Y 平均值的点预测平均值的点预测点预测点预测:用用样样本本估估计计的的总总体体参参数数值值所所计计算算的的Y Y的的估估计计值值直直接作为接作为Y Y的预测值的预测值方法:方法:将解释变量预测值直接代入估计的方程将解释变量预测值直接代入估计的方程这样计算的这样计算的 是一个点估计值是一个点估计值2、Y平均值的点预测点预测:3、Y Y平均值的区间预测平均值的区间预测基本思想:基本思想:预测的目标值是真实平均值,由于存在抽样波动,预预测的目标值是真实平均值,由于存在抽样波动,预 测的平均值测的平均值 不一定等于真实平均值不一定等于真实平均值 ,还,还 需要对需要对 作区间估计作区间估计为为对对Y Y作作区区间间预预测测,必必须须确确定定平平均均值值点点预预测测值值 的的抽抽样分布样分布必必须须找找出出点点预预测测值值 与与预预测测目目标标值值 的的关关系系,即找出与二者都有关的统计量即找出与二者都有关的统计量3、Y平均值的区间预测基本思想:具体作法具体作法 (从 的分布分析)已知已知 可以证明可以证明 服从正态分布服从正态分布(为什么为什么?)?),将其标准化,将其标准化,当当未知时,只得用未知时,只得用代替,这时有代替,这时有(较复杂不具体证明)(较复杂不具体证明)具体作法(从的分布分析)已知71显然这样的显然这样的t统计量与统计量与和和都有关。都有关。给定显著性水平给定显著性水平,查,查t分布表,得自由度分布表,得自由度n2的临的临界值界值,则有,则有即即Y平均值的置信度为平均值的置信度为的预测区间为的预测区间为构建平均值的预测区间构建平均值的预测区间71显然这样的t统计量与和三、被解释变量个别值预测三、被解释变量个别值预测基本思想:基本思想:既既是是对对Y Y平平均均值值的的点点预预测测,也也是是对对Y Y个个别值的点预测。别值的点预测。由由于于存存在在随随机机扰扰动动 的的影影响响,Y Y的的平平均均值值并不等于并不等于Y Y的个别值的个别值 为为了了对对Y Y的的个个别别值值 作作区区间间预预测测,需需要要寻寻找找与与点点预预测测值值 和和预预测测目目标标个个别别值值 有有关关的的统计量,并要明确其概率分布统计量,并要明确其概率分布三、被解释变量个别值预测基本思想:已知剩余项已知剩余项是与预测值是与预测值及个别值及个别值都有关的变量,并且已知都有关的变量,并且已知服从正态分布,且可证明服从正态分布,且可证明当用当用代替代替时,对时,对标准化的标准化的变量变量t为为73(较复杂不具体证明)(较复杂不具体证明)具体作法:具体作法:已知剩余项是与预构建个别值的预测区间构建个别值的预测区间给定显著性水平给定显著性水平 ,查,查 t t 分布表得自由度为分布表得自由度为N2N2的临界值的临界值 ,则有,则有 因此,一元回归时因此,一元回归时Y Y的个别值的置信度为的个别值的置信度为 的预测区间的预测区间上下限为上下限为构建个别值的预测区间给定显著性水平,查t分布表得自75 被解释变量被解释变量Y Y区间预测的特点区间预测的特点(1)Y平平均均值值的的预预测测值值与与真真实实平平均均值值有有误误差差,主主要要是受是受抽样波动影响抽样波动影响预测区间预测区间Y个个别别值值的的预预测测值值与与真真实实个个别别值值的的差差异异,不不仅仅受受抽抽样波动影响样波动影响,而且还受,而且还受随机扰动项的影响随机扰动项的影响 预测区间预测区间75被解释变量Y区间预测的特点(1)Y平均值的预测值与76(2)平均值和个别值预测区间都不是常数,)平均值和个别值预测区间都不是常数,是随是随的变化而变化的,当的变化而变化的,当时,预测区间最小。时,预测区间最小。(3)预测区间上下限与样本容量有关,当样本容量)预测区间上下限与样本容量有关,当样本容量n时时,个别值的预测区间只决定于随机扰个别值的预测区间只决定于随机扰动的方差。动的方差。预测区间预测区间76(2)平均值和个别值预测区间都不是常数,是随77SRF各种预测值的关系各种预测值的关系Y的个别值的预测区间Y平均值的预测区间77SRF各种预测值的关系Y的个别值的预测区间Y平均值的预测
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!