双变量回归分析：一些基本概念.ppt

资源描述

第2章双变量回归分析：一些基本概念,回归分析是要根据解释变量的已知或给定值，去估计或预测因变量的总体均值假如我们要研究每周家庭消费支出Y与每周可支配的家庭收入X之间的关系假设这个国家的家体的总体由60户家庭组成。可以按收入的高低把这60户家庭分组，每一组的组内收入相差不大。假定我们得到的观察值如表2.1所示,一个例子表2.1X：每周家庭收入（$）,y,x,表2.1的含义：它给出了以X的给定值为条件的Y值的条件分布（conditionaldistribution）因为表2.1代表一个总体，我们可以从表中计算出给定X的Y的概率，这在统计上叫做什么？比如：,对Y的每一个条件概率分布，我们所计算出它的均值（mean或averagevalue），称为条件均值（conditionalmean）或条件期望（conditionalexpectation），记做：比如，给定X80,可以由表2.1绘制如右图的散点图,返回,散点图表明对应于各个X值的Y的条件分布，它表明随着收入的增加，消费支出平均地说也在增加。Y的条件均值随X增加而增加。图中的粗圆点（大的黑点）表示Y的各个条件均值Y的条件均值落在一条正斜率的直线上，这条线叫总体回归线（populationregressionlineorcurve），它代表Y对X的回归从几何意义上讲，总体回归曲线就是，当解释变量取给定值时，因变量的条件均值或条件期望的轨迹,图2.1可以画成图2.2的形式可见，对应于每一个Xi都有一个Y值的总体和一个相应的条件均值。而回归直线（曲线）正好穿过这些条件均值,总体回归函数（PRF，populationregressionfunction）由图2.1和图2.2可见，每一个条件均值都是的一个函数，即：（2.2.1）这个方程就叫做（双变量的）总体回归函数（PRF）或简称总体回归（populationregression,PR），它表明Y的均值或平均响应（averageresponse）是如何随X而不同的具体函数形式如何确定是一个经验问题，已知的经济理论可以给我们一些指导。假如，是的线性函数：（2.2.2）和为回归系数（regressioncoefficients），（2.2.2）称为线性总体回归函数，或简称线性总体回归。,在我们的课程中，回归，回归方程和回归模型将不加以区分，作为同义词使用“线性”一词的含义（2.2.2）式被称为“线性”总体回归，其中的“线性”的含义是什么？它可以作两种解释：（1）对变量为线性即：Y的条件期望值是的线性函数，从几何意义上看，这样的回归曲线是一条直线。诸如：这样的回归函数，就不是线性的。,（2）对参数为线性即Y的条件期望是参数的一个线性函数；它既可以是也可以不是变量X的线性函数这样以来，就是一个线性回归模型，而则不是线性的。在今后的课程中，我们讲的“线性”指的是对参数为线性的情况，对解释变量则可以是也可以不是线性的。如：是一个LRM（linearregressionmodel）,PRF的随机设定我们现在再回到表2.1和图2.1，可见，随着家庭收入，家庭消费支出平均地看也会；但是对具体的某一个家庭的消费支出却不一定随收水平而给定收入水平的个别家庭的消费支出，聚集在收入为的所有家庭的平均消费支出的周围，也就是围绕着它的条件均值个别的Yi围绕它的期望值的离差（deviation）可以表示如下：或（2.4.1）离差ui是一个不可观测的随机变量，称之为随机干扰（stochasticdisturbance）或随机误差项（stochasticerror）,从计量经济学上看，对于给定的X水平，个别家庭的支出可以分解为两个部分：表示收入相同的所有家庭的平均消费支出，称为系统性（systematic）或确定性（deterministic）成分（component）。ui为随机的或非系统性成分（nonsystematiccomponent）。它是代表所有可能影响Y的，但又没有包括到回归模型中的替代（surrogate）或代理（proxy）变量假定对是线性的，（2.4.1）式便可以写为：（2.4.2）它表示消费支出Y线性地依赖于相应的收入和随机扰动项,由（2.4.1）式：两边取期望值得：而也就是，所以有：（2.4.5）这就是说，给定Xi，ui的条件均值等于零。,随机干扰项的意义干扰项是模型中省略掉的，又集体地影响Y的全部因素（变量）的替代物（surrogate）那么，为什么不构造一个含有尽可能多的解释变量的复回归模型呢？原因如下：理论的含糊性：现有的理论往往是不完全的。物理学上有个“测不准定理”：我们永远不可能接近真实的世界，因为我们的观测总是要借助于工具和环境数据的欠缺：比如，在分析影响家庭消费支出的例子中，应该加进“财富”变量，然而，人们总是怕“露富”，有些人“装富”，所以，一般很难得到有关家庭财富的确切数据,核心变量与周边变量（Corevariablesvs.peripheralvariables）：在消费收入的例子中，除了X1（家庭收入）外，家庭的儿童数X2，性别X3，宗教X4，教育X5和地区X6也影响支出。但这些变量的影响可能很小，以至于可以忽略不计，因此称它们为周边变量（peripheralvariables）还有一个原因：性别、教育、宗教等变量难以数量化（difficulttoquantify）人类行为的内在随机性：社会科学研究的是人类的行为。人为什么如此行动，有时连他自己都说不清楚,糟糕的替代变量（poorproxyvariables）：举个例子MiltonFriedman（弗里德曼）的消费函数理论把永久消费（YP）（permanentconsumption）看作是永久收入（XP）（permanentincome）的函数“永久消费”和“永久收入”是两个抽象的概念，不可以观测，实际上，只能用可以观测到的当前消费Y（currentconsumption）和当前收入X（currentincome），或者n个时期的平均值去替代。这便有个测量误差。干扰项ui也用来代表测量误差节省原则：做回归模型，在许可的范围内尽量节省减少变量的个数。这也有个“投入产出”的问题。当然，不能为了简单而省去有关的和重要的变量,错误的函数形式：比如：到底是哪一种，可能我们并不是十分清楚，借助于经济理论，散点图会有助于我们的分析,样本回归函数（SRF，TheSampleRegressionFunction）表2.1是一个总体，这是一个假定的总体，在现实的经济生活中总体的所有观测值往往是不能够全部获得的。在大多数情况下，我们只有对应于某些固定的X的Y值的一个样本。比如，对于表2.1的总体我们只知道如下的抽取的样本:,表2.4表2.1总体的一个随机样本,各次抽样之间总存在波动（误差），表2.5是另一个随机样本表2.5表2.1总体的另一个随机样本,那么，我们能否从上表的样本数据预测整个总体中对应于选定X的平均的消费支出Y呢？或者说，能否估计出PRF？,根据表2.4和表2.5可以得到如下的散点图。,SRF1是根据第一个样本画的；而SRF2是根据第二个样本画的。图中的回归线叫样本回归线（sampleregressionlines）,对应于样本回归线的方程叫样本回归函数（sampleregressionfunction，简记SRF）：（2.6.1）表示的估计量(全在SRF上)表示的估计量表示的估计量估计量（estimator），也称样本的统计量（statistic）是总体参数的一个估计。由估计量算出的一个具体的数值，称之为估计值（estimate）SRF（2.6.1）式可以写成相应的随机形式：表示样本残差或剩余项（residual），是的估计量。,回归分析的主要任务是根据SRF：（2.6.2）估计PRF：由于抽样有波动，根据SRF来估计PRF，最多只能是一个近似的估算。见下图：,对于给定的，有一个观测值利用SRF可以将所观测到的表示为：（2.6.3）利用PRF可以将所观测到的表示为：（2.6.4）高估了那里的真值。对A点以左的任何Xi，SRF低估了PRF。这种高估或低估是由抽样误差引起的。用什么方法或规则，可以使SRF可以尽可能地接近PRF？或者说，怎样构造SRF使尽可能接近，尽可能接近呢？且听下章分解,本章结束，谢谢！,

展开阅读全文