《双变量回归分析》PPT课件.ppt

资源描述

第一章双变量回归分析教师卢时光 1 回归分析的性质 F 加尔顿 FrancisGalton 发现虽然有一个趋势父母高儿女也高父母矮儿女也矮但给定父母的身高儿女辈的平均身高却趋向于或者回归到全体人口的平均身高 K 皮尔逊 KarlPearson 证实了加尔顿普遍回归定律皮尔逊收集了1000多个家庭的身高记录他发现对于父辈高的群体儿辈的平均身高低于他们的父辈而对于父辈矮的群体儿辈的平均身高则高于他们的父辈用加尔顿的话来说就是回归到中等 regressiontomediocrity 1 2回归的现代定义回归分析是关于研究一个应变量对另一个解释变量的依赖关系其用意在于通过后者在重复抽样中的已知或设定值去估计和或预测前者的总体均值回到加尔顿的例子我们关心给定父辈身高找出儿辈平均身高的变化值得注意的是随着父辈身高的增加儿辈平均身高也在增加如左图所示注意对应任一给定的父辈的身高都有一个儿辈身高的分布范围我们勾画了一条通过这些散点的一条直线以表示儿辈平均身高如何随父辈身高的增加而增加的这条线我们称为回归线 regressionline 1 3统计关系和确定性关系如上例中我们不像经典物理学中考虑的那种变量之间的函数或确定性依赖关系在回归分析中我们考虑的是一类所谓统计依赖关系在变量之间的统计关系中我们主要处理是随机变量也就是有着概率分布的变量例如作物收成对气温降水阳光及施肥的依赖关系是统计性质的这个性质的意义在于这些解释变量固然重要但是并不能够使农业学家准确地预测作物的收成一则这些变量的测量是有误差的二则还有一大堆影响到作物收成的变量我们无法一一识别出来 1 4回归和因果关系虽然回归分析是研究一个变量对另一些变量的依赖关系但它并不一定意味着因果关系用肯达尔和斯图亚特的话说一个统计关系式无论多强也不管多么有启发性却永远不能确立因果方面的联系对因果关系的理念必须来自统计学以外最终来自这种或那种理论例如在诸多有趣的经济指标中有一个裙子长短指数这个指数用女性穿着裙子的长短来判断经济的好坏当经济不好时失业率增加女性就业更困难短裙看起来能年轻活力一些有利于寻求新的职位但是我们不能因此得到结论在座的女生穿着短裙是因为经济不好或者因为在座的女生穿着短裙所以中国的经济不好从逻辑上说统计关系式本身不意味着任何因果关系 1 5数据的性质用于经济分析的数据有三类时间序列横截面数据和混合数据时间序列对一个变量在不同时期取值的一组观测结果例如随着年份GDP的变换上证综合指数的每日变换等等基于时间序列数据的计量分析大多假定所依据的时间序列数据是平稳的 stationary 粗略地来说如果一组时间序列数据它们的均值和方差在时间上没有系统的变化就是平稳的要记住每当你使用时间序列数据时你都要问一问它的平稳性如何横截面数据对一个或多个变量在同一个时点上收集的数据例如2012年9月份全国主要30个省份的生猪的产量和价格全国每个高校2012届大学生的就业率等等横截面数据也有其自身的问题特别是异方差 heterogeneity 的问题有的省湖南江西生产巨量的生猪而有的省北京和广东生产量很少当我们的统计分析中包含有相异的单元时我们必须考虑尺度效应以避免把苹果和桔子混同了起来混合数据兼有时间序列和横截面数据例如人口普查数据从1980到2012年中国人口总量变化是时间序列而2012年不同省市人口的分布则是横截面数据 2 双变量回归分析 2 1一个例子假定一个国家人口总体由60户家庭组成 X表示家庭周可支配收入 Y表示家庭周消费支出将这60户按照收入划分为10组分析每一组的家庭消费支出对应每周收入在80美元的5户每周家庭消费支出在55到75美元不等上表中每一纵列给出的是在给定的收入水平X下的消费支出Y的分布就是说它给出了以X为给定值条件下的Y的条件分布散点图根据表格的数据制成现在对于给定的X 例如X 80美元有5个Y值 55 60 65 70和75美元因此给定X 80得到这些消费支出中任何一个概率是1 5 用符号来表示对于Y的每一条件概率分布我们能够计算出来它的均值称为条件均值或条件期望记做E Y X Xi 并读作在X取特定Xi值时Y的期望值给定X 80 Y的期望或条件均值为回到散点图中我们更清楚的发现虽然每个家庭的消费支出都不相同但随着收入的增加消费水平平均地说也在增加观测红色的粗圆点代表的Y的各个条件均值这种察觉就更加的直观和形象散点图表明这些条件均值都落在一个有正斜率的直线上这个直线叫做总体回归线更简单地说它是Y对X的回归在几何意义上总体回归线就是当解释变量取给定值时应变量的条件均和或期望的轨迹 2 2总回归函数 PRF 从前面的讨论中我们清楚地看到每一条件均值E Y Xi 都是Xi的一个函数用符号来表示其中 f Xi 表示解释变量Xi的某个函数在上例中 E Y Xi 是Xi的一个线性函数我们把称为总体回归函数 PRF 或简称为总体回归 PR 它说明在给定的Xi下 Y的分布均值与Xi有函数关系或者它表明了Y的均值是怎样随X而变化的 PRF的函数形式是一个经验方面的问题例如经济学家会提出消费和收入有线性关系这样PRF常常被写作其中 1 2为不知的参数称为回归系数也分别被称为截距和斜率系数 2 3线性的含义对线性的第一种解释是 Y的条件期望是Xi的线性函数从几何意义上来看这时回归曲线是一条直线按照这种解释诸如E Y Xi 1 2 Xi2回归函数变量X以指数2出现就不是线性的对线性的第二种解释是 Y的条件期望E Y Xi 是诸参数的一个线性函数它可以是也可以不是X的线性函数这样E Y Xi 1 2Xi2就算一个线性模型而E Y Xi 1 22Xi2则不是在我们这里我们认为线性是对参数为线性的情形因此从现在开始线性一词总是指对参数为线性的一种回归即参数总是以它的1次方出现对解释变量X则可以是或不是线性的 E Y Xi 1 2Xi和E Y Xi 1 2Xi2都是线性回归模型 LRM 2 4总回归方程的随机设定前面的例子中随着家庭收入的增加家庭消费支出平均的也增加但是对个单独某个家庭来说消费支出水平却不一定随收入水平增加而增加例如对应于每周100美元的收入水平有一家庭的消费支出是65美元而对应于收入80美元的两户家庭消费支出为70和75美元那么在个别家庭的消费支出与给定的收入水平之间存在什么关系呢我们在前面的分析中看到给定收入水平Xi的个别家庭的消费支出围绕在收入为Xi的所有家庭的平均消费支出的周围也就是围绕在它的条件均值因此我们可以把个别家庭的Yi围绕在它的期望值的离差 deviation 表述如下 ui被称为随机干扰或随机误差项给定X水平个别家庭的支出可以表示为两个成分之和 1 E Y Xi 代表相同收入水平的所有家庭的平均消费支出这个成分被称为系统性或确定性成分以及 2 ui被称为随机的或非系统性的成分也可以理解为ui是所有影响Y的但是没能包含到回归方程中的被忽略变量的替代变量方程表示一个家庭的消费支出线性地依赖于它收入加上干扰项给定X 80 各个家庭的消费支出表达为回到刚才的式子现在如果两边取期望则式中 E Y Xi 是条件期望是一个常数故E E Y Xi 就是它自身而E Yi Xi 就是E Y Xi 故因此假定回归线从Y的条件均值通过就意味着 ui的以给定的Xi为条件的条件均值为零 2 5随机干扰项的意义干扰项是从模型中没有包含的而又集体地影响着Y的全部变量的替代物为什么我们不构造一个包含尽可能多的变量的复回归模型理由如下 1 理论的含糊性 2 数据的欠缺 3 核心变量和周边变量 4 人类行为的内在随机性 5 不好的替代变量 6 节省的原则 7 错误的函数形式为了所有上述理由我们在随后的学习中会发现随机干扰项在回归分析中扮演了极其重要的角色 2 6样本回归函数 SRF 注意我们前面的例子中我们假定一个国家是由60户家庭组成的故我们得到的是一个关于这60户家庭收入和消费支出的完整的总体数据在大多数实际情况下我们仅有对应于某些固定的X的Y值的样本这样我们就必须面对抽样问题例如有下列两组抽样数据问题我们能够从抽样数据中预测整个总体中对应于给定的X的平均每周消费支出Y吗将表中的数据描绘为散点图在散点图中我们画了两根样本回归线以尽量好的拟合这些散点 SRF1是根据第一个样本的数据而SRF2是根据第二个样本的数据那么两条回归线中那一条代表真实的总体样本回归线事实上我们不可能有绝对把握知道哪一条代表了真实的总体回归线因为抽样的波动它们最多也不过是真实总体回归线的一个逼近而已一般的来说从N个不同样本中会得到N个不同的样本回归函数并且这些样本回归函数不大会一样类比总体回归函数我们能够写出一个代表样本回归线的样本回归函数 SRF 这里分别是Y 1和 2的估计量我们还能把SRF表达为它的随机形式其中除了定义过的符号外表示样本残差项概念上类似于ui 并且可把它当做是ui的估计量把它引入到SRF中的理由和把ui引入PRF中来是出于同一个理由至此总的来说回归分析仅仅是依据某总体的一个样本的时候比不是这样的时候多我们的主要目的是根据样本回归函数 SRF 来估计总体样本函数 PRF 对于X Xi 我们有一个观测值Y Yi 我们可以根据SRF将所观测的Yi表达为也可以根据PRF 表达为现在对于图中所示的Xi 明显过高的估计了那里的真实的E Y Xi 类似的对于A点左侧 SRF低估了真实的PRF 而右侧则恰好相反现在重要的问题既然认识到了样本回归函数不过是总体回归函数的一个近似能不能设计一种规则或方法使得这种近似是一种尽可能接近的近似尽管真实的总体回归函数永远不得而知 3 双变量回归模型估计问题 3 1普通最小二乘法原理回顾双变量总体回归函数 PRF 这个PRF不是直接可以观测的我们通过样本回归函数 SRF 去估计它这里是Y的估计值条件均值我们把式子改写为这样残差不过是实际Y值与估计值之间的差对于给定的Y和X 我们希望样本回归函数 SRF 能够尽可能的接近实际的Y 这样我们采用如下原则选择这样的SRF 使得尽可能的小上述标准似乎很给力但却存在缺陷因为在总和中得到的权重和一样多而显然后两者离样本回归线距离要远得多这样可能所有的都散布的很远但是代数和却很小甚至为零为了避免这样的问题最小二乘准则要给出样本回归函数 SRF 使得尽可能小其中是残差平方和我们即将看到它得出来的估计量有很好的统计性质很明显残差平方和是关于估计量的某个函数的最小二乘估计其中 n是样本大小这组联立方程被称为正则方程解上述方程组最小二乘 OLS 估计量的性质OLS估计量是纯粹由可观测值样本值表达的因此这些量是容易计算的这些量是点估计量对于给定的样本每一估计量仅提供有关总体参数的一个值从样本数据得到OLS估计值很容易画出样本回归线这样得到的样本回归线有如下性质不证明 1 它通过X和Y的样本均值 2 估计的Y均值等于实测的Y的均值 3 残差的均值为零 4 残差和预测的Yi值不相关 5 残差和Xi值不相关 3 2经典线性回归模型最小二乘模型的基本假定如果我们的目的仅仅是估计那么上节讨论的OLS就足够了事实上我们不仅仅是要估算出的值而且要对真实的推断我们想知道离它的真期望值有多近为此我们要对Yi的产生方式作出某些假设而表明 Yi是依赖于Xi和ui 因此除非我们明确Xi和ui是怎样产生的我们将无法对Yi作出任何统计推断也就无法对作出统计推断就是说为了回归估计的有效解释我们对变量Xi和误差项ui作出假定是极其重要的我们在前面探讨过线性的定义在我们这里我们将始终坚持这一定义假定1 线性回归模型回归模型对参数而言是线性的我们关于总体样本函数 PRF 的讨论中隐含着这样一个假定重复抽样中的固定值对它的理解很重要回到我们最初的例子上我们假定一个由60户家庭组成我们统计了这60户家庭的收入X和家庭消费支出Y的数据这样我们把收入值固定在80美元周随机的抽取一个家庭并观测它的周家庭消费支出例如说60美元接着我们仍然把收入X固定在80美元周再随机的抽取令一个家庭观测它的周家庭消费支出为75美元在每次抽取重复抽样中我们都把X值固定在80美元上直到所有周收入为80美元的家庭统计完毕事实上我们例子中的数据就是这样产生的所有的这些意味着我们的回归分析是条件回归分析就是以X给定值为条件的假定2 在重复抽样中X值是固定的假定3 干扰项ui的均值为零对于给定的X值 ui的条件期望均值为零用公式来表达其实这个假定无非是告诉我们凡是模型中没有包含的没有被作为解释变量的其他而被归结为ui的因素都不应该对Y的均值产生系统性的影响或者说正的ui和负的ui相互抵消了以至于它们对Y的平均影响为零对于每个ui的方差都是某个等于 2的正常数意味着对应于不同的X值的Y总体均有相同的方差图3 4和3 5都表明了随收入增加平均消费水平增加 3 4中消费支出方差在所有的收入水平下保持不变而3 5则变大当X X1时消费水平平均地离PRF更近而X X3时消费水平围绕PRF分布更远显然X X1时的数据Y对我们来说更可靠一些假定4 同方差性或ui的方差相等对于给定的X值对所有的观测 ui的方差是恒定的用公式来表达假定5 各个干扰项之间无自相关给定任意两个X值 Xi和Xj i j ui和uj之间的相关为零用符号来表示用专业的术语来说就是无序列相关或无自相关如果上述假定不成立 ut和ut 1存在相关关系那么Yt不仅仅取决Xt而且还取决于ut 因为ut 1在一定程度上决定了ut 我们利用假定5 就是只考虑Xt对Yt的影响而不去担心u之间的可能到相关关系而对Y产生的影响干扰u和解释变量X之间是不相关的如果X和u是相关的例如X和u正相关那么当u增加的时候X也增加类似的如果X和u负相关则当u增加时X减少我们将无法准确地区分X和u各自对Y产生了什么样的影响假定6 ui和Xi的协方差为零用符号来表示对于前例如果我们只有一组X和Y的观测值我们将无法从这一次观测中去估计参数对于两个参数估计我们至少需要两组数据假定7 观测次数n必须大于待估计的参数个数回到前面的公式中如果全部的X值都相等则Xi 那么上式中的分母就为零从而我们无法估计 2 也就无法估计 1 要把回归当做一种工具来使用 Y和X两者均有变化是前提换句话说变量必须在变假定8 X值要有变异性在一个给定的样本中 X值不可以完全是相同的如果模型中漏掉了一些重要的变量或者选择了错误的函数形式或者对所含变量作出了错误的随机假定那么我们就要质疑回归的有效性假定9 正确地设定了回归模型另外一个说法是在经验分析中所用的模型没有设定偏误这一假设我们将在后续的学习中加以解释它的重要性假定10 没有完全的多重共线性就是说解释变量之间没有完全的线性关系 3 3最小二乘估计的精度或标准误差我们估算出来的的可靠性或者精密度如何呢在统计学上一个估计量的精密度是由它的标准误 se 来衡量的 var方差 se标准误 2是假定4中的ui的共同方差附方差的推导除了 2以外上述方程中的一切变量均可以从数据中估计出来 2由下面公式估算是真正的但未知的 2的OLS估计量 n 2被称为自由度 df 的个数则表示残差平方的总和或者剩余平方和 RSS 注意的方差有如下特点的方差和 2成正比而与成反比就是说给定的 2 X值变化越大方差越小从而 2的估计精度越高此外随样本容量n的增加中的项数将增加 2的估计精度随n的增加而增加的方差与 2和成正比而与和样本大小n成反比最后由于是估计量对于给定的样本它们还可能是相互影响的这种依赖性由它们之间的协方差来衡量 3 5判定系数r2 拟合优度的一个度量如果所有的观测点都落在样本回归线上我们就得到了一个完美的拟合但是这种情况很少发生一般的是情形下总有一些正的和负的我们所能希望的仅仅是围绕着回归线的残差尽可能的小判定系数r2 双变量情形和R2 多变量的情况就是告诉人们这条样本回归线对数据的拟合程度有多么好的一个总度量 r2称为样本判定系数它是对回归线拟合优度的最为常用的一种度量 r2度量了在Y的总变异中由回归模型解释的那部分所占的比例或百分比 r2的性质 1 它是一个非负数 2 它的界限为0 r2 1 r2的更简便的求解公式一个例子每周家庭消费支出Y和每周家庭收入的调查数据 Y美元X美元Y美元X美元7080115180651101202009012014022095140155240110160150260 利用EViews6 0软件计算结果如下 DependentVariable YMethod LeastSquaresDate 08 18 11Time 16 27Sample 110Includedobservations 10 VariableCoefficientStd Errort StatisticProb C24 454556 4138173 8127910 0051X0 5090910 03574314 243170 0000 R squared0 962062Meandependentvar111 0000AdjustedR squared0 957319S D dependentvar31 42893S E ofregression6 493003Akaikeinfocriterion6 756184Sumsquaredresid337 2727Schwarzcriterion6 816701Loglikelihood 31 78092Hannan Quinncriter 6 689797F statistic202 8679Durbin Watsonstat2 680127Prob F statistic 0 000001

展开阅读全文

《双变量回归分析》PPT课件.ppt

最新文档