双变量回归分析:一些基本概念.ppt

上传人:w****2 文档编号:16586320 上传时间:2020-10-15 格式:PPT 页数:25 大小:676.50KB
返回 下载 相关 举报
双变量回归分析:一些基本概念.ppt_第1页
第1页 / 共25页
双变量回归分析:一些基本概念.ppt_第2页
第2页 / 共25页
双变量回归分析:一些基本概念.ppt_第3页
第3页 / 共25页
点击查看更多>>
资源描述
第 2章 双变量回归分析: 一些基本概念 回归分析是要根据解释变量的已知或给定值, 去估计或预测因变量的总体均值 假如我们要研究每周家庭消费支出 Y与每周 可支配的家庭收入 X之间的关系 假设这个国家的家体的总体由 60户家庭组成。 可以按收入的高低把这 60户家庭分组,每一组的 组内收入相差不大。假定我们得到的观察值如表 2.1所示 一个例子 表 2.1 X:每周家庭收入 ( $) 80 100 120 140 160 180 200 220 240 260 每 周 家 庭 消 费 支 出 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 88 113 125 140 160 189 185 115 162 191 共计 325 46 445 707 678 750 685 1043 966 1211 y x 表 2.1的含义:它给出了以 X的给定值为条件的 Y值 的条件分布 ( conditional distribution) 因为表 2.1代表一个总体 , 我们可以从表中计算出 给定 X的 Y的概率 , 这在统计上叫做什么 ? 比如: 5 1)80|55( XYP 7 1)260|150( XYP 对 Y的每一个条件概率分布,我们所计算出它的均 值( mean或 average value),称为条件均值 ( conditional mean)或条件期望( conditional expectation),记做: 比如 , 给定 X 80 ( | )iE Y X X 6551755170516551605155)80|( XYE 可以由表 2.1绘制如 右图的散点 图 返回 散点图表明对应于各个 X值的 Y的条件分布 , 它表 明随着收入的增加 , 消费支出平均地说也在增加 。 Y的条件均值随 X增加而增加 。 图中的粗圆点 ( 大 的黑点 ) 表示 Y的各个条件均值 Y的条件均值落在一条正斜率的直线上 , 这条线叫 总体回归线 ( population regression line or curve) , 它 代表 Y对 X的回归 从几何意义上讲 , 总体回归曲线就是 , 当解释变 量取给定值时 , 因变量的条件均值或条件期望的轨迹 图 2.1可以画成图 2.2的形式 可见,对应于每一个 Xi都有一个 Y值的总体和 一个相应的条件均值。而回归直线(曲线)正好 穿过这些条件均值 总体回归函数( PRF, population regression function) 由图 2.1和图 2.2可见 , 每一个条件均值都是 的一个函 数 , 即: ( 2.2.1) 这个方程就叫做(双变量的)总体回归函数( PRF) 或简称总体回归( population regression, PR),它表明 Y 的均值或平均响应( average response)是如何随 X而不同 的具体函数形式如何确定是一个经验问题 , 已知 的经济理论可以给我们一些指导 。 假如 , 是 的线性函数: ( 2.2.2) 和 为回归系数 ( regression coefficients) , ( 2.2.2) 称为线性总体回归函数 , 或简称线性总体回归 。 iX )()|( ii XfXYE )( iXf )|( iXYE iX ii XXYE 21)|( 1 2 在我们的课程中,回归,回归方程和回归模型将 不加以区分,作为同义词使用 “线性”一词的含义 ( 2.2.2) 式被称为 “ 线性 ” 总体回归 , 其中的 “ 线性 ” 的含义是什么 ? 它可以作两种解释: ( 1) 对变量为线性 即: Y的条件期望值是 的线性函数 , 从几何意 义上看 , 这样的回归曲线是一条直线 。 诸如: 这样的回归函数 , 就不是线性的 。 iX 221)|( ii XXYE ( 2) 对参数为线性 即 Y的条件期望 是参数 的一个线性函数; 它既可以是也可以不是变量 X的线性函数 这样以来 , 就是一个线性回归模型 , 而 则不是线性的 。 在今后的课程中 , 我们讲的 “ 线性 ” 指的是对参数为 线性的情况 , 对解释变量 则可以是也可以不是线性的 。 如: 是一个 LRM( linear regression model) )|( iXYE i 221)|( ii XXYE ii XXYE 21)|( iX 221)|( ii XXYE PRF的随机设定 我们现在再回到表 2.1和 图 2.1, 可见 , 随着家庭收 入 , 家庭消费支出平均地看也会 ;但是对具体的某一 个家庭的消费支出却不一定随收水平 而 给定收入水平 的个别家庭的消费支出 , 聚集在收 入为 的所有家庭的平均消费支出的周围 , 也就是围绕 着它的条件均值 个别的 Yi围绕它的期望值的离差 ( deviation) 可以表 示如下: 或 ( 2.4.1) 离差 ui是一个不可观测的随机变量 , 称之为随机干扰 ( stochastic disturbance) 或随机误差项 ( stochastic error) iX iX )|( iii XYEYu iii uXYEY )|( 从计量经济学上看 , 对于给定的 X水平 , 个别家庭的支出 可以分解为两个部分: 表示收入相同的所有家庭的平均消费支出 , 称为系 统性 ( systematic ) 或 确 定 性 ( deterministic ) 成分 ( component) 。 ui为随机的或非系统性成分( nonsystematic component)。它是代表所有可能影响 Y的,但又没有包 括到回归模型中的替代( surrogate)或代理( proxy)变 量 假定 对 是线性的 , ( 2.4.1) 式便可以写 为: ( 2.4.2) 它表示消费支出 Y线性地依赖于相应的收入 和随机 扰动项 )|( iXYE iii uXY 21 iX iX 由( 2.4.1)式: 两边取期望值 得: 而 也就是 ,所以有: ( 2.4.5) 这就是说,给定 Xi, ui的条件均值等于零。 iii uXY 21 )|()|( )|()|()|( iii iiiii XuEXYE XuEXYEEXYE 常数的期望是它本身 )|( ii XYE )|( iXYE 0)|( ii XuE 随机干扰项的意义 干扰项是模型中省略掉的 , 又集体地影响 Y的全部因 素 ( 变量 ) 的替代物 ( surrogate) 那么 , 为什么不构造一个含有尽可能多的解释变量 的复回归模型呢 ? 原因如下: 理论的含糊性: 现有的理论往往是不完全的 。 物理 学上有个 “ 测不准定理 ” :我们永远不可能接近真实 的世界 , 因为我们的观测总是要借助于工具和环境 数据的欠缺: 比如 , 在分析影响家庭消费支出的例 子中 , 应该加进 “ 财富 ” 变量 , 然而 , 人们总是怕 “ 露富 ” , 有些人 “ 装富 ” , 所以 , 一般很难得到有关 家庭财富的确切数据 核心变量与周边变量 ( Core variables vs. peripheral variables) : 在消费 收入的例子中 , 除了 X1( 家庭收入 ) 外 , 家庭的儿童数 X2, 性别 X3, 宗教 X4, 教育 X5和地 区 X6也影响支出 。 但这些变量的影响可能很小 , 以至 于可以忽略不计 , 因此称它们为周边变量 ( peripheral variables) 还有一个原因:性别 、 教育 、 宗教等变量难以数 量化 ( difficult to quantify) 人类行为的内在随机性 :社会科学研究的是人类的 行为 。 人为什么如此行动 , 有时连他自己都说不清楚 糟糕的替代变量 ( poor proxy variables) :举个例子 Milton Friedman( 弗里德曼 ) 的消费函数理论把 永久消费 ( YP) ( permanent consumption) 看作是永 久收入 ( XP) ( permanent income) 的函数 “ 永久消费 ” 和 “ 永久收入 ” 是两个抽象的概念 , 不可以观测 , 实际上 , 只能用可以观测到的当前消费 Y ( current consumption ) 和当前收入 X ( current income) , 或者 n个时期的平均值去替代 。 这便有个 测量误差 。 干扰项 ui也用来代表测量误差 节省原则: 做回归模型 , 在许可的范围内尽量节省 减少 变量的个数 。 这也有个 “ 投入产出 ” 的问题 。 当然 , 不能为了简单而省去有关的和重要的变量 错误的函数形式: 比如: 到底是哪一种 , 可能我们并不是十分清楚 , 借助于 经济理论 , 散点图会有助于我们的分析 iii uXY 21 iiii uXXY 2321 iii uXY ln21 iii uXY lnln 21 样本回归函数( SRF, The Sample Regression Function) 表 2.1是一个总体 , 这是一个 假定 的总体 , 在现 实的经济生活中总体的所有观测值往往是不能够全部 获得的 。 在大多数情况下 , 我们只有对应于某些固定的 X的 Y值的一个样本 。 比如 , 对于表 2.1的总体我们只知 道如下的抽取的样本 : Y X 70 80 65 100 90 120 95 140 110 160 115 180 120 200 140 220 155 240 150 260 表 2.4 表 2.1总体的一个随机样本 各次抽样之间总存在波动(误差),表 2.5是另 一个随机样本 表 2.5 表 2.1总体的另一个随机样本 那么,我们能否从上表的样本数据预测整个总体 中对应于选定 X的平均的消费支出 Y呢?或者说,能 否估计出 PRF? Y X 55 80 88 100 90 120 80 140 118 160 120 180 145 200 135 220 145 240 175 260 根据表 2.4和表 2.5可以得到如下的散点图 。 SRF1是根据第一个样本画的;而 SRF2是根据第 二 个样本画的。图 中 的回归线叫样本回归线 ( sample regression lines) 对应于样本回归线的方程叫样本回归函数 ( sample regression function, 简记 SRF) : ( 2.6.1) 表示 的估计量 (全在 SRF上 ) 表示 的估计量 表示 的估计量 估计量 ( estimator) , 也称样本的统计量 ( statistic) 是 总体参数的一个估计 。 由估计量算出的一个具体的数值 , 称之为估计值 ( estimate) SRF( 2.6.1) 式可以写成相应的随机形式: 表示样本残差或剩余项 ( residual) , 是 的估 计量 。 ii XY 21 Y )|( iXYE 1 1 2 2 iii uXY 21 iu iu iu 回归分析的主要任务是根据 SRF: ( 2.6.2) 估计 PRF: 由于抽样有波动,根据 SRF来估计 PRF,最多只能 是一个近似的估算。见下图: iii uXY 21 iii uXY 21 12 : iiS R F Y X ii XXYEP R F 21)|(: 对于给定的 , 有一个观测值 利用 SRF可以将所观测到的 表示为: ( 2.6.3) 利用 PRF可以将所观测到的 表示为: ( 2.6.4) 高估了那里的真值 。 对 A点以左的任何 Xi , SRF低估了 PRF。 这种高估或低估是由抽样误差引 起的 。 用什么方法或规则,可以使 SRF可以尽可能地接 近 PRF?或者说,怎样构造 SRF使 尽可能接近 , 尽可能接近 呢?且听下章分解 )( ii XXX iYY iY iii uXYEY )|( iY )|( iXYE 1 1 2 2 uYY ii iY 本章结束,谢谢!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!