资源描述
我们的任务是, 在给定 X和 Y的一组观测值 (X1, Y1), (X2, Y2) , ., (Xn, Yn) 的情况下 , 如 何求出 Yt = + Xt + ut 中 和 的估计值 ,使得拟 合的直线为最佳 。 一元线性回归的最小二乘估计 直观上看,也就是要求在 X和 Y的散点图上穿过 各观测点画出一条“最佳”直线,如下图所示。 * * * * * et * * * * * * * * * * * * Y X Xt 图 2 Y X Yt Y tY tY Yt 拟合的直线 称为 拟合的回归线 . 对于任何数据点 (Xt, Yt), 此直线将 Yt 的总值 分 成两部分。 第一部分是 Yt的 拟合 值或预测值 : , t=1,2,n 第二部分, et 代表观测点对于回归线的误差,称 为 拟合 或预测的残差 ( residuals): t=1,2,n 即 t=1,2,n Y X tY tt XY ttt XYe ttt YYe 残差 我们的目标是使拟合出来的直线在某种 意义上是最佳的,直观地看,也就是要求估 计直线尽可能地靠近各观测点,这意味着应 使各残差尽可能地小。要做到这一点,就必 须用某种方法将每个点相应的残差加在一起, 使其达到最小。理想的测度是残差平方和, 即 22 )( ttt YYe 如何决定估计值 和 ? 残差平方和 最小二乘法就是选择一条直线,使其残差平方和 达到最小值的方法。即选择 和 ,使得 达到最小值。 2 22 )( )( tt ttt XY YYeS 运用微积分知识,使上式达到最小值的必要条件为: 即 )2(0) )(2 )1(0) )(1(2 0 ttt tt XYX S XY S SS 整理,得: 此二式称为正规方程。解此二方程,得: . 其中: 离差 )4( )3( 2 tttt tt XXYX XnY )6( )5( )()( )( 2222 XY x yx XXn YXYXn XX YYXX t tt tt tttt t tt YYyXXx n X X n Y Y tttt tt , , 样本均值 ( 5)式和( 6)式给出了 OLS法计算 和 的 公式, 和 称为线性回归模型 Yt = + Xt + ut 的参数 和 的普通最小二乘估计量 (OLS estimators)。 这两个公式可用于任意一组观测值数据,以求出 截距和斜率的 OLS估计值( estimates),估计值是 从一组具体观测值用公式计算出的数值。 一般说来,好的估计量所产生的估计值将相当 接近参数的真值,即好的估计值。可以证明,对 于 CLR模型,普通最小二乘估计量正是这样一个 好估计量。 3 例子 例 1 对于第一段中的消费函数,若根据数据 得到: n = 10 , =23, =20 X Y ( ) , ( ) ( )X X X X Y Y 2 64 37 则有 ii i ii XY XY XX YYXX 58.070.6 70.623*58.020 58.0 64 37 )( )( 2 因而 例 2 设 Y和 X的 5期观测值如下表所示,试估计方程 Yt = + Xt + ut 序号 1 2 3 4 5 Yt 14 18 23 25 30 Xt 10 20 30 40 50 解:我们采用列表法计算。计算过程如下: 序号 Yt Xt yt= Yt - xt=Xt- xt yt xt2 1 14 10 -8 -20 160 400 2 18 20 -4 -10 40 100 3 23 30 1 0 0 0 4 25 40 3 10 30 100 5 30 50 8 20 160 400 n=5 110 150 0 0 390 1000 Y X Y X y x xy 2x 225110,305150 n YYn XX tt 3.1030*39.022*,39.0 1 0 0 0 3 9 0 2 XY x xy 表 3 1 Eviews 创建工作文件,输入数据并进行回归: Create u 1 5 data x y ls y c x 三 、 最小二乘法估计量的性质 1 和 的均值 2222 )( t t t tt t tt t tt x xY x Yx x YYx x yx 0)( XnXnXXXXx ttt 22 )( t ttt t tt x Xx x Yx = )( 1 2 ttttt t xXxx x = )( 1 2 tttt t xXx x )( 1 2 2 tttt t xxXx x )( 1 2 2 ttt t xx x 2 t tt x x 即 的无偏估计量。是这表明 )假设( )假设( 两边取期望值,有 1 4 )( ) ( 2 t tt x Ex E 由 XY 我们有: ) ()( XYEE = ) ( XXE = ) ()( EXEX = XX = 即 是 的无偏估计量。 2 . 和 的方差 V a r ( ) = E - E( ) 2 根据定义 = E ( - ) 2 由无偏性 E( )= 由上段结果 : 2 t tt x x 即 2 t tt x x 2 2 2 )()( t tt x x = 2 221122 )( )( 1 nn t xxx x = )( )( 1 22 22 ji jijiii t xxx x 两边取期望值,得: )()( )( 1 )( 22 22 2 ji jijiii t ExxEx x E 由于 E( 2 t )= 2 , t= 1 , 2 , , n 根据假设( 3 ) E( i j ) = 0 , i j 根据假设( 2 ) 2 2 22 22 2 )0( )( 1 ) ( t i t x x x E 即 2 2 ) ( t x V a r 与此类似,可得出: 2 22 )( t t xn X V ar 2 2 ) ,( t x X C o v 对于满足统计假设条件 (1)-(4)的线性回归模型 Yt = + Xt + ut , ,普通最小二乘估计量 ( OLS估 计量 ) 是最佳线性无偏估计量( BLUE)。 或 对于古典线性回归模型( CLR模型) Yt=+Xt , 普通最小二乘估计量( OLS估计量)是最佳线性无 偏估计量( BLUE)。 3. 高斯 -马尔柯夫定理 ( Gauss-Markov Theorem) 我们已在前面证明了无偏性,此外,由于: 由上段结果 , = 其中 这表明 , 是诸样本观测值 Yt( t=1,2, ,n) 的线性函数 , 故 是线性估计量 。 剩下的就是最佳性了 , 即 的方差小于等于 的其他 任何线性无偏估计量的方差 , 我们可以证明这一点 , 但 由于时间关系 , 从略 。 有兴趣的同学请参见教科书 ( P46-47) 2 t tt x Yx ttYk 2t t t x xk 我们在前面列出的假设条件 ( 5) 表明 , ut N( 0, 2 ) , t= 1, 2, .,n 即各期扰动项服从均值为 0、 方差为 2的正态分布 。 考虑到假设条件 ( 4) , 即 Xt为非随机量 , 则由前面结果: = 其中 , 2 t tt x x ttk 2 t t t x xk 4. 和 的分布 这表明 , 是 N个正态分布变量 u1, u2, ,un的线 性函数 , 因而亦为正态分布变量 , 即 类似的有: ),( 2 2 txN ),( 2 22 t t xn X N
展开阅读全文