资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二讲 回归分析,一元线性回归模型,多元线性回归模型,非线性回归模型,引例:消费支出与可支配收入的观测值,一、一元线性回归模型,一、一元线性回归模型,定义:假设有两个变量,x,和,y,,,x,为自变量,,y,为因变量。则一元线性回归模型的基本结构形式为,式中:,a,和,b,为待定参数; 为各组观测数据的下标; 为随机变量。,(,2.1,),记 和 分别为参数,a,与,b,的拟合值,则,一元线性回归模型为,(,2.2,)式代表,x,与,y,之间相关关系的拟合直线,称为回归直线; 是,y,的估计值,亦称回归值。,(,2.2,),一般情况下的总体回归模型,假定条件下的总体回归模型,真实的总体回归直线与估计的样本回归直线,样本回归直线是对总体回归直线的近似反映。,回归分析的主要任务就是要采用适当的方法,充分利用样本所提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数。,所估计的样本回归直线都不可能与真实的总体回归直线完全一致。,观测值的散点图及其拟合直线,参数,a,与,b,的最小二乘拟合原则要求,y,i,与 的误差,e,i,的平方和达到最小,即,根据取极值的必要条件,有,(,2.4,),(一)参数,a,、,b,的最小二乘估计,(,2.3,),(,2.5,),解上述正规方程组,(,2.4,),式,得到参数,a,与,b,的拟合值,一元线性回归模型检验的种类,(二)一元线性回归模型的显著性检验,实际意义检验,参数估计值的符号和取值范围,消费支出与可支配收入:,如果估计出来的,b,小于,0,或大于,1,,,收入,支出,统计检验,检验样本回归方程的可靠性,拟合程度检验;,相关系数检验;,参数显著性检验,(t,检验,),;,回归方程显著性检验(,F,检验),计量检验,假定条件是否满足,序列相关检验,异方差性检验,1,拟合优度检验,所谓拟合程度,是指样本观测值聚集在样本回归直线周围的紧密程度。判断回归模型拟合程度优劣最常用的数量指标是,判定系数,(,Coefficient of Determination,),总的离差平方和:在回归分析中,表示,y,的,n,次观测值之间的差异,记为,可以证明,(,2.9,),(,2.8,),Q,称为误差平方和,或剩余平方和,U,回归平方和,显而易见,各个样本观测点与样本回归直线靠得越紧,,U,在,S,中所占的比例就越大。因此,可定义这一比例为判定系数,即有:,性质:,1,、具有非负性,分子分母均是不可能为负值,2,、判定系数的取值范围为,3,、判定系数是样本观测值的函数,它也是一个统计量,。,2,相关系数的显著性检验,X,和,Y,之间真实的线性相关程度用总体相关系数,来表示,由于总体未知,,无法计算,我们利用相本相关系数,(,1,)计算样本相关系数,r,;,(,2,)根据给定的显著性水平,和样本容量,n,,查相关系数表得到临界值,r,。,(,3,)若,|r|,大于临界值,,则,X,与,Y,有显著的线性关系,否则,X,与,Y,的线性相关关系不显著。,3,回归参数的显著性检验(,t,检验,),根据样本估计的结果对总体回归参数的有关假设进行检验,3,、根据给定的显著水平,确定临界值,或者计算,t,值所对应的,p,值,。,4,、做出判断。,方法:,F,检验法。,总的离差平方和:在回归分析中,表示,y,的,n,次观测值之间的差异,记为,可以证明,(,2.9,),(,2.8,),4,回归方程的显著性检验,统计量,F,F,越大,模型的效果越佳。统计量,F,F,(,1,,,n,-2,)。在显著水平,下,若,F,F,,则认为回归方程效果在此水平下显著。一般地,当,F,F,0.10,(1,n,-2),时,则认为方程效果不明显。,(,2.10,),二、多元线性回归模型,1,多元线性回归模型的结构形式为,(,2.11,),式中: 为待定参数; 为随机变量。,2,多元线性回归模型的基本假定,如果 分别为,的拟和值,则回归方程为,b,0,为常数,,b,1,b,2,b,k,称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。,(,2.12,),3,回归方程的估计,:,偏回归系数的推导过程,:,根据最小二乘法原理, 的估计值,应该使,由求极值的必要条件得,方程组()式经展开整理后得,(,.2.13,),(,.2.14,),方程组(,2.15,)式称为正规方程组。,引入矩阵,(,.2.15),则正规方程组,(,2.15,),式可以进一步写成矩阵形式,求解得,引入记号,(,2.16,),正规方程组也可以写成,回归模型的显著性检验,回归平方和,U,与剩余平方和,Q,:,回归平方和,剩余平方和为,F,统计量为,计算出来,F,之后,可以查,F,分布表对模型进行显著性检验。,R=0.950,,说明,Y,与自变量,X1,、,X2,之间的相关程度为,95.0%,。,样本判定系数,0.902,说明,Y,的变动有,90.2%,可以由自变量,X1,和,X2,解释。,三、非线性回归模型,非线性关系线性化的几种情况,对于指数曲线 ,,令,可以将其转化为直线形式: ,,其中, ;,对于对数曲线 ,,令 , ,,可以将其转化为直线形式: ;,对于幂函数曲线 ,,令 , ,,可以将其转化为直线形式:,其中, ;,对于双曲线 ,,令 ,,转化为直线形式: ;,对于,S,型曲线 ,可,转化为直线形式: ;,对于幂乘积,,,只要令 ,就可以将其转化为线性形式,其中, ;,对于对数函数和,只要令 ,就可以将其化为线性形式,例,:,表,给出了某地区林地景观斑块面积(,area,)与周长(,perimeter,)的数据。,下面我们建立林地景观斑块面积,A,与周长,P,之间的非线性回归模型,。,序号,面积,A,周长,P,序号,面积,A,周长,P,1,10 447.370,625.392,42,232 844.300,4 282.043,2,15 974.730,612.286,43,4 054.660,289.307,3,30 976.770,775.712,44,30 833.840,895.980,4,9 442.902,530.202,45,1 823.355,205.131,5,10 858.920,1 906.103,46,26 270.300,968.060,6,21 532.910,1 297.962,47,13 573.960,1 045.072,7,6 891.680,417.058,48,65 590.080,2 250.435,8,3 695.195,243.907,49,157 270.400,2 407.549,9,2 260.180,197.239,50,2 086.426,266.541,10,334.332,99.729,51,3 109.070,261.818,11,11 749.080,558.921,52,2 038.617,320.396,12,2 372.105,199.667,53,3 432.137,253.335,13,8 390.633,592.893,54,1 600.391,230.030,14,6 003.719,459.467,55,3 867.586,419.406,表,3.2.1,某地区各个林地景观斑块面积(,m,2,)与周长(,m,),15,527 620.200,6 545.291,56,1 946.184,198.661,16,179 686.200,2 960.475,57,77.305,56.902,17,14 196.460,597.993,58,7 977.719,715.752,18,22 809.180,1 103.070,59,19 271.820,1 011.127,19,71 195.940,1 154.118,60,8 263.480,680.710,20,3 064.242,245.049,61,14 697.130,1 234.114,21,46 9416.700,8 226.009,62,4 519.867,326.317,22,5 738.953,498.656,63,13 157.660,1 172.916,23,8 359.465,415.151,64,6 617.270,609.801,24,6 205.016,414.790,65,4 064.137,437.355,25,6 0619.020,1 549.871,66,5 645.820,432.355,26,1 4517.740,791.943,67,6 993.355,503.784,27,31 020.100,1 700.965,68,4 304.281,267.951,28,26 447.160,1 246.977,69,6 336.383,347.136,29,7 985.926,918.312,70,2 651.414,292.235,30,3 638.766,399.725,71,2 656.824,298.473,31,58 5425.100,11 474.770,72,1 846.988,179.866,32,35 220.640,1 877.476,73,1 616.684,172.808,33,10 067.820,497.394,74,1 730.563,172.143,34,27 422.570,1 934.596,75,11 303.970,881.042,35,43 071.550,1 171.413,76,14 019.790,638.176,36,57 585.940,2 275.389,77,9 277.172,862.088,37,28 254.130,1 322.795,78,13 684.750,712.787,38,497 261.000,9 581.298,79,1 949.164,228.403,39,24 255.030,994.906,80,4 846.016,324.481,40,1 837.699,229.401,81,521 457.400,7 393.938,41,1 608.625,225.842,82,564 370.800,12 212.410,解,:,(,1,)作变量替换,令: , ,将表中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表所示。,序号,y,=ln,A,x,=Ln,P,序号,y,=ln,A,x,=Ln,P,1,9.254 106,6.438 379,42,12.358 13,8.362 186,2,9.678 763,6.417 2,43,8.307 622,5.667 487,3,10.340 99,6.653 782,44,10.336 37,6.797 918,4,9.153 019,6.273 258,45,7.508 433,5.323 65,5,9.292 742,7.552 816,46,10.176 19,6.875 294,6,9.977 338,7.168 551,47,9.515 909,6.951 841,7,8.838 07,6.033 226,48,11.091 18,7.718 879,8,8.214 789,5.496 789,49,11.965 72,7.786 364,9,7.723 2,5.284 414,50,7.643 208,5.585 528,10,5.812 135,4.602 457,51,8.042 079,5.567 651,11,9.371 53,6.326 008,52,7.620 027,5.7695 58,表,3.2.2,经对数变换后的数据,12,7.771 533,5.296 653,53,8.140 938,5.534 711,13,9.034 871,6.385 013,54,7.378 003,5.438 211,14,8.700 134,6.130 066,55,8.260 386,6.038 839,15,13.176 13,8.786 501,56,7.573 626,5.291 597,16,12.098 97,7.993 105,57,4.347 755,4.041 328,17,9.560 748,6.393 579,58,8.984 408,6.573 334,18,10.034 92,7.005 852,59,9.866 399,6.918 821,19,11.173 19,7.051 092,60,9.019 601,6.523 136,20,8.027 556,5.501 457,61,9.595 408,7.118 109,21,13.059 25,9.0150 56,62,8.416 238,5.787 871,22,8.655 032,6.211 917,63,9.484 759,7.067 248,23,9.031 15,6.028 643,64,8.797 438,6.413 133,24,8.733 113,6.027 773,65,8.309 957,6.080 744,25,11.012 36,7.345 927,66,8.638 671,6.069 247,26,9.583 127,6.674 49,67,8.852 716,6.222 147,27,10.342 39,7.438 951,68,8.367 365,5.590 806,28,10.182 9,7.128 478,69,8.754 063,5.849 717,29,8.985 436,6.822 537,70,7.882 848,5.677 56,30,8.199 4,5.990 776,71,7.884 887,5.698 678,31,13.280 09,9.347 906,72,7.521 311,5.192 213,32,10.469 39,7.537 684,73,7.388 132,5.152 181,33,9.217 099,6.209 381,74,7.456 202,5.148 326,34,10.219 12,7.567 654,75,9.332 909,6.781 105,35,10.670 62,7.065 966,76,9.548 225,6.458 614,36,10.961 03,7.729 906,77,9.135 312,6.759 358,37,10.248 99,7.187 502,78,9.524 037,6.569 182,38,13.116 87,9.167 568,79,7.575 156,5.431 112,39,10.096 38,6.902 648,80,8.485 912,5.782 227,40,7.516 27,5.435 471,81,13.164 38,8.908 416,41,7.383 135,5.419 837,82,13.243 47,9.410 208,(,2,),以,x,为横坐标、,y,为纵坐标,在平面直角坐标系中作出散点图。很明显,,y,与,x,呈线性关系。,图,3.2.2,林地景观斑块面积(,A,)与周长(,P,),之间的双对数关系,(,3,)根据所得表中的数据,运用建立线性回归模型的方法,建立,y,与,x,之间的线性回归模型,得到,对应于()式,,x,与,y,的相关系数高,达,=0.966 5,。,(,4,),将()还原成双对数曲线,即,(),(),
展开阅读全文