第7章 多元回归分析:估计问题

上传人:dfg****19 文档编号:245395145 上传时间:2024-10-08 格式:PPT 页数:38 大小:3.10MB
返回 下载 相关 举报
第7章 多元回归分析:估计问题_第1页
第1页 / 共38页
第7章 多元回归分析:估计问题_第2页
第2页 / 共38页
第7章 多元回归分析:估计问题_第3页
第3页 / 共38页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,理解多元线性回归模型,的表示,,掌握多元线性回归模型的,参数估计。,第七章 多元回归分析:估计问题,学习目的,对多元回归方程的解释,偏回归系数的含义与估计,多元判定系数,R,2,与复相关系数,R,从多元回归的角度看简单回归,R,2,及校正,R,2,多项式回归模型,第七章 多元回归分析:估计问题,第一节,对多元回归方程的解释,一、三变量模型:符号与假定,将双变量的总体回归模型推广,便可写出三变量,PRF,为:,(,7.1.1,),其中,Y,是因变量,,X,2,和,X,3,是解释变量,,u,是随机干扰项,而,i,指第,i,次观测。当数据为时间序列时,下标,t,将用来指第,i,次观测。,在上述方程中,1,是截距项,它代表,X,2,和,X,3,均为零时,Y,的均值,如通常所说,它给出了所有未包含到模型中来的变量对,Y,的平均影响。系数,2,和,3,称为,偏回归系数,(partial regression coefficients),。,二、多元线性回归模型的基本假设,(,1,),u,i,有零均值,或:(,7.1.2,),(,2,)无序列相关,或:(,7.1.3,),(,3,)同方差性,或:(,7.1.4,),(,4,),u,i,与每一,X,变量之间都有零协方差,或:,(,7.1.5,),(,5,)无设定偏误,或:模型被正确地设定 (,7.1.6,),(,6,),X,诸变量间无精确的共线性,或:,X2,和,X3,之间无,精确的线性关系,(,7.1.7,),假设(,7.1.6,)中,X,2,和,X,3,之间无精确的线性关系,称为无,共线性,(no collinearity),或无,多重共线性,(no multicollinearity),。,无共线性,不存在一组不全为零的数 和 使得:,如果这一关系式存在,则说,X,2,和,X,3,是,共线的,或,线性相关,。,如果仅当 时成立,则说,X,2,和,X,3,线性独立,。,无多重共线性,(,7.1.8,),假设(,7.1.1,)中的,Y,、,X,2,和,X,3,分别代表消费支出、收入和财富,经济理论设想收入和财富对消费各有独立影响。,若收入和财富之间有线性关系,则无从区分各自的影响了。,令 ,则(,7.1.1,)变成:,给出的是,X,2,和,X,3,对,Y,的,联合影响,。没有办法分别估计,X,2,的单独影响和,X,3,的单独影响。,三、对多元回归方程的解释,给定经典回归模型的诸假定,那么,在(,7.1.1,)的两边对,Y,求条件期望得:,(,7.2.1,),该式给出以变量,X,2,和,X,3,的固定值的条件的,Y,的条件均值或期望值。,因此,如同双变量情形那样,多元回归分析是以多个解释变量的固定值为条件的回归分析,并且我们所获取的,是给定回归元值时,Y,的平均值或,Y,的平均响应。,第二节 偏回归系数的含义与估计,前面指出,系数,2,和,3,称为,偏回归,(partial regression),系数,。,其含义如下:,2,度量着在,X,3,保持不变的情况下,,X,2,每变化一单位,,Y,的均值,E,(,Y|X,2,,,X,3,)的变化。,换句话说,,2,给出保持,X,3,不变时,E,(,Y|X,2,,,X,3,)对,X,2,的斜率。,一、偏回归系数的含义,什么是,偏回归系数?,1,二、偏回归系数的,OLS,估计,1.OLS,估计量,与(,7.1.1,)的,PRF,相对应的样本回归函数如下:,OLS,方法,是要选择未知参数的值,使残差平方和,RSS,尽可能小,即:,将该式对三个未知数求偏导数,并令其为零,解得:,由上述正规方程组可以得到,1,、,2,和,3,的,OLS,估计量:,小写字母表示对样本均值离差的惯例。,2.OLS,估计量的方差和标准误,我们计算标准误有两个目的:建立置信区间和检验统计假设。,在上述公式中,2,是总体干扰项,u,i,的方差。,可以证实,,2,的一个无偏估计量是:,现在的自由度是(,n-3,),这是因为在估计 之前,我们必须先估计,1,,,2,和,3,,从而消耗了,3,个自由度。,一旦算出残差,u,i,,就能从该式算出估计量,2,。,2024/10/8,2024/10/8,3.OLS,估计量的性质,多元回归模型的,OLS,估计量和双变量模型的,OLS,有着平行的性质。,(,1,)三变量回归线(面)通过均值 这个性质可以推广到一般情形,在,k,变量线性回归模型(一个回归子和(,k-1,)个回归元)中:,我们有:,(,2,)估计的,Yi,的均值等于真实,Yi,的均值。,两边对所有样本值求和并除以样本大小,n,,由于,即得:,(,3,),由于 ,两边对样本值求和可得。,(,4,)残差 与 和 都不相关,即,(,5,)残差 与 不相关,即 。,两边同时乘以 ,然后对样本值求和。,(,6,)在,7.1,节的经典线性模型的假定下,可以证明,偏回归系数的,OLS,估计量,不仅是线性和无偏的,而且在所有线性无偏估计量类中有最小方差。简言之,它们,是,BLUE,。或它们满足高斯,-,马尔可夫定理。,第三节 多元判定系数,R,2,与复相关系数,R,在双变量的情形中我们曾看到,,r,2,是回归方程拟合优度的一个度量。它给出在因变量,Y,的总变异种由(单一个)解释变量,X,解释了的比例或百分比。,在三变量模型中,由,X,2,和,X,3,联合解释,Y,的变异的比例的数量称为,复判定系数(,multiple coefficient of determination,),记为,R,2,。(总平方和,TSS,等于解释平方和,ESS+,残差平方和,RSS,),则,R,2,越靠近,1,,模型的“拟合”越好。,R,2,所代表的意义,例,7.1,儿童死亡率与人均,GNP,和妇女识字率的关系,Table 6.4,64,个国家的生育率及其他数据,CM=child mortality,(儿童死亡率,),CM,为每,1000,名产婴中不足,5,岁便死亡的人数,FLR=female literacy rate(,妇女识字率,),PGNP=per capita GNP in,1980,(,1980,年的人均,GNP,),TFR=total fertility rate,(,总生育率),建立模型为:(,7.6.1,),Dependent Variable:CM,Method:Least Squares,Date:02/18/12 Time:14:22,Sample:1 64,Included observations:64,Variable,Coefficient,Std.Error,t-Statistic,Prob.,C,263.6416,11.59318,22.74109,0,PGNP,-0.00565,0.002003,-2.8187,0.0065,FLR,-2.23159,0.209947,-10.6293,0,R-squared,0.707665,Mean dependent var,141.5,Adjusted R-squared,0.698081,S.D.dependent var,75.97807,S.E.of regression,41.7478,Akaike info criterion,10.34691,Sum squared resid,106315.6,Schwarz criterion,10.44811,Log likelihood,-328.101,Hannan-Quinn criter.,10.38678,F-statistic,73.83254,Durbin-Watson stat,2.186159,Prob(F-statistic),0,-0.0056,是,PGNP,的偏回归系数,它告诉我们,保持,FLR,的影响不变,,PGNP,提高,1,美元,儿童死亡率平均下降,0.0056,个单位。在经济上的解释为,若人均,GNP,提高,1000,美元,则每,1000,名产婴中不足,5,岁便死亡的儿童书平均下降,5.6%,。,-2.2316,表明,保持,PGNP,的影响不变,妇女识字率每提高,1,个百分点,每,4,名产婴中不足,5,岁便死亡的儿童数平均减少约,2.23,人。,263,的截距值表明若,PGNP,和,FLR,固定为零,则每,4,名产婴中儿童死亡人数的均值为,263.,约为,0.71,的,R,2,值意味着儿童死亡率变异中约有,70%,可由,PGNP,和,FLR,来解释。,第四节,从多元回归的角度看简单回归,经典线性回归模型的假定声称,分析中所用的回归模型是正确设定的,无设定上 的偏误会误差。,若假定例,7.1,中式,7.6.1,是解释儿童死亡率行为与人均,GNP,和妇女识字率,FLR,之关系的“真实”模型。假设我们去掉,FLR,而估计如下简单回归:,其中,Y=CM,,,X2=PGNP,。做回归:,与“真实”多元回归相比:,1.,从绝对值看,,PGNP,系数从,0.0056,增加到,0.0114,,几乎大一倍。,2.,标准误不同。,3.,截距值不同。,4.r,2,值明显不同。,错误拟合一个模型会导致严重后果。,第五节,R,2,及校正,R,2,R,2,的一个重要性质是,随着回归元个数的增大,,R,2,几乎必然增大。,这里,就是 ,与模型中,X,变量的个数无关。但,RSS,即 却与模型中出现的回归元个数相关。随着,X,变量个数的增加 很可能减小,随之,R,2,也将增大。,因此,比较有同一因变量但有不同个数的,X,变量的两个回归时,选择有最高,R,2,值的模型必须当心。,k=,包括截距项在内的模型中参数个数。,如此定义的,R,2,,称为校正,R,2,(adjusted R,2,),,记为 。,很容易得出上式,可看出:,(,1,)对于,k1,,。,(,2,)虽然,R,2,是非负的,但 可以是负的。实际中,如遇为负值,则取值为零。,实践中应选哪一个,R,2,?,大多数统计软件包都是把校正的,R,2,连通惯用的,R,2,一起报告的,完全可以把校正的,R,2,当做另一个统计量来看待。,2.,比较两个,R,2,值,根据判定系数比较两个模型,样本大小,n,和因变量都必须相同,解释变量可取任何形式。,在回归子形式不同的两个模型中,如何比较其,R,2,呢?,例,7.2,美国,1970-1980,年咖啡消费(,Y,)与平均真实零售价格(,X,)的,关系,(,表,7.1),YEAR,Y,X,1970,2.57,0.77,1971,2.5,0.74,1972,2.35,0.72,1973,2.3,0.73,1974,2.25,0.76,1975,2.2,0.75,1976,2.11,1.08,1977,1.94,1.81,1978,1.97,1.39,1979,2.06,1.2,1980,2.02,1.17,Dependent Variable:Y,Method:Least Squares,Date:02/18/12 Time:15:41,Sample:1970 1980,Included observations:11,Variable,Coefficient,Std.Error,t-Statistic,Prob.,C,2.691124,0.121622,22.12686,0,X,-0.47953,0.114022,-4.20559,0.0023,R-squared,0.662757,Mean dependent var,2.206364,Adjusted R-squared,0.625286,S.D.dependent var,0.210251,S.E.of regression,0.128703,Akaike info criterion,-1.09966,Sum squared resid,0.14908,Schwarz criterion,-1.02731,Log likelihood,8.0481
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!