资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2018/12/13,#,stata,回归结果详解,付畅俭,湘潭大学商学院,数据来源于贾俊平,统计学,(,第,7,版,),,第,12,章多元线性回归,no,y,x1,x2,x3,x4,1,0.9,67.3,6.8,5,51.9,2,1.1,111.3,19.8,16,90.9,3,4.8,173,7.7,17,73.7,4,3.2,80.8,7.2,10,14.5,5,7.8,199.7,16.5,19,63.2,6,2.7,16.2,2.2,1,2.2,7,1.6,107.4,10.7,17,20.2,8,12.5,185.4,27.1,18,43.8,9,1,96.1,1.7,10,55.9,10,2.6,72.8,9.1,14,64.3,11,0.3,64.2,2.1,11,42.7,12,4,132.2,11.2,23,76.7,13,0.8,58.6,6,14,22.8,14,3.5,174.6,12.7,26,117.1,15,10.2,263.5,15.6,34,146.7,16,3,79.3,8.9,15,29.9,17,0.2,14.8,0.6,2,42.1,18,0.4,73.5,5.9,11,25.3,19,1,24.7,5,4,13.4,20,6.8,139.4,7.2,28,64.3,21,11.6,368.2,16.8,32,163.9,22,1.6,95.7,3.8,10,44.5,23,1.2,109.6,10.3,14,67.9,24,7.2,196.2,15.8,16,39.7,25,3.2,102.2,12,10,97.1,第二列,SS,对应的是误差平方和,或称变差。,1.,第一行为回归平方和或回归变差,SSR,,表示因变量的预测值对其平均值的总偏差。,2.,第二行为剩余平方和(也称残差平方和或剩余变差),S,SE,,是因变量对其预测值的总偏差,这个数值越大,拟合效果越差,,y,的标准误差即由,SSE,给出。,3.,第三行为总平方和或总变差,SS,T,,表示因变量对其平均值的总偏差。,4.,容易验证,249,.37+63.28=312.65,第三列,df,是自由度(,degree of freedom,),第一行是回归自由度,dfr,,等于变量数目,即,dfr=m,;第二行为残差自由度,dfe,,等于样本数目减去变量数目再减,1,,即有,dfe=n-m-1,;第三行为总自由度,dft,,等于样本数目减,1,,即有,dft=n-1,。对于本例,,m=4,,,n=10,,因此,,dfr=4,,,dfe=n-m-1=20,,,dft=n-1=24,。,第四列,MS,是均方差,误差平方和除以相应的自由度,1.,第一行为回归均方差,MS,R,2.,第二行为剩余均方差,M,SE,,数值越小拟合效果越好,1.,方差分析,F,值,用于线性关系的判定。,结合,P,值对线性关系的显著性进行判断,即弃真概率。所谓“弃真概率”即模型为假的概率,显然,1-,P,便是模型,为真的概率,,P,值越小越好。对于本例,,P,=0.00000.0001,,故置信度达到,99.99%,以上。,R,-,Squared,为判定系数,(determination coefficient),,或称拟合优度,(goodness of fit),,它是相关系数的平方,也是,SSR/SST,,,y,的总偏差中自变量解释的部分。,Adjusted,对应的是校正的判定系数,Root MSE,为标准误差(,standard error,),数值越小,拟合的效果越好,2.,模型显著性,回归系数,回归系数标准误差,T,值,T,值,=Coef./Std.Err.,P,值,置信区间,置信区间(,CI,),0.0145294,-invttail(20,0.025)*0.0830332=0.0145294-2.086*,0.0830332,=,-0.1586748,0.0145294+2.086*0.0830332=,0.1877335,3.,回归系数检验,P,值用于说明回归系数的显著性,一般来说,P,值,0.1(,*,),表示,10%,显著水平显著,,P,值,0.05(,*,),表示,5%,显著水平显著,,P,值,0.01(,*,),表示,1%,显著水平显著,4.,系数标准误差计算,当自变量只有两个时,,R,2,j,就是这两个变量的相关系数,(pwcorr x2 x1),的平方,对多元回归“排除其它变量影响”的解释,简单回归和多元回归估计值的比较,.03789471=.0289094+.1678986 *.0535163,tw(function t=tden(20,x),range(-3 3),xline(0.17 2.086),ttail(df,t)=p,计算单边,P,值,双边时,P,值加倍就行了,如:,ttail(20,0.17498)*2=0.863,invttail(df,p)=t,计算单边临界值,在双边,95%,置信度,,5%,显著水平时的临界值为:,t0=invttail(20,0.025)=,2.086,2.086,0.17,t0,t,0.0145294,-invttail(20,0.025)*0.0830332=0.0145294-2.086*,0.0830332,=,-0.1586748,0.0145294+2.086*0.0830332=,0.1877335,5.,系数置信区间,Stata,中查临界值和,p,值,normalden(z),normal(z)invnormal(p),tden(df,t),t(df,t)invt(df,p),ttail(df,t)invttail(df,p),chi2den(df,x),chi2(df,x)invchi2(df,p),chi2tail(df,x)invchi2tail(df,p),Fden(df1,df2,x),F(df1,df2,x)invF(df1,df2,p),Ftail(df1,df2,x)invFtail(df1,df2,p),Ftail(2,702,3.96)=0.0195=1-F(2,702,3.96),6.,回归结果的评价,(1),通过模型,F,检验说明线性关系是否成立。,(2),回归系数符号是否与理论或预期相一致。,(3),通过系数,t,检验说明,y,与,x,关系统计显著性。,(4),用判定系数说明回归模型在多大程度上解释了因变量,y,取值的差异。,(5),画残差直方图或正态概率图考察误差项,的正态性假定是否成立。,7.,多重共线性判断,出现下列情况,暗示存在多重共线性,:,(1),模型中各对自变量之间显著相关,(,相关系数检验,),。,(2),当模型的线性关系,F,检验显著时,几乎所有回归系数的,t,检验都不显著。,(3),回归系数的正负号与预期的相反。,(4),容忍度,(tolerance),与方差扩大因子,(variance inflation factor,VIF),。,某个自变量的容忍度等于,1,减去该自变量对其他,k-1,个自变量的线性回归的判定系数,,容忍度越小,多重共线性越严重。方差扩大因子等于容忍度的倒数,,VIF,越大,多重共线性越严重,,一般认为容忍度小于,0.1,、,VIF,大于,10,时,存在严重的多重共线性。,X3,的,VIF=,3.83,=1/(1-,0.7392,)=1/(,0.2608,),=1/,容忍度,不存在完全共线性假设,允许自变量之间存在相关关系,只是不能完全相关,1,、一个变量是另一个变量的常数倍,如同时放入不同度量单位的同一变量,2,、同一变量的不同非线性函数可以成为回归元,如,consumeincome+income,2,但,ln(consume)ln(income)+ln(income,2,),共线性,应为,ln(consume)ln(income)+(lnincome),2,3,、一个自变量是两个或多个自变量和线性函数,回归模型中包含无关变量,遗漏变量偏误,遗漏,相关变量偏误,采用遗漏相关变量的模型进行估计而带来的偏误称为,遗漏相关变量偏误,(,omitting relevant variable bias,)。,设,正确的模型,为,Y=,0,+,1,X,1,+,2,X,2,+,却,对,Y=,0,+,1,X,1,+v,进行回归,得,将正确模型,Y=,0,+,1,X,1,+,2,X,2,+,的离差形式,代入,得,(1),如果漏掉的,X,2,与,X,1,相关,则上式中的第二项在小样本下求期望与大样本下求概率极限都不会为零,从而使得,OLS,估计量在小样本下有偏,在大样本下非一致,。,(2),如果,X,2,与,X,1,不相关,则,1,的估计满足无偏性与一致性;但这时,0,的估计却是有偏的。,由,Y=,0,+,1,X,1,+v,得,由,Y=,0,+,1,X,1,+,2,X,2,+,得,如果,X,2,与,X,1,相关,显然有,如果,X,2,与,X,1,不相关,也有,Why?,回归分析之联合检验,无约束模型:,约束后面,q,个变量:,原假设:,备选假设,:H1:,其中至少一个不等于,0,检验,F,统计量:,Reg y x1-x4,Test x2 x3 x4,Reg y x1,
展开阅读全文