资源描述
,Click to edit Master title style,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,第四军医大学卫生统计学教研室 宇传华,2002年12月,Multiple linear,regression,多元(重)线性回归,.,多元(重)线性回归.,1,三、多元线性回归方程的假设检验及其评价,.,三、多元线性回归方程的假设检验及其评价.,(一)回归方程的方差分析(所有回归系数为0),.,(一)回归方程的方差分析(所有回归系数为0).,有关计算公式,.,有关计算公式.,(二)有关评价指标,.,(二)有关评价指标.,1.残差标准差(,Root MSE,),反映了回归方程的精度,其值越小说明回归效果越好,.,1.残差标准差(Root MSE)反映了回归方程的精度,,2.决定系数(,determination coefficient,),说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合越好,.,2.决定系数(determination coeffic,决定系数,含义,:被解释变量所解释的部分占总体离差的大小。越大越好,但是不会超过1。,缺点,:如果在模型中增加一个解释变量,模型的解释功能增强了,就增大了。这就给人一个错觉:要使得模型拟合得好,就必须增加解释变量。,.,决定系数含义:被解释变量所解释的部分占总体离差的大小。越大越,3.复相关系数(multiple correlation,coefficient,),说明所有自变量与Y间的线性相关程度。,如果只有一个自变量,此时,.,3.复相关系数(multiple correlation,4.校正的决定系数(Adjusted determination coefficient,),.,4.校正的决定系数(Adjusted determinat,校正的决定系数,.,校正的决定系数.,四、各自变量贡献大小的假设检验及其评价,.,四、各自变量贡献大小的假设检验及其评价.,(一)各回归系数的,t,检验,Parameter Standard Standardized,Variable DF Estimate Error t Value Pr|t|Estimate,变量 自由度 回归系数 标准误 t值 P值 标准化回归系数,Intercept 22 5.94327 2.82859 2.10 0.0473 0,X1 22 0.14245 0.36565 0.39 0.7006 0.07758,X2 22 0.35147 0.20420 1.72 0.0993 0.30931,X3 22 -0.27059 0.12139 -2.23 0.0363 -0.33948,X4 22 0.63820 0.24326 2.62 0.0155 0.39774,.,(一)各回归系数的t检验,(二)标准化回归系数,变量,回归系数,b,j,标准化,回归系数,b,j,标准差,S,X1,0.14245,0.07758,1.5934,X2,0.35147,0.30931,2.5748,X3,-0.27059,-0.33948,3.6706,X4,0.6382,0.39774,1.8234,Y,2.9257,.,(二)标准化回归系数,(三)偏回归平方和(sum of squares for partial regression)及其,F,检验,是在其它自变量存在于回归方程中的,条件,下,考察某一自变量,X,j,对应变量,Y,的回归效应,;,j,=1,2,m,.,(三)偏回归平方和(sum of squares for p,实例计算,.,实例计算,第二节 自变量的筛选,1,.,变量多增加了模型的复杂度2.计算量增大3.估计和预测的精度下降4.模型应用费用增加,.,第二节 自变量的筛选1.变量多增加了模型的复杂度,一 自变量的筛选的标准与原则,1.残差平方和缩小与决定系数增大,2.残差均方缩小与调整决定系数增大,3.Cp统计量,.,一 自变量的筛选的标准与原则1.残差平方和缩小与决定系数增大,二 自变量筛选的常用方法,(一)、全局择优法:,根据一些准则(criterion)建立 “最优”回归模型,校正决定系数(考虑了自变量的个数),Cp准则,(C即,criterion,,p为所选模型中变量的个数;,Cp接近(p+1)模型为最优,),AIC(Akaikes Information Criterion)准则;,AIC越小越好,.,二 自变量筛选的常用方法(一)、全局择优法:根据一些准则,校正决定系数(Adjusted determination coefficient),.,校正决定系数(Adjusted determination,Cp准则的计算公式,.,Cp准则的计算公式.,AIC,准则的计算公式,.,AIC准则的计算公式.,全局择优法的局限性,如果自变量个数为4,则所有的回归有2,4,1 15个;当自变量数个数为10时,所有可能的回归为 2,10,1 1023个;。;当自变量数个数为50时,所有可能的回归为2,50,110,15,个。,.,全局择优法的局限性 如果自变量个数为4,,(二)、逐步选择法,1.前进法(forward selection),2.后退法(backward elimination),3.逐步回归法(stepwise regression)。,它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的,F,检验,.,(二)、逐步选择法 1.前进法(forwar,1.前进法,自变量从无到有、从少到多,Y对每一个自变量作直线回归,对回归平方和最大的自变量作,F,检验,有意义(P小)则引入。,在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作,F,检验,。,局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。,.,1.前进法 自变量从无到有、从少到多 Y对每一,2.后退法,先将全部自变量放入方程,然后逐步剔除,偏回归平方和最小的变量,作,F,检验及相应的P值,决定它是否剔除(P大),。,建立新的回归方程。重复上述过程。,局限性:,自变量高度相关时,可能得不出正确的结果,。,.,2.后退法 先将全部自变量放入方程,然后逐步剔除,3.逐步回归法,双向筛选;引入有意义的变量(前进法),剔除无意义变量(后退法),小样本检验水准,a,定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。,注意,引入变量的检验水准要小于或等于剔除变量的检验水准。,.,3.逐步回归法 双向筛选;引入有意义的变量(前,逐步回归法实例(令,入,出,0.10,),.,逐步回归法实例(令入出0.10).,例15-3的方差分析结果,变异来源,自由度,SS,MS,F,P,总变异,26,222.5519,回 归,3,133.098,44.366,11.41,0.0001,残 差,23,89.454,3.889,.,例15-3的方差分析结果 变异来源自由度SSMSF,例15-3的回归系数及其检验,.,例15-3的回归系数及其检验 .,第三节 多元线性回归的应用 及其注意事项,.,第三节 多元线性回归的应用 及其注意事项.,一、应用,影响因素分析,控制混杂因素,预测:由自变量值推出应变量Y的值,控制:,指定应变量Y的值查看自变量的改变量,.,一、应用影响因素分析,控制混杂因素.,二、应用条件,.,二、应用条件.,三、应用的注意事项,.,三、应用的注意事项.,(一)变量的数量化,(1)自变量为连续型变量:必要时作变换,(,2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1,(3)自变量为二分类:如令男1,女0,.,(一)变量的数量化(1)自变量为连续型变量:必要时作变换(,名义分类变量的哑变量化,假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下:,.,名义分类变量的哑变量化 假如职业分类为工、农、商、学、,(二)样本含量,观察个体数n与变量个数m的比例一般至少应为:,n:m510,.,(二)样本含量 观察个体数n与变量个数m的比例一般至少,(三)统计“最优”与专业的“最优”,不同准则、方法得出的“最优”方程不同;,不同的引入、剔除标准获得的,“最优”方程不同;,方程还受数据的正确性、共线性影响,.,(三)统计“最优”与专业的“最优”不同准则、方法得出的“最优,(四)多重共线性,自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。,回归系数的符号与由专业知识不符,变量的重要性与专业不符,.,(四)多重共线性 自变量间存在着线性关系,使一个或几个,多重共线性的识别与解决办法,整个方程决定系数R,2,高,但各自变量对应的回归系数均不显著。,解决共线性的主要方法:,筛选自变量,用主成分回归,岭回归。,.,多重共线性的识别与解决办法 整个方程决定系数R2高,但,(五)交互作用,当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。,检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X,1,、X,2,间的交互作用,可在模型中加入,X,1,X,2,项。,.,(五)交互作用 当某一自变量对应变量的作用大小与,(六)残差分析(检验应用条件),.,(六)残差分析(检验应用条件).,(六)(用标准化残差发现异常点),一般标准化残差绝对值大于2考虑为异常点(outlier)(也称离群值),.,(六)(用标准化残差发现异常点)一般标准化残差绝对值大于2考,(七)偏相关系数,.,(七)偏相关系数.,几个相关系数的区别,.,几个相关系数的区别.,
展开阅读全文