资源描述
,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1,多元(重)线性回归,multiple linear regression,2,复习:,一元回归,:,分析一个应变量与一个自变量之间的线性关系。,其,回归模型:,Y=,+X,+,(总体),由样本计算的,回归方程:,3,一、多元线性回归,(,一,),概述,1.,模型,回归模型:,Y=,0,+,1,X,1,+,2,X,2,+,+,m,X,m,+,即因变量与多个自变量间存在线性关系。,Y,为因变量,随机变量,取定量观察值。,X,1,,,X,2,,,,,X,m,为自变量,选定或随机变量。,0,为常数项。,1,,,2,,,,,m,为偏回归系数。,为随机误差,(,或称残差,residual),,,N(0,),,是因变量,Y,总变异中不能为自变量解释的部分。,4,偏回归系数,(partial regression coefficient),j,(j=1,2,m),的意义:,在其他自变量固定不变的情况下,自变量,X,j,每改变一个单位,单独引起因变量,Y,平均改变,j,个单位。,由样本计算的回归方程:,5,2.,特点,多元线性回归较简单线性回归的,,回归方程估计精度,预报、控制效果。,6,3.,前提条件(,LINE,),线性,(linear),应变量 与自变量的关系是线性的,。,独立性,(independence),随机误差项在不同样本点之间是独立的,无自相关性。,正态性,(normality),随机误差项服从正态分布;,方差齐性,(equal variance),随机误差项在不同的样本点的方差相同,。,7,(,二,),参数估计,1.,依,最小二乘法原理,,令,2.,求偏导数得正规方程组,8,推导得正规方程组:,nb,0,+b,1,x,1,+b,2,x,2,+,+b,m,x,m,=,y,b,0,x,1,+b,1,x,1,2,+b,2,x,1,x,2,+b,m,x,1,x,m,=,x,1,y,b,0,x,2,+b,1,x,2,x,1,+b,2,x,2,2,+b,m,x,2,x,m,=,x,2,y,b,0,x,m,+b,1,x,m,x,1,+b,2,x,m,x,2,+b,m,x,m,2,=,x,m,y,m+1,9,4.,求偏回归系数,方法:矩阵法,正规方程组的矩阵表达,令,:,原始数据。,10,系数矩阵,11,常数项矩阵,12,正规方程组的矩阵表达形式:,方程回归系数(正规方程组的解):,为 的转置矩阵,为 的逆矩阵。,13,14,(,三,),回归方程的假设检验及回归效果粗评,1.,方差分析,检验回归方程,有无统计学意义,H,0,:,1,=,2,=,=,m,=0,,,H,1,:至少有一个,j,0,,,或各,j,(j=1,2,m),不全为,0,;,=0.05,;,15,若,F F,(m,n-m-1),,,P ,,拒绝,H,0,,则总的来说,自变量,X,与,Y,间存在线性回归关系。需由偏回归系数的假设检验才能确定究竟是哪一个或哪几个自变量与,Y,间存在线性回归关系。,16,2.,粗评回归效果,确定系数,R,2,(coefficient of determination),R,2,=SS,回,/SS,总,R,2,意义,:在,Y,的总变异中,由自变量建立的线,性回归方程所能解释的比例。,R,2,的假设检验 (与回归方程假设检验等价),H,0,:总体的确定系数,=0,,,H,1,:总体的确定系数,0,,,=0.05,;,17,(,四,),偏回归系数的假设检验,1.,目的,了解各自变量对,Y,作用的大小,剔除不重要的自变量,使方程“最优”。,2.,思路,对,b,j,作假设检验(方差分析法或,t,检验法),无统计学意义者不能保留在方程里,重建回归方程,直到最新的方程:,方程中所有自变量均有统计学意义而方程外所有自变量均无统计意义止,。,18,3.,对,各偏回归系数,b,j,作,假设检验的方法,H,0,:,j,=0,,,H,1,:,j,0,,,=0.05,方差分析法,偏回归平方和 是指将 从回归,方程里剔除后所引起回归平方和的减少,量,它间接反映自变量 对因变量的贡,献大小。,19,t,检验法,方法一:,,,为偏回归系数估计值,b,j,的标准误。,方法二:,S,y 12,m,多元回归的误差,(,剩余,),标准差,C,j j,A,1,主对角线上的元素。,20,P262,例,15-1,求得回归方程为:,回归方程检验:,P,0.01,R,2,=0.6008,偏回归系数检验结论:,只有,X,3,、,X,4,对血糖的影响有统计学意义。,21,4.,自变量的筛选的方法,(1),后退法,(backward selection),建立含全部自变量的回归方程,剔除,方程中偏回归平方和最小且无统计学,意义的自变量;,重建回归方程,再剔除方程中偏回归,平方和最小且无统计学意义的自变量;,重复,,直到无自变量被剔除为止。,此法计算量大。,22,(2),前进法,(forward selection),把方程外偏回归 平方和最大且有统,计学意义的自变量引入回归方程内;,每引入一个自变量,重建一次回归方程;,重复,,直到无自变量被引入为止。,此法建立的回归方程有时不够精练。,23,(3),逐步筛选法,(stepwise selection),此法集向前引入法和向后剔除法的优点。,向前每引入一个自变量后,都要对方程里所有的自变量作假设检验,剔除无 统计学意义者,再引入新的自变量,再检验,再剔除,,,直到不能再引入和再剔除为止。,24,5.,回归方程回归效果的评价,(自变量筛选评判标准),确定系数:,R,2,校正确定系数,:,R,2,c,=1,(1 R,2,)(n 1)/(n m 1),剩余标准差,:,S,Y,,,12m,AIC,Cp,统计量等。,25,6.,评价各自变量对因变量相对贡献的大小,对已进入回归方程的自变量,因其各自的单位不同,不能直接进行比较,需用,标准偏回归系数,(standardized partial regression coefficient),来比较。,方法一,26,方法二,将原始数据作标准正态变换后,再,用变换后的变量作回归方程,得到 。,标准正态变换:,7.,建立 的回归方程,愈大,,X,j,对,Y,的影响亦愈大。,由于 没有量纲,因此可以相互比较大小,,反映自变量对应变量的相对作用大小。,27,(,五,),复相关系数,R,(multiple correlation coefficient),意义,:,m,个自变量共同对因变量,Y,线性相关关系的密切程度。,取值,:,0,R,1,。,28,(,六,),多元线性回归方程的应用,1.,描述,Y,与,X,i,的线性关系。,2.,表达,X,i,对,Y,作用的大小,分析影响因素,进行筛选。,3.,预测预报:两种用途,参数 的,CI,估计,y,i,容许区间,(,或预测区间)的估计,4.,统计控制,29,参数 的估计(难点),给定 时,相应 的总体参数 的,1-,可信区间为:,的标准误:,30,描述 个体,y,值的变异度,给定 后,,y,i,的容许区间 确定参考值范围,质量控制,y,i,的,1,的容许区间:,y,i,的,标准差,:,样品,i,各自变量的行向量,,样品,i,各自变量的列向量。,31,哑变量,(dummy variable),分类变量的数量化,若是,k,分类,则用(,k-1),个哑变量,再如职业。,32,违背回归模型基本假设的情形,多重共线性(,multicollinearity,),异方差性,(variance heterogeneity),自相关,(auto-correlation),33,多重共线性(,multicollinearity,),对于多元线性回归模型要求各自变量之间不存在明显的线性相关,否则,将使回归系数的估计发生困难,,导致最小二乘法失效,。,34,以下问题的发生,在排除了数据质量、样本的代表性有问题等因素后,应该考虑是由于自变量之间的线性关系造成的,称为,多重共线性,。,1),在某个检验水平,下,回归方程的统计检验,P,,而分别各偏回归系数的检验均出现,P,的矛盾现象;,2),偏回归系数的估计值明显地与实际情况不符,如偏回归系数的符号与专业知识知道的情况相反,或者是偏回归系数的绝对值大(或小)得不可信;,3),根据专业知识,该自变量与因变量之间关系密切,而偏回归系数的检验结果却,P,;,4),增加(或剔除)一个变量,或者改变(或删除)一个观察值,引起偏回归系数的估计值发生大的变化。,35,多重共线性的识别,简便的方法是以自变量,X,1,X,2,X,m,中的一个(如,X,j,)作为因变量,其余,m,1,个自变量作为自变量建立回归方程,这样可以建立,m,个回归方程。分别计算这,m,个方程的,方差膨胀因子,(variance inflation factor,VIF),:,VIF,j,=(1-R,2,j,),-1,j=1,2,k,其中,R,2,j,是变量,X,j,对模型中其他,m-1,个自变量回归的决定系数。若,VIF,j,(,j=1,2,m,)中最大的一个值大于,10,,表明多重共线性可能严重地影响最小二乘估计。,36,多重共线性的解决办法,虽有很多文献加以讨论,但目前,尚无十全十美的办法,,大体上这些方法可以归为三类:,一是筛选自变量,通过将引起多重共线性的变量从模型中剔除出去,从而解决多重共线性问题,如逐步回归法,(stepwise regression),就是成功应用的一种方法;,二是适当选取参数估计方法,如利用有偏估计替代最小二乘法,岭回归分析,(ridge regression),、主成分回归分析(详见第,20,章)等;,三是其它方法,如通过改变变量定义形式(差分法),或增加样本含量,使,Cov(B),计算公式中分母项增大以减少方差,提高估计精度,或利用已知信息得到变量之间的线性关系代入方程,减少自变量个数等方法。,37,异方差性,(variance heterogeneity),不满足,e,i,的方差是一个常数,(i=1,2,n),。,如果出现异方差性,使得参数的假设检验和可信区间的建立发生困难、回归方程的预测精度降低。,很难说哪一种检验方法是最好的,常用的方法有:图求检验法、等级相关检验法、,Glejser,检验、,Goldfeld-Quandt,检验、,Bartlett,检验等。,克服异方差性的方法有变量变换后再建立模型、加权最小二乘法(,WLS,)、广义最小二乘法(,GLS,)等。,38,多元回归分析的注意事项,(1),回归分析要有实际意义,线性回归用于预测时,最好不要外推。,(2),注意线性回归分析的应用条件(,LINE,),(3),方程与变量的检验 回归方程有统计学意义,并不表示方程中每个自变量均有统计学意义,因此除了对方程进行检验,还要对每个自变量的作用进行检验。,(4),变量的筛选方法很多,最常用的是逐步前进法和逐步后退法。用逐步回归分析所得结果不一定是全局最优的,而是局部最优的。,理论上剔除变量和选择变量是同一个界值。但实际分析时我们总选两个界值,,P,剔,略大于,P,选,,或,F,剔,略小于,F,选,,以免计算机进入“死循环”,。,(5),样本含量 作多元回归分析需要的样本含量,n,:,至少是所研究的变量数,m,的,10,20,倍。,
展开阅读全文