资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,多元线性回归,多元,线性回归,多元,线性回归是简单线性回归的直接推广,其包含一个因变量和二个或二个以上的自变量。,简单线性回归是研究一个因变量(,Y),和一个自变量(,X),之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量(,Y),和多个自变量(,X,i,),之间数量上相互依存的线性关系。,简单线性回归的大部分内容可用于多元回归,因其基本概念是一样的。,内容安排,多元,线性回归模型与参数估计,回归方程和偏回归系数的假设检验,标准化偏回归系数和确定系数,多元回归分析中的若干问题,回归分析中自变量的选择,多元线性回归分析的作用,多元,线性回归模型与参数估计,设有自变量,x,1,x,2,x,p,和因变量,Y,以及一份由,n,个个体构成的随机样本(,x,1i,x,2i,x,pi,,Y,i,),,且有,如下关系:,y=B,0,+B,1,x,1,+B,2,x,2,+B,p,x,p,+,(,模型),B,0,、B,1,、B,2,和,B,p,为待估参数,,为残差。,由一组样本数据,可求出等估参数的估计值,b,0,、b,1,、b,2,和,b,p,,,得到如下回归方程:,i,=b,0,+b,1,x,1,+b,2,x,2,+,b,p,x,p,由此可见,建立回归方程的过程就是对回归模型中的参数(常数项和偏回归系数)进行估计的过程。,参数的最小二乘估计,与,简单回归类似,我们寻求参数,B,0,、B,1,、B,2,和,B,p,的适宜估计数值,b,0,、b,1,、b,2,和,b,p,,,使实际观察值和回归方程估计值之间残差平方和最小,,即,Q,(,y,i,i,),2,=,(,y,i,b,0,b,1,x,1i,b,2,x,2i,b,p,x,p,i,),2,对,b,0,、b,1,、,b,p,分别求偏导数,今偏导数为零可获得,P1,个正规方程,求解正规方程可得待估参数值。,回归方程和偏回归系数的假设检验,回归方程的假设检验:,建立回归方程后,须分析应变量,Y,与这,p,个自变量之间是否确有线性回归关系,可用,F,分析。,H,0,:,B,1,B,2,.=B,p,=0,H,1,:H,0,不正确,0.05,F MS,回归,/,MS,误差,MS,回归,SS,回归,p SS,回归,=,b,j,L,jy,(j=1,2.,P),MS,误差,SS,误差,(,n-p-1)SS,误差,为残差平方和,偏回归系数的假设检验,回归方程的假设检验若拒绝,H,0,,,则可分别对每一个偏回归系数,bj,作统计检验,,实质是考察在固定其它变量后,该变量对应变量,Y,的影响有无显著性。,H,0,:,B,j,=0,H,1,:,B,j,不,为零,0.05,F (,X,j,的偏,回归平方和1),/,MS,误差,X,j,的偏回归平方和:去,Xj,后回归平方和的减少量,若,H,0,成立,可把,Xj,从,回归方程中剔除,余下变量重新构建新的方程。,标准化偏回归系数和确定系数,标准化偏回归系数:,在比较各自变量对应变量相对贡献大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用标准化偏回归系数。,b,j,=,b,j,(,s,j,/,s,y,),确定系数,:,简记为,R,2,,,即,回归平方和,SS,回归,与总离均差平方和,SS,总,的比例。,R,2,SS,回归,SS,总,可用来定量评价在,Y,的总变异中,由,P,个,X,变量建立的线性回归方程所能解释的比例。,回归分析中的若干问题,资料要求,:总体服从多元正态分布。但实际工作中分类变量也做分析。,n,足够大,至少应是自变量个数的5倍,分类变量在回归分析中的处理方法,有序分类:,治疗效果:,x=0(,无效),x=1(,有效),x=2(,控制),无序分类:,有,k,类,则用,k1,变量(伪变量),如,职业,分四类可用三个伪变量:,y1,y2,y3,工人 1 0 0,农民 0 1 0,干部 0 0 1,学生 0 0 0,多元线性回归方程的评价,评价回归方程的优劣、好坏可用确定系数,R,2,和剩余标准差,S,y,x1,2.p 。,S,y,x1,2.p,SQRT(SS,误差,n-p-1),如用于预测,重要的是组外回代结果。,回归方程中自变量的选择,多元线性回归方程中并非自变量越多越好,,原因是自变量越多剩余标准差可能变大;同时也增加收集资料的难度。故需寻求“最佳”回归方程,逐步回归分析是寻求“较佳”回归方程的一种方法。,选择变量的统计学标准,R,2,最大,R,2,SS,回归,SS,总,adjR,2,最大:,adjR,2,1MS,误差,/,MS,总,Cp,值最小,Cp(n-p-1)(MS,误差.,p,/MS,误差.全部,1)(,p+1),选择变量的方法,最优子集回归分析法,:,p,个变量有2,p,1,个方程,逐步回归分析,向前引入法,(,forward selection),向后剔除法,(,backward selection),逐步引入剔除法,(,stepwise selection),H0:K,个自变 量为好,H1:K1,个自变量为好,向前引入法,(,forward selection),自变量由少到多一个一个引入回归方程。将,corr,(y ,x,j,),最大而又能拒绝,H,0,者,最先引入方程,余此类推。至不能再拒绝,H,0,为止。,向后剔除法,(,backward selection),自变量先全部选入方程,每次剔除一个使上述检验最不能拒绝,H,0,者,直到不能剔除为止。,逐步引入剔除法,(,stepwise selection),先规定两个阀值,F,引入,和,F,剔除,,当候选变量中最大,F,值,F,引入,时,引入相应变量;已进入方程的变量最小,FF,剔除,时,剔除相应变量。如此交替进行直到无引入和无剔除为止。(计算复杂),多元线性回归方程的作用,因素分析,调整混杂因素的作用,统计预测,例:测量16名四岁男孩心脏纵径,X1(CM)、,心脏横径,X2(CM),和心象面积,Y(CM2),三项指标,得如下数据。试作象面积,Y,对心脏纵径,X1、,心脏横径,X2,多元线性回归分析。,例:某科研协作组调查山西某煤矿2期高血压病患者40例,资料如下表,试进行影响煤矿工人2期高血压病病人收缩压的多元线性回归分析。,Logistic,回归,多,元,回归分析可用来分析多个自变量与一个因变量的关系,模型中因变量,Y,是边连续性随机变量,并要求呈正态分布。但在医学研究中,常碰到因变量的取值仅有两个,如药物实验中,动物出现死亡或生存,死亡概率与药物剂量有关。设,P,表示死亡概率,,X,表示药物剂量,,P,和,X,的关系显然不能用一般线性回归模型,PB,0,B,1,X,来表示。这时可用,Logistic,回归分析。,内容安排,Logistic,回归模型,模型参数的意义,Logistic,回归模型的参数估计,Logistic,回归方程的假设检验,Logistic,回归模型中自变量的,筛选,Logistic,回归的应用,Logistic,回归模型,先,引入,Logistic,分布函数,表达式为:,F(x)=e,x,/(1+e,x,),X,的取值在正负无穷大之间;,F(x),则在01之间取值,并呈单调上升,S,型曲线。人们正是利用,Logistic,分布函数这一特征,将其应用到临床医学和流行病学中来描述事件发生的概率。,以,因,变量,D1,表示死亡,,D0,表示生存,以,P(D1X),表示暴露于药物剂量,X,的动物死亡的概率,设,P(D1X)e,Bo+BX,/(1+e,Bo+BX,),记,Logit,(P)=,ln,p/(1-p),则上式可表示为:,Logit,(P)Bo+BX,这里,X,的取值仍是任意的,,Logit,(P),的值亦在正负无穷大之间,概率,P,的数值则必然在01之间。,p/(1-p),为,事件的优势,,Logit,(P),为对数优势,故,logistic,回归又称对数优势线性回归,一般地,设某事件,D,发生(,D1),的概率,P,依赖于多个自变量(,x,1,x,2,x,p,),,且,P(D1)e,Bo+B1X1+,BpXp,/(1+e,Bo+B1X1+,BpXp,),或,Logit,(P)Bo+B,1,X,1,+B,p,X,p,则称该,事件发生的概率与变量间关系符合多元,Logistic,回归或对数优势线性回归。,logistic,回归模型参数的意义,优势比(,odds ratio,OR):,暴露人群发病优势与非暴露人群发病优势之比。,P(1)/1-p(1),OR=,P(0)/1-p(0),Ln,(,oR,)=,logit,p(1)-,logit,p(0)=(B,0,+B1)(B,0,+B0)=B,可见,B,是暴露剂量增加一个单位所引起的对数优势的增量,或单位暴露剂量与零剂量死亡优势比的对数。,e,B,就是两剂量死亡优势比。常数项,B,0,是所有变量,X,等于零时事件发生优势的对数。,Logistic,回归的参数估计,Logistic,回归模型的参数估计常用最大似然法,最大似然法的基本思想是先建立似然函数或对数似然函数,似然函数或对数似然函数达到极大时参数的取值,即为参数的最大似然估计值。其步骤为对对数似然函数中的待估参数分别求一阶偏导数,令其为0得一方程组,然后求解。由于似然函数的偏导数为非线性函数,参数估计需用非线性方程组的数值法求解。常用的数值法,为,Newton-,Raphson,法。不同研究的设计方案不同,其似然函数的构造略有差别,故,Logistic,回归有非条件,Logistic,回归与条件,Logistic,回归两种。,Logistic,回归的假设检验,1、拟合优度检验:目的是检验模型估计值与实际观察值的符合程度。,SAS,程序提供了下列统计量。,A、AIC,和,SC:,对同一份资料,在模型比较中,这两个越小,表明模型越合适。,B、2LogL:,用于检验全部自变量(协变量)的联合作用。如显著,表明全部协变量的联合作用显著;如不显著,表明全部协变量的联合作用不大,可予忽视。,C、Score:,用于检验全部协变量联合作用的显著性,但不包截距项。,2、偏回归系数的显著性检验:目的是检验回归模型中自变量的系数是否为零,等价于总体优势比,OR,是否为零。,H0:B,等于零,H1:B,不等于零,A、,wald,检验:,B、Score,test:,C、likelihood ratio test(,wald,chi-square test):,回归模型中自变量的筛选,和,多元,线性回归分析一样,在,Logistic,回归分析中也须对自变量进行筛选。方法和多元线性回归中采用的方法一样,有向后剔除法、向前引入法及逐步筛选法三种。筛选自变量的方法有,wald,检验、,Score test、likelihood ratio test(,wald,chi-square test),三种。,Logistic,回归的应用,筛选危险因素,校正混杂因素,预测与判别,例,1:在饮酒与食道癌的成组病例对照研究中,共有200例食道癌患者和774例非食道癌对照,年龄是混杂因素,按年龄分层后资料如下:,age,对象(1=病例 0=对照)饮酒 不饮酒 合计,OR,2534 1 1 0 1,0 9 106 115,35-44 1 4 5 9 5.05,0 26 164 190,45-54 1 25 21 46 5.67,0 29 138 167,55-64 1 42 34 76 6.36,0 27 138 165,65-74 1 19 36 55 2.58,0 18 88 106,75-1 5 8 13,0 0 31 31,例2:研究女生月经初潮与体质关系的调查中,某地调查了23名1115岁女生的月经和体质情况,脉搏,X1,为30秒脉搏数,体重,X2,单位为公斤,年龄,X3,单位为岁。月经,Y,为0表示未来月经,1表示已来月经。试用非条件,Logistic,回归进行分析。,(
展开阅读全文