多元线性回归课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,多元线性回归,多元线性回归,1,多元线性回归,多元线性回归是简单线性回归的直接推广，其包含一个因变量和二个或二个以上的自变量。,简单线性回归是研究一个因变量（Y）和一个自变量（X）之间数量上相互依存的线性关系。而多元线性回归是研究一个因变量（Y）和多个自变量（X,i,）之间数量上相互依存的线性关系。,简单线性回归的大部分内容可用于多元回归，因其基本概念是一样的。,多元线性回归多元线性回归是简单线性回归的直接推广，其包含一个,2,内容安排,多元线性回归模型与参数估计,回归方程和偏回归系数的假设检验,标准化偏回归系数和确定系数,多元回归分析中的若干问题,回归分析中自变量的选择,多元线性回归分析的作用,内容安排多元线性回归模型与参数估计,3,多元线性回归模型与参数估计,设有自变量x,1,x,2,x,p,和因变量Y以及一份由n个个体构成的随机样本(x,1i,x,2i,x,pi,，Y,i,），且有如下关系：,y=B,0,+B,1,x,1,+B,2,x,2,+B,p,x,p,+,(模型）,B,0,、B,1,、B,2,和B,p,为待估参数，,为残差。,由一组样本数据，可求出等估参数的估计值,b,0,、b,1,、b,2,和b,p,，得到如下回归方程：,i,=b,0,+b,1,x,1,+b,2,x,2,+b,p,x,p,由此可见，建立回归方程的过程就是对回归模型中的参数（常数项和偏回归系数）进行估计的过程。,多元线性回归模型与参数估计设有自变量x1,x2,xp和,4,参数的最小二乘估计,与简单回归类似，我们寻求参数B,0,、B,1,、B,2,和B,p,的适宜估计数值b,0,、b,1,、b,2,和b,p,，使实际观察值和回归方程估计值之间残差平方和最小，,即,Q,(y,i,i,),2,=,(,y,i,b,0,b,1,x,1i,b,2,x,2i,b,p,x,p,i,),2,对b,0,、b,1,、b,p,分别求偏导数，今偏导数为零可获得P1个正规方程，求解正规方程可得待估参数值。,参数的最小二乘估计与简单回归类似，我们寻求参数B0、B1、B,5,回归方程和偏回归系数的假设检验,回归方程的假设检验：,建立回归方程后，须分析应变量Y与这p个自变量之间是否确有线性回归关系，可用F分析。,H,0,：,B,1,B,2,.=B,p,=0,H,1,：H,0,不正确,0.05,F MS,回归,/MS,误差,MS,回归,SS,回归,p SS,回归,=,b,j,L,jy (j=1,2.,P),MS,误差,SS,误差,(n-p-1)SS,误差,为残差平方和,回归方程和偏回归系数的假设检验回归方程的假设检验：,6,偏回归系数的假设检验,回归方程的假设检验若拒绝H,0,，则可分别对每一个偏回归系数bj作统计检验，,实质是考察在固定其它变量后，该变量对应变量 Y 的影响有无显著性。,H,0,：B,j,=0,H,1,：B,j,不为零,0.05,F （X,j,的偏回归平方和1）,/MS,误差,X,j,的偏回归平方和：去Xj后回归平方和的减少量,若,H,0,成立，可把Xj从回归方程中剔除，余下变量重新构建新的方程。,偏回归系数的假设检验,7,标准化偏回归系数和确定系数,标准化偏回归系数：,在比较各自变量对应变量相对贡献大小时，由于各自变量的单位不同，不能直接用偏回归系数的大小作比较，须用标准化偏回归系数。,b,j,=b,j,(s,j,/s,y,),标准化偏回归系数和确定系数标准化偏回归系数：,8,确定系数,：,简记为R,2,，即回归平方和SS,回归,与总离均差平方和SS,总,的比例。,R,2,SS,回归,SS,总,可用来定量评价在Y的总变异中，由P个X变量建立的线性回归方程所能解释的比例。,确定系数：,9,回归分析中的若干问题,资料要求,：总体服从多元正态分布。但实际工作中分类变量也做分析。,n足够大，至少应是自变量个数的5倍,分类变量在回归分析中的处理方法,有序分类：,治疗效果：x=0(无效)x=1(有效)x=2(控制),无序分类：,有k类，则用k1变量（伪变量）,回归分析中的若干问题资料要求：总体服从多元正态分布。但实,10,如职业,分四类可用三个伪变量：,y1 y2 y3,工人 1 0 0,农民 0 1 0,干部 0 0 1,学生 0 0 0,如职业,分四类可用三个伪变量：,11,多元线性回归方程的评价,评价回归方程的优劣、好坏可用确定系数R,2,和剩余标准差S,y,x1,2.p 。,S,y,x1,2.p,SQRT（SS误差n-p-1）,如用于预测，重要的是组外回代结果。,多元线性回归方程的评价,12,回归方程中自变量的选择,多元线性回归方程中并非自变量越多越好,，原因是自变量越多剩余标准差可能变大；同时也增加收集资料的难度。故需寻求“最佳”回归方程，逐步回归分析是寻求“较佳”回归方程的一种方法。,回归方程中自变量的选择多元线性回归方程中并非自变量越多越好，,13,选择变量的统计学标准,R,2,最大,R,2,SS,回归,SS,总,adjR,2,最大：,adjR,2,1MS,误差,/MS,总,Cp值最小,Cp（n-p-1)(MS,误差.p,/MS,误差.全部,1）（p+1),选择变量的统计学标准R2最大,14,选择变量的方法,最优子集回归分析法,：,p个变量有2,p,1个方程,逐步回归分析,向前引入法,(forward selection),向后剔除法,(backward selection),逐步引入剔除法,(stepwise selection),H0：K个自变量为好 H1：K1个自变量为好,选择变量的方法最优子集回归分析法：,15,向前引入法,（forward selection),自变量由少到多一个一个引入回归方程。将 corr(y ,x,j,)最大而又能拒绝H,0,者，最先引入方程，余此类推。至不能再拒绝H,0,为止。,向前引入法（forward selection),16,向后剔除法,（backward selection),自变量先全部选入方程，每次剔除一个使上述检验最不能拒绝H,0,者，直到不能剔除为止。,向后剔除法（backward selection),17,逐步引入剔除法,（,stepwise selection),先规定两个阀值F,引入,和F,剔除,，当候选变量中最大F值F,引入,时，引入相应变量；已进入方程的变量最小FF,剔除,时，剔除相应变量。如此交替进行直到无引入和无剔除为止。（计算复杂）,逐步引入剔除法（stepwise selection),18,多元线性回归方程的作用,因素分析,调整混杂因素的作用,统计预测,多元线性回归方程的作用,19,例：测量16名四岁男孩心脏纵径X1（CM）、心脏横径X2（CM）和心象面积Y（CM2）三项指标，得如下数据。试作象面积Y对心脏纵径X1、心脏横径X2多元线性回归分析。,例：某科研协作组调查山西某煤矿2期高血压病患者40例，资料如下表，试进行影响煤矿工人2期高血压病病人收缩压的多元线性回归分析。,例：测量16名四岁男孩心脏纵径X1（CM）、心脏横径X2（C,20,Logistic回归,Logistic回归,21,多元回归分析可用来分析多个自变量与一个因变量的关系，模型中因变量Y是边连续性随机变量，并要求呈正态分布。但在医学研究中，常碰到因变量的取值仅有两个，如药物实验中，动物出现死亡或生存，死亡概率与药物剂量有关。设P表示死亡概率，X表示药物剂量，P和X的关系显然不能用一般线性回归模型PB,0,B,1,X来表示。这时可用Logistic回归分析。,多元回归分析可用来分析多个自变量与一个因变量的关系，,22,内容安排,Logistic回归模型,模型参数的意义,Logistic回归模型的参数估计,Logistic回归方程的假设检验,Logistic回归模型中自变量的,筛选,Logistic回归的应用,内容安排Logistic回归模型,23,Logistic回归模型,先引入Logistic分布函数，表达式为：,F（x)=e,x,/(1+e,x,),X的取值在正负无穷大之间；F(x)则在01之间取值，并呈单调上升S型曲线。人们正是利用Logistic分布函数这一特征，将其应用到临床医学和流行病学中来描述事件发生的概率。,Logistic回归模型先引入Logistic分布函数，表达,24,以因变量D1表示死亡，D0表示生存，以P（D1X）表示暴露于药物剂量X的动物死亡的概率，设,P（D1X）e,Bo+BX,/(1+e,Bo+BX,),记,Logit(P)=lnp/(1-p),则上式可表示为：,Logit(P)Bo+BX,这里X的取值仍是任意的，Logit(P)的值亦在正负无穷大之间，概率P的数值则必然在01之间。,p/(1-p),为事件的优势，,Logit(P),为对数优势，故logistic回归又称对数优势线性回归,以因变量D1表示死亡，D0表示生存，以P（D1X,25,一般地，设某事件D发生（D1）的概率P依赖于多个自变量（x,1,x,2,x,p,)，且,P（D1）e,Bo+B1X1+BpXp,/(1+e,Bo+B1X1+BpXp,),或,Logit(P)Bo+B,1,X,1,+B,p,X,p,则称该事件发生的概率与变量间关系符合多元Logistic回归或对数优势线性回归。,一般地，设某事件D发生（D1）的概率P依赖于多个自,26,logistic回归模型参数的意义,优势比（odds ratio,OR)：暴露人群发病优势与非暴露人群发病优势之比。,P(1)/1-p(1),OR=,P(0)/1-p(0),Ln(oR)=logitp(1)-logitp(0)=(B,0,+B1)(B,0,+B0)=B,可见B是暴露剂量增加一个单位所引起的对数优势的增量，或单位暴露剂量与零剂量死亡优势比的对数。e,B,就是两剂量死亡优势比。常数项B,0,是所有变量X等于零时事件发生优势的对数。,logistic回归模型参数的意义优势比（od,27,Logistic回归的参数估计,Logistic回归模型的参数估计常用最大似然法，最大似然法的基本思想是先建立似然函数或对数似然函数，似然函数或对数似然函数达到极大时参数的取值，即为参数的最大似然估计值。其步骤为对对数似然函数中的待估参数分别求一阶偏导数，令其为0得一方程组，然后求解。由于似然函数的偏导数为非线性函数，参数估计需用非线性方程组的数值法求解。常用的数值法为Newton-Raphson法。不同研究的设计方案不同，其似然函数的构造略有差别，故Logistic回归有非条件Logistic回归与条件Logistic回归两种。,Logistic回归的参数估计Logistic回归模型的参数,28,Logistic回归的假设检验,1、拟合优度检验：目的是检验模型估计值与实际观察值的符合程度。SAS程序提供了下列统计量。,A、AIC和SC：对同一份资料，在模型比较中，这两个越小，表明模型越合适。,B、2LogL：用于检验全部自变量（协变量）的联合作用。如显著，表明全部协变量的联合作用显著；如不显著，表明全部协变量的联合作用不大，可予忽视。,C、Score：用于检验全部协变量联合作用的显著性，但不包截距项。,Logistic回归的假设检验1、拟合优度检验：目的是检验模,29,2、偏回归系数的显著性检验：目的是检验回归模型中自变量的系数是否为零，等价于总体优势比OR是否为零。,H0：B等于零 H1：B不等于零,A、wald检验：,B、Score test:,C、likelihood ratio test(wald chi-square test):,2、偏回归系数的显著性检验：目的是检验回归模型中自变量的系数,30,回归模型中自变量的筛选,和多元线性回归分析一样，在Logistic回归分析中也须对自变量进行筛选。方法和多元线性回归中采用的方法一样，有向后剔除法、向前引入法及逐步筛选法三种。筛选自变

展开阅读全文

多元线性回归课件

最新文档