资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二单元 医学统计学(高级篇),第八章 多重线性回归,1,第一节 多重线性回归分析的概念,一、多重线性回归的概念,多重线性回归是研究多个自变量(x,1,x,2,.)与一个因变量(y),之间线性依存关系的方法。其中自变量可以是随机变量,也可,以是给定变量,而因变量是随机变量。,多元线性回归是研究多个自变量与多个因变量线性依存关系,的方法。,若所有变量都是随机的,还可以做多重相关分析,描述因变,量与一组自变量之间的线性关系;用偏相关描述因变量与一个,自变量之间,在扣除其他自变量影响之后的线性关系。,2,二、多重线性回归模型与方程,多重线性回归模型用于研究一个被解释变量(因变量)与,多个解释变量(自变量)的线性关系分析。多重线性回归模,型与一元线性回归模型基本类似,只不过解释变量由一个增,加到两个以上,被解释变量y与多个解释变量x1,x2xk之间,存在线性关系。,假定被解释变量y与多个解释变量x1,x2xm之间具有线性,关系,建立多重线性回归模型为:,其中y为被解释变量,xi为k个解释变量,i为偏回归系数,,表示在其他自变量固定的条件下,自变量Xi改变一个单位时,,因变量Y的平均改变量。为随机误差项。,3,三、回归模型的前提条件,多重线性回归方程:描述被解释变量y的期望值或平均值如何依赖于解释变量x的方程为:,回归模型的前提条件:,1)线性:是指反应变量Y的总体平均值与自变量X呈线性关系;,2)独立性:自变量间相互独立,自变量之间没有精确的线性关,系(不相关);,3)正态性:是指对于给定的X值,其对应的Y值的总体和线性模,型的误差项均服从正态分布;(服从均数为0的正态分布),4)等方差性:无论X如何取值,Y都有相同的方差;误差项的方,差相等。,4,第二节 多重线性回归分析步骤,一、参数估计:,根据样本数据,求得模型参数的估计值,即求出模型,的估,计值b,0,、b,m,后,建立回归方程。,多重回归采用最小二乘法估计其参数,即求出 与实际观察,值Y之差的平方和(残差平方和) 为最小的b,0,、b,1,、b,2,、,b,m,值。多重回归的参数估计和假设检验,常采用统计软件完成。,求出参数的估计值后,可建立方程。,例8-1,下表是27名糖尿病人的血清总胆固醇、甘油三酯、空,腹胰岛素、糖化血红蛋白、空腹血糖的测量值,试建立血糖与,其它几项指标关系的多重线性回归方程。,5,27名糖尿病人血糖与其它变量的测量值,6,27名糖尿病人血糖与其它变量的测量值,7,二、建立方程,经统计软件处理后,得各参数如下:,得回归方程为:,8,三、多重,回归分析的假设检验及评价,(一),回归方程(模型)的假设检验:检验模型是否成立,或,方程是否有意义。,9,方差分析法,多重线性回归方差分析表,以上结果显示:接受H,1,,回归方程成立。(相关公式),10,(二)有关评价指标,1.残差标准差(剩余标准差)S,Y,1,2, M,:为扣除m个自,变量影响外,因变量仍存在的变异,不能用自变量,的变化解释Y的变异。反映回归方程精度,值越小说,明回归效果越好。,11,2.决定系数R,2,:,R,2,:说明所有自变量能解释Y变化的百分比。取值范围(0,1),越,接近1,模型拟合效果越好。R,2,反映在Y的总变异中,自变量组,合解释部分,占总变异的比重,即线性回归模型能在多大程度,上解释应变量Y的变异性。,自变量对应变量贡献越大,,回归效果越好。,12,S,Y,1,2, M,与R,2,13,3.校正决定系数R,C,2,(R,adj,2,)=0.5282,14,R,2,与R,C,2,关系:,R,2,表示总变差中已由多元回归方程“解释”的比例,R2可解释模型的拟合优度,残差平方和越小,决定系数越接近1,回归方程的拟合程度越好。,R,C,2,当给模型增加自变量时,决定系数也随之逐步增大,然而决定系数的增大代价是自由度的减少。自由度小意味着估计和预测的可靠性低。为了克服样本决定系数的这一缺点,我们设法把R,2,给予适当的修正,这就是校正决定系数。,R,2,或R,C,2,只能说明在给定的样本条件下回归方程与样本观测值拟合优度,并不能做出对总体模型的推测,因此不能单凭它们来选择模型。,15,4.复相关系数R,R说明所有自变量与Y间的线性相关程度,而不反应相,关的方向。取值范围(0,1),R越接近1,说明所有,自变量与应变量Y间的关系越密切。,如果只有一个自变量,此时的R=r。,(r为pearson相关系数),16,(三)偏,回归系数的假设检验及评价,偏回归系数的假设检验(即各自变量贡献大小的检验),,有三种方法。,1.t检验法:,17,t检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。,18,t检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。,机读显示相同结果。,19,2.方差分析法(求x的偏回归平方和),20,机读显示相同结果,F检验显示:胰岛素x3、糖化血红蛋白x4与血糖y有线性回归关系。,21,3.标准化偏回归系数法,标准化偏回归系数概念:,22,偏回归系数与标准化偏回归系数关系,23,24,由这些新的观察值进行回归分析得到的偏回归系数称为标准偏回归系数,各自变量标准偏回归系数可以进行排队,如本例4个自变量的标准偏回归系数依次为0.0776,0.3093,-0.3395,0.3977可以说对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)、和总胆固醇(X1)。,25,机得数据,变量,回归系数,b,j,标准化,回归系数,b,j,l,jj,标准差,S,X1,0.14245,0.07758,66.0103,1.5934,X2,0.35147,0.30931,172.3648,2.5748,X3,-0.27059,-0.33948,350.3106,3.6706,X4,0.6382,0.39774,86.4407,1.8234,Y,222.5519,2.9257,26,第三节 自变量的选择(筛选),多重线性回归分析中,常常通过专业知识或实践经验,去挑选那些对因变量影响较大的自变量与因变量Y建立回归方程。,如从为数众多因素中,选择的自变量对反应变量无影响或影响甚微,把它们引入方程后,不但计算量大,信息成本高,而且会使回归系数的估计和预测的精度降低。,选择对因变量影响较大的自变量引入方程,将对反应变量无影响或影响甚微的自变量排除方程,这种统计方法称为自变量选择(筛选),统计中常用方法之一是逐步选择法。,27,一、最优回归方程及选择方法,1.最优回归方程:,2.最优回归方程的选择方法有:,全局择优法(最优子集回归法)和逐步选择法。,28,二、全局择优法(最优子集回归法),29,1.校正决定系数R,C,2,(R,adj,2,)选择法,所谓最优回归方程是指,R,C,2,最大的方程。,30,2.C,P,选择法,31,32,3.,AIC,准则的计算公式,求出所有可能的回归模型(共有2,m,1个)对应的准,则值;按上述准则选择最优模型。,33,SAS获得的几个准则值结果,ADJRSQ,CP,AIC,ADJRSQ,CP,AIC,x2x3x4,0.54563,4,40.343,x2x3,0.40748,3,46.66,x1x2x3x4,0.52823,5,42.157,x1x3,0.37522,3,48.091,x1x3x4,0.48797,4,43.568,x4,0.34653,2,48.405,x1x2x4,0.44683,4,45.655,x1,0.28443,2,50.857,x1x4,0.44137,3,45.07,x1x2,0.27478,3,52.116,x2x4,0.4395,3,45.16,x3,0.23063,2,52.814,x3x4,0.43542,3,45.356,x2,0.17864,2,54.579,x1x2x3,0.40756,4,47.507,34,4.全局择优法(最优子集回归法)局限性,35,三、逐步选择法,36,(一)前进法,37,方法,38,(二)后退法,39,方法,40,(三)逐步回归法,双向筛选:引入有意义的变量(前进法),剔除无意义的变量(后退法)。,注意,引入变量的检验水准要小于或等于剔除变量的检验水准。,41,方法,42,第四节 逐步回归分析,一、逐步回归分析基本思想,43,二、逐步回归,实例分析(令,入,=,出,= 0.01),44,逐步回归法实例(第一步),模型,SS回,SS残,SS总,Y与X4,82.7144,139.8375,222.5519,Y与X1,69.4251,153.1267,222.5519,Y与X2,46.7873,175.7645,222.5519,Y与X3,57.9133,164.6386,222.5519,45,逐步回归法实例(第二步),模型,SS回,SS偏回,SS残,F值,P值,Y与X4,82.7144,Y与X4 X1,107.7903,25.0759,114.7615,5.2441,0.0311,Y与X4 X2,107.4074,24.6931,115.1444,5.1469,0.0326,Y与X4 X3,106.5683,23.8539,115.9836,4.9360,0.0360,46,逐步回归法实例(X1剔除否),模型,SS回,SS偏回,SS残,F值,P值,Y与X1,69.4251,38.3652,Y与X4,82.7144,25.0759,Y与X4 X1,107.7903,114.7615,5.2441,0.0311,47,逐步回归法实例(第三步),模型,SS回,SS偏回,SS残,F值,P值,Y与X4 X1,107.7903,Y与X4 X1 X2,113.6472,5.8569,Y与X4 X1 X3,121.7480,13.9577,100.8038,3.1847,0.0875,48,逐步回归法实例(X4/X1/X3剔除否),变量,模型,SS回,SS偏回,SS残,F值,P值,Y与X4 X1 X3,121.7480,100.804,X1,Y与X4 X3,106.5683,15.1797,X3,Y与X4 X1,107.7903,13.9577,3.1847,0.0870,X4,Y与X1 X3,94.2026,27.5454,49,逐步回归法实例(第四步),模型,SS回,SS偏回,SS残,F值,P值,Y与X4 X1 X3 X2,133.7107,11.9627,88.8412,2.9624,0.099,Y与X4 X1 X3,121.7480,50,逐步回归法实例(是否剔除),变量,模型,SS回,SS偏回,SS残,F值,P值,Y与X4 X1 X3 X2,133.7107,88.8412,X2,Y与X4 X1 X3,121.7480,11.9627,X1,Y与X4 X3 X2,133.0978,0.6129,0.1518,0.7006,X3,Y与X4 X1 X2,113.6472,20.0635,X4,Y与X1 X3 X2,105.9167,27.7940,51,逐步回归法实例(是否剔除),变量,模型,SS回,SS偏回,SS残,F值,P值,Y与X4 X3 X2,133.0978,89.4540,X4,Y与X3 X2,100.8292,32.2686,X3,Y与X4 X2,107.4074,25.6904,6.6054,0.0171,X2,Y与X4 X3,106.5683,26.5295,52,方差分析结果,变异来源,自由度,SS,MS,F,P,总变异,26,222.5519,回 归,3,133.098,44.366,11.41,0.0001,残 差,23,89.454,3.889,53,回归系数及其检验,54,机得数据比较分析,55,第五节 多重线性回归应用与注意事项,一、,多重线性回归应用:,影响因素分析,控制混杂因素。,56,预测:由自变量值推出应变量Y的值,57,控制:指定应变量Y的值查看自变量的改变量,58,二、应用的注意事项,1.,变量的数量化,(1)自变量为连续型变量 :必要时作变换。,(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1。,(3)自变量为二分类:如令男1,女0。,(4)自变量为名义分类:需要采用哑变量进行编码。,59,2.样本含量,观察个体数n与变量个数m的比例一般至少应为:n : m1:510。,3.统计“最优”与专业的“最优”。,不同,准则、方法,得出的“最优”方程不同;,不同的,引入、剔除标准,获得的“最优”方程不同;,方程还受数据的正确性、共线性影响。,60,4.多重共线性,共线性:自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性。,问题:,出现回归系数的符号与由专业知识不符;变量的重要性与专业不符等现象。使建立的回归方程失败。,多重共线性的识别:,整个方程决定系数R2高,但各自变量对应的回归系数均不显著。,解决共线性的主要方法,:筛选自变量;做主成分回归;岭回归。,61,共线性诊断,62,5.交互作用,当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用。,检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X,1,、X,2,间的交互作用,可在模型中加入X,1,X,2,项。,63,举例,64,如令X,5,=X,34,则,65,e.血糖,66,6.不同筛选方法比较,自变量与应变量相关系数大小,67,(1)向前筛选法(t检验、,入,=0.05),共线性容忍,度越小,共线,性问题越严重。,容忍度即,SS,残,/SS,总,。,68,向前筛选法(t检验、,入,=0.10),69,(2)向后剔除法(t检验、,剔,=0.10),70,(3)逐步法(,入,=0.05,,剔,=0.10 ),71,逐步法(,入,=0.10,,剔,=0.15 ),72,VIF,73,
展开阅读全文