资源描述
医学统计学,湖北中医学院卫生教研室,1,医学统计学,湖北中医学院基础部卫生生物教研室(J-C204)Tel:027-68890135E-Mail:annworld,医学统计学马斌荣主编人民卫生出版社2004年第四版,医学统计学,湖北中医学院卫生教研室,2,第十一章多元回归与多元逐步回归(MultipleRegression&StepwiseMultipleRegression),第一节多元线性回归的一般解法第二节二元回归方程的计算实例第三节多元逐步回归第四节使用多元回归的注意事项,医学统计学,湖北中医学院卫生教研室,3,予备知识,医学统计学,湖北中医学院卫生教研室,4,予备知识,医学统计学,湖北中医学院卫生教研室,5,第一节多元线性回归的一般解法,设与应变量Y有关的自变量有k个,记为X1,X2,X3,.,Xk。现观察了n例表11.1多元线性回归原始观察数据,试作Y与X1,X2,X3,.,Xk多元直线回归方程,医学统计学,湖北中医学院卫生教研室,6,第一节多元线性回归的一般解法,假设多元线性回归方程为:,多元线性回归的一般步骤:1.求系数及,2.对整个回归方程作假设检验3.对每一个自变量作假设检验。,无统计学意义?如何办?,如果某几个自变量无统计学意义即较小,如何办?,医学统计学,湖北中医学院卫生教研室,7,第一节多元线性回归的一般解法,1.求系数及,假设多元线性回归方程为:,其中,为待定常数。假设为已知根据观察到的n例数据,代入上述公式可得第i例的应变量之估计值。建立等式:,根据最小二乘法,应该使所选定的b1,b2,.,bk能够让上述公式的Q值达极小。为了使Q达极小,可将Q对b1,b2,.,bk求一价偏导数,并使之等于0,经化简可得下列方程组:,医学统计学,湖北中医学院卫生教研室,8,其中,当i=j时,为各自变量的离均差平方和;当ij时,为两两间的离均差积和,为各自变量与应变量的离均差积和,对于线性方程组可利用行列式,求出系数b1,b2,b3,.,bk。再用公式求得b0,,医学统计学,湖北中医学院卫生教研室,9,第一节多元线性回归的一般解法,二、多元线性回归方程的假设检验,用样本的测定值作多元回归分析,不可避免地存在着抽样误差。因此,在建立起多元线性回归方程后,还必须对该方程作假设检验,1.H0:所有自变量对应变量都无线性回归关系。2.计算值,SS回归=b1L1Y+b2L2Y+bkLk,SS残差=SS总SS回归,df总=n1,df回归=回归变量数=k,df残差=nk1,3.根据df1=k,df2=nk1查F值表求出0.05(k,n-k-1)及0.01(k,n-k-1),并与F值比较,作出结论。,医学统计学,湖北中医学院卫生教研室,10,第一节多元线性回归的一般解法,三、偏回归系数的假设检验,为了检验每个自变量是否对都存在线性回归关系,需分别对每个自变量(即相应的偏回归系数)进行检验,以免把作用不显著的自变量引入回归方程中。这同样可用检验,1.将所有k个自变量Xj(j=1,2,.,k)都引入回归方程中,得到回归平方和及残差平方和,记为SS回归及SS残差。2.将拟检验的某个自变量Xi从回归方程中取出后,重新建立起一个含k-1个自变量X1,X2,.,Xi-1,Xi+1,.,Xk的回归方程,并得到不含Xi作用的回归平方和SS回归(-i)。则SS回归SS回归(-i)就是在其他自变量已在回归方程中的条件下,Xi单独引起的回归平方和的改变量,把这个量称为Xi的偏回归平方和。,医学统计学,湖北中医学院卫生教研室,11,第一节多元线性回归的一般解法,3.用值来检验该Xi的回归效应是否显著,值的计算公式为,4.根据df1=1,df2=nk1查F值表求出0.05(1,n-k-1)及0.01(1,n-k-1),并与F值比较,作出结论。,医学统计学,湖北中医学院卫生教研室,12,第一节多元线性回归的一般解法,应该注意:从回归方程中剔除一个自变量,譬如Xj,这决不是简单地把bjXj项从方程中剔除就完事,而是应从余下的k-1个变量着手,重新建立含有k-1个自变量的新方程组,然后再解出新的。一般来说,新的回归系数与原来的bi是不同的。这是因为偏回归系数之间存在着相关性,当从原方程剔除一个变量时,其他变量,特别是与它有密切关系的一些变量的偏回归系数就会受到影响,有时影响是很大的。,医学统计学,湖北中医学院卫生教研室,13,第一节多元线性回归的一般解法,应该注意:在用F检验对偏回归系数进行一次检验后,只能剔除其中一个因子,这个因子是所有不显著因子中F值最小的。然后重新建立新的方程,再对新的偏回归系数进行逐个检验,直到余下的偏回归系数都有统计学意义时为止。,医学统计学,湖北中医学院卫生教研室,14,第一节多元线性回归的一般解法,在许多情况下,需要比较各个自变量对应变量的相对贡献大小。但是,由于各自变量的测量单位不同,单从各偏回归系数的绝对值大小来分析不易得出正确结论。为此,首先对各偏回归系数进行标准化处理,即消除测量单位的影响,然后比较各标准化的偏回归系数的大小以反映各自对应变量的贡献大小。标准化偏回归系数的计算公式为:,式中Si及Sy分别为自变量Xi及应变量Y的标准差,bi为Xi的偏回归系数,应该注意:,医学统计学,湖北中医学院卫生教研室,15,第二节二元回归方程的计算实例,例11.120名儿童的血红蛋白Y(g/100ml)与微量元素钙X1g/100ml)和铁X2(g/100ml)的测定结果如表11.2,试作多元线性回归。表11.220例儿童的血红蛋白和微量元素的测定结果,医学统计学,湖北中医学院卫生教研室,16,第二节二元回归方程的计算实例,一、计算回归系数,L11=74923.12-(1208.67)2/20=1878.9616L22=3519638.96-(8353.67)2/20=30444.8366L12=507772.11-(1208.67)(8353.67)/20=2930.5941L1Y=14131.85-(1208.67)(233.5)/20=20.6278L2Y=98397.80-(8353.67)(233.5)/20=868.7028LYY=2771.88-(233.5)2/20=45.7675,建立联立方程:,解此方程,可求得;,b1=-0.0394b2=0.0323b0=11.68-(-0.0394)(60.43)-(0.0323)(417.68)=0.5699最后可得方程:=0.5699-0.0394X1+0.0323X2,医学统计学,湖北中医学院卫生教研室,17,第二节二元回归方程的计算实例,二、多元线性回归方程的假设检验,用样本的测定值作多元回归分析,不可避免地存在着抽样误差。因此,在建立起多元线性回归方程后,还必须对该方程作假设检验该假设检验可用方差分析,,1.H0:所有自变量对应变量都无线性回归关系。2.计算值,45.7675,SS回归=b1L1Y+b2L2Y+bkLk,(-0.0394)(20.6278)+(0.0323)(868.7028)=27.2464,SS残差=SS总SS回归,45.7675-27.2464=18.5211,df总=n1=20-1=19,df回归=回归变量数k=2,df残差=nk1=20-2-1=17,医学统计学,湖北中医学院卫生教研室,18,第二节二元回归方程的计算实例,3.df回归2,df残差17查界值表0.05(2,17)3.590.01(2,17)6.114.本例0.01(2,17),所以P0.01拒绝H0,故总体上认为微量元素钙和铁对血红蛋白有回归关系。,医学统计学,湖北中医学院卫生教研室,19,第二节二元回归方程的计算实例,1.将微量元素钙X1和铁X2全部纳入回归方程中,得到的SS回归27.2464SS残差18.5211,三、偏回归系数的假设检验,2.把X1从回归方程中取出,而单独建立X2与Y的回归方程为:=-0.2415+0.02853X2,此时SS回归(-1)24.7842,3.若把X2从回归方程中取出,而单独建立X1与Y的回归方程为:=11.0116+0.010977X1,此时SS回归(-2)0.2264,医学统计学,湖北中医学院卫生教研室,20,第二节二元回归方程的计算实例,4.进行F检验,查F界值表,得0.05(1,17)4.450.01(1,17)8.40可以认为X1(钙)对血红蛋白的线性回归无统计学意义。但是X2(铁)对血红蛋白的线性回归有统计学意义。,结论为:应把X1剔除,只建立X2与Y的线性回归方程,即:=-0.2415+0.02853X2,医学统计学,湖北中医学院卫生教研室,21,第三节多元逐步回归,一、基本思路,几个自变量与一个因变量关系的回归方程中,每个自变量对因变量变化所起的作用进行假设检验结果,可能有些有统计学意义,有些无统计学意义。一个较理想的回归方程,应包括所有对因变量有统计学意义的自变量,而不包括作用无统计学意义的自变量。建立这样一个回归方程较理想的方法之一是多元逐步回归分析法,医学统计学,湖北中医学院卫生教研室,22,第三节多元逐步回归,二、基本原理:,1.按每个自变量对因变量作用大小,由大到小依次逐个引入回归方程2.每引入一个自变量,都要对回归方程中每一个(包括刚被引入的)自变量的作用作假设检验。当发现一个或几个作用无统计学意义变量被引入时,即行逐个剔除,3.每剔除一个自变量后,也要对仍留在回归方程中的自变量逐个作假设检验。如果发现方程中还存在作用无显著意义的自变量时,也予以剔除,4.直至没有自变量可引入,也没有自变量可从回归方程中剔除为止。,医学统计学,湖北中医学院卫生教研室,23,第四节使用多元回归的注意事项,1.使用多元回归时,它是将所有变量都列入回归方程中。因此,同时求出b1,b2,.,bk,所以必须再作“回归方程的假设检验”及“偏回归系数的假设检验”,从而确定究竟哪些变量应列入回归方程。2.不能简单的用回归系数b1,b2,bk的绝对值大小来确定其回归作用的大小,而要对这些系数作标准化处理后,才可作其作用大小的比较。,医学统计学,湖北中医学院卫生教研室,24,第四节使用多元回归的注意事项,3.在多元逐步回归中,应事先确定自变量入选或剔除的F值的界限值,本例取0.05的F值作为自变量入选和剔除的界限值,事实上,并不一定要求入选界限和剔除界限值相同。4.应该注意,选择不同的F值(或值),其回归方程的结果可能不一致,一般可选不同的F值(或值)作调试。何种结果是正确的?这一点必须结合医学的实际意义来确定。,医学统计学,湖北中医学院卫生教研室,25,TheclassisoverThanks!,
展开阅读全文