医学统计学进阶1第1讲-多重线性回归与相关课件

上传人:风*** 文档编号:242764163 上传时间:2024-09-03 格式:PPT 页数:128 大小:1.80MB
返回 下载 相关 举报
医学统计学进阶1第1讲-多重线性回归与相关课件_第1页
第1页 / 共128页
医学统计学进阶1第1讲-多重线性回归与相关课件_第2页
第2页 / 共128页
医学统计学进阶1第1讲-多重线性回归与相关课件_第3页
第3页 / 共128页
点击查看更多>>
资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,多重线性回归与相关,王海俊,北京大学公共卫生学院,多重线性回归与相关王海俊,1,主要内容,第一节 偏相关,第二节 多元线性回归,主要内容第一节 偏相关,2,医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。,在这些有关系的现象中,它们之间联系的程度和性质也各不相同。,医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高,3,关系:可以说乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是因果关系;但是,有的现象之间因果不清,只是伴随关系,例如丈夫的身高和妻子的身高之间,就不能说有因果关系。,医学统计学进阶1第1讲-多重线性回归与相关课件,4,相关就是用于研究和解释两个变量之间,相互,关系的。,相关就是用于研究和解释两个变量之间相互关系的。,5,复习: 直线相关,Linear Correlation,一、相关的类型,二、相关系数,三、相关系数的假设检验,复习: 直线相关Linear Correlation一、相关,6,为了研究父亲与成年儿子身高之间的关系,卡尔,.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。,它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了10,7,一、相关的类型,正相关,负相关,完全正相关 完全负相关 ,零相关,一、相关的类型正相关 负相关 完全正相关 完,8,二、相关系数,样本的相关系数,用,r (correlation coefficient),相关系数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。,r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。,二、相关系数 样本的相关系数用r (correlatio,9,一个产科医师发现孕妇尿中,雌三醇含量,与产儿的,体重,有关。,于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。,问尿中雌三醇含量与产儿体重之间,相关系数,是多少?是正相关还是负相关?,分析问题:总体-样本、 目的、变量、关系,一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。,10,编号,(1),尿雌三醇,mg/24h(2,产儿体重,kg(3),编号,(1),尿雌三醇,mg/24h(2),产儿体重,kg(3),1,7,2.5,17,17,3.2,2,9,2.5,18,25,3.2,3,9,2.5,19,27,3.4,4,12,2.7,20,15,3.4,5,14,2.7,21,15,3.4,6,16,2.7,22,15,3.5,7,16,2.4,23,16,3.5,8,14,3.0,24,19,3.4,9,16,3.0,25,18,3.5,10,16,3.1,26,17,3.6,11,17,3.0,27,18,3.7,12,19,3.1,28,20,3.8,13,21,3.0,29,22,4.0,14,24,2.8,30,25,3.9,15,15,3.2,31,24,4.3,16,16,3.2,待产妇尿雌三醇含量与产儿体重关系,编号尿雌三醇产儿体重编号尿雌三醇mg/24h(2)产儿体,11,SPSS计算程序,1.做散点图:,GRAPHS-SCATTERT-SIMPLE-DEFINE,2. 相关分析:,ANALYZE-CORRELATION BIVARIATE -VARIABLES,SPSS计算程序1.做散点图:,12,医学统计学进阶1第1讲-多重线性回归与相关课件,13,医学统计学进阶1第1讲-多重线性回归与相关课件,14,从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间呈正相关,相关系数是0.61。,从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间,15,根据资料类型选择不同的方法计算r,Pearson: 连续变量,双变量正态分布资料Kendall: 资料不服从双变量正态分布或 总体分布未知,等级资料。Spearman:等级资料,根据资料类型选择不同的方法计算r Pearson: 连续,16,问题:我们能否得出结论:,待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?,问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间,17,三、相关系数的假设检验,上例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是,总体,中的,一个样本,,由此得到的相关系数会存在抽样误差。,因为,总体相关系数,(,),为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。,这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。,三、相关系数的假设检验 上例中的相关系数r等于0.61,说明,18,对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下:,=n-2,对相关系数的假设检验,常用t检验,选用统计量t的计算公式如下,19,H,0,:,=0,H,1,:,0,=0.05,r=0.61, n=31,代入公式,t=,=n-2=31-2=29,t=4.14,查t值表,t,0.05 (29),=2.045,查t值表,,t,0.05(29),=2.045, 上述计算t=4.142.045,由t所推断的P值小于0.05,按,=0.05水准拒绝?,,接受?,认为待产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。,H0 : =0 =n-2=31-2=29 t=4,20,医学统计学进阶1第1讲-多重线性回归与相关课件,21,另外的例子:,识字数,鞋大小,游泳票与冰激凌销售量,需要排除其它变量的干扰!,另外的例子:识字数,鞋大小,22,例题:已知某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml), 请计算身高与肺活量,体重与肺活量的相关关系。,例题:已知某地29名13岁男童身高X1(cm)、体重X2(k,23,1、身高与肺活量的简单相关系数,1、身高与肺活量的简单相关系数,24,2、体重与肺活量的简单相关系数,2、体重与肺活量的简单相关系数,25,3、身高与体重的简单相关系数,3、身高与体重的简单相关系数,26,第一节 偏相关,第一节 偏相关,27,一、概念,当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。,二、偏相关系数,偏相关系数是用来衡量任何两个变量之间的关系的大小。,一、概念 当有多个变量存在时,为了研究任何两个变,28,当控制一个变量时,偏相关系数的计算公式:,当控制多个变量时,偏相关系数的计算公式较为复杂,此处省略。,当控制一个变量时,偏相关系数的计算公式: 当,29,Analyze-Correlation-Partial,把分析变量选入 Variable 框,把控制变量选入 Controlling for 框,点击 Options,点击 Statistics:选择,Mean and standard deviation,Zero-order correlation,Continue OK,三、SPSS操作步骤,Analyze-Correlation-Pa,30,结 果:,结 果:,31,身高与肺活量的偏相关系数,(体重为控制变量),P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S,Controlling for. X2 (体重),Y(肺活量) X1(身高),Y (肺活量) 1.0000 .098,( 0) ( 26),P= . P= .619,X1 (身高) .098 1.0000,( 26) ( 0),P= .619 P= .,身高与肺活量的偏相关系数(体重为控制变量)P A R T I,32,P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S,Controlling for. X1(身高),Y(肺活量) X2(体重),Y 1.0000 .569,( 0) ( 26),P= . P= .002,X2 .569 1.0000,( 26) ( 0),P= .002 P= .,肺活量与体重的偏相关系数,(身高作为控制变量),P A R T I A L C O R R E L A,33,在待产妇尿中雌三醇含量和产儿体重之间的关系中,知道了二者之间成正相关。,那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出产儿的体重吗?,或产儿的体重可能在什么范围内呢?,这要用直线回归的方法来解决。,在待产妇尿中雌三醇含量和产儿体重之间的关系中,知道了二者之,34,一、回归方程,二、回归系数,三、回归系数的假设检验,四、直线回归的应用,复习: 直线回归,Linear Regression,一、回归方程复习: 直线回归Linear Regress,35,知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是,函数关系,,它们之间的关系式叫,函数方程,。,知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另,36,但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程反映,为了区别于两变量间的函数方程,我们称这种关系式为,直线回归方程,,这种关系为直线回归,.,但在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并,37,直线回归就是用来描述一个变量如何,依赖,于,另一个变量。,其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个直线方程叫做,直线回归方程。,医学统计学进阶1第1讲-多重线性回归与相关课件,38,一、回归方程,简单直线回归,(linear regression),是用来描述一个变量依赖于另一个变量的线性关系。,这里两变量的地位是不同的,其中X为自变量,可随机变动亦可人为取值;而Y被视为依赖于X而变化的因变量。,一、回归方程简单直线回归(linear regression,39,a称为截距(intercept),表示X取值为0时Y的平均水平。,b,称为回归系数(regression coefficient)或直线的斜率(slope),表示X每变化一个单位时,Y平均改变b个单位。,b,0时,随X的增大而增大;,b,0时,随X的增大而减小;,b,=0时,直线与X轴平行,Y与X无直线关系,a称为截距(intercept),表示X取值为0时Y的平均水,40,二、回归系数,在数理统计中,用最小二乘法的原理可求出a、b的计算公式。求解a和,b,实际上就是怎样”找到一条直线使所有数据点与它的平均距离“最近”。,二、回归系数在数理统计中,用最小二乘法的原理可求出a、b的计,41,这就是我们求得的二者关系的回归方程,从公式可求得:,根据上例的数据,求,待产妇尿中雌三醇含量与产儿体重之间的回归方程。,这就是我们求得的二者关系的回归方程从公式可求得: 根据上例的,42,SPSS程序,ANALYZE-REGRESSIONLINEAR,SPSS程序ANALYZE-REGRESSIONLINEA,43,回归直线的描绘,根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。,回归直线一定经过(0,a ),( )。,这两点可以用来核对图线绘制是否正确。,回归直线的描绘 根据求得的回归方程,可以在自变量X的实测范,44,医学统计学进阶1第1讲-多重线性回归与相关课件,45,=2.15+0.061X,是否一定能说明雌三醇与产儿体重之间存在回归关系?,=2.15+0.061X 是否一定能说明雌三醇与产儿体重之间,46,三、回归系数的假设检验,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。,总体的回归系数一般用,表示。,三、回归系数的假设检验与直线相关一样,直线回归方程也是从样本,47,回归系数的检验方法有两种:,(1) 方差分析,(2),t,检验,两种方法是等价的。,回归系数的检验方法有两种:,48,(1) 方差分析,(1) 方差分析,49,因变量Y的变异的分解,Y的分解:,移项:,考虑全部样本:,上式用符号表示:,SS,总,称为Y的总离均差平方和,SS,回,称为回归平方和,SS,残,称为残差平方和或剩余平方和,因变量Y的变异的分解Y的分解:SS总称为Y的总离均差平方和,50,不考虑回归时,Y的总变异SS,总,全部视为随机误差;而回归以后,回归的贡献使得随机误差减小为SS,剩,。如果两变量间总体回归关系确实存在,回归的贡献就应当大于随机误差;大到何种程度时可以认为具有统计意义,可计算如下的F统计量:,不考虑回归时,Y的总变异SS总全部视为随机误差;,51,自由度分别是:,回,1,,残,n,-2,MS,回,与MS,残,分别称为回归均方和残差均方。,求得F值后查F界值表得到P值,最后按所取,水准作出总体回归关系是否成立的推断结论。,自由度分别是:回1,残n-2,52,(,2,),t,检验:,H0,:,=0,H1,:,0,=0.05,统计量,t,的计算公式为:,自由度,=n-2,(2)t检验:,53,例,1,:,H,0,:,=0,H,1,:,0,=0.05,自由度,=31-2=29,查t界值表,t,0.05(29),=2.045, P0.05,按,=0.05检验水准,拒绝H,0,,接受 H,1,,认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回归关系。,例1:自由度=31-2=29,查t界值表,t0.05(29,54,对于一元线性回归来说,方差分析与t检验是完全等价的,且有关系式:,对于一元线性回归来说,方差分析与t检验是完全等价的,且有关系,55,利用SPSS实现直线回归:,SPSS操作步骤:,Analyze - Regression - Linear,dependent: 因变量,independent: 自变量,method: 可选择 enter,forward,backward,stepwise,点击statistics: 出现若干统计选项可供选择,Continue,OK,利用SPSS实现直线回归:SPSS操作步骤:,56,医学统计学进阶1第1讲-多重线性回归与相关课件,57,医学统计学进阶1第1讲-多重线性回归与相关课件,58,医学统计学进阶1第1讲-多重线性回归与相关课件,59,医学统计学进阶1第1讲-多重线性回归与相关课件,60,四、直线回归的应用,1. 描述两变量之间的依存关系,通过回归系数的假设检验,若认为两变量之间存在直线回归关系,则可用直线回归来描述。,2. 利用回归方程进行预测,把自变量代入回归方程,对因变量进行估计,并可求出因变量的波动范围。,四、直线回归的应用1. 描述两变量之间的依存关系,61,3.利用回归方程进行统计控制,利用回归方程进行逆估计,即要求因变量y的容许取值范围,逆向估计X的取值范围。,3.利用回归方程进行统计控制,62,五、应用直线相关与回归的注意事项,五、应用直线相关与回归的注意事项,63,(一)注意事项,1.考虑实际意义,进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来做相关回归分析。,(一)注意事项1.考虑实际意义,64,2. 相关关系,相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系。,2. 相关关系,65,3. 利用散点图,对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。,3. 利用散点图,66,4. 变量范围,相关分析和回归方程仅适用于样本的原始数据范围之内,超出了这个范围,我们不能得出两变量的相关关系和回归关系。,4. 变量范围,67,(二)相关与回归的区别,1. 意义,相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。,回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。,(二)相关与回归的区别1. 意义,68,2. 应用,研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。,2. 应用,69,3. 性质,相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。,回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。,3. 性质,70,4.,相关系数,r,与回归系数,b,r与b的绝对值反映的意义不同。,r,的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。,b,的绝对值越大,回归直线越陡,说明当,X,变化一个单位时,,Y,的平均变化就越大。反之也是一样。,4. 相关系数r与回归系数b,71,(三)相关与回归的联系,1.,关系,能进行回归分析的变量之间存在相关关系。所以,对于两组新数据(两个变量)可先做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,求出回归方程。,(三)相关与回归的联系1. 关系,72,2.,相关系数,r,与回归系数,b,r,与,b,的符号一致。,r,为正时,,b,也为正,表示两变量是正相关,是同向变化。,r,为负时,,b,也为负,表示两变量是负相关,是反向变化。,2. 相关系数r与回归系数b,73,r,与,b,的假设检验结果一致。对同一资料,可以证明,r,与,b,假设检验的统计量t值的大小相等,因而结果总是相同的。,由于对,r,进行假设检验的统计量t值计算公式比较简便,而且还可以直接查表。所以,可用,r,的显著检验代替,b,的显著性检验。,r与b的假设检验结果一致。对同一资料,可以证明r与b假设检验,74,第二节 多重(多元)线性回归,在医学研究中,影响某个结局指标的因素常常有很多个,特别对于慢性非传染性疾病更是如此,例如心血管疾病、肿瘤等。,多重线性回归分析可以用来发现影响某个结局变量的多个因素,并有可能建立有效的预测模型。,第二节 多重(多元)线性回归 在医学研究中,,75,一、多重线性回归模型,多重线性回归模型可视为简单直线模型的直接推广。简单的说,只有一个自变量的线性模型为简单直线回归模型,具有两个以上自变量的线性模型即为多重线性回归模型。,这里提及的回归模型中,都只有一个因变量。,一、多重线性回归模型 多重线性回归模型可视为简单,76,总体回归模型:,0,为常数项,,1, ,m,称为总体偏回归系数。,总体回归模型: 0为常数项,1 , ,m,77,样本回归模型:,偏回归系数:,b,0,为常数项,,b,1,,b,2,,b,m,为样本偏回归系数。,偏回归系数表示在其它所有自变量固定不变的情况下,某一个自变量变化一个单位时引起因变量y变化的平均大小。,残差e:y 的变化中不能为自变量所解释的部分。,样本回归模型:偏回归系数: b0为常数项,b,78,线性回归的适用条件:,1.,L,:线性自变量x与应变量y之间存在线性关系;,2.,I,:独立性y值相互独立,在模型中则要求残差相互独立,不存在自相关;,3.,N,:正态性随机误差(即残差)e服从均值为零,方差为,的正态分布;,4.,E,:等方差 对于所有的自变量x,残差e的方差齐。,医学统计学进阶1第1讲-多重线性回归与相关课件,79,数据类型要求,因变量必须是数值型变量(连续变量)。,自变量既可以是数值型变量,也可以是分类型变量。但如果是多分类变量,则不能直接进入回归方程,而要先进行哑变量设置(略)。,数据类型要求 因变量必须是数值型变量(连续变量),80,例2. 某研究者测量了29名儿童血液中血红蛋白(g)、钙(g)、镁(g) 、铁(g) 、锰(g) 、铜(g)的含量。试以血红蛋白为因变量,其它为自变量,建立回归模型。,例2. 某研究者测量了29名儿童血液中血红蛋白(g)、钙(,81,医学统计学进阶1第1讲-多重线性回归与相关课件,82,做回归分析的第一步通常是做散点图,以发现因变量与自变量之间是否大致存在直线关系。如有明显的曲线关系,则不能直接做线性回归模型。,另外,散点图还有助于发现异常点。,做回归分析的第一步通常是做散点图,以发现因,83,医学统计学进阶1第1讲-多重线性回归与相关课件,84,医学统计学进阶1第1讲-多重线性回归与相关课件,85,采用最小二乘法(LS)估计回归系数b,即要求残差平方和:,达到最小值。,求解过程需要进行矩阵运算,并要借助计算机完成。,二、回归系数的估计,采用最小二乘法(LS)估计回归系数b达到最小值。二、回归系数,86,或写成:,Y=XB+E,如矩阵X,X的逆存在,则回归系数矩阵B=(XX),-1,XY,所有样本点数据代入模型后可写成如下矩阵形式:,或写成: Y=XB+E所有样本点数据代入,87,医学统计学进阶1第1讲-多重线性回归与相关课件,88,SPSS回归分析输出结果,SPSS回归分析输出结果,89,1.对整个方程的检验:,H,0,: ,1, ,2, ,m,0,2.对单个回归系数或常数项的检验:,H,0,: ,i, 0,三、方程的显著性检验:,1.对整个方程的检验:H0: 1 2 m ,90,对整个方程的检验:,H,0,: 回归系数全为零 ,1,=,2,=,m,=0,H,1,: 回归系数不全为零,0.05,FMS,reg,/MS,E,26.306,自由度 df,reg,5, dfe23, P,t,2,0.023 df,2,=23 p=0.982,t,3,8.079 df,3,=23 p0.001,t,5,0.672 df,5,=23 p=0.508,只有铁的偏回归系数有意义。,对回归系数进行假设检验:,92,四、筛选有影响的自变量,选择标准:对各自变量的偏回归平方和进行检验,F值大于预先设定的F,,则将此变量选入或保留在方程内。,偏回归平方和:将某个变量引入方程后所引起的回归平方和增加的部分;或者,将某个变量剔除方程后所引起的回归平方和减少的部分。,例如:将本例中钙剔除后,回归平方和从113.26 变为109.94,则钙的偏回归平方和为113.26-109.943.32,四、筛选有影响的自变量选择标准:对各自变量的偏回归平方和进行,93,自变量的选择方法,1. 强行进入法(Enter):为默认选择项,定义的全部自变量均引入方程。,2. 后退法(Backward):先建立一个包含全部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。,自变量的选择方法1. 强行进入法(Enter):为默认选择项,94,3. 前进法(Forward):回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统计学意义的自变量被引入为止。,4. 逐步法(Stepwise):它是前进法和后退法的结合。,5. 消去法(Remove):建立回归方程时,根据设定的条件剔除部分自变量。,3. 前进法(Forward):回归方程由一个自变量开始,每,95,选用后退法,选用后退法,96,钙保留下来的原因:后退法的默认剔除标准是0.1,钙保留下来的原因:后退法的默认剔除标准是0.1,97,最终回归模型:,以血红蛋白含量作为因变量y,钙、镁、铁、锰、铜的含量作为自变量进行多元线性回归分析,变量筛选方法为后退法(backward),剔除标准为p0.1()。最后结果只有钙和铁保留在方程中。,其中x,1,代表钙,x,3,代表铁,(方程和偏回归系数的检验略),最终回归模型: 以血红蛋白含量作为因变,98,两个自变量与因变量的拟合面示意图,两个自变量与因变量的拟合面示意图,99,注意:自变量的选择不是一个单独的数学问题,可以放心地交给计算机自动完成,而必须结合专业知识,综合考察。,1.对因变量确实有影响的,应当选入。,2.不同筛选方法结果不一致时要谨慎,重点考虑共线性的问题。,3.所做出的模型不能视为“最佳”模型,而应视为“局部最优”模型,因为所纳入分析的自变量中常常不能包括全部的影响因素,甚至是很重要的因素。,注意:自变量的选择不是一个单独的数学问题,可以放心地交给计算,100,五、标准化偏回归系数,由于各自变量量纲(测量单位)不同,各偏回归系数之间不能直接比较。,标准化偏回归系数消除了量纲的影响,可以用来直接比较各自变量对因变量作用的大小。,标准化偏回归系数的计算方法:,其中,s,y,代表因变量的标准差,s,i,代表不同自变量的标准差。,五、标准化偏回归系数 标准化偏回归系数的计算方法:,101,从本例来看,钙和铁的偏回归系数的绝对值差不多,但铁的标准化偏回归系数确要大得多,表示铁对血红蛋白的作用比钙要大。,从本例来看,钙和铁的偏回归系数的绝对值差不多,但,102,六、回归模型的优良性评价(拟和效果),1.决定系数R,2,:,0R,2,1,决定系数反映Y的全部变异中能够被回归方程中的全部自变量所解释的比例。R,2,1, 越接近于1,说明模型拟和得越好。,六、回归模型的优良性评价(拟和效果)1.决定系数R2:0R,103,2.复相关系数R:,0R1,复相关系数描述了因变量y与方程中m个自变量的总体相关系数。R越接近于1,说明因变量与自变量的关系越密切,模型拟和得越好。,2.复相关系数R:0R1,104,3.校正决定系数R,2,adj,:,R和R,2,有一个缺陷,随着自变量个数的增加,R,2,总是增加,造成变量数目越多,则拟和效果越优良的错觉。为解决这一问题,可采用校正决定系数。,3.校正决定系数R2adj:,105,3.校正决定系数R,2,adj,:,MS代表均方,用离均差平方和SS除以自由度得到(详见方差分析):,MS,残,SS,残,/(n-m-1),MS,总,SS,总,/(n-1),校正决定系数,消除了自变量的个数以及样本量的大小对决定系数的影响,。,3.校正决定系数R2adj: MS代表均方,用离均,106,医学统计学进阶1第1讲-多重线性回归与相关课件,107,本例显示,自变量个数最多的模型1的复相关系数和决定系数最大,而最后一个模型(最优模型)的校正决定系数最大。,本例显示,自变量个数最多的模型1的复相关系数和,108,七、残差分析,残差分析常用于检验回归模型是否符合适用条件(如独立性、正态性、方差齐性),发现异常点(强影响点)。,一般所说的残差(residual)是指拟和残差,指因变量的实测值与回归方程预测值之差:,七、残差分析 残差分析常用于检验回归模型是否符合,109,由于残差有单位,不适合相互比较,可用标准化残差(Standardized residual)和学生氏残差(Studentized residual)。这两个残差都经过了标准化变换,去除了单位。,由于残差有单位,不适合相互比较,可用标准化,110,1.独立性检查,独立性是指不同观察对象之间的y值相互独立,没有联系。在模型中,则是要求残差间相互独立,不存在自相关。,分析方法:Durbin-Watson(D)残差序列相关性检验。,0D4,D2时,残差与自变量相互独立,符合独立性的推荐取值范围:1D3,1.独立性检查 独立性是指不同观察对象之间的,111,医学统计学进阶1第1讲-多重线性回归与相关课件,112,医学统计学进阶1第1讲-多重线性回归与相关课件,113,2. 正态性检查,残差的正态性是回归模型的假设条件,在样本量比较大时可以适当放宽。,检查方法:标准化或学生氏残差的直方图和残差的累积概率图(P-P图)。,2. 正态性检查 残差的正态性是回归模型的假设,114,医学统计学进阶1第1讲-多重线性回归与相关课件,115,医学统计学进阶1第1讲-多重线性回归与相关课件,116,医学统计学进阶1第1讲-多重线性回归与相关课件,117,3. 残差的等方差性,回归模型中的等方差性,比正态性要重要。,绘制残差图检查等方差性:,以y的预测值为横坐标,学生氏/标准化残差为纵坐标做散点图,如果残差在零水平上下均匀分布,没有某种趋势存在,可认为残差方差齐。,3. 残差的等方差性 回归模型中的等方差性,比正态性要重要。,118,1 2 3 4,y,残差,2,1,0,-1,02,残差,2,1,0,-1,02,1 2 3 4,y,残差,2,1,0,-1,02,1 2 3 4,y,方差齐,方差不齐,自变量与因变量可能不是直线关系,1 2,119,医学统计学进阶1第1讲-多重线性回归与相关课件,120,4.发现强影响点,远离多数数据的点可能成为强影响点。,强影响点包括y方向远离的异常点和x方向远离的高杠杆点。,发现方法:,y与x的散点图,残差诊断(略),4.发现强影响点 远离多数数据的点可能成为强影响点,121,八、共线性诊断,共线性(collinearity)是指回归模型中的自变量之间存在着比较明显的线性相关关系。,共线性对回归模型有很大的危害性:,1.回归模型不可靠,不同的变量选择方法得出的结果不一致。,2.偏回归系数的估计值远离经验值,甚至符号相反。,3.专业上明确有影响的因素不能纳入方程。,八、共线性诊断 共线性(collineari,122,共线性诊断的方法:,第一类方法:基于复相关系数:,1.容忍度:,以其中一个x,i,为因变量,其它x为自变量做回归,获得复相关系数R,i,,,容忍度 TOL1-R,2,i,容忍度小则说明共线性强。,TOL0.2 或5 或 ,10 说明存在严重的共线性。,2.方差膨胀因子VIF:,124,第二类:基于特征根的方法,计算自变量的相关系数阵的特征根,如果有接近于零的特征根,则说明有共线性。,3.条件指数:,条件指数(最大特征根/最小特征根),1/2,条件指数的值越大说明自变量间共线性的可能性越大。,0条件指数数10 认为没有共线性;,10条件指数数30 认为有严重共线性。,第二类:基于特征根的方法,125,医学统计学进阶1第1讲-多重线性回归与相关课件,126,共线性问题的解决,1.可尝试增大样本量;,2.根据专业知识,去除专业上认为不重要,但带来较强共线性的变量;,3.进行主成分/因子分析,将多个共线性强的自变量综合成少量新的因子(新变量);,4.进行岭回归分析,或通径分析。,共线性问题的解决1.可尝试增大样本量;,127,谢 谢,Thanks,谢 谢,128,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!