多元线性回归分析课件.ppt

上传人:xt****7 文档编号:3630814 上传时间:2019-12-19 格式:PPT 页数:62 大小:2.09MB
返回 下载 相关 举报
多元线性回归分析课件.ppt_第1页
第1页 / 共62页
多元线性回归分析课件.ppt_第2页
第2页 / 共62页
多元线性回归分析课件.ppt_第3页
第3页 / 共62页
点击查看更多>>
资源描述
,1,MultipleLinearRegressionAnalysis,多元线性回归分析,第15章,华中科技大学同济医学院公共卫生学院流行病学与卫生统计学系蒋红卫Email:jhwccc,2,讲课内容第一节多元线性回归(重点)第二节自变量选择方法(重点)第三节多元线性回归的应用及注意事项,3,第一节多元线性回归,一、多元线性回归模型,4,5,多元回归:多个Y,多个X多重回归:一个Y,多个X,6,0常数项j偏回归系数(partialregressioncoefficient):在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。e去除m个自变量对Y影响后的随机误差。,7,多元线性回归模型应用条件:1.Y与X1,X2,Xm之间具有线性关系;2.各个Yi间相互独立;3.e服从均数为0、方差为2的正态分布。,8,多元线性回归分析步骤:1.根据样本数据求得模型参数估计值:2.对回归方程及各Xj作假设检验。,9,二、多元线性回归方程的建立,10,11,12,X1,X2,Y,13,用最小二乘法解正规方程组,使残差平方和Q最小。,14,15,用最小二乘法解正规方程组,使残差平方和Q最小。,16,17,18,19,三、多元线性回归方程的假设检验及评价,20,(一)回归方程的假设检验及评价,1.方差分析法,不全为0。,21,22,23,2.决定系数R2,血糖含量变异的60%可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变异解释。,24,3.复相关系数R,Y与多个自变量间的线性相关程度;Y与估计值间的Pearson相关系数r。,25,(二)各自变量的假设检验及评价,1.偏回归平方和,表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献。其值愈大说明相应的自变量愈重要。,26,27,0.6129+11.9627+20.0635+27.7939133.7107,28,胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。,29,2.t检验法,30,胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有线性回归关系。,31,标准化回归系数bj的绝对值用来比较各个自变量Xj对Y的影响程度大小;绝对值越大影响越大。标准化回归方程的截距为0。,3.标准化回归系数,标准化回归系数与一般回归方程的回归系数的关系:,32,对血糖影响大小的顺序依次为糖化血红蛋白(X4)、胰岛素(X3)、甘油三酯(X2)与总胆固醇(X1)。胰岛素为负向影响。,33,第二节自变量选择方法,34,一、全局选择法对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。,35,R2可用来评价回归方程优劣。随着自变量增加,R2不断增大,对两个不同个数自变量回归方程比较,须考虑方程包含自变量个数影响,应对R2进行校正。所谓“最优”回归方程指最大者。,1.校正决定系数选择法,36,P为方程中自变量个数。最优方程的Cp期望值是p+1。应选择Cp最接近P+1的回归方程为最优。,2.选择法,37,38,二、逐步选择法全局选择计算量很大:6个变量,计算26-1=63个方程;10个变量,计算210-1=1023个方程。按选入变量顺序不同分前进法、后退法与逐步回归法,共同特点是每一步只引入或剔除一个自变量Xj。,39,对Xj的取舍要进行F检验:,计算进行到第l步时:p:方程中自变量个数SS回:Xj的偏回归平方和SS残:残差平方和,40,1.前进法(只选不剔)开始方程中无自变量,然后从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程,直至无自变量可以引入方程为止。,缺点:后续变量的引入可能使先前引入的变量变的不重要。,Xj入选,41,2.后退法(只剔不选)开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。,缺点:当某些自变量高度相关时,可能得不出正确结果。,Xj剔除,42,3.逐步回归法(先选后剔,双向筛选)开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程;每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除;直至方程外无自变量可引入,方程内无自变量可剔除为止。,43,入值定的越小选取自变量标准越严,被选入方程内自变量数越少。入值越大则反之。,小样本:入=0.05,出=0.10。大样本:入=0.10,出=0.15。入出,以免Xj上一步剔除后下一步又被选入,44,选X4前先建立4个直线回归方程;选X1前先建立1个含3个自变量、3个含2个自变量的多元线性回归方程。,45,46,47,48,49,50,第三节多元线性回归的应用及注意事项,51,一、多元线性回归的应用1.影响因素分析,年龄(X1)饮食习惯(X2)吸烟状况(X3)工作紧张度(X4)家族史(X5),高血压(Y),bj的意义为在其它自变量保持不变时,Xj增加或减少一个单位时Y的平均变化量。故可排除混杂因素。,52,2.估计与预测心脏表面积(Y)=b0+b1心脏横径(X1)+b2心脏纵径(X2)+b3心脏宽径(X3)新生儿体重(Y)=b0+b1胎儿孕龄(X1)+b2胎儿头径(X2)+b3胎儿胸径(X3)+b4胎儿腹径(X4),53,3.统计控制利用回归方程进行逆估计,确定Y后控制X。采用射频治疗仪治疗脑肿瘤:脑皮质毁损半径(Y)=b0+b1射频温度(X1)+b2照射时间(X2),54,二、多元线性回归应用的注意事项1.指标的数量化应变量Y为连续变量自变量X可为连续、有序分类或无序分类变量(1)连续变量:X(2)有序分类变量:1轻X=2中3重,55,(3)无序分类变量,哑变量(dummyvariables),56,2.样本含量n至少是X个数m的510倍3.多重共线性实际应用中非常普遍,可使最小二乘法建立的回归方程失效;消除方法:主成分回归;剔除某个造成共线性的自变量。,57,4.变量间的交互作用某一自变量对Y的作用大小与另一自变量的取值有关。,血糖(Y)与总胆固醇(X1)、甘油三酯(X2)、胰岛素(X3)、糖化血红蛋白(X4)间逐步回归方程:,X3与X4间有交互作用:,58,5.残差分析,标准化残差,59,e,0,60,0,0,0,0,e,e,e,e,61,讲课内容第一节多元线性回归(重点)第二节自变量选择方法(重点)第三节多元线性回归的应用及注意事项,62,Thankyou!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!