一线性回归分析

上传人:dja****22 文档编号:242866224 上传时间:2024-09-10 格式:PPT 页数:69 大小:668KB
返回 下载 相关 举报
一线性回归分析_第1页
第1页 / 共69页
一线性回归分析_第2页
第2页 / 共69页
一线性回归分析_第3页
第3页 / 共69页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第七讲 回归分析,1,一、线性回归分析,线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象 (因变量)与影响因素(自变量)之间的线性函数关系式。,由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。,2,SPSS软件中进行线性回归分析的选择项为AnalyzeRegressionLinear。如图所示。,3,(一)双变量线性回归,某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。,儿童编号,体表面积(Y),身高(X,1,),体重(X,2,),1,2,3,4,5,6,7,8,9,10,5.382,5.299,5.358,5.292,5.602,6.014,5.830,6.102,6.075,6.411,88.0,87.6,88.5,89.0,87.7,89.5,88.8,90.4,90.6,91.2,11.0,11.8,12.0,12.3,13.1,13.7,14.4,14.9,15.2,16.0,4,1、数据准备,激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据,结果如图8.1所示。,5,2、统计分析,激活Analyze菜单选Regression中的Linear.项,弹出Linear Regression对话框。,选y,点击,钮使之进入Dependent框;,选x1、x2,点击,钮进入Indepentdent(s)框;,在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。,本例选用Enter法,点击OK钮即完成分析。,6,7,点击Statistics.钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;,点击Plots.钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);,点击Save.钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);,点击Options.钮选择变量入选与剔除的、值和缺失值的处理方法。,8,3、结果解释,9,本例以,X1,、,X2,为自变量,,Y,为应变量,采用全部入选法建立回归方程。,回归方程的复相关系数为,0.94964,,决定系数(即,r2,)为,0.90181,,经方差分析,,F=34.14499,,,P=0.0003,,回归方程有效。,回归方程为,Y=0.0687101X1+0.183756X2-2.856476,。,10,本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。,系统将原始的X1、X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值。,11,12,本例还要求对标准化Y预测值作变量分布图,系统将绘制的统计图送向Chart Carousel窗口,双击该窗口可见下图显示结果。,13,Y,401.739,67.922,14,Y,1190.017,793.915,15,例:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表。,建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型,通过对模型的分析,找出合适的线性回归方程。,(二)多元线性回归分析,16,年份,火柴销售量,(万件),煤气户数,(万户),卷烟销量,(百箱),蚊香销量,(十万盒),打火石销量,(百万粒),75,26.71,41.16,45.16,26.39,17.08,76,31.19,45.73,52.46,27.04,7.39,77,30.5,50.59,45.3,23.08,3.88,78,29.63,58.82,46.8,24.46,10.53,79,29.69,65.28,51.11,33.82,20.09,80,29.25,71.25,53.29,33.57,21.22,81,31.05,73.37,55.36,39.59,12.63,82,32.28,76.68,54,48.49,11.17,17,1、打开数据文件,单击Analyze,Regression,Linear打开Linear 对话框如图所示。,18,2,、从左边框中选择因变量,Y,进入,Dependent,框内,选择一个或多个自变量进入,Independent,框内。,从,Method,框内下拉式菜单中选择回归分析方法:,强行进入法,(Enter),,消去法,(Remove),,向前选择法,(Forward),,向后剔除法,(Backward),及逐步回归法,(Stepwise),五种。,本例中选择逐步回归法,(Stepwise),。,19,Enter(强迫引入法默认选择项) 定义的全部自变量均引入方程;,Remove(强迫剔除法) 定义的全部自变量均删除;,Forward(向前引入法) 自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。该法的缺点是:当两个变量一起时效果好单独时效果不好,有可能只引入其中一个变量或两个变量都不能引入。,20,Backward(向后剔除法) 自变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止。能克服向前引入法的缺点,当两个变量一起时效果好单独时效果不好,该法可将两个变量都引入方程。,Stepwise(逐步引入一剔除法) 将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著者,直到没有一个自变量能引入方程和没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的变量比较精悍。,21,3,、单击,Statistics,,打开,Linear Regression,:,Statistics,对话框,可以选择输出的统计量。,22,Regression Coefficients,栏,回归系数选项栏:,Estimates (,系统默认,):,输出回归系数的相关统计量。,Confidence intervals:,输出每一个非标准化回归系数,95,的置信区间。,Covariance matrix:,输出协方差矩阵。,23,Model fit是默认项。能够输出复相关系数R、R2及R2修正值,(R2 判定系数在判定一个线性回归直线的拟合优度的好坏时,是一个重要的判定指标),R squared change:引入或剔除一个变量时,R2的变化。,Descriptives: 基本统计描述,。,Part and Partial correlations:相关、偏相关系数。,Collinearity diagnostics:共线性诊断。,24,Residuals 残差栏:,Durbin-Watson:D.W检验.,Casewise diagnostics: 奇异值诊断,有两个选项:,Outliers outside( )standard deviations:奇异值判据,默认项标准差3。,All case 输出所有观测量的残差值。,本例中选择D.W检验及奇异值诊断,选择标准差为2,即置信度约为95%。,25,4,、如果需要观察图形,可单击,Plots,按纽,打开,Linear Regression,:,Plots,对话框如图所示。在此对话框中可以选择所需要的图形。,26,在左上角的源变量框中,选择,Dependent,进入,X,(或,Y,)轴变量框,选择其它变量进入,Y,(或,X,)轴变量框,除因变量外,其客观存在变量依次是:,ZPRED:,标准化预测值,,ZRESID:,标准化残差,,DRESID:,剔除残差,,ADJPRED:,修正后预测值,,SRESID,学生化残差,,SDRESID:,学生化剔除残差。,27,Standardized Residual Plots,栏,标准化残差图类型:,Histogram:,标准化残差直方图,Normal probability plot,标准化残差序列的正态分布概率图,.,Produce all partial plots,依次绘制因变量和所有自变量的散布图,本例中选择因变量,Dependent,与标准化残差,ZRESID,的残差图。,28,5,、单击,Options,按纽,打开,Linear Regression,:,Options,对话框,如图所示。可以从中选择模型拟合判断准则,Stepping Method Criteria,及缺失值的处理方式。,29,Stepping Method Criteria,栏:,Use probability of F:,采用,F,检验的概率为判别依据。,Use F value:,采用,F,值作为检验标准。,Include constant in equation,回归方程中包括常数项。,Missing Values,缺失值处理方式。,30,6,、如果要保存预测值等数据,可单击,Save,按纽打开,Linear Regression,:,Save,对话框。选择需要保存的数据种类作为新变量存在数据编辑窗口。其中有预测值、残差,预测区间等。本例中不做选择。,7,、当所有选择完成后,单击,OK,,得到分析结果,31,Model Summary(d) 模型综合分析表,表模型综合分析中有模型的复相关系数,R,,样本决定系数,R2,,修正的可决系数,估计标准误,模型变化导致的可决系数及,F,值的变化,,D.W,检验值等。由上表中知模型,3,的修正的可决系数为,0.993,,其模型的拟合程度最好,,DW,值为,2.066,,显然通过,DW,检验,说明残差项不存在一阶自相关。,32,方差分析表,方差分析表同时给出了,3,个模型的方差分析表。其中模型,3,的,F,值最大,说明模型,3,的回归效果最显著。,33,回归系数,34,35,36,37,回归系数表的输出结果,Model,栏可以看出:,模型,1,是先将卷烟销量作为自变量进入模型;,模型,2,将卷烟销量与打火石销量两个自变量进入模型;,模型,3,是将卷烟、打火石和煤气户数三个自变量进入模型,自变量蚊香销量没有通过检验自动剔除,得回归模型为:,38,回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都在,0.7,以上,说明进入模型的自变量对因变量的影响都比较显著。,由最后两列的容忍度,Tolerance,和方差膨胀因子,VIF,的值来看,自变量之间不存在强烈的共线性。,39,相关系数表,相关分析表中表示的相关系数是全部变量(自变量与因变量)两两变量之间的简单相关系数和相关性检验。,40,残差统计,残差统计表表示了预测值、残差、标准化预测值和标准化残差的特征值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。,41,共线性诊断表,共线性诊断表中第二列是特征值,第三列是条件指数,最后一列是方差比。最大的条件指数小于20,说明自变量之间不存在比较强烈的共线性。,42,练习1,15例儿童的血液中血红蛋白(y,g)与钙(x1) 镁(x2) 铁(x3) 锰(x4)及铜(x5)的含量如下图所示用,逐步回归方法筛选对血红蛋白有显著作用的微量元素(ug)。,43,练习2,44,二、曲线估计,上面介绍了线性回归模型的分析和检验方法。,如果某对变量数据的散点图不是直线,而是某种曲线的形式时,可以利用曲线估计的方法为数据寻求一条合适的曲线,也可用变量代换的方法将曲线方程变为直线方程,用线性回归模型进行分析和预测。,SPSS,提供了多种曲线方程。,45,例:下表表示的是全国,1990,年至,2002,年人均消费支出与教育支出的统计数据,试以人均消费性支出为解释变量,教育支出作为被解释变量,拟合用一条合适的函数曲线。,46,人均消费支出与教育支出数据表,年份,人均消费性支出(元),教育支出(元),1990,1627.64,38.24,1991,1854.22,47.91,1992,2203.6,57.56,1993,3138.56,71.00,1994,4442.09,153.98,1995,5565.68,194.62,1996,6544.73,307.95,1997,7188.71,419.19,1998,7911.94,542.78,1999,7493.31,556.93,2000,7997.37,656.28,2001,9463.07,1091.85,2002,9396.45,1062.13,47,解:首先根据上表建立数据,作出人均消费支出与教育支出的散点图,如下:由上面图形可以看出,两个变量的散点图为增长的曲线形式,故选择合适的函数进行曲线估计。,48,1、单击Analyze,Regression,Curve Estimation打开Curve Estimation对话框。,2、选择估计曲线:SPSS有多条曲线形式供选择。,49,50,3、单击Save按纽,打开Save对话框如图所示。,选择需要保存到数据表中的项目。在Save Variables栏中,复选项依次是:Predicted Values预测值、Residuals残差、Prediction intervals预测区间,可以在下方框中选择置信度,默认值为95%。,4、所有选择完成后,单击OK,得到输出结果如表,51,曲线估计输出表,Independent: X,52,曲线图,53,从表中可以看出,可决系数接近,1的模型是,Com复合函数;也可通过图形验证这三个模型对观察值的拟合程度。,对以上三个模型进一步分析。在主对话框下方选择输出方差分析表Display AMOVA table, 可得到方差分析表详细结果。,54,通过比较各种估计模型的样本决定系数,标准误,F值,拟合程度最好的复合函数曲线,并且其模型的回归系数的检验也通过。,故可以选择复合函数曲线作为拟合曲线,其回归方程为:,55,56,三、 Logistic回归分析,使用多元线性回归来分析多个自变量与一个因变量的关系,因变量要求正态分布的连续随机变量。,所谓Logistic 回归是指因变量为二级计分或二类评定的回归分析。,57,某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。,58,术后感染,Y,年龄,X1,手术创伤度,X2,营养状态,X3,术前预防性抗菌,X4,白细胞数,(10,9,/L),X5,癌肿病理分度,(TNM得分和),X6,有,有,无,无,无,有,无,有,有,无,无,无,无,无,无,69,72,57,41,32,65,58,54,55,59,64,36,42,48,50,4,5,3,1,1,3,3,4,2,1,2,1,3,4,1,2,3,2,1,1,3,2,2,2,1,2,1,1,2,2,无,无,无,有,有,有,有,无,有,有,无,有,有,有,有,5.6,4.4,9.7,11.2,10.4,7.0,3.1,6.6,7.9,6.0,9.1,8.4,5.3,4.6,12.8,9,6,4,5,5,5,6,6,7,4,6,8,6,5,4,59,激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入Y、无输入N),年龄为X1,手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入Y、无输入N),白细胞数为X5,癌肿病理分度为X6。,60,激活Analyze菜单选Regression中的Logistic.项,弹出Logistic Regression对话框。,选y,点击,钮使之进入Dependent框;,选x1、x2、x3、x4、x5和x6,点击,钮使之进入Covariates框;,61,点击,Method,处的下拉按钮,系统提供,7,种方法:,62,1、Enter:所有自变量强制进入回归方程;,2、Forward: Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;,3、Forward: LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;,4、Forward: Wald:作Wald概率统计法,向前逐步选择自变量;,5、Backward: Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量;,6、Backward: LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;,7、Backward: Wald:作Wald概率统计法,向后逐步选择自变量。,本例选用Forward: Conditional法,以便选择有主要作用的影响因素,63,点击Options钮,弹出Logistic Regression: Options 对话框,在Display框中选取At last step项,要求只显示最终计算结果,点击Continue钮,返回Logistic Regression对话框。,再点击OK钮即可。,64,结果解释,Dependent Variable Encoding:,Original Internal,Value Value,y 0,n 1,Parameter,Value Freq Coding,(1),X4 n 5 1.000,y 10 -1.000,65,系统先对字符变量进行重新赋值,对于应变量Y,回答是(Y)的赋值为0,回答否(X)的赋值为1;,对于应变量X4,回答是(Y)的赋值为-1,回答否(X)的赋值为1。,66,67,68,结果表明,第一步自变量X3入选,方程分类能力达80.00%;第二步自变量X6入选,方程分类能力达93.33%(参见结果中的分类分析表);方程有效性经2检验,2=15.276,P=0.0005。,Logistic回归的分类概率方程为:,e(123.4053-30.5171X3-10.2797X6),P = ,1+ e(123.4053-30.5171X3-10.2797X6),根据该方程,若一胃癌患者营养状态评分(X3)为3,癌肿病理分度(X6)为9,则其P=4.510-270,这意味着术后将发生院内感染;另一胃癌患者营养状态评分(X3)为1,癌肿病理分度(X6)为4,则其P=0.981051,这意味着术后将不会发生院内感染。,69,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!