线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)ppt课件

资源描述

SPSS软件在医学科研中的应用软件在医学科研中的应用何平平何平平北大医学部流行病与卫生统计学系北大医学部流行病与卫生统计学系Tel：82801619SPSS软件在医学科研中的应用何平平北大医学部流行病与卫生统1线性相关与回归线性相关与回归线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)ppt课件2内容：内容：多重线性回归分析多重线性回归分析简单线性相关与回归简单线性相关与回归Spearman等级相关等级相关特例特例内容：特例3（一）（一）直线回归（直线回归（linear regression）1.1.定义：用直线方程表达定义：用直线方程表达X（自变量，（自变量，independent variable；解释变量，；解释变量，explanatory variable；预测变量，；预测变量，predictor variable）和和Y（因变量，（因变量，dependent variable；响应变量，；响应变量，response variable；结局变量，；结局变量，outcome variable ）之间的数量关系。之间的数量关系。一、一、简单线性相关与回归简单线性相关与回归（一）直线回归（linear regression）1.定义4线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)ppt课件5：是：是Y（实测值）的（实测值）的预测值（预测值（predicted value），是直线上点的纵坐标。对于每一个是直线上点的纵坐标。对于每一个X值，根据直线值，根据直线回归方程都可以计算出相应的回归方程都可以计算出相应的Y预测值。预测值。（具体计算过程参见卫生统计学第（具体计算过程参见卫生统计学第4版）。版）。：是Y（实测值）的预测值（predicted value），62.2.b和和a的意义的意义a：是回归直线在：是回归直线在Y轴上的截距，即轴上的截距，即X0时时Y的预测值。的预测值。b：是回归直线的斜率，又称为回归系数。：是回归直线的斜率，又称为回归系数。表示当表示当X改变一个单位时，改变一个单位时，Y的预测值平均改变的预测值平均改变|b|个个单位。单位。3.3.b和和a的估计的估计最小二乘方法（最小二乘方法（the method of least squares）:各实测点到直线的纵向距离的平方和最小。各实测点到直线的纵向距离的平方和最小。2.b和a的意义a：是回归直线在Y轴上的截距，即X0时Y的74.4.b的假设检验的假设检验：b为样本回归系数，由于抽样误差，为样本回归系数，由于抽样误差，实际工作中实际工作中b一般都不为一般都不为0。要判断直线回归方程是否成。要判断直线回归方程是否成立，需要检验总体回归系数立，需要检验总体回归系数是否为是否为0。只有当只有当 0 0时，才能认为直线回归方程成立（具有统计时，才能认为直线回归方程成立（具有统计学意义）。学意义）。H0：=0 H1：0方法一：方法一：t检验检验方法二：方法二：F检验检验两种方法等价，两种方法等价，4.b的假设检验：b为样本回归系数，由于抽样误差，实际工作85.5.直线回归方程的置信区间估计直线回归方程的置信区间估计(1)总体回归系数总体回归系数的的95置信区间估计置信区间估计(2)Y的均数的均数的的95置信区间估计置信区间估计当当XX0时，以时，以95的概率估计的概率估计Y的均数的均数的置信区间为的置信区间为(3)个体个体Y值的值的95容许区间估计容许区间估计当当XX0时，以时，以95的概率估计的概率估计个体个体Y值值的波动范围为的波动范围为5.直线回归方程的置信区间估计(1)总体回归系数的95置91.1.定义定义描述具有直线关系的两个变量之间的相互关系。描述具有直线关系的两个变量之间的相互关系。（二）直线相关（二）直线相关（linear correlation）r：相关系数，相关系数，correlation coefficient用来衡量有直线关系的两个变量之间相关的密切程度和用来衡量有直线关系的两个变量之间相关的密切程度和方向。方向。-1-1 r 1 1r00，正相关；，正相关；r=1为完全正相关为完全正相关r 00，负相关，负相关；r=-1为完全负相关为完全负相关|r|越大，两变量相关越密切越大，两变量相关越密切（前提：（前提：r有统计学意义）有统计学意义）1.定义（二）直线相关（linear correlation102.2.相关类型相关类型正相关：正相关：0r 1负相关负相关-1 r02.相关类型正相关：0r1负相关-1r011零相关零相关 r=02.2.相关类型相关类型曲线相关曲线相关零相关 r=02.相关类型曲线相关12r为样本相关系数，由于抽样误差，实际工作中为样本相关系数，由于抽样误差，实际工作中r一般都一般都不为不为0 0。要判断两变量之间是否存在相关性，需要检验。要判断两变量之间是否存在相关性，需要检验总体相关系数总体相关系数是否为是否为0 0。只有当只有当 0 0时，才能根据时，才能根据|r|的大小判断相关的大小判断相关的密切程度。的密切程度。3.3.r的假设检验的假设检验H0：=0 H1：0r为样本相关系数，由于抽样误差，实际工作中r一般都不为0。要134.相关与回归的区别和联系相关与回归的区别和联系（1）相关与回归的意义不同相关与回归的意义不同相关表达两个变量之相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量间相互关系的密切程度和方向。回归表达两个变量之间的数量关系，已知之间的数量关系，已知X值可以预测值可以预测Y值。从散点图值。从散点图上，散点围绕回归直线的分布越密集，则两变量相上，散点围绕回归直线的分布越密集，则两变量相关系数越大；回归直线的斜率越大，则回归系数越关系数越大；回归直线的斜率越大，则回归系数越大。大。（2）r与与b的符号一致的符号一致同正同负。同正同负。（3）r与与b的假设检验等价的假设检验等价4.相关与回归的区别和联系（1）相关与回归的意义不同相关14（4）可以用回归解释相关可以用回归解释相关r2称为决定系数（称为决定系数（coefficient of determination）,其越接近于其越接近于1，回归直线拟和的效果越好。，回归直线拟和的效果越好。4.相关与回归的区别和联系相关与回归的区别和联系（4）可以用回归解释相关r2称为决定系数（coeffici15例例1 1 为研究中年女性体重指数和收缩压的关系，随机测量为研究中年女性体重指数和收缩压的关系，随机测量了了1616名名4040岁以上的女性的体重指数和收缩压（见数据文件岁以上的女性的体重指数和收缩压（见数据文件p237.savp237.sav）。）。变量说明：变量说明：X:体重指数；体重指数；Y:收缩压（收缩压（mmHg）。）。1.1.绘制散点图绘制散点图散点图显示：收散点图显示：收缩压与体重指数缩压与体重指数之间有线性相关之间有线性相关趋势，因此可以趋势，因此可以进一步做直线回进一步做直线回归与相关归与相关例1 为研究中年女性体重指数和收缩压的关系，随机测量了16名162.2.直线回归与相关分析直线回归与相关分析Regression,回归回归 Linear,线性线性2.直线回归与相关分析Regression,回归 172.2.直线回归与相关分析直线回归与相关分析因变量因变量自变量自变量2.直线回归与相关分析因变量自变量18P值值相关相关系数系数r决定决定系数系数r2调整调整r2截距截距a回归系数回归系数bsb标准化回归系数标准化回归系数t值值P值值F值值P值相关系数r决定系数r2调整r2截距a回归系数bsb标准化193.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计给定给定XX0，预测预测Y3.直线回归的预测及置信区间估计给定XX0，预测Y203.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计因变量因变量自变量自变量统计统计保存（产生新变量，保保存（产生新变量，保存在当前数据库）存在当前数据库）3.直线回归的预测及置信区间估计因变量自变量统计保存（产生新213.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计总体回归系总体回归系数的置信区数的置信区间估计间估计3.直线回归的预测及置信区间估计总体回归系数的置信区间估计223.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计预测值预测值非标准化非标准化预测区间预测区间Y的均数的均数个体个体Y值值3.直线回归的预测及置信区间估计预测值非标准化预测区间Y的均23总体回归系数的总体回归系数的95置信区间置信区间预测值预测值残差残差3.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计总体回归系数的95置信区间预测值残差3.直线回归的预测及置243.3.直线回归的预测及置信区间估计直线回归的预测及置信区间估计X0Y的预测的预测值值Y的均数的置信区的均数的置信区间的下限及上限间的下限及上限个体个体Y值的容许区值的容许区间的下限及上限间的下限及上限3.直线回归的预测及置信区间估计X0Y的预测值Y的均数的置信25例例2：由于改革开放政策，深圳特区中外来人口大幅度增由于改革开放政策，深圳特区中外来人口大幅度增加，为了考察特区中外来人口对本地经济发展的贡献，深加，为了考察特区中外来人口对本地经济发展的贡献，深圳特区统计局收集了所属的宝安县在圳特区统计局收集了所属的宝安县在1987年末年末18个镇的人个镇的人口与工农业总产值数据（口与工农业总产值数据（见数据文件见数据文件reg.sav）。此处把）。此处把工农业总产值当作因变量（工农业总产值当作因变量（W），而把外地及本地人口数），而把外地及本地人口数当作两个自变量（当作两个自变量（Z1，Z2）。）。二、多重线性回归分析二、多重线性回归分析（有关统计方法的原理及计算参见（有关统计方法的原理及计算参见孙尚拱，医学多变孙尚拱，医学多变量统计与统计软件，北京医科大学出版社，量统计与统计软件，北京医科大学出版社，2000）例2：由于改革开放政策，深圳特区中外来人口大幅度增加，为了考26数据文件数据文件reg.sav数据文件reg.sav271.如何估计自变量与因变量之间的相互关系？（如何估计自变量与因变量之间的相互关系？（估计回归估计回归方程）方程）2.哪些自变量对因变量有影响？（哪些自变量对因变量有影响？（影响因素分析影响因素分析）3.哪一个自变量对因变量的影响更重要？（哪一个自变量对因变量的影响更重要？（自变量的相对自变量的相对重要性分析重要性分析）4.如何用自变量预测因变量？（如何用自变量预测因变量？（预测分析预测分析）（一）多重回归分析的任务（一）多重回归分析的任务（一）多重回归分析的任务28（二）多重回归分析的适用条件（二）多重回归分析的适用条件1.自变量与因变量之间存在线性关系自变量与因变量之间存在线性关系2.残差的正态性残差的正态性3.残差的等方差性残差的等方差性4.剔除强影响点（突出点，剔除强影响点（突出点，outliers）5.自变量之间不应存在共线性自变量之间不应存在共线性6.独立性独立性（二）多重回归分析的适用条件1.自变量与因变量之间存在线性关29关于独立性：关于独立性：所有的观测值是相互独立的。如果受试对象仅被随机所有的观测值是相互独立的。如果受试对象仅被随机观测一次，那么一般都会满足独立性的假定。但是出观测一次，那么一般都会满足独立性的假定。但是出现下列三种情况时，观测值不是相互独立的：时间序现下列三种情况时，观测值不是相互独立的：时间序列、重复测量等情况。列、重复测量等情况。SPSS软件在软件在“Linear Regression：Statistics”对对话框中，提供了话框中，提供了Durbin-Watson统计量统计量d，以检验自，以检验自相关系数是否为相关系数是否为0。当。当d值接近于值接近于2，则残差之间是不，则残差之间是不相关的。相关的。关于独立性：301.如何估计自变量与因变量之间的相互关系？（如何估计自变量与因变量之间的相互关系？（估计回归方程估计回归方程）其中其中y为实测值，为实测值，为预测值（为预测值（predicted value）估计模型中系数的方法：估计模型中系数的方法：最小二乘方法（最小二乘方法（Least Square，LS），即残差平方和最小。），即残差平方和最小。b1，b2.bm称为偏回归系数（称为偏回归系数（partial regression coefficient）：当固定其他变量时当固定其他变量时，xm每增加一个单位，每增加一个单位，y的增加值都是的增加值都是bm。（一）多重回归分析的任务（一）多重回归分析的任务1.如何估计自变量与因变量之间的相互关系？（估计回归方程）其31模型拟和的优良性指标模型拟和的优良性指标R：复相关系数，反映了复相关系数，反映了Y与与M个自变量的总体相关系数；个自变量的总体相关系数；R2：决定系数（决定系数（R Square）R2c：调整决定系数（调整决定系数（Adjusted R square），是对决定系），是对决定系数的修正，是数的修正，是更客观更客观的指标。的指标。这些指标越接近于这些指标越接近于1，说明回归模型拟合越好。，说明回归模型拟合越好。除了上述指标，还有残差标准误除了上述指标，还有残差标准误s，残差标准差越小，说，残差标准差越小，说明回归模型拟合越好。明回归模型拟合越好。模型拟和的优良性指标R：复相关系数，反映了Y与M个自变量的总322.哪些自变量对因变量有影响？（哪些自变量对因变量有影响？（影响因素分析影响因素分析）对回归模型的统计检验对回归模型的统计检验当当P0.05,则认为此回归模型有显著性。则认为此回归模型有显著性。对自变量的统计检验对自变量的统计检验当当P0.05,则认为此自变量对因变量有影响。则认为此自变量对因变量有影响。2.哪些自变量对因变量有影响？（影响因素分析）对回归模型的统33自变量的筛选自变量的筛选实际应用中，通常从专业知识出发，建立一个简约实际应用中，通常从专业知识出发，建立一个简约（parsimonious）的回归模型，即用尽可能少的自变量拟合）的回归模型，即用尽可能少的自变量拟合模型。模型。常用方法：常用方法：1.前进法（前进法（Forward）：）：逐步增加变量到模型中（由少到多），逐步增加变量到模型中（由少到多），对已经进入的变量不再剔除；对已经进入的变量不再剔除；SPSS中默认的选入自变量的中默认的选入自变量的检验水准为检验水准为0.05。2.后退法（后退法（Backward）：）：从模型中逐步剔除变量（由多到少）从模型中逐步剔除变量（由多到少），对已经剔除的变量不再进入；，对已经剔除的变量不再进入；SPSS中默认的剔除自变量中默认的剔除自变量的检验水准为的检验水准为0.10。3.逐步法（逐步法（Stepwise）：）：结合了前进法和后退法，变量边进结合了前进法和后退法，变量边进入边剔除。入边剔除。自变量的筛选实际应用中，通常从专业知识出发，建立一个简约（p343.哪一个自变量对因变量的影响更重要？（哪一个自变量对因变量的影响更重要？（自变量的相对重要性自变量的相对重要性分析分析）当自变量的量纲相同时，衡量自变量相对重要性的指标：当自变量的量纲相同时，衡量自变量相对重要性的指标：偏回归系数；若偏回归系数的绝对值越大，则相应自变量偏回归系数；若偏回归系数的绝对值越大，则相应自变量对因变量的影响就越大。对因变量的影响就越大。3.哪一个自变量对因变量的影响更重要？（自变量的相对重要性分35当自变量的量纲不同时，衡量自变量相对重要性的指标：当自变量的量纲不同时，衡量自变量相对重要性的指标：标准化偏回归系数（标准化偏回归系数（Standardized regression coefficient）、）、偏相关系数（偏相关系数（Partial Correlation）和部分相关系数（）和部分相关系数（Part Correlation）。）。上述指标的绝对值越大，则相应自变量对因变上述指标的绝对值越大，则相应自变量对因变量的影响就越大。量的影响就越大。线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)ppt课件36标准化偏回归系数标准化偏回归系数：对自变量、因变量作标准化处理后计算的回：对自变量、因变量作标准化处理后计算的回归系数。归系数。偏相关系数偏相关系数：因变量与自变量均扣除其他自变量影响之后，二者：因变量与自变量均扣除其他自变量影响之后，二者之间的相关系数。与简单相关系数（之间的相关系数。与简单相关系数（Pearson相关系数）不同；相关系数）不同；例如：考察因变量例如：考察因变量Y与自变量与自变量X1、X2的多元回归分析，的多元回归分析，Y与与X1的的偏相关系数为偏相关系数为扣除扣除X2影响后的影响后的Y与与X1的相关性。的相关性。Y与与X1的简单相的简单相关系数为关系数为忽略忽略X2影响后的影响后的Y与与X1的相关性。的相关性。部分相关系数：部分相关系数：自变量扣除其他自变量影响之后，因变量与自变自变量扣除其他自变量影响之后，因变量与自变量之间的相关系数。与偏相关系数不同，部分相关系数中因变量量之间的相关系数。与偏相关系数不同，部分相关系数中因变量未扣除其他自变量的影响。未扣除其他自变量的影响。线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)ppt课件374.如何用自变量预测因变量？（如何用自变量预测因变量？（预测分析预测分析）当自变量取某个数值时，当自变量取某个数值时，y的预测值为的预测值为Y的均数的的均数的9595置信区间置信区间个体个体Y值的值的95容许区间容许区间预测分析时，（预测分析时，（x10，x20 xm0）应该在样本的自变）应该在样本的自变量取值范围内。量取值范围内。4.如何用自变量预测因变量？（预测分析）当自变量取某个数值时381.自变量与因变量之间存在线性关系自变量与因变量之间存在线性关系通过绘制通过绘制y与每个自变量的偏相关散点图，可以判断与每个自变量的偏相关散点图，可以判断y与与自变量之间是否存在线性关系。自变量之间是否存在线性关系。2.残差的正态性残差的正态性通过绘制标准化残差的直方图以及正态概率图（通过绘制标准化残差的直方图以及正态概率图（P-P图），可以图），可以判断判断y是否服从正态分布。此条件可以放宽，只要不是严重偏离是否服从正态分布。此条件可以放宽，只要不是严重偏离正态即可。正态即可。3.残差的等方差性残差的等方差性通过绘制标准化残差与预测值的散点图，若标准化残差在零水通过绘制标准化残差与预测值的散点图，若标准化残差在零水平线上下波动，无明显的规律性，则可以判断平线上下波动，无明显的规律性，则可以判断y满足等方差的满足等方差的假定。假定。（二）多重回归分析的适用条件（二）多重回归分析的适用条件1.自变量与因变量之间存在线性关系通过绘制y与每个自变量的偏39通过标准化残差（通过标准化残差（Standardized Residuals）、学生氏残）、学生氏残差（差（Studentlized Residuals）来判断强影响点）来判断强影响点。当指。当指标的绝对值大于标的绝对值大于3时，可以认为样本存在强影响点。时，可以认为样本存在强影响点。删除强影响点应该慎重，需要结合专业知识。以下两种情删除强影响点应该慎重，需要结合专业知识。以下两种情况可以考虑删除强影响点：况可以考虑删除强影响点：1.强影响点是由于数据记录错强影响点是由于数据记录错误造成的；误造成的；2.强影响点来自不同的总体。强影响点来自不同的总体。4.剔除强影响点（剔除强影响点（Influential cases；或称为突出点，；或称为突出点，outliers）4.剔除强影响点（Influential cases；或称为405.自变量之间不应存在共线性（自变量之间不应存在共线性（Collinear）当一个（或几个）自变量可以由其他自变量线性表示时，称当一个（或几个）自变量可以由其他自变量线性表示时，称该自变量与其他自变量间存在共线性关系。常见于：该自变量与其他自变量间存在共线性关系。常见于：1.一个一个变量是由其他变量派生出来的，如：变量是由其他变量派生出来的，如：BMI由身高和体重计算由身高和体重计算得出得出；2.一个变量与其他变量存在很强的相关性。一个变量与其他变量存在很强的相关性。当自变量之间存在共线性时，会使回归系数的估计不确定、当自变量之间存在共线性时，会使回归系数的估计不确定、预测值的精度降低以及对预测值的精度降低以及对y有影响的重要自变量不能选入模型有影响的重要自变量不能选入模型。5.自变量之间不应存在共线性（Collinear）当一个（41共线性诊断方法：共线性诊断方法：1.TOL（容许度，（容许度，Tolerance）法：）法：TOL越接近零，共线性越大。越接近零，共线性越大。2.VIF（方差膨胀因子，（方差膨胀因子，Variance Inflation Factor，VIF）法：）法：VIF越大，共线性越大。越大，共线性越大。3.特征根（特征根（Eigenvalue）法：）法：如果自变量相关矩阵的特征根近似如果自变量相关矩阵的特征根近似于零，则自变量之间存在共线性。于零，则自变量之间存在共线性。4.CI（条件指数，（条件指数，Condition Index）法：）法：CI越大，共线性越大。越大，共线性越大。当自变量之间存在共线性时，可以剔除某个自变量或者采用岭回当自变量之间存在共线性时，可以剔除某个自变量或者采用岭回归分析（归分析（Ridge Regression Analysis）。）。共线性诊断方法：421.数据预处理：根据经济学专业知识，需要先对数据预处理：根据经济学专业知识，需要先对Z1、Z2、W作对数变换，分别记为作对数变换，分别记为X1、X2、Y。（三）多重线性回归：实例分析（三）多重线性回归：实例分析变换后的数据变换后的数据1.数据预处理：根据经济学专业知识，需要先对Z1、Z2、W43回归回归线性线性2.多重回归分析多重回归分析回归线性2.多重回归分析44因变量因变量自变量自变量因变量自变量45Statistics对话框对话框回归系数回归系数的估计的估计模型拟和模型拟和共线性诊断共线性诊断部分相关与偏相关系数部分相关与偏相关系数统计描述统计描述Statistics对话框回归系数的估计模型拟和共线性诊断部46Plots对话框对话框标准化标准化残差图残差图直方图直方图正态概率图，正态概率图，P-P图图绘制所有的绘制所有的偏相关图偏相关图 Plots对话框标准化残差图直方图正态概率图，P-P图绘制所47Save对话框对话框Save对话框48分别给出分别给出Y、X1、X2的均数与标的均数与标准差准差相关系数阵相关系数阵简单相关系数简单相关系数(Pearson相关相关)P值值从简单相关系数可见：从简单相关系数可见：Y与与X1、X2存在较强相关性，存在较强相关性，X1、X2存存在中等相关性。在中等相关性。3.输出结果解释输出结果解释分别给出Y、X1、X2的均数与标准差相关系数阵简单相关系数(49复相关系数复相关系数决定系数决定系数调整决定系数调整决定系数F值值P值值此模型的复相关系数为此模型的复相关系数为0.857，调整决定系数为，调整决定系数为0.699，反映此模型拟反映此模型拟和较好和较好；模型经统计学检验，；模型经统计学检验，F=20.738，P0.05，说明此多元回归模，说明此多元回归模型有显著性。型有显著性。复相关系数决定系数调整决定系数F值P值此模型的复相关系数为050非标准化系数非标准化系数标准化系数标准化系数 t值值 P值值简单相关简单相关偏相关偏相关部分相关部分相关TolVIF经统计学检验，经统计学检验，X1与与X2均有显著性，因此回归模型为均有显著性，因此回归模型为；根据偏回归系数的大小，根据偏回归系数的大小，可以认为可以认为X2对对Y的影响比的影响比X1大。大。非标准化系数标准化系数 t值 P值简单相关偏相51特征根特征根条件指数条件指数,CI方差比例方差比例共线性诊断共线性诊断共线性诊断：共线性诊断：两个自变量之间不存在共线性。两个自变量之间不存在共线性。特征根条件指数,CI方差比例共线性诊断共线性诊断：两个自变52因为标准化残差、学生化残差的绝对值小于因为标准化残差、学生化残差的绝对值小于3，所以，所以从统计学上从统计学上认为样本不存在强影响点。认为样本不存在强影响点。残差统计量残差统计量学生化残差学生化残差标准化残差标准化残差因为标准化残差、学生化残差的绝对值小于3，所以从统计学上认为53直方图及直方图及P-P图图从残差直方图及从残差直方图及P-P图可见：残差正态性不太好，图可见：残差正态性不太好，可能与样本量太小有关。可能与样本量太小有关。直方图及P-P图从残差直方图及P-P图可见：残差正态性不太好54通过绘制通过绘制y与与X1的偏相关散点图，可以判断的偏相关散点图，可以判断y与与X1之间存之间存在线性关系。在线性关系。通过绘制y与X1的偏相关散点图，可以判断y与X1之间存在线性55通过绘制通过绘制y与与X2的偏相关散点图，可以判断的偏相关散点图，可以判断y与与X1之间存之间存在线性关系。在线性关系。通过绘制y与X2的偏相关散点图，可以判断y与X1之间存在线性56检查残差的等方差性：检查残差的等方差性：由图可见：残差满足等方差性。由图可见：残差满足等方差性。检查残差的等方差性：由图可见：残差满足等方差性。57重要提示：重要提示：经典的多元线性回归：自变量和因变量均为连续变量。经典的多元线性回归：自变量和因变量均为连续变量。多元线性回归分析允许自变量为分类变量，但多元线性回归分析允许自变量为分类变量，但当自变量为多当自变量为多分类变量时，分类变量时，需要以需要以“哑变量（哑变量（dummy variables）”的方式的方式引入模型。引入模型。如：某个自变量为如：某个自变量为“文化程度文化程度”：1=文盲，文盲，2=小学，小学，3=中学，中学，4=大学及以上。若以大学及以上。若以“大学及以上大学及以上”为参照，关心文为参照，关心文盲、小学、中学分别与大学及以上的比较，则进行回归分析盲、小学、中学分别与大学及以上的比较，则进行回归分析时，此自变量须用时，此自变量须用3个哑变量表达：个哑变量表达：x1:1=文盲，文盲，0=其他；其他；x2:1=小学，小学，0=其他；其他；x3:1=中学，中学，0=其他。其他。重要提示：58三三、Spearman等级相关等级相关Spearman等级相关是基于秩次的非参数相关分析。等级相关是基于秩次的非参数相关分析。主要适用于以下情况：主要适用于以下情况：1.1.对于数值型变量，对于数值型变量，X及及Y严重偏离正态分布；严重偏离正态分布；2.2.等级资料的相关分析。等级资料的相关分析。三、Spearman等级相关Spearman等级相关是基于59变量说明变量说明：X：大骨节病阳性率；：大骨节病阳性率；Y：发硒。：发硒。相关相关两变量两变量例例3 3 为探讨硒与大骨节病之间的关系，分别检测了为探讨硒与大骨节病之间的关系，分别检测了1990199019991999年某地年某地7 71212岁儿童中大骨节病岁儿童中大骨节病X X线阳性率和发硒的平均线阳性率和发硒的平均水平（水平（见数据文件见数据文件P249.savP249.sav），试对其进行等级相关分析。），试对其进行等级相关分析。变量说明：X：大骨节病阳性率；Y：发硒。相关两变量例3 为探60例例Pearson相关系数相关系数（r）Spearman等级相关系等级相关系数数例Pearson相关系数（r）Spearman等级相关系数61例例Pearson相关系数（相关系数（r）P值值Spearman相关系数相关系数P值值例Pearson相关系数（r）P值Spearman相关系数P62

展开阅读全文

线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)ppt课件

最新文档