逻辑回归分析课件

资源描述

SPSS 16实用教程逻辑逻辑回回归归分析分析SPSS 16实用教程逻辑回归分析1在前面学到的回归模型中，我们处理的因变量在前面学到的回归模型中，我们处理的因变量都是数值型区间变量，建立的模型描述的是因都是数值型区间变量，建立的模型描述的是因变量的期望与自变量之间的线性关系。变量的期望与自变量之间的线性关系。线性回归模型：线性回归模型：然而，在许多实际问题中，我们需要研究的响然而，在许多实际问题中，我们需要研究的响应变量不是区间变量而是顺序变量或名义变量应变量不是区间变量而是顺序变量或名义变量这样的属性变量。这样的属性变量。7.8 7.8 逻辑回归分析逻辑回归分析7.8.1 统计学上的定义和计算公式统计学上的定义和计算公式在前面学到的回归模型中，我们处理的因变量都是数值型区间变量，2比如在致癌因素的研究中，我们收集了若干比如在致癌因素的研究中，我们收集了若干人的健康记录，包括年龄、性别、抽烟史、人的健康记录，包括年龄、性别、抽烟史、日常饮食以及家庭病史等变量的数据。响应日常饮食以及家庭病史等变量的数据。响应变量在这里是一个两点（变量在这里是一个两点（0-1）分布变量，）分布变量，Y=1（一个人得了癌症），（一个人得了癌症），Y=0（没得癌症）。（没得癌症）。如果我们按照（如果我们按照（1）建立一般线性模型：）建立一般线性模型：比如在致癌因素的研究中，我们收集了若干人的健康记录，包括年龄3因为因为Y只能取只能取0或或1，而，而的取值是连续的。的取值是连续的。显然不能用显然不能用来预测因变量来预测因变量 Y。我们注意到，对于我们注意到，对于0-1型变量，型变量，E(Y)=P(Y=1)=p因而，我们似乎可以用因而，我们似乎可以用来预测来预测Y=1的概的概率，即：率，即：因为Y只能取0或1，而的取值是连续的。显然不4问题问题1.Y=1的概率与自变量之间的关系到底的概率与自变量之间的关系到底是不是线性的？（答案是否定的）是不是线性的？（答案是否定的）例如：我们分析一个人是否买车与其年收入例如：我们分析一个人是否买车与其年收入的关系。对于年薪的关系。对于年薪5000元、元、5万元、万元、50万元万元三个人，让他们的年薪分别增加三个人，让他们的年薪分别增加5000元对于元对于其买车的可能性影响是不一样的。其买车的可能性影响是不一样的。问题1.Y=1的概率与自变量之间的关系到底是不是线性的？（5概率与自变量之间的关系图形往往是一个概率与自变量之间的关系图形往往是一个S型型曲线曲线概率与自变量之间的关系曲线概率与自变量之间的关系图形往往是一个S型曲线概率与自变量之间6问题问题2.概率的取值应该在概率的取值应该在01之间。但是之间。但是（2）式的概率线性模型并不能满足这一点。）式的概率线性模型并不能满足这一点。逻辑回归分析课件7我们可以通过对我们可以通过对P进行一种变换（进行一种变换（logit变换）变换）logit(p)=ln(p/(1-p)使得使得logit(p)与自变量之间存在线性相关的关与自变量之间存在线性相关的关系。系。模型的建立与解释模型的建立与解释我们可以通过对P进行一种变换（logit变换）模型的建立与解8同时，经过变换得到的模型也解决了（同时，经过变换得到的模型也解决了（2 2）中，）中，概率的预测值可能是概率的预测值可能是0,10,1之外的数的缺陷。之外的数的缺陷。（3 3）式建立的模型，我们称为）式建立的模型，我们称为logisticlogistic模型模型（逻辑回归逻辑回归模型）。模型）。同时，经过变换得到的模型也解决了（2）中，概率的预测值可能是9我们在学习交叉列联表的相关知识的时候，提我们在学习交叉列联表的相关知识的时候，提到过到过优势或发生比优势或发生比（odds）和）和优势比或发生优势比或发生比率比率（odds ratio）的概念）的概念是事件发生于不发生的概率之比是事件发生于不发生的概率之比那么逻辑模型就可以写成那么逻辑模型就可以写成我们在学习交叉列联表的相关知识的时候，提到过优势或发生比（o10那么那么Xi增加一个单位增加一个单位ln(odds|xi+1)=ln(odds|xi)+i于是于是上式我们叫做优势比（上式我们叫做优势比（odds ratio）近似可看）近似可看成是在成是在Xi+1与与Xi两种情况下，事件发生的概两种情况下，事件发生的概率之比。率之比。则，则，PY=1|Xi+1PY=1|Xiexpi那么Xi增加一个单位11最终，我们可能关心的是根据自变量的值来最终，我们可能关心的是根据自变量的值来对对Y的取值的取值0或或1进行预测。而我们的逻辑回归进行预测。而我们的逻辑回归模型得到的只是关于模型得到的只是关于PY=1|x的预测。的预测。但是，我们可以根据模型给出的但是，我们可以根据模型给出的Y=1的概率的概率（可能性）的大小来判断预测（可能性）的大小来判断预测Y的取值。的取值。一般，以一般，以0.5为界限，预测为界限，预测p大于大于0.5时，我们时，我们判断此时判断此时Y更可能为更可能为1，否则认为，否则认为Y=0。最终，我们可能关心的是根据自变量的值来对Y的取值0或1进行预12对于逻辑模型对于逻辑模型模型系数的估计不能适用最小二乘估计模型系数的估计不能适用最小二乘估计（OLS）。）。这里，我可以运用最大似然估计（这里，我可以运用最大似然估计（MLE）的）的方法。方法。OLS通过使得样本观测数据的残差平方和最通过使得样本观测数据的残差平方和最小来选择参数，而小来选择参数，而MLE通过最大化对数似然通过最大化对数似然值来估计参数。值来估计参数。模型系数的确定模型系数的确定对于逻辑模型模型系数的确定13设设y是是0-1型变量，型变量，是与是与y相关的自变量，相关的自变量，n组观测数据为组观测数据为。于是。于是y1,y2,yn的似然函数为的似然函数为对数似然函数为对数似然函数为最大似然估计就是选取最大似然估计就是选取的估计值的估计值使得使得log似然函数最大化。似然函数最大化。设y是0-1型变量，是与y相关的自变14模型检验模型检验以下是关于模型拟合优度的度量以及模型参数检验的分析模型检验以下是关于模型拟合优度的度量以及模型参数检验的分析15 与任何概率一样，似然的取值范围在与任何概率一样，似然的取值范围在0,10,1之间。之间。2LL2LL的计算公式为的计算公式为其报告值越小说明似然函数值越大从而模型拟其报告值越小说明似然函数值越大从而模型拟合程度越好合程度越好两个模型之间显著性两个模型之间显著性似然比检验统计量似然比检验统计量的形式的形式为为 -2log(L-2log(L0 0/L/L1 1)=-2LL)=-2LL0 0-(-2LL-(-2LL1 1)（自由度为参数（自由度为参数个数之差的卡方分布）个数之差的卡方分布）L L1 1是更大参数空间上的模型的似然函数。是更大参数空间上的模型的似然函数。1-2对数似然值（对数似然值（-2 log likelihood，-2LL）与任何概率一样，似然的取值范围在0,1之间。216 Logistic Logistic回归的拟合优度统计量计算公式回归的拟合优度统计量计算公式为为Pearson Pearson 残差平方和残差平方和，在原假设（所建立的模，在原假设（所建立的模型与饱和模型没有显著性差异）下也服从自由型与饱和模型没有显著性差异）下也服从自由度为两个模型参数之差的卡方分布度为两个模型参数之差的卡方分布 2拟合优度（拟合优度（Goodness of Fit）统计）统计量量 Logistic回归的拟合优度统计量计算公式为2拟17Predicted（预测值）01Percent Correct（正确分类比例）Observed（观测值）0n00n01f01n10n11f1Overall（总计）ffClassification Table for YClassification Table for Y在实际问题中，通常采用如下在实际问题中，通常采用如下分类表分类表（Classification TableClassification Table）反映拟合效果。）反映拟合效果。Predicted（预测值）01Percent Correc183Cox和和Snell的的R 2（Cox&Snells R-Square）3Cox和Snell的R 2（Cox&Snells R-194Nagelkerke的的R 2（Nagelkerkes R-Square）4Nagelkerke的R 2（Nagelkerkes 205伪伪R 2（Psedo-R-square）伪伪R R2 2与线性回归模型的与线性回归模型的R R2 2相对应，其意义相对应，其意义相似，但它小于相似，但它小于1 1。5伪R 2（Psedo-R-square）伪R2与216Hosmer和和Lemeshow的拟合优度检验的拟合优度检验统计量统计量与一般拟合优度检验不同，与一般拟合优度检验不同，HosmerHosmer和和LemeshowLemeshow的拟合优度检验通常把样本数据根据的拟合优度检验通常把样本数据根据预测概率分为预测概率分为1010组，然后根据观测频数和期望组，然后根据观测频数和期望频数构造卡方统计量（即频数构造卡方统计量（即HosmerHosmer和和LemeshowLemeshow的的拟合优度检验统计量，简称拟合优度检验统计量，简称H-LH-L拟合优度检验拟合优度检验统计量），最后根据自由度为统计量），最后根据自由度为8 8的卡方分布计的卡方分布计算其值并对算其值并对LogisticLogistic模型进行检验。模型进行检验。6Hosmer和Lemeshow的拟合优度检验统计量 22 如果该如果该p p值小于值小于给定的显著性水平（如给定的显著性水平（如=0.05=0.05），则拒绝因变量的观测值与模型预测），则拒绝因变量的观测值与模型预测值不存在差异的零假设，值不存在差异的零假设，表明模型的预测值与表明模型的预测值与观测值存在显著差异观测值存在显著差异。如果值。如果值大于大于，我们没有，我们没有充分的理由拒绝零假设，充分的理由拒绝零假设，表明在可接受的水平表明在可接受的水平上模型的估计拟合了数据上模型的估计拟合了数据。如果该p值小于给定的显著性水平（如=0.05），则拒237Wald统计量（回归系数的非零检统计量（回归系数的非零检验）验）Wald Wald统计量用于判断一个变量是否应该包统计量用于判断一个变量是否应该包含在模型中，其检验步骤如下。含在模型中，其检验步骤如下。（1 1）提出假设。）提出假设。（2 2）构造）构造WaldWald统计量。统计量。（3 3）作出统计判断。）作出统计判断。7Wald统计量（回归系数的非零检验）Wald统计24 研究问题研究问题在一次关于某城镇居民上下班使用交通工在一次关于某城镇居民上下班使用交通工具的社会调查中，因变量具的社会调查中，因变量y=1y=1表示居民主要乘表示居民主要乘坐公共汽车上下班；坐公共汽车上下班；y=0y=0表示主要骑自行车表示主要骑自行车上下班；自变量上下班；自变量x1x1表示被调查者的年龄；表示被调查者的年龄；x2x2表表示被调查者的月收入；示被调查者的月收入；x3x3表示被调查者的性别表示被调查者的性别（x3=1x3=1为男性，为男性，x3=0 x3=0为女性）为女性）x3x3在这里是一个在这里是一个虚拟变量虚拟变量。试建立试建立y y与自变量间的与自变量间的LogisticLogistic回归，数据如回归，数据如表表7-77-7所示。所示。7.8.2 SPSS中实现过程中实现过程研究问题7.8.2 SPSS中实现过程25表表表表7-77-7使用交通工具上下班情况使用交通工具上下班情况使用交通工具上下班情况使用交通工具上下班情况序号序号x1（年龄）（年龄）x2（月收入：元）（月收入：元）x3（性别）（性别）y118850002211200003238500142395001528120001631850007361500018421000019469500110481200001155180001125621000113581800011418850101520100010162512001017271300101828150010193095011203210001021331800102233100010233812001024411500102545180011264810001027521500112856180011表7-7使用交通工具上下班情况序号x1（年龄）x2（月收入26 实现步骤实现步骤实现步骤27图图图图7-24 “Logistic Regression”7-24 “Logistic Regression”对话对话对话对话框框框框将因变量放入dependent栏，自变量放入covariates栏中图7-24 “Logistic Regression”对话28制定变量引入模型的方法制定变量引入模型的方法29逻辑回归分析课件30和线性回归一样，我们可以通过next按钮把自变量分成不同的组块，使不同的组块按顺序以不同的方式分步进入模型这里，我们可以把几个变量的乘积作为自变量引入模型作为交互影响项和线性回归一样，我们可以通过next按钮把自变量分成不同的组31如果自变量中有分类变量，在这里可以设置相应的虚拟变量如果自变量中有分类变量，在这里可以设置相应的虚拟变量32图图图图7-25 “Logistic Regression7-25 “Logistic Regression：Options”Options”对话对话对话对话框框框框Classification plots:制作分类图，通过比较因变量的观测值与预测值的关系，反映回归模型的拟合效果。Hosmer-Lemeshow goodness-of-fit:H-L检验。Casewise listing of residuals:显示个案的残差值（显示标准化残差超过两倍标准方差的个案或显示所有个案）Correlations of estimates:输出模型中各参数估计的相关矩阵。Iteration history:输出最大似然估计迭代过程中的系数以及log似然值。CI for exp(B):输出exp(beta)的置信区间，默认置信度为95%图7-25 “Logistic Regression：Op33根据概率对数据进行分类时的概率界限值，默认值为0.5参数估计时，似然函数值收敛到最大值前的最大迭代次数。选择输出结果的方式。显示每一步的计算结果或是只显示最后的结果设定自变量进入模型方程或被剔除出方程的标准。根据概率对数据进行分类时的概率界限值，默认值为0.5参数估计34在save选项中，我们可以选择需要保存的数据文件中的统计量。包括残差值、个案影响度统计量、预测概率值等等在save选项中，我们可以选择需要保存的数据文件中的统计量。35逻辑回归分析课件36 （1 1）第一部分输出结果有两个表格，第）第一部分输出结果有两个表格，第一个表格说明所有个案（一个表格说明所有个案（2828个）都被选入作为个）都被选入作为回归分析的个案。回归分析的个案。7.8.3 结果和讨论结果和讨论（1）第一部分输出结果有两个表格，第一个表格说明所有37 第二个表格说明初始的因变量值（第二个表格说明初始的因变量值（0 0，1 1）已经转换为逻辑回归分析中常用的已经转换为逻辑回归分析中常用的0 0、1 1数值。数值。第二个表格说明初始的因变量值（0，1）已经转换为逻辑38 （2 2）第二部分（）第二部分（Block 0Block 0）输出结果有）输出结果有4 4个表格。（个表格。（组块组块0 0里只有常数项，没有自变量里只有常数项，没有自变量）（2）第二部分（Block 0）输出结果有4个表格。39分类表分类表40逻辑回归分析课件41 （3 3）Omnibus Tests of Model Omnibus Tests of Model CoefficientsCoefficients表格列出了模型系数的表格列出了模型系数的Omnibus Omnibus TestsTests结果。结果。（3）Omnibus Tests of Model 42 （4 4）Model SummaryModel Summary表给出了表给出了-2-2 对数似对数似然值然值、CoxCox和和SnellSnell的的R2R2以及以及NagelkerkeNagelkerke的的R2R2检检验统计结果。验统计结果。（4）Model Summary表给出了-2 对数似43 （5 5）Hosmer and Lemeshow TestHosmer and Lemeshow TestP值大于0.05，说明模型有一定的解释能力（5）Hosmer and Lemeshow Tes44 （6 6）Classification TableClassification Table分类表说明第一次迭代结果的拟分类表说明第一次迭代结果的拟合效果，从该表格可以看出对于合效果，从该表格可以看出对于y=0y=0，有，有86.7%86.7%的准确性；对于的准确性；对于y=1y=1，有，有76.9%76.9%准确性，因此对于所有个案总共有准确性，因此对于所有个案总共有82.1%82.1%的准确性。的准确性。（6）Classification Table分类表45 （7 7）Variables in the EquationVariables in the Equation表格列出了表格列出了Step 1Step 1中各个变中各个变量对应的系数，以及该变量对应的量对应的系数，以及该变量对应的Wald Wald 统计量值和它对应的相伴概率。统计量值和它对应的相伴概率。从该表格中可以看出从该表格中可以看出x3x3相伴概率最小，相伴概率最小，WaldWald统计量最大，可见该变量在模统计量最大，可见该变量在模型中很重要型中很重要。回归系数的估计值系数的wald检验Exp(beta)的估计值以及区间估计（7）Variables in the Equati46 （8 8）Correlation MatrixCorrelation Matrix表格列出了常数表格列出了常数ConstantConstant、系数之间的相关矩阵。常数与、系数之间的相关矩阵。常数与x2x2之间的之间的相关性最大，相关性最大，x1x1和和x3x3之间的相关性最小之间的相关性最小。（8）Correlation Matrix表格列出了常47 （9 9）图）图7-267-26所示是观测值和预测概率分布所示是观测值和预测概率分布图。该图以图。该图以0 0和和1 1为符号，每四个符号代表一个为符号，每四个符号代表一个个案。横坐标是个案属于个案。横坐标是个案属于1 1的录属度，这里称的录属度，这里称为预测概率（为预测概率（Predicted ProbabilityPredicted Probability）。纵）。纵坐标是个案分布频数，反映个案的分布。坐标是个案分布频数，反映个案的分布。（9）图7-26所示是观测值和预测概率分布图。该图以048逻辑回归分析课件49 （1010）逻辑回归的最后一个输出表格是）逻辑回归的最后一个输出表格是Casewise ListCasewise List，列出了残差大于，列出了残差大于2 2的个案。的个案。（10）逻辑回归的最后一个输出表格是Casewise501.根据三个根据三个财务比率估比率估计公司破公司破产概率。（数据概率。（数据见ftp 财务比率与破比率与破产预测.sav）Y=0，若两年后破，若两年后破产Y=1，若两年后仍有若两年后仍有偿付能力付能力X1=未分配利未分配利润/总资产X2=支付利息税金前的利支付利息税金前的利润/总资产X3=销售售额/总资产按照习题模式，列出最终计算结果，并做出必要解释。按照习题模式，列出最终计算结果，并做出必要解释。（Logistic 模型最模型最终表达式表达式模型模型检验、拟合合优度度Wald 检验最最终分分类表、表、观测与与预测分布分布图系数相关矩系数相关矩阵）作业（共两题）1.根据三个财务比率估计公司破产概率。（数据见ftp 财务512.对于于1986年挑年挑战者号航天者号航天飞机灾机灾难之前的之前的23次航天次航天飞行，行，数据数据航天航天飞机机热遇遇险.sav给出了出了飞行行时温度和是否至少温度和是否至少有一个主要有一个主要O型圈遭受型圈遭受热遇遇险。（数据。（数据见ftp）a)利用利用logistic回归建立温度对热遇险概率的模型，并对效应回归建立温度对热遇险概率的模型，并对效应进行解释。进行解释。b)估计挑战者号飞行时温度为华氏估计挑战者号飞行时温度为华氏31度时的热遇险概率。度时的热遇险概率。c)温度为多少时，概率等于温度为多少时，概率等于0.50？在该温度下，给出温度每？在该温度下，给出温度每增加一度导致的概率估计值的线性近似变化。增加一度导致的概率估计值的线性近似变化。d)利用利用wald检验，检验不存在温度效应的假设检验，检验不存在温度效应的假设2.对于1986年挑战者号航天飞机灾难之前的23次航天飞行，52小小结结回归分析是研究变量与变量之间联系的最回归分析是研究变量与变量之间联系的最为广泛的模型。在实际中，根据变量的个数、为广泛的模型。在实际中，根据变量的个数、类型，以及变量之间的相关关系，回归分析通类型，以及变量之间的相关关系，回归分析通常分为一元线性回归分析、多元线性回归分析、常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分估计、含虚拟自变量的回归分析和逻辑回归分析等。析等。小结回归分析是研究变量与变量之间联系的最为广53小小结结一元线性回归只涉及一个自变量的回归问一元线性回归只涉及一个自变量的回归问题；多元线性回归用于解决两个或两个以上自题；多元线性回归用于解决两个或两个以上自变量对一个因变量的数量变化关系问题；非线变量对一个因变量的数量变化关系问题；非线性回归主要解决在非线性相关条件下，自变量性回归主要解决在非线性相关条件下，自变量对因变量的数量变化关系；时间序列的曲线回对因变量的数量变化关系；时间序列的曲线回归用于研究因变量与时间之间的变化关系；当归用于研究因变量与时间之间的变化关系；当遇到非数量型变量时，通过引入虚拟变量来构遇到非数量型变量时，通过引入虚拟变量来构造含虚拟变量的回归模型；造含虚拟变量的回归模型；LogisticLogistic回归分析回归分析是对定性变量进行的回归分析。是对定性变量进行的回归分析。小结一元线性回归只涉及一个自变量的回归问题；54小小结结 SPSS SPSS中中“Analyze”/“Regression”“Analyze”/“Regression”菜单菜单可用于回归统计分析。其中，一元线性回归、可用于回归统计分析。其中，一元线性回归、多元线性回归和含虚拟变量的回归分析可由多元线性回归和含虚拟变量的回归分析可由“Linear”“Linear”子菜单完成；非线性回归分析、曲子菜单完成；非线性回归分析、曲线估计和时间序列的曲线估计可由线估计和时间序列的曲线估计可由“Curve“Curve Estimation”Estimation”子菜单完成；逻辑回归分析可由子菜单完成；逻辑回归分析可由“Binary Logistic”“Binary Logistic”子菜单完成。子菜单完成。小结 SPSS中“Analyze”/“Regr55

展开阅读全文

逻辑回归分析课件

最新文档