10-Logistic-回归_装配图网

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第十章非线性回归：二元,Logistic,回归,教育程度,X1,X2,X3,小学：,1,1,0,0,初中：,2,0,1,0,高中：,3,0,0,1,大学：,4,0,0,0,以大学作为参照,为什么使用,logistic,回归,在许多实际问题中，经常遇到非数值型因变量。比如：,二分类：青少年是否在学、成功或失败、健康或不健康,多个有序分类：上等社会地位，中等社会地位，下等社会地位,多个无序分类：单身，目前在婚，离婚，寡居,线性回归模型不合适。相反，当因变量为分类变量时，必须使用其它回归分析方法,可用于处理分类因变量的统计分析方法有：判别分析,(,Discriminant,analysis),、,Probit,分析、,Logistic,回归分析和对数线性模型等,在社会科学中，应用最多的是,Logistic,回归分析,Logistic,的分类,由于因变量（,DV,）取值的不同，,logistic,又可分为,binary logistic,ordered logistic,（秩序,logistic,）,multinomial logistic,（多分类,logistic,）,当,DV,为,虚拟变量,时（即,0,，,1,分类），使用,binary logistic,当因变量为,有序分类,时（如上等社会地位，中等社会地位，下等社会地位），采用,ordered logistic,模型,当,DV,为,无序多分类,变量时，采用,multinomial,模型,这里只介绍一般的二分类（,Binary,）,logistic,模型，简称,Logistic,回归,Logistic,回归的基本原理（,I,）,Logistic,回归分析是对因变量为定性变量的回归分析。非线性,概率,回归,模型,其基本特点是：,因变量必须是二分类变量，若令因变量为,y,，则常用,y,1,表示“,yes”,，,y,0,表示“,no”,在在学与不在学的对照研究中，分别表示在学和对照组,不在学,自变量可以为分类变量，也可以为连续变量,Logistic,回归的基本原理（,II,）,从模型角度出发，把事件发生的情况定义为,Y=1,，事件未发生的情况定义为,Y=0,，这样取值为,0,、,1,的因变量可以写为：,比如，若因变量为是否在学，则最终的可能性只有两个：要么在学（事件发生），要么不在学（事件没发生）：,Logistic,回归的基本原理（,III,）,可采用多种方法对取值为,0,、,1,的,DV,进行分析（如：,%,或比例）,通常以,p,表示事件发生的概率（事件未发生的概率为,1-p,），并把,p,看作自变量,Xi,的线性函数,变量是否在学有两个取值，,1=,在学；,0=,否，则简单的回归模型为：,由于,y,是,0-1,型,baloni,分布,，,故有如下概率,分布：,基本概念,事件发生的概率,=p =,p(y,=1|x),事件不发生的概率,=,1-p,=,1-p(y=1|x),=,p(y,=0|x),发生比（,odds,）,=,Odds,：相对风险（,relative risk,），事件发生的概率与不发生的概率之比,对数发生比（,log odds,）,=,也是事件发生概率,p,的一个特定函数。通过,Logistic,转换，该函数可以写成,Logistic,回归的,logit,模型：,Logit,变换（对数单位转换）,logit,：“逻辑斯蒂概率单位”,log,istic probability un,it,存头取尾的缩写，,logit,p,可以称为“,p,的逻辑斯蒂概率单位”或简称为“逻辑斯蒂,p”,logit,p,一方面表达出它是事件发生概率,p,的转换单位；另一方面它作为回归的因变量就可以自己与自变量之间的依存关系保持传统回归中的模式,Logistic,回归模型（,I,）,Logistic,回归模型（,II,）,OR,Odds Ratio,参数估计,最大似然估计法,（,Maximum likelihood estimate,）,似然函数：,L=,P,i,对数似然函数：,lnL,=(,ln,P)=,ln,P,1,+ln P,2,+,ln,P,n,非线性迭代方法,Newton-,Raphson,法,参数检验：,-2LL,（,I,）,-2,对数似然值（,-2 log likelihood,，,-2LL,）：数值,越小越好,似然,(likelihood),即概率，由自变量观测值预测因变量观测值的概率,与任何概率一样，似然的取值范围在,0,、,1,之间,对数似然值,(log likelihood,，,LL),是其自然对数形式,由于取值范围在,0,1,之间的数的对数值为负数，所以对数似然值的取值范围在,0,至,-,之间,对数似然值通过最大似然估计的迭代算法计算,参数检验：,-2LL,（,II,）,因为,-2LL,近似服从卡方分布，且在数学上更为方便，所以,-2LL,可用于检验,Logistic,回归的显著性,-2LL,反映了在模型中包括了所有自变量后的误差，用于处理因变量无法解释的变异部分的显著性问题，又称为拟合劣度卡方统计量,(Badness-of-fit Chi-square),当,-2LL,的实际显著性水平大于给定的显著性水平,时，因变量的变异中无法解释的部分是不显著的，意味着回归方程的拟合程度越好,Logistic,回归系数的意义,从数学上讲，与多元线性回归分析中回归系数的解释并无不同：,b,i,表示,x,i,改变一个单位时，,logit,P,的平均变化量,Logistic,回归中的常数项（,b,0,）表示，在,不接触任何,潜在危险保护因素条件下，因变量发生与不发生事件的概率之比的对数值,Logistic,回归中的回归系数,（,b,i,）,表示，某一因素改变一个单位时，因变量发生与不发生事件的概率之比的对数变化值，即,OR,的对数值,Logistic,回归分析的基本命令,.,logit,y x1 x2,:,二元非线性回归的基本命令参数，输出回归系数,:,参与回归分析的变量，,y,为因变量，,x1,和,x2,为自变量,.,logistic,y x1 x2,:,二元非线性回归的基本命令参数，输出发生比,.xi:,logit,enroll age girl,i.,sibs,if age12,i.sibs,_Isibs_0-2 (naturally coded;_Isibs_0 omitted),Iteration 0:log likelihood=-361.07032,Iteration 1:log likelihood=-315.29173,Iteration 2:log likelihood=-311.064,Iteration 3:log likelihood=-310.99469,Iteration 4:log likelihood=-310.99464,Logistic regression Number of,obs,=789,LR chi2(4)=100.15,Prob,chi2 =0.0000,Log likelihood=-310.99464 Pseudo R2 =0.1387,-,enroll|,Coef,.Std.Err.z P|z|95%Conf.Interval,-+-,age|-.7678598 .0877037 -8.76 0.000 -.9397559 -.5959637,girl|.197315 .2112009 0.93 0.350 -.2166311 .6112611,_Isibs_1|-.214453 .2296539 -0.93 0.350 -.6645664 .2356604,_Isibs_2|-.8062853 .397851 -2.03 0.043 -1.586059 -.0265118,_cons|13.41728 1.39888 9.59 0.000 10.67553 16.15903,-,Log likelihood,即对数似然值,，,乘以,2,即为,-2LL,，,是模型的估计方法。在进行逐步回归时,，,通过比较不同模型的,-2LL,，,判断模型的适应程度,取值越小，模型的适应性越好,取值越大，模型的效果越差,LR chi2(4),即为卡方检验统计量，,Prob,chi2,是其,p,值,LR chi2,为回归模型无效假设,(,即所有协变量的发生比均为,1),所对应的似然比检验量,(,其自由度为协变量个数的卡方,),它们与线性回归的,F,统计量和其,p,值的功能大体一致,0.0000,数值表明，该模型是显著的,统计量,Pseude,R2,是伪决定系数,R2,。虽不完全等于,R2,，但大致提供模型中自变量对因变量变异的解释能力,Coef.,是每个,自变量对应的系数估计值。在,logistic,回归分析中，该系数为对数；,Std.Err.,即系数相应的标准误；,OLS,通过,t,检验来判断自变量对因变量的影响是否显著，,logistic,模型使用,z,检验来达到该目的,z,是单个系数检验的统计量；,P|z|,是系数检验的,p,值,最后一列为系数,95%,的置信区间,但是，由于系数为对数，不能像线性回归系数那样进行直接解释。需要将其利用上述公式转换为风险比后，系数才有更明确的意义。若否，则不能直接将系数解释为自变量对因变量的影响程度,比如，年龄是数值变量。随着年龄的增长，孩子在学的概率显著降低，但我们不能将系数解释为“孩子的年龄每增加一岁，在学概率降低,76.79%”,事实上，我们并不知道年龄对在学概率的影响程度，虽然我们知道其影响性质和显著水平。对变量,girl,来说，女孩的在学概率高于男孩，不知道二者的差别有多大,但可以使用发生比（,OR,）来解释,.xi:logistic,enroll age girl,i.sibs,if age12,i.sibs,_Isibs_0-2 (naturally coded;_Isibs_0 omitted),Logistic regression Number of,obs,=789,LR chi2(4)=100.15,Prob,chi2 =0.0000,Log likelihood=-310.99464 Pseudo R2 =0.1387,-,enroll|Odds Ratio Std.Err.z P|z|95%Conf.Interval,-+-,age|.4640051 .040695 -8.76 0.000 .3907232 .5510313,girl|1.218128 .2572696 0.93 0.350 .805227 1.842754,_Isibs_1|.8069827 .1853267 -0.93 0.350 .5144966 1.265744,_Isibs_2|.4465136 .1776459 -2.03 0.043 .2047309 .9738366,-,Odds Ratio,：变量所对应的风险比；,Std.Err.,即相应的风险比的标准误；,z,是单个风险比,=1,的检验的,Z,统计量；,P|z|,是单个风险比,=1,的检验的,p,值,由风险比（,Odds Ratio,）可知,样本的年龄每增长一岁，他们的在学概率降低,46.4%,女孩的在学概率比男孩高,22%,与独生子女相比,有一个姊妹的孩子的在学概率下降,20%,有两个姊妹的孩子的在学概率不到独生子女的一半,

展开阅读全文

10-Logistic-回归

最新文档