《Logistic回归》PPT课件.ppt

资源描述

第九章Logistic回归,（非条件Logistic回归）,第一节Logistic回归概述,一、Logistic回归目的：Logistic回归通常以离散型的分类变量（疾病的死亡、痊愈等）发生结果的概率为因变量，以影响疾病发生和预后的因素为自变量建立模型。研究分类变量（因变量）与影响因素（自变量）之间关系的研究方法。属于概率型非线性回归方法。因变量是分类变量（二分类、多分类）发生结果的概率。作出多个自变量（危险因素）估计应变量（非连续变量Y，是发生结果的概率）的回归方程。研究某现象发生与因素间关系也可以用X检验，但有局限性，仅能研究一个因素，且为定性结论。,二、与多重线性回归区别。,多重线性回归：自变量和因变量是连续变量；资料符合正态性、线性等条件要求；主要用于研究一个因变量与多个自变量之间依存关系。Logistic回归：主要用于筛选疾病的危险因素，作病因分析；控制和校正混杂因素的影响；其因变量是分类变量，自变量可以是分类变量，也可以是连续变量；自变量X与因变量Y之间无线性关系；属于概率型非线性回归方法。,三、Logistic回归的分类,Logistic回归主要分为：二分类和多分类两种。非条件Logistic回归，适用于成组设计、且因变量为二分类变量的资料；条件Logistic回归，适用于配对设计、且因变量为二分类变量的资料；多分类Logistic回归，适用于因变量为多分类变量的资料，分为有序和无序多分类Logistic回归分析两种。（结果为痊愈、显效、有效、无效/不同肝炎类型甲、乙、丙、丁、戊型的危险因素研究）,第二节非条件Logistic回归分析,一、Logistic回归模型：设Y为2分类变量的反应变量，结果有两种：Y=1表示某事件发生;Y=0表示某事件不发生。x为自变量可以是连续变量或分类变量。根据大量观察，反应变量阳性结果的概率P与自变量X的关系通常不是直线关系,而是曲线关系。,Logistic回归模型,此形式为概率预测模型，给定自变量的取值时，可估计概率。其中，P为概率；0为常数项；1、2、m为偏回归系数。Exp为指数函数。（曲线关系）,二、回归方程（线性函数表达式）,反应变量阳性结果的概率P与自变量X的关系通常不是直线关系，呈曲线关系；而自变量X与P和(1-P)比值的对数呈线性关系，因此Logistic回归模型P与X线性函数表达式为：logit（P）=ln()=0+11+mmP为事件发生的概率，1-P为事件不发生的概率。优势（比值）odds=；,三、模型参数的意义,三、模型参数的意义,三、模型参数的意义,四、优势比估计（及可信区间）,即ORj=exp(bj)。优势比的意义：利用参数和优势比探讨影响因素。,五、模型参数的估计,根据样本数据,可以通过统计软件求出Logistic回归模型的常数项0和各项回归系数，建立回归方程，描述和分析反应变量与自变量的关系。,参数估计,参数估计,标准化回归参数,标准化回归参数用于评价各自变量对模型的贡献大小。模型参数的估计通常用统计软件完成。根据样本数据,可以通过统计软件求出Logistic回归模型的常数项0和各项回归系数，在对回归系数进行检验后，建立回归方程，描述和分析反应变量与自变量的关系。,例题,为研究糖尿病与血压、血脂等因素关系，研究56例病人和65例正常人，结果如下，试进行分析。,变量赋值,也可设置哑变量,六、回归系数的假设检验,（一）Logistic回归方程的检验（对模型回归系数整体检验）：检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系，也即方程是否成立。检验的方法有似然比检验（likehoodratiotest）、比分检验（scoretest）和Wald检验（waldtest）。上述三种方法中，似然比检验最可靠，比分检验一般与它相一致，但两者均要求较大的计算量；而Wald检验未考虑各因素间的综合作用，在因素间有共线性时结果不如其它两者可靠。,似然比检验（likehoodratiotest）,通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行，其统计量为G（又称Deviance）。G=-2(lnLp-lnLk)样本量较大时，G近似服从自由度为待检验因素个数的分布。,似然比检验,当G大于临界值时，接受H1,拒绝无效假设，认为从整体上看适合作Logistic回归分析，回归方程成立。本例模型的似然比检验结果：X2=-2(lnLp-lnLk)=95.497,（二）单个回归系数假设检验,为了确定哪些自变量能进入方程，还需要对每个自变量的回归系数进行假设检验，判断其对模型是否有贡献。检验方法常用WaldX2检验，无效假设H0：=0。当X2大于临界值时，拒绝无效假设，自变量能进入方程。,七、变量筛选,从所用的方法看，有强迫法、前进法、后退法和逐步法。在这些方法中，筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量，而是以上介绍的参数检验方法中的三种统计量之一。为计算方便，通常向前选取变量用似然比或比分检验，而向后剔除变量常用Wald检验。,筛选结果,八、logistic回归模型拟合优度检验和预测准确度检验,（一）拟合优度检验：Logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近，说明模型的拟合效果越好。模型的拟合优度检验方法有偏差检验（Deviance）、皮尔逊（pearson）检验、统计量(Homser-Lemeshow),分别计算统计量X2D、X2P、X2HL值。统计量值越小，对应的概率越大。无效假设H0：模型的拟合效果好。模型拟合优度信息指标有：-2lnL、AIC、SC。这3个指标越小表示模型拟合的越好。,（二）预测准确度,预测准确度常用的有广义决定系数R2和预测准确率。广义决定系数R2包括Cox-Snell决定系数R2和NegelkerkeR2决定系数。与线性回归分析中的决定系数R2相似，取值在01之间，指标越大，说明变异中被模型解释的比例越大，模型预测的准确性越高。预测准确率。根据各例观察的解释变量，通过建立的回归模型，计算出相应的预测概率，以0.5为分界值，对各例观察进行重新分类后，正确者占总数的百分比。,逐步回归输出以下结果，预测正确的准确率占89.3%。,九、Logistic回归的应用：,1医学中Logistic回归主要用于筛选疾病的危险因素或预后因素，进行病因学分析。可以从众多的相关因素中筛选关系较密切的危险因素，并能对因素间的交互作用作分析，因此医学中Logistic回归常用于疾病的病因探讨与分析。2在进行较多自变量的Logistic回归分析时，要有足够的样本含量。在大多数情况下，模型的常数项没有意义，不需要对其进行解释和假设检验。,

展开阅读全文