第14章有序多分类逻辑斯蒂回归模型课件

上传人:痛*** 文档编号:241626569 上传时间:2024-07-11 格式:PPT 页数:32 大小:652KB
返回 下载 相关 举报
第14章有序多分类逻辑斯蒂回归模型课件_第1页
第1页 / 共32页
第14章有序多分类逻辑斯蒂回归模型课件_第2页
第2页 / 共32页
第14章有序多分类逻辑斯蒂回归模型课件_第3页
第3页 / 共32页
点击查看更多>>
资源描述
多元回归中的几种重要模型多元回归中的几种重要模型第一部分:多重共线情况的处理第一部分:多重共线情况的处理第第10章章 岭回归分析(岭回归分析(Ridge Regression)第二部分:自变量中含定性变量的处理第二部分:自变量中含定性变量的处理第第11章章 自变量中含有定性变量的回归分析自变量中含有定性变量的回归分析第三部分:第三部分:因变量中含有定性变量情况的处理因变量中含有定性变量情况的处理第第12章章 二项二项Logistic回归回归第第13章章 多项多项Logistic回归回归第第14章章(等级回归分析)(等级回归分析)第第15章章 Probit回归回归第第16章章 最佳尺度回归最佳尺度回归Logistic回归回归因变量因变量二项二项Logistic回归回归多项多项Logistic回归回归有序回归有序回归Probit回归回归第第14章章 有序回归有序回归(有序多分类因变量(有序多分类因变量Logistic回归)回归)14.1 有序回归的基本思想有序回归的基本思想14.2 有序回归的案例分析有序回归的案例分析研究中常遇到反应变量为有序多分类(研究中常遇到反应变量为有序多分类(k2)的资料,如城)的资料,如城市综合竞争力等级、满意度等可以划分为低、中、高。市综合竞争力等级、满意度等可以划分为低、中、高。与名义多分类因变量有所不同,定性有序多分类因变量采用与名义多分类因变量有所不同,定性有序多分类因变量采用累积累积logit模型模型,该模型可利用有序这一特点,得到比基线,该模型可利用有序这一特点,得到比基线-类别有更简单解释的模型。类别有更简单解释的模型。Y的累积概率是指的累积概率是指Y落在一个特定点的概率,对结果为类别落在一个特定点的概率,对结果为类别j时,其累积概率为:时,其累积概率为:累积概率满足:累积概率满足:累积概率的模型并不利用最后一个概率,因为它必然等于累积概率的模型并不利用最后一个概率,因为它必然等于114.1 有序回归的基本思想有序回归的基本思想pj=p(yj|x),它表示,它表示 y 取前取前 j 个值的累积概率个值的累积概率。累积概率函数:累积概率函数:14.1 有序回归的基本思想有序回归的基本思想 J等级分为两类:等级分为两类:1,j 与与 j+1,k在这两类的基础上定义的在这两类的基础上定义的 logit 表示表示:属于后属于后 k-j 个等级的累积个等级的累积概率与前概率与前j个等级的累积概率的优势的对数,故该模型称为累个等级的累积概率的优势的对数,故该模型称为累积优势模型积优势模型(cumulative odds model)。第一个模型表示了第一个模型表示了y 取第一个值的概率取第一个值的概率p1与与x的关系;第二个模的关系;第二个模型表示了型表示了y 取前两个值的累积概率取前两个值的累积概率p2与与x的关系。这两个模型的的关系。这两个模型的常数项不同常数项不同,回归系数完全相同的回归系数完全相同的。y 取第一个值的概率取第一个值的概率p(1)=p1,y 取第二个值的概率取第二个值的概率p(2)=p2-p1,y 取第三个值的概率取第三个值的概率p(3)=1-p2。它们的截距不同,斜率相同,所以是。它们的截距不同,斜率相同,所以是J-1条平行直线条平行直线族族。多值因变量多值因变量logistic回归模型要求进行数据的平行性检验回归模型要求进行数据的平行性检验。平行性检验(平行性检验(只适用于位置模型只适用于位置模型/位置参数位置参数/斜率系数)斜率系数)当因变量维多值变量时,模型包含多个回归方程。当因变量维多值变量时,模型包含多个回归方程。Logistic回回归分析要求这多个回归方程中自变量的系数是相等的。因此归分析要求这多个回归方程中自变量的系数是相等的。因此需要做平行行检验,也称为比例比数假设检验(需要做平行行检验,也称为比例比数假设检验(test fo the proportional odds assumption),使用的方法是计分检验法。),使用的方法是计分检验法。当当Pa时,接受平行的原假设。否则,应该时,接受平行的原假设。否则,应该将因变量的某些将因变量的某些值进行合并,减少因变量的取值个数值进行合并,减少因变量的取值个数,使得多值变量,使得多值变量logistic回归模型平行性成立。还可以回归模型平行性成立。还可以尝试其他链接函数尝试其他链接函数。如果各种连接函数都无法满足平行性假定,则需要考虑回归如果各种连接函数都无法满足平行性假定,则需要考虑回归系数是否会随着分割点而发生改变。此时最好系数是否会随着分割点而发生改变。此时最好使用无序多分使用无序多分类的类的Logistic 回归回归进行模型拟合,然后再根据系数估计值考进行模型拟合,然后再根据系数估计值考虑如何进行处理。虑如何进行处理。以以4 水平的反应变量为例,假设反应变量的取值为水平的反应变量为例,假设反应变量的取值为1、2、3、4,相应取值水平的概率为,相应取值水平的概率为p1、p2、p3、p4,则此时进行此时进行Logit 变换的分别为变换的分别为p1、p1+p2、p1+p2+p3,对,对k 个自变量拟个自变量拟合三个模型如下合三个模型如下:常数项不同常数项不同,回归系回归系数完全相同的数完全相同的张文彤版本的常数项张文彤版本的常数项前均为负号前均为负号根据上述公式,可以分别求出:根据上述公式,可以分别求出:由上述建立的模型可以看出,这种模型实际上是依次由上述建立的模型可以看出,这种模型实际上是依次将反应变量按不同的取值水平分割成两个等级,对这将反应变量按不同的取值水平分割成两个等级,对这两个等级建立反应变量为二分类的两个等级建立反应变量为二分类的Logistic 回归模型。回归模型。不管模型中反应变量的分割点在什么位置,模型中各不管模型中反应变量的分割点在什么位置,模型中各自变量的系数都保持不变,所改变的只是常数项自变量的系数都保持不变,所改变的只是常数项。此。此时求出的时求出的OR 值表示自变量每改变一个单位,反应变量值表示自变量每改变一个单位,反应变量提高一个及一个以上等级的比数比提高一个及一个以上等级的比数比。张文彤认为,这里拟合的模型中常数项之前的符号应张文彤认为,这里拟合的模型中常数项之前的符号应当是当是“负号负号”,原因在于此处的常数项正好表示低级别,原因在于此处的常数项正好表示低级别和高级别相比的情况,且必然有和高级别相比的情况,且必然有 ,但由于但由于研究者主要关心的是各参数(系数)的大小,因此这研究者主要关心的是各参数(系数)的大小,因此这种差异影响不大。并且由种差异影响不大。并且由SPSS给出的系数无需再添加给出的系数无需再添加符号。符号。某大学医院外科采用两种不同的绷带和两种不同的包扎某大学医院外科采用两种不同的绷带和两种不同的包扎方式进行腿溃疡的治疗处理。治疗的结果分三种:不愈、方式进行腿溃疡的治疗处理。治疗的结果分三种:不愈、有效和痊愈。试分析治疗方法对治疗效果的影响。有效和痊愈。试分析治疗方法对治疗效果的影响。设因变量设因变量 y 表示治疗效果,表示治疗效果,0=不愈、不愈、1=有效、有效、2=痊愈。痊愈。设自变量设自变量x1表示绷带种类,自变量表示绷带种类,自变量 x2 表示包扎方式。表示包扎方式。对于多值因变量模型,平行性假设决定了每个自变量的对于多值因变量模型,平行性假设决定了每个自变量的OR值对于前值对于前k-1个模型是相同的。例如,变量个模型是相同的。例如,变量x1的的OR=5.172,它,它表示使用第一种绷带治愈腿溃疡的可能性表示使用第一种绷带治愈腿溃疡的可能性是使用第二种绷带的是使用第二种绷带的5.172倍倍;它;它也表示使用第一种绷带也表示使用第一种绷带至少有效的可能性是使用第二种绷带的至少有效的可能性是使用第二种绷带的5.172倍倍。14.1 有序回归的基本思想有序回归的基本思想有序回归模型的类型:有序回归模型的类型:当定性因变量当定性因变量y取取k个顺序类别时,记为个顺序类别时,记为1,2,k,这,这里的数字里的数字1,2,k仅表示顺序的大小。仅表示顺序的大小。因变量因变量y取值于每个类别的概率仍与一组自变量取值于每个类别的概率仍与一组自变量x1,x2,xk 有关,对于样本数据有关,对于样本数据(xi1,xi2,xip;yi),i=1,2,n,顺序类别,顺序类别回归模型有两种主要类型,回归模型有两种主要类型,位置结构(位置结构(Location component)模型,位置模型,定位模)模型,位置模型,定位模型型规模结构(规模结构(Scale component)模型,尺度模型,定量模型)模型,尺度模型,定量模型l 位置结构模型(位置模型位置结构模型(位置模型/定位模型):定位模型):(1)l 规模结构模型规模结构模型(尺度模型尺度模型/度量模型度量模型,Scale):其中z是x1,x2,xp的一个子集,作为规模结构解释变量,(2)14.2 有序回归的案例分析有序回归的案例分析例:对某地人群调查其对所从事的工作是否满意,可能的影例:对某地人群调查其对所从事的工作是否满意,可能的影响因素有响因素有:年龄、性别、年收入水平、文化程度。变量的赋年龄、性别、年收入水平、文化程度。变量的赋值情况见下表,数据见文件值情况见下表,数据见文件satisfy.sav。试进行统计分析。试进行统计分析。变量的赋值情况如下:变量的赋值情况如下:警告信息说明自变量的各种取值水平组合中有多少其观察频警告信息说明自变量的各种取值水平组合中有多少其观察频数为数为0。由于数据库中变量。由于数据库中变量age 为连续性变量,所以这个比为连续性变量,所以这个比例显得较大,此种情况下属于正常现象。例显得较大,此种情况下属于正常现象。反应变量与离散自变量不同取值水平的边际频数分布反应变量与离散自变量不同取值水平的边际频数分布对模型中是否所有自变量偏回归系数全为对模型中是否所有自变量偏回归系数全为0 进行似然比进行似然比检验(判断规则:检验(判断规则:Pa,拟合较好),结果,拟合较好),结果P a,拟合较好。,拟合较好。当自变量很多或者自变量中存在连续性变量当自变量很多或者自变量中存在连续性变量时,这两个统计量不太适用。时,这两个统计量不太适用。这两个统计量有个致命的缺点是对于这两个统计量有个致命的缺点是对于自变量取值水平组合的实际观察频数为自变量取值水平组合的实际观察频数为0 的比例十分敏感,如果的比例十分敏感,如果上述比例过高,这两个统计量不一定仍旧服从卡方分布,因而基上述比例过高,这两个统计量不一定仍旧服从卡方分布,因而基于卡方分布计算的于卡方分布计算的P 值也不可信。即:这两个统计量不一定能真值也不可信。即:这两个统计量不一定能真实地反映模型拟合情况。当自变量中存在连续性变量时,如本例实地反映模型拟合情况。当自变量中存在连续性变量时,如本例中的年龄,常会导致上述比例过高。与上述两个统计量相比,似中的年龄,常会导致上述比例过高。与上述两个统计量相比,似然比卡方则要稳健得多。本例两个统计量对应的然比卡方则要稳健得多。本例两个统计量对应的P 值均小于值均小于0.05014.2 有序回归的案例分析有序回归的案例分析例:分析债权人如何确定申请者信用风险的问题,例:分析债权人如何确定申请者信用风险的问题,SPSS自带数据文件自带数据文件“信誉评价数据信誉评价数据.sav”因变量因变量Chist(账目情况)取值:没有贷款历史、现在(账目情况)取值:没有贷款历史、现在没有贷款、正在偿还、逾期偿还、拖欠贷款没有贷款、正在偿还、逾期偿还、拖欠贷款因子一般为因子一般为分类变量分类变量协变量一般为协变量一般为连续变量,也连续变量,也可以为二分类可以为二分类变量变量链接:指定链接函数链接:指定链接函数(联联系函数、连接函数系函数、连接函数),即即对模型估计中的对模型估计中的累积概累积概率的转换函数率的转换函数,根据因,根据因变量(反应变量)的情变量(反应变量)的情况选择况选择补充对数补充对数对数对数负对数负对数对数对数输出伪输出伪R方方检验系数在各响检验系数在各响应类别中是否相应类别中是否相同,仅适用于位同,仅适用于位置模型置模型输出累积频数、输出累积频数、概率的残差、观概率的残差、观测概率、预测概测概率、预测概率等内容率等内容把观测记录按因变量进行分类的估计概率,有把观测记录按因变量进行分类的估计概率,有几个水平就保存几个变量几个水平就保存几个变量保存最大的估计响应概率保存最大的估计响应概率保存预测正确时保存预测正确时的估计响应概率的估计响应概率保存模型的预测响应分类保存模型的预测响应分类位置模型设置:用于指定定位模型中的各种效应位置模型设置:用于指定定位模型中的各种效应尺度模型设置:设置与尺度模型有关的参数尺度模型设置:设置与尺度模型有关的参数案例处理摘要:可以案例处理摘要:可以看出,本例在链接函看出,本例在链接函数的选择上,可以选数的选择上,可以选择补充对数择补充对数对数,对数,也可以选择也可以选择Cauchit链接函数链接函数主要输出结果主要输出结果主要输出结果主要输出结果说明最终模型要优于说明最终模型要优于只含截距的模型,即只含截距的模型,即模型显著成立模型显著成立由于本例模型包含连续由于本例模型包含连续变量,故空单元格较多,变量,故空单元格较多,影响了统计量的计算和影响了统计量的计算和有效性。因此,本例基有效性。因此,本例基于卡方检验的拟合优度于卡方检验的拟合优度统计量不太可信统计量不太可信系数大都不够显著,原因可能是因变量的分类顺序不对,也可能是因为链系数大都不够显著,原因可能是因变量的分类顺序不对,也可能是因为链接函数选择不理想。接函数选择不理想。若协变量的参数估计之为正,那么对此变量取值越大的观测目标类别取值若协变量的参数估计之为正,那么对此变量取值越大的观测目标类别取值也越大,如也越大,如age变量显著且为正,表明年龄越大拖欠贷款的概率也越大。变量显著且为正,表明年龄越大拖欠贷款的概率也越大。平行检验:原假设是斜率系数(位置参数)在各响应类别中平行检验:原假设是斜率系数(位置参数)在各响应类别中都是相等的。由于都是相等的。由于Pa,否定原假设,说明各回归方程否定原假设,说明各回归方程不平行不平行如果平行性检验的如果平行性检验的P 值非常小,是不能就这样蒙混过关的。值非常小,是不能就这样蒙混过关的。其主要原因是链接函数选择不准确,或者系数的确在随着分其主要原因是链接函数选择不准确,或者系数的确在随着分割点发生变化。可以考虑其他链接函数以及使用无序多分类割点发生变化。可以考虑其他链接函数以及使用无序多分类模型。模型。根据所得到的模型预测方程和相关个案信息,即可进行根据所得到的模型预测方程和相关个案信息,即可进行预测,预测该个案的信誉属于哪一种类别。这对于银行预测,预测该个案的信誉属于哪一种类别。这对于银行贷款决策具有重要意义。贷款决策具有重要意义。例如,某申请者的信息为:申请例如,某申请者的信息为:申请48个月的贷款,个月的贷款,22岁,岁,有银行贷款,没有其他贷款,有住房,此时可以评估其有银行贷款,没有其他贷款,有住房,此时可以评估其信誉水平。信誉水平。把上述个案信息代入所得到的(把上述个案信息代入所得到的(k-1)个模型预测方程,)个模型预测方程,即可得到(即可得到(k-1)个估计值,再把这些估计值代入所选)个估计值,再把这些估计值代入所选择的链接函数的逆函数中,得到累计概率值,然后再根择的链接函数的逆函数中,得到累计概率值,然后再根据累积概率概率求出每个类别的预测概率,预测概率最据累积概率概率求出每个类别的预测概率,预测概率最大的类别即为该个案的类别,进而做出信誉类别的判断大的类别即为该个案的类别,进而做出信誉类别的判断练习练习1:儿童智力等级与母亲文化程度的关系:儿童智力等级与母亲文化程度的关系智商等级智商等级y母亲文化程度母亲文化程度小学小学初中初中高中或中高中或中专专大专及以上大专及以上合计合计x=0 x=1x=2x=31=中下中下22 57 11 1 912=中等中等81236112 44333=中上中上30135105102804=上等上等 3 26 17 7 53 合计合计1364542452285714.2 有序回归的案例分析有序回归的案例分析练习练习2:某研究者欲比较两个不同的药物治疗病情不同的某病:某研究者欲比较两个不同的药物治疗病情不同的某病的效果,临床试验数据如下表,试分析两种药物的治疗效果。的效果,临床试验数据如下表,试分析两种药物的治疗效果。两种药物对不同病程的某病治疗效果比较两种药物对不同病程的某病治疗效果比较药物药物病情病情疗效疗效痊愈(痊愈(2)有效(有效(1)无效(无效(0)甲药(甲药(0)轻(轻(1)183554重(重(0)51665乙药(乙药(1)轻(轻(1)354616重(重(0)19392414.2 有序回归的案例分析有序回归的案例分析本章结束!本章结束!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!