第13章无序多分类逻辑斯蒂回归模型

上传人:痛*** 文档编号:189742629 上传时间:2023-02-23 格式:PPT 页数:23 大小:273.50KB
返回 下载 相关 举报
第13章无序多分类逻辑斯蒂回归模型_第1页
第1页 / 共23页
第13章无序多分类逻辑斯蒂回归模型_第2页
第2页 / 共23页
第13章无序多分类逻辑斯蒂回归模型_第3页
第3页 / 共23页
点击查看更多>>
资源描述
多元回归中的几种重要模型多元回归中的几种重要模型 第一部分:多重共线情况的处理第一部分:多重共线情况的处理 第第10章章 岭回归分析(岭回归分析(Ridge Regression)第二部分:自变量中含定性变量的处理第二部分:自变量中含定性变量的处理 第第11章章 自变量中含有定性变量的回归分析自变量中含有定性变量的回归分析 第三部分:第三部分:因变量中含有定性变量情况的处理因变量中含有定性变量情况的处理 第第12章章 二项二项Logistic回归回归 第第13章章 多项多项Logistic回归回归 第第14章章 有序回归有序回归(等级回归分析)(等级回归分析)第第15章章 Probit回归回归(概率单位回归)(概率单位回归)第第16章章 最佳尺度回归最佳尺度回归 本章总结本章总结 Logistic回归回归因变量因变量二项二项Logistic回归回归多项多项Logistic回归回归有序回归有序回归Probit回归回归第第13章章 多项多项Logistic回归回归(无序多分类(无序多分类Logistic回归)回归)13.1 无序多分类无序多分类Logistic回归的基本思想回归的基本思想 13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析13.1 无序多分类无序多分类Logistic回归的基本思想回归的基本思想 设因变量有设因变量有k个取值水平,个取值水平,可以对其中的可以对其中的k-1个取值水个取值水平各做一个回归方程平各做一个回归方程。设因变量第。设因变量第i个水平的个水平的Logistic回归模型:回归模型:这样这样对于每一个模型都可以获得一组回归系数对于每一个模型都可以获得一组回归系数。根据因变量(响应变量)类型的不同,分两种情况:根据因变量(响应变量)类型的不同,分两种情况:因变量为定性名义变量:各类之间地位相等因变量为定性名义变量:各类之间地位相等 因变量为定性有序变量:各类之间存在程度、先后因变量为定性有序变量:各类之间存在程度、先后之分之分1,2,1 ,)1ln(10kixppmppipiii13.1 无序多分类无序多分类Logistic回归的基本思想回归的基本思想 当当名义因变量(响应变量)名义因变量(响应变量)有多个类别时,有多个类别时,一般通过一种叫一般通过一种叫广义广义Logit模型的方法进行模型的方法进行。即:多项。即:多项Logistic模型采取把每个模型采取把每个类别与一个参考类别配成对,通常取最后一类为基线类别与一个参考类别配成对,通常取最后一类为基线/参照参照类别,称为基线类别,称为基线-类别类别Logistic,预测变量为预测变量为x的基线的基线-类别类别logit模型为:模型为:模型共有模型共有J-1个方程,每个方程有不同的参数,这些效个方程,每个方程有不同的参数,这些效应依据与基线配对的类别而变化;应依据与基线配对的类别而变化;不管哪个类别作为参照,对于同一对类别都会有相同不管哪个类别作为参照,对于同一对类别都会有相同的参数估计;即参照类别的选择是任意的。的参数估计;即参照类别的选择是任意的。ln(),1,1jjjJx jJ 以以Y分三类情形为例。分三类情形为例。假定因变量假定因变量Y为分类变量,类数为为分类变量,类数为3,各类之间,各类之间无顺序之分无顺序之分,且假定且假定Y的取值分别为的取值分别为a、b、c,选,选Ya为为b和和c的共同参照的共同参照组,则有以下模型:组,则有以下模型:Pa+Pb+Pc=1,实质上通过两个二维逻辑回归方程,实质上通过两个二维逻辑回归方程 就可以处理三就可以处理三分类情形。分类情形。如果希望比较如果希望比较b和和c两组,则直接将上述两方程相两组,则直接将上述两方程相减即可得到相应函数。减即可得到相应函数。ppbbxxaYPbYPitP1111lnlogppccxxaYPcYPitP2121lnlog01lnlnlogaaaPPitP13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析 例题:研究例题:研究不同学校不同学校和和不同课程计划不同课程计划对对学生学习方式偏好学生学习方式偏好的的影响,得到数据如下表。试进行影响,得到数据如下表。试进行logistic回归分析。数据文件:回归分析。数据文件:“学习偏好学习偏好.sav”学校学校school课程计划课程计划program学生偏好的学习方式学生偏好的学习方式自修自修小组小组上课上课1常规常规101726附加附加512502常规常规211726附加附加1612263常规常规151516附加附加121220 SPSS操作步骤:操作步骤:1、建立数据文件;、建立数据文件;2、数据数据加权个案加权个案 3、分析、分析回归回归多元多元logistic回归回归 4、学习方式、学习方式因变量;学校、课程计划因变量;学校、课程计划因子因子 5、确定(其他选项默认)、确定(其他选项默认)13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析 默认参考类别为最后一类,也可重新设定默认参考类别为最后一类,也可重新设定因变量和因子因变量和因子都都必须必须为为分类变量分类变量协变量:不能够控制和不感兴趣协变量:不能够控制和不感兴趣的变量。例如,当研究学习时间的变量。例如,当研究学习时间对学习绩效的影响,学生原来的对学习绩效的影响,学生原来的学习基础、智力、学习兴趣就是学习基础、智力、学习兴趣就是协变。协变。在实验的设计中,协变量是一个在实验的设计中,协变量是一个独立变量(解释变量),不为实独立变量(解释变量),不为实验者所操纵,但仍影响实验结果。验者所操纵,但仍影响实验结果。例如,研究教学方法对学生成绩例如,研究教学方法对学生成绩的影响,学生原来的学习基础就的影响,学生原来的学习基础就是你所不能控制的,只能尽量消是你所不能控制的,只能尽量消除其影响。除其影响。协变量可以为分类变量和连续协变量可以为分类变量和连续变量变量用于设置区分类别的顺序,升序用于设置区分类别的顺序,升序则取值最小的类为第一类,降序则取值最小的类为第一类,降序则取值最小的类为最后一类则取值最小的类为最后一类指定模型指定模型主效应:表示模型中只包含些变主效应:表示模型中只包含些变量和因素变量的主效应量和因素变量的主效应全因子:表示模型中包含所有主全因子:表示模型中包含所有主效应以及它们之间所有可能的交效应以及它们之间所有可能的交互效应互效应设定设定/步进式:由用户自行选择使步进式:由用户自行选择使用哪些效应进行分析,选中之后用哪些效应进行分析,选中之后激活下面的选项激活下面的选项强制输入项:进入的效应强制出强制输入项:进入的效应强制出现在模型中现在模型中步进项:选入此列表的效应将以步进项:选入此列表的效应将以逐步回归的方式加入模型逐步回归的方式加入模型建立项:用来指定效应的种类,建立项:用来指定效应的种类,可供选择的有可供选择的有6种种步进法:给出了步进法:给出了4种步进方法种步进方法输出逐步回归的判别标准,输出输出逐步回归的判别标准,输出Akaike信息标准(信息标准(AIC)和施瓦)和施瓦兹兹-贝叶斯信息标准(贝叶斯信息标准(BIC),越),越小越好小越好用于指定一个小于用于指定一个小于1 1的正数,此数的正数,此数将被添入分类变量交叉标的空单元将被添入分类变量交叉标的空单元格中,有助于稳定算法,防止出现格中,有助于稳定算法,防止出现较大的估计偏差较大的估计偏差对所有因自变量和协变量计算单对所有因自变量和协变量计算单元概率,并进行拟合优度检验元概率,并进行拟合优度检验把观测记录按照因变量把观测记录按照因变量进行分类的估计概率,进行分类的估计概率,因变量有几个水平就保因变量有几个水平就保存几个变量存几个变量保存模型的预测响应分类保存模型的预测响应分类保存最大的预测响应概率保存最大的预测响应概率保存预测正确时的估计保存预测正确时的估计响应概率响应概率 该表为总模型的似然比检验结果,可见最终模型和只含该表为总模型的似然比检验结果,可见最终模型和只含有常数项的初始模型相比,有常数项的初始模型相比,-2LL值从值从78.128下降至下降至51.303,下降了,下降了26.825,似然比卡方检验的,似然比卡方检验的P-值小于值小于0.05,说明模型整体是显著的。,说明模型整体是显著的。伪伪R2指标,此处因只有分类变指标,此处因只有分类变量,所以三个决定系数都非常量,所以三个决定系数都非常低,不过在低,不过在Logistic模型分析中模型分析中它们的用处不太大。它们的用处不太大。拟合优度检验:检验的零假设是模型能很好的拟合拟合优度检验:检验的零假设是模型能很好的拟合原始数据,从原始数据,从sig.看,均远大于看,均远大于0.05,不能否定原假,不能否定原假设,即最终模型的显著成立。设,即最终模型的显著成立。似然比检验似然比检验 该表结果表明,在该表结果表明,在5%的显著水平下,两个变量的作用的显著水平下,两个变量的作用都是显著的。都是显著的。其中其中:school=3和和program=2为参照,因此其参数为为参照,因此其参数为0。0.593 1.1341 0.07620.6180.6030.6541 0.32120.635pLnschoolschoolprogramppLnschoolschoolprogramp 自修上课小组上课变量变量“school1”回归系数为负值,显著不为零,表明:自修与上课两种回归系数为负值,显著不为零,表明:自修与上课两种学习方式相比,学校学习方式相比,学校1的学生比学校的学生比学校3的学生更容易选择上课的学生更容易选择上课学校学校2与学校与学校3的学生的选择则没什么差别。的学生的选择则没什么差别。常规课程计划的学生比附加学习计划的学生更容易选择自修学习方式;常规课程计划的学生比附加学习计划的学生更容易选择自修学习方式;常规课程计划的学生更偏好小组学习。常规课程计划的学生更偏好小组学习。0.593 1.1341 0.07620.618pLnschoolschoolprogramp 自修上课冗余参数:研究冗余参数:研究者不感兴趣的参者不感兴趣的参数,此处是被固数,此处是被固定参考类别定参考类别 在实际应用中,分类自变量在实际应用中,分类自变量(如婚姻状况如婚姻状况)各哑变量的偏各哑变量的偏回归系数可能其中某一回归系数可能其中某一(几几)个有统计学意义,而其他的个有统计学意义,而其他的没有统计学意义(没有统计学意义(Pa)。此时建议保留该自变量。)。此时建议保留该自变量。分类表:是根据观测频分类表:是根据观测频率和预测频率统计得到率和预测频率统计得到的。对角线上的单元个的。对角线上的单元个代表判断正确的个数或代表判断正确的个数或概率,非对角线则为判概率,非对角线则为判错的个数或概率。可以错的个数或概率。可以看出,模型仍有改进的看出,模型仍有改进的余地。余地。观测频率和预测频率:较为接近,拟合不错观测频率和预测频率:较为接近,拟合不错 练习:早餐习惯受生活方式、性别等因素的影响。某块三公练习:早餐习惯受生活方式、性别等因素的影响。某块三公司为了提高其早餐的市场份额,对司为了提高其早餐的市场份额,对880名消费者做了一次调名消费者做了一次调查,见数据查,见数据“早餐偏好调查数据早餐偏好调查数据.sav”,问卷提出了年龄段、,问卷提出了年龄段、性别、生活方式、早餐、婚否等问题,其中早餐性别、生活方式、早餐、婚否等问题,其中早餐=1表示不表示不吃,吃,=2表示吃麦片,表示吃麦片,=3表示吃谷物。试分析各因素对早餐表示吃谷物。试分析各因素对早餐的影响。的影响。13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析 练习:小布什为捍卫家庭荣誉与民主党总统候选人克里围绕练习:小布什为捍卫家庭荣誉与民主党总统候选人克里围绕新一届总统大选进行新一届总统大选进行“殊死搏斗殊死搏斗”以试图打破以试图打破“赢了战争却赢了战争却丢了总统宝座丢了总统宝座”的怪圈。这里回顾一下老布什与克林顿在的怪圈。这里回顾一下老布什与克林顿在1992 年进行的较量,当时还有独立候选人佩罗先生。数据年进行的较量,当时还有独立候选人佩罗先生。数据文件为文件为“vote.sav”,变量有,变量有:pres92,所欲选的总统候选人,所欲选的总统候选人;age,年龄,年龄;agecat,年龄分组,年龄分组;educ,受教育年数,受教育年数;degree,最高学历最高学历;sex,性别。试对其拟合反应变量为无序多分类,性别。试对其拟合反应变量为无序多分类的的Logistic 回归,看看哪些因素导致了老布什的败北,小布回归,看看哪些因素导致了老布什的败北,小布什应从中吸取哪些教训。什应从中吸取哪些教训。13.2 无序多分类无序多分类Logistic回归的案例分析回归的案例分析本章结束!本章结束!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 成人自考


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!