资源描述
按一下以編輯母片標題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,*,按一下以編輯母片標題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,精品课件,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,第九章,Logistic,回归分析,第九章 Logistic回归分析,9.1Logistic回归分析概述,问题,1,:研究消费者的不同特征如何影响是否购买小轿车时,消费者的年龄、年收入、职业、性别等因素将作为解释变量,是否购买作为被解释变量,此时的被解释变量是一个二分类变量。,问题,2,:在研究消费者特征对某种商品的品牌选择取向时,品牌作为被解释变量,由于候选品牌多样,因此是一个多分类问题。,2,9.1Logistic回归分析概述问题1:研究消费者的不同特,问题,3,:在流行病学的研究中,有一类常见问题是探索某疾病的危险因素,同时根据危险因素预测某疾病发生的概率。例如,想探讨胃癌发生的危险因素,选择两组人群,一组胃癌患者,另一组非胃癌患者,这形成了因变量。两组人群肯定有不同的体征和生活方式,自变量可以包括很多,例如:年龄、性别、饮食习惯、幽门螺杆菌感染等。,注:以上问题的共同点是因变量不是连续型变量,而是分类变量。,3,问题3:在流行病学的研究中,有一类常见问题是探索某疾病的危险,若因变量是被解释变量,则一般线性模型会出现以下问题:,对于任意给定的 值,残差 也变成了离散型变量,不是正态分布,因此导致无法进行相应的统计推断。,对于任意给定的 值,残差 也不再满足,即当被解释变量出现分类变量时,如果建立普通的回归模型会违背回归模型的前提假设。此时采用的建模,4,若因变量是被解释变量,则一般线性模型会出现以下问题:4,方法是,Logistic,回归分析。,Logistic,回归分析,二项,Logistic,回归分析:,Y,为二分类,多项,Logistic,回归分析:,Y,为多分类,5,方法是Logistic回归分析。Logistic回归分析二项,1967,年,Truelt J,,,Connifield J,和,Kannel W,在,Journal of Chronic Disease,上发表了冠心病危险因素的研究,较早将,Logistic,回归用于医学研究。,6,6,9.2二项Logistic回归分析,二项,Logistic,回归方程:,设 ,称 为发生比(,Odds,)或相对风险,则定义,7,9.2二项Logistic回归分析二项Logistic回归方,模型的评价:,二项,Logistic,回归模型很好的体现了概率,P,值和解释变量之间的非线性关系。,二项,Logistic,回归模型本质是一个二分类的线性概率模型。,通过模型计算,P(Y=1),和,P(Y=0),的概率,经过比较两个概率的大小,可以对样本进行类别预测。,8,模型的评价:8,发生比(相对风险,胜算,,odds,)的意义:,Odds,:,某事件发生概率与不发生概率之,比。,例如:考上大学的概率为,0.25,,,则考上大学的,odds,为,0.25/0.75=0.3333,:,1=1:3,,可以解释为考上与考不上之比为,1,:,3,同理,可以计算考不上大学的,odds,为,0.75/0.25=3:1,,可以解释为考不上与考上之比为,1,:,3,9,发生比(相对风险,胜算,odds)的意义:9,相对风险比(胜算比,,odds ratio,)的意义,0dds ratio,:在自变量处于不同的水平时的胜算,加以比较(两个胜算的比值,),,称为胜算比。,例如:大公司成功经营的概率为,10/11,,小公司成功经营的概率为,2/13,,,则大公司成功经营的胜算为(,10/11,),/,(,1/11,),=10,小公司成功经营的胜算为(,2/13,),/,(,11/13,),=0.182,即,Odds ratio=10/0.182=55,,,即可以解释为大公司的成功胜算为小公司成功胜算的,55,倍。,10,相对风险比(胜算比,odds ratio)的意义10,二项,Logistic,回归方程系数的含义:,因为 ,,当自变量 增加一个单位时,则有,于是:,即表明:当其它解释条件不变时,增加一个单位时所导致的相对风险是原来相对风险的 倍。即控制其它变量不变时,,x,增加一个单位的相对风险比,即,x,在不同水平时的,二者的,Odds radio,是 。,11,二项Logistic回归方程系数的含义:11,二项,Logistic,回归方程的参数估计:,一般的线性回归模型适合于使用最小二乘法进行估计,但是,由于,Logistic,回归模型中随机扰动项并不满足经典假设,所以需要使用极大似然法估计。,估计就是使,Ln(L),达到最大的 。,12,二项Logistic回归方程的参数估计:12,二项Logistic回归方程的检验,回归方程的显著性检验,目的:检验解释变量全体与,LogitP,的线性关系是否显著,是否可以用线性模型拟合。,检验思想:设没有引入任何解释变量的回归方程的似然函数为 ,引入解释变量之后回归方程的似然函数值为 ,则似然比为 。显然,且 越接近于,1,,则表明模型中的解释变量对模型总体没有显著贡献;反之,越接近于,0,,则表明引入变量对模型具有显著贡献。,13,二项Logistic回归方程的检验回归方程的显著性检验13,方法:似然比卡方检验,统计量的观测值越大越好,或观测值对应的概率,p,值,,pa,接受原假设,认为回归方程整体不显著。,14,方法:似然比卡方检验14,回归系数的显著性检验,目的:需要对每个回归系数的显著性进行检验。,检验思想:通过构造,Wald,统计量进行检验,,Wald,统计量和似然比统计量都是极大似然估计方法中常用的检验统计量。,方法:,15,回归系数的显著性检验15,模型拟合优度的评价与检验,目的:第一,回归方程能够解释被解释变量变差的程度,即线性回归的部分能解释,LogitP,的程度,这一点与一般线性回归分析是相同的;第二,由回归方程得到的概率进行分别判别的准确率。,方法:,第一目的:统计量和,统计量,第二目的:混淆矩阵(错判矩阵)和,Hosmer-Lemeshow,检验,16,模型拟合优度的评价与检验16,统计量,=,,,N,为样本容量。,该统计量类似于一般线性模型中的,R,方,统计量的值越大表明模型的拟合优度越高。不足之处在于其取值范围无法确定,不利于模型之间的比较。,统计量,=,该统计量的取值范围为,0,1,,值越大表明模型拟合程度越高,越接近于,0,说明模型拟合优度越低。,17,统计量=,混淆矩阵(错判矩阵),总体正确率 代表了预测正确的样本所占的比例,当然该值越大表明预测能力越强。错判矩阵是一种常用的评价各种分类判别模型优劣的方法。,18,混淆矩阵(错判矩阵)18,HosmerLemeshow,检验:通过模型可以计算出给定解释变量取值时被解释变量取,1,的概率预测。如果模型拟合较好,则应给实际值为,1,的样本以较高的概率,给实际值为,0,的样本以低的概率预测值。于是对概率预测值进行分位数分组(通常为,10,分位数,将样本分为,10,组),预测概率大小分得的,10,组和实际观测值,0/1,类别分组形成了,交叉列联表,。由观测频数和期望频数计算卡方统计量,即,HosmerLemeshow,统计量,它服从自由度为,n-2,的卡方分布,,n,为组数。,19,HosmerLemeshow检验:通过模型可以计算出给定解,20,20,HosmerLemeshow检验的原假设:观测频数的分布与期望频数分布无显著差异。HosmerLemeshow统计量的值越小,pa,拟合效果越好;反之,则拟合效果不好。,21,HosmerLemeshow检验的原假设:观测频数的分布与,设置虚拟变量,通常在线性回归分析中,作为解释变量的自变量是数值型变量,它对被解释变量有线性解释作用。在实际应用中,尤其在二项,Logistic,回归模型中,自变量也有可能是分类型的变量。,由于分类型的变量各个类别之间是非等距的,通常不能像数值型那样直接作为解释变量进入回归方程,一般需要将其转化为,虚拟变量(也称哑变量),后再参与分析。这样可以更好的研究各类别对解释变量影响的差异性。,22,设置虚拟变量通常在线性回归分析中,作为解释变量的自变量是数值,虚拟变量:将分类的各个类别分别以,0/1,二值变量的形式重新编码,用,1,表示属于该类,,1,表示不属于该类。,例如:,(,1,)“性别”需要一个虚拟变量,值,1,定义为“男”,则值,0,定义为“女”。,(,2,)“满意度”需要,2,个虚拟变量,两个变量值为,(,1,,,0,)定义为“高”,(,0,,,1,)定义为“中”,,(,0,,,0,)定义为“低”。,23,虚拟变量:将分类的各个类别分别以0/1二值变量的形式重新编码,注:对于具有n个类别的分类变量,需要n-1个虚拟变量即可。,参照类别:虚拟变量值全部定义为0的类别是参照类别。例如上一个例子中的“女”,“低”。,在Logistic回归模型中各虚拟自变量回归系数的含义是相对于参照类别,其它各类别对被解释变量平均贡献的差。进而可以研究各类别间对被解释变量的平均贡献差异。,24,注:对于具有n个类别的分类变量,需要n-1个虚拟变量即可。2,应用举例,例:为研究和预测某商品消费特点和趋势,收集了以往的消费数据,变量有是否购买、年龄、性别和收入水平。除年龄外,其余变量都是分类变量。是否购买是被解释变量,其余都是解释变量。分析目标:建立客户购买的预测模型,分析影响因素。,25,应用举例例:为研究和预测某商品消费特点和趋势,收集了以往的消,被解释变量,解释变量栏,可以产生交互项,筛选变,量策略,26,被解释变量解释变量栏可以产生交互项筛选变26,注:个人喜欢使用相对简单明了的Indicator方法,至于哪一个类别作为参考类别,会因具体问题而定。,27,27,注:在Logistic回归分析中,如果不关心迭代的历史和筛选变量的过程,可以不做选择。,28,28,注:在保存变量中一般最关心概率的预测值和类别的预测值。一般以0.5为分割点,预测概率大于0.5,预测为Y=1;预测概率小于0.5,预测为Y=0。,29,29,注:因变量和哑变量的编码是非常重要的信息,对于模型参数的解读和模型的分析都非常中重要。,30,30,注:初始模型,一般从全模型开始。Age没有通过检验,income这一类变量通过了,但是其中某一个哑变量没有通过,经验做法是这一类哑变量全部保留。,31,31,注:模型整体的线性没通过检验,但是拟合指标显示,模型的拟合程度并不好。Logistic回归模型的参数估计值是采用迭代算法获得,因此需要迭代收敛,32,32,注:因为pa,所以认为样本实际值得到的分布与预测值得到的分布无显著差异,模型拟合优度较好。,33,33,注:模型整体的准确度不高,对不购买人群的准确率极高,对购买人群的准确率很低。,34,34,注:预测类别图上可以看出,预测概率在0.4附近的样本预测准确率相对最低。事实上,无论用什么分类方法,这类样本身就是最难预测的。,35,35,注:这是采用向前LR的筛选策略进行变量选择。目前保存在模型中的变量都是通过了参数的显著性检验。,36,36,注:从拟合效果看,前后两个模型并没有太大差别。,37,37,注:虽然模型整体的准确度略有下降,但是对于购买人群预测的准确率提高了。从应用角度看第二个模型较第一模型的应用性略强些。,38,38,模型评价:,模型表达式,并结合发生比,得知:相同性别中,中等收入的发生比是低等收入的,1.101,倍,高等收入的发生比是低等收入的,2.139,倍,可见中等收入的购买概率优势不明显,高等收入优势明显。相同收入中,女性的发生比是男性的,1.656,倍,女性更倾向于购买该产品。,39,模型评价:39,感谢亲观看此幻灯片,此课件部分内容来源于网络,
展开阅读全文