第十讲定类或定序因变量回归分析课件

上传人:风*** 文档编号:242765277 上传时间:2024-09-03 格式:PPT 页数:31 大小:221.94KB
返回 下载 相关 举报
第十讲定类或定序因变量回归分析课件_第1页
第1页 / 共31页
第十讲定类或定序因变量回归分析课件_第2页
第2页 / 共31页
第十讲定类或定序因变量回归分析课件_第3页
第3页 / 共31页
点击查看更多>>
资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十讲 定类或定序因变量回归分析,第十讲 定类或定序因变量回归分析,当因变量是一个定类变量而不是定距变量时,线性回归模型受到挑战。,如政治学中研究是否选举某候选人,经济学研究中涉及的是否销售或购买某种商品,社会学和人口学研究中所涉及的如犯罪、迁移、婚姻、生育、患病等等都可以按照二分类变量或多分类来测量。,一、问题的提出,当因变量是一个定类变量而不是定距变量时,线性回归模型,在研究态度与偏好等心理现象时也经常按类型进行测量的,如“强烈反对”、“反对”、“中立”、“支持”、和“强烈支持”。,连续变量转换成类型变量的情形,如在分析升学考试的影响因素时,将考生分为录取线以上和录取线以下。,在研究态度与偏好等心理现象时也经常按类型进行测,从统计理论上看,最小二乘法关注正态分布,然而社会经济现象往往有不同于正态分布的其他分布,例如:,(,1,)二项分布(,binomial distribution,),(,2,)泊松分布(,Poisson,),从统计理论上看,最小二乘法关注正态分布,然而社,二、线性概率模型,1,、模型建立,以最小二乘法为基础的线性回归方程是估测因变量的平均值,而二分变量的均值有一个特定的意义,即概率。用普通线性回归方程估测概率,就是所谓的线性概率回归。用公式表示为:,P = a + ,i,X,i,+ ,对二项分布线性概率模型的结果解释: 在其他变量不变的情形下,,x,每增加一个单位,事件发生概率的期望将变动,个单位。,二、线性概率模型1、模型建立,例如,林楠和谢文(,1988,)曾用线性概率模型估测入党(政治资本)的概率,模型为:,P = -0.39 +0.01A +0.04E +0.03U,其中:,P,党员概率,,A,年龄,,E,受教育年限,,U,单位身份,例如,林楠和谢文(1988)曾用线性概率模型估测入党(政治,1,)无意义的解释,从解释力上看,由于概率的值是有边界的,在,0,与,1,之间。但林楠方程很有可能要超过该限制,因变量的估计值可能是负数,也可能大于,1,,因此模型的结果是无意义的。例如,运用林楠方程,我们发现如果年龄为,100,岁,受教育程度超过,10,年,则入党的概率约等于,1,。,2,)非线性关系,2,、线性概率模型存在的问题,1)无意义的解释 2、线性概率模型存在的问题,三、简单对数比率回归,1,、模型建立,既然用线性概率回归存在局限性,能否用比率做因变量呢?比如用男女比率作因变量,用成功与不成功之比做因变量。用比率做因变量存在的问题是,比率是非对称的,.,三、简单对数比率回归 1、模型建立,表,1,概率、比率和对数比率,概率,0.01,0.10,0.20,0.30,0.40,0.50,0.60,0.70,0.80,0.90,0.99,比率,0.01,0.11,0.25,0.43,0.67,1.00,1.50,2.33,4.00,9.00,99,对数比率,-4.60,-2.20,-1.39,-0.85,-0.41,0.00,0.41,0.85,1.39,2.20,4.60,表1 概率、比率和对数比率概率0.010.100.200.3,一个简单的解决办法就是取对数,结果就是所谓对数比率(,logit),。若用,P,代表某事件的概率,则对数比率函数的定义为,g,(,P,),= log,(,P/1-P,),以对数比率为因变量对自变量,X1,,,X2,,,X3,做回归称为对数比率回归(,logistic regression,),其方程式为:,一个简单的解决办法就是取对数,结果就是所谓,该模型即为,logit,回归模型。,logit,回归模型是普通多元线性回归模型的推广,但它的误差项服从二项分布,因此需要采用极大似然估计方法进行参数估计,参数,称为,logit,回归系数,表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起的发生比自然对数值的变化量。,该模型即为logit回归模型。logit回归模,2,、,发生比,发生比是事件的发生频数与不发生频数之间的比,即:,Odds=(,事件发生频数,)/,(事件不发生频数),当比值大于,1,时,表明事件更有可能发生。比如一个事件发生的概率为,0.6,,事件不发生的概率为,0.4,,发生比等于,0.6/0.4=1.5,。事件发生的可能性是不发生的,1.5,倍。,2、发生比 发生比是事件的发生频数与不发生频数之间的,四、,logistic,回归模型的检验与评价,1,、,Logistic,回归模型估计的假设前提,第一、数据来自于随机样本。,第二、因变量,Y,i,被假设为,K,个自变量,X,k,(,k=1,,,2,,,,,K,)的函数。,第三、正如,OLS,回归,,logistic,回归也对多重共线性有所限制,自变量之间存在多重共线性会导致标准误的膨胀。,Logistic,回归模型还有一些与,OLS,回归不同的假设前提:第一,因变量是二分变量;第二,因变量和各自变量之间的关系是非线性的。,四、logistic回归模型的检验与评价1、Logistic,2,、拟合优度检验,如果模型的预测值能够与对应的观测值有较高的一致性,就认为这一模型能够拟合数据。否则需要对模型重新设置。,因此,模型的拟合优度是指预测值与观测值的匹配程度。检验拟合优度的指标有皮尔逊卡方检验、对数似然比卡方检验等。,2、拟合优度检验,1,)皮尔逊卡方检验,皮尔逊卡方检验主要用于检验残差项的大小。计算公式:,其中,yi,是观察值(,0,或,1,),,pi,是估算值的概率,,i=1,,,2n,,分母是估算值的标准差,自由度为,n-J-1,,其中,J,为自变量数目。,1)皮尔逊卡方检验,2,),Hosmer-Lemeshow,拟合优度检验,该方法通常适用于自变量很多,或自变量为连续变量的情形。,HL,方法根据预测概率的大小将所有观察单位十等分,然后根据每一组中因变量的实际值与理论值计算,Peason,卡方,其统计量为:,其中,G,代表分组数,且,G,10,;,n,g,为第,g,组中的观测值数;,y,g,第,g,组事件的观测数量;,p,g,为第,g,组的预测事件概率;,n,g,p,g,为事件的预测值,实际上它等于第,g,组的观测概率和。,2)Hosmer-Lemeshow 拟合优度检验,3,)对数似然比卡方检验,对数似然比是用较复杂模型与基本模型进行比较。通常将似然取对数并乘以,-2,,即,-2logL,,简称对数似然。,基本模型以独立模型表示:,用,L0,表示独立模型的似然,,L1,表示非独立模型的似然,那么对数似然比定义为:,遵循卡方分布,其自由度为非独立模型的自变量数目,可用于检验复杂模型中自变量对似然率的增加是否显著,越大越好。,3)对数似然比卡方检验,3,、,logit,模型回归系数的假设检验,设原假设,H0,为:,k,=0,,表示自变量对事件发生的可能性无影响;如果原假设被拒绝,说明自变量对事件发生的可能性有影响。,Wald,检验,在,logit,模型中,对回归系数进行显著性检验,通常使用,Wald,检验,其计算公式为:,Wald,统计量实际上就是正态分布,Z,统计量的平方。在零假设条件下,每一个回归系数都等于,0,。,Wald,统计量服从卡方分布,其自由度为,n-k-1,。,3、logit模型回归系数的假设检验设原假设H0为:k=0,五、模型解释,由于,logit,模型是非线性的,因此不能以传统回归模型中自变量与因变量之间的关系解释之。通常以发生比率来解释,logit,回归系数。,五、模型解释 由于logit模型是非线性的,因此,六、多项对数比率回归,我们研究的现象常是多分类的,如职业的选择等,这时需要用多项对数比率回归处理。,多项对数比率回归是简单对数比率回归的扩展,由一组对数比率方程组成。,常用的做法是基准类比法,即先选出基准类,然后将它的概率与其它各类的概率进行对比。,假如要研究一个或一组自变量,X,如何影响人们对,J,类职业选择,用,P,1,,,P,2,P,j,表示各类职业的概率,那么多项对数比率回归就可表示为,:,六、多项对数比率回归 我们研究的现象常是多分类,需要注意的是:,1),就系数解释和检验而言,多项对数比率回归和简单对数比率回归相同。,2),方程组在统计上不独立,必须同时估算,不可一一求解。,需要注意的是:1)就系数解释和检验而言,多项对,SPSS,上的应用,:,1,),AnalyzeRegressionMultinomial Logistic,2,),Dependent,用于选入无序多分类的因变量,3,),Factor ,用于选入分类自变量,可以是有序或无序多分类,系统会自动生成虚拟变量。,4,),Covariates,用于选入连续型的自变量。,选择系统默认值,点击,OK,钮,运行所选命令,5,)结果解释,数据汇总与模型的似然比检验。,拟合优度检验(,Pearson,,,Deviance,检验)。,参数估计结果。,SPSS上的应用:,七、定序变量对数比率,当因变量是定序变量,变量值之间具有高低之分时,在设计,logit,模型时,就应考虑到其中所包含的信息。,通常有三种处理方法:邻类比、升级比和累进比。,1,、邻类比,邻类比是将所有相邻两类的概率两两相比,如果变量含有,J,个有序类别,就可得到,J-1,个不重复对数比率方程。假如用,P1,,,P2Pj,表示一个定序变量由低到高各级类别的概率,设,X,是一个或一组自变量,那么对数邻类比回归就是:,七、定序变量对数比率 当因变量是定序变量,变量值,对于定序变量,常常假设升级的作用是一样的,即在方程组中,各个方程的斜率项是相同的,,1,=,2,=,j-1,上式可表示为:,第十讲定类或定序因变量回归分析课件,2,、升级比,用,P1,,,P2,,,Pj,表示一定序变量由低到高各级类别的概率,那么对数升级比回归就是:,2、升级比 用P1,P2,Pj表示一定序变,例如升学率的研究。将学校依等级高低分为小学、初中、高中和大学四类。初中升高中的比率不仅是初中毕业生和高中毕业生的比率,还应包括大学毕业生,因为他们也完成了初中到高中的升级过程。,升级比在统计上是各自独立的,因而可以对照简单对数比率回归一一估算。加总各独立升级比率回归的对数似然比和自由度,即总模型的对数似然比和自由度。,例如升学率的研究。将学校依等级高低分为小学、,对数升级比回归的编码示例,教育程度,升小学,升初中,升高中,升大学,小学以下,0,-,-,-,小学以下,0,-,-,-,小学以下,0,-,-,-,小学,1,0,-,-,小学,1,0,-,-,小学,1,0,-,-,初中,1,1,0,-,初中,1,1,0,-,初中,1,1,0,-,高中,1,1,1,0,高中,1,1,1,0,高中,1,1,1,0,大学,1,1,1,1,大学,1,1,1,1,对数升级比回归的编码示例教育程度升小学升初中升高中升大学小学,3,、累进比,3、累进比,对数累进比率回归示例,收入等级分析(,Nee 1991,),自变量,模型(,1,),模型(,2,),进顶层,P,1,/(p,2,+p,3,),避免底层,(,p1+p2)/p3,进顶层,P,1,/(p,2,+p,3,),避免底层,(,p1+p2)/p3,截距,-.525*,.865*,-8.244*,-3.500*,教育,-,-,.238*,.155*,户首年龄,-,-,.207*,.127*,户首年龄平方,-,-,-.002*,-.001*,成年劳动力,-,-,.613*,.242*,子女数目,-,-,.214,.204*,现任干部,1.515*,1.470*,1.263,1.192,前任大队干部,1.205,-.128,.810,-.554,前任小队干部,1.339*,.930*,1.302*,.965*,企业家,1.697*,.905*,1.346*,.776*,样本数,576,576,521,521,-2logL,1053.7,869.2,自由度,8,18,对数累进比率回归示例收入等级分析(Nee 1991)自,若假设,1,=,2,=,j-1,则对数升级方程组可简化方程如下:,SPSS,中的(,ordinal logistic regression),就是截矩项都相等的累进比对数回归模型。,若假设1=2=j-1, 则对数升级方程组可简化方程如,SPSS,操作程序,1,、选择,logistic,回归程序:,点击主菜单中的,Analyze,然后点击,Regression,再点击,Ordinal,,屏幕上出现对话窗口,2,、选定模型,Dependent,选择一个有序分类因变量。,Factor,选择若干分类自变量。,Covariates,用于选入连续型的自变量。,择系统默认值,点击,OK,钮,运行所选命令,结果解释,数据汇总与模型的似然比检验。,拟合优度检验(,Pearson,,,Deviance,检验)。,参数估计结果。,SPSS操作程序,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!