含定性变量的回归模型

上传人:仙*** 文档编号:247367504 上传时间:2024-10-18 格式:PPT 页数:82 大小:1.32MB
返回 下载 相关 举报
含定性变量的回归模型_第1页
第1页 / 共82页
含定性变量的回归模型_第2页
第2页 / 共82页
含定性变量的回归模型_第3页
第3页 / 共82页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第,9,章 含定性变量的回归模型,信计学院统计系,沈菊红,1,变量的类型,间隔尺度,(,数值型变量,),有序尺度,(,有次序关系,),名义尺度,(,定性变量,),(,定量变量,),如身高、重量等连续的量,如某产品分上、中、下三等,如医学化验中的阴性、阳性,2,对定性变量数量化,:只取,0,和,1,两个值的变量称,为虚拟变量。,3,虚拟变量的回归,9.1,含有一个虚拟自变量的回归,9.2,用虚拟自变量回归解决方差分析问题,9.3,因变量是定性变量的回归模型,9.4 Logistic,回归模型,4,含有一个虚拟自变量的回归,5,虚拟变量,(,dummy variable,),用数字代码表示的定性变量,虚拟变量可有不同的水平,只有两个水平的虚拟变量,比如,性别(男,女),有两个以上水平的虚拟变量,贷款企业的类型(家电,医药,其他),虚拟变量的取值为0,1,6,虚拟自变量的回归,回归模型中使用虚拟自变量时,称为,虚拟自变量,的回归,当虚拟自变量只有,两个水平,时,可在回归中引入,一个虚拟变量,比如,性别(男,女),一般而言,如果定性自变量有,k,个水平,需要在回归中模型中引进,k,-1,个虚拟变量,7,虚拟自变量的回归,(,例题分析,),【例】,为研究考试成绩与性别之间的关系,从某大学商学院随机抽取男女学生各8名,得到他们的市场营销学课程的考试成绩如右表,8,虚拟自变量的回归,(,例题分析,),散点图,y,与,x,的回归,男,女,9,回归方程为,10,虚拟自变量的回归,(,例题分析,),引进虚拟变量时,回归方程可写为:,E,(,y,)=,0,+,1,x,男(,x,=0):,E,(,y,)=,0,男学生考试成绩的期望值,女(,x,=1):,E,(,y,)=,0,+,1,女学生考试成绩的期望值,注意:当指定虚拟变量,0,,1,时,0,总是代表与虚拟变量值,0,所对应的那个分类变量水平的平均值,1,总是代表与虚拟变量值,1,所对应的那个分类变量水平的平均值与虚拟变量值,0,所对应的那个分类变量水平的平均值的差值,即,平均值的差值,=(,0,+,1,)-,0,=,1,11,虚拟自变量的回归,(,例题分析,),【例】,为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取,10,名职工,所得数据如右表,y,与,x,1,的回归及分析,y,与,x,1,,x,2,的回归及分析,12,虚拟自变量的回归,(,例题分析,),引进虚拟变量时,回归方程可写为:,E,(,y,)=,0,+,1,x,1,+,2,x,2,女(,x,2,=0):,E,(,y,|,女性,)=,0,+,1,x,1,男(,x,2,=1):,E,(,y,|,男性,)=(,0,+,2,)+,1,x,1,0,的含义表示:女性职工的期望月工资收入,(,0,+,2,),的含义表示:男性职工的期望月工资收入,1,含义表示:工作年限每增加1年,男性或女性工资的平均增加值,2,含义表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(,0,+,2,)-,0,=,2,13,14,15,例题分析,【,例,9.1】,某经济学家想调查文化程度对家庭储蓄的,影响,在一个中等收入的样本框中,随机调查了,13,户高等学历家庭与,14,户中低学历的家庭。因变量,y,为,上一年家庭储蓄增加额,自变量 为上一年家庭总收,入,自变量 表示家庭学历。高学历家庭 ,低,学历家庭 ,调查数据见下表。,16,序号,(,元,),(,万元,),1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,235,346,365,468,658,867,1085,1236,1238,1345,2365,2365,3256,3256,3256,2.3,3.2,2.8,3.5,2.6,3.2,2.6,3.4,2.2,2.8,2.3,3.7,4.0,2.9,3.8,0,1,0,1,0,1,0,1,0,1,0,1,1,0,1,588,220,2371,1246,1313,301,886,96,797,2309,1542,115,371,137,403,455,2372,1047,3229,101,1851,326,2135,1784,67,2585,1985,2074,1517,1412,17,序号,(,元,),(,万元,),16,17,18,19,20,21,22,23,24,25,26,27,3265,3567,3658,4588,6436,9047,7985,8950,9865,9866,10235,10140,4.6,4.2,3.7,3.5,4.8,5.0,4.2,3.9,4.8,4.6,4.8,4.2,1,1,1,0,1,1,0,0,0,0,0,0,2658,826,1178,827,252,1593,108,2005,524,243,154,2047,4023,2416,692,891,1505,453,2002,3947,1924,2578,2294,4157,18,建立 对 的线性回归,并计算残差,19,两个自变量 与 的系数都是显著的,复决定系数,,回归方程为,该结果表明,中等收入的家庭每增加,1,万元收入,平均,拿出,3826,元作为储蓄。高学历家庭每年的平均储蓄额,少于低学历的家庭,平均少,3701,元。,20,如果不引入学历定性变量 ,用 对家庭年收入 作,一元线性回归,得 说明拟合效果不好。,对 的一元回归残差 见表中。,21,如果不考虑家庭年收入 ,,13,户高学历家庭的平均年,储蓄增加额为,3008.62,元,,14,户低学历家庭的平均年,储蓄增加额为,5059.36,元,高学历家庭每年的储蓄额,比低学历的家庭平均少,5059.36,3008.62,2050.74,元,,而用前面的回归法算出的值是,3701,元,两者并不相等。,3701,元是在假设两者的家庭年收入相等的基础上的储,蓄差值,反映了学历高低对储蓄额的真实差异。,(,调整后的,),22,说明:虽然虚拟变量取某一数值,但这一数值,没有任何数量大小的意义,它仅仅用来说明变,量的,性质或属性。,23,自变量中含有定性变量的回归模型的应用,24,一,.,回归系数相等的检验,【,例,9.2】,在例,9.1,中引入,0,1,型虚拟自变量的方法,是假定储蓄增加额,y,对家庭收入的回归斜率 与,家庭,年收入,无关,只影响 。该假定是否合理,需作,统计检验。检验方法是引入含交互效应的回归模型,(9.1),回归模型,(9.1),可以分解为如下的两个线性回归模型,高学历家庭,低学历家庭,(9.2),(9.3),25,要检验两个回归方程的回归系数相等,就是检验,当拒绝 时,认为 ,这时高学历与低学历家,庭的储蓄回归模型被拆分为两个不同的模型,(9.2,和,(9.3),式;当接受 时,认为 ,此时高学历,与低学历家庭的储蓄回归模型是,(9.4),拟合模型,(9.1),,回归系数检验如下表,26,从输出结果看到,应该接受 。,问题:是否首先剔除?,否,因为与经济意义不符,对模型,(9.2),与,(9.3),,,当 时,表明两个回归方程的常数项相等,,当 时,表明两个回归方程的斜率相等。,27,二,.,用虚拟自变量回归解决方差分析问题,28,设 是正态总体,的样本,原假设为,记 则有 进而有,记 则上式改写为,引入虚拟自变量 ,将,(2),式表示为多元线性回归,模型,(2),(1),29,其中,由于,c,个自变量 之和恒等于,1,,存在完全共,线性。为此,剔除 ,建立回归模型,(3),30,(1),式回归方程显著性检验的原假设为,由 可知,,(1),式和,(4),式的两,个原假设是等价的。作,(4),式的显著性,F,检验,该检验,与单因素方差分析的,F,检验是等价的。,称自变量全是定性变量的回归模型为方差分析模型;,如果模型中既包含数量变量,又包含定性变量,其,中以定性自变量为主,称这样的模型为协方差模型。,(4),31,方差分析的回归方法,(,例题分析,),引进虚拟变量,建立回归方程:,E,(,Y,)=,0,+,1,x,1,+,2,x,2,+,3,x,3,用,Excel,进行回归,0,家电制造业投诉次数的平均值,(,0,+,1,),零售业投诉次数的平均值,(,0,+,2,),旅游业投诉次数的平均值,(,0,+,3,),航空公司投诉次数的平均值,32,使用虚拟变量需注意的问题,虚拟变量陷阱:若定性变量有,k,个类别,则引入,k,个虚拟变量将会产生,完全多重共线性问题,,避免方法:,只引入(,k-1,)个虚拟变量,33,自变量中含有定性变量的回归模型的应用,三,.,分段回归,【,例,9.2】,用分段回归建立某工厂生产批量 与单位,成本,(,美元,),的回归模型。,序号,1,2.57,650,150,2,4.4,340,0,3,4.52,400,0,4,1.39,800,300,5,4.75,300,0,6,3.55,570,70,7,2.49,720,220,8,3.77,480,0,34,单位成本对批量的散点图,35,假定回归直线的斜率在 处改变,建立回归,模型,来拟合,其中,(9.5),模型,(9.5),实际上是一个二元线性回归模型,记,则有,(9.6),36,(9.6),式可以分解为两个线性回归方程,当 时,,(9.6),式的回归方程为,(9.7),当 时,,(9.6),式,的回归方程,为,(9.8),用普通最小二乘法拟合模型,(9.6),37,38,用普通最小二乘法得回归方程为,对回归系数 作显著性检验,不能认为本数据适,合于折线回归拟合。,此模型说明生产批量小于,500,时,每增加,1,个单位批量,单位,成本降低,0.004,美元;当生产批量大于,500,时,每增加,1,个单位,批量,单位成本降低,0.004+0.004=0.008,美元,.,39,作 对 的一元线性回归。,40,一元回归方程为,41,因变量是定性变量的回归模型,因变量只有两个可能结果,可用虚拟变量来表示。,定性因变量的回归方程的意义,设因变量是只取,0,,,1,两个值的定性变量,对于线性,回归模型,因变量均值 的意义,由于 是,0,1,型贝努利随机变量,则得概率分布,42,得,即有,由回归函数给定的因变量均值 是自,变量水平为 时 的概率。,2.,定性因变量回归的特殊问题,(1),离散非正态误差项 误差项,只取两个值:,43,2.,零均值异方差性,回归方程的限制 由于回归方程代表概率分布,,所以,0-1,型随机变量的方差,44,Logistic,回归分析,(,Logistic,Regression Analysis),45,Logistic,回归分析,在医学研究中,,经常要分析某种结果的产生与哪些因素有关。例如:生存与死亡,发病与未发病,,阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。如何找出其中哪些因素对结果的产生有显著性影响呢?,Logistic,回归分析能较好地解决这类问题。,46,Logistic,回归分析,一、,Logistic,回归模型,47,1,、,Logistic,回归模型的构造,若因变量 为连续型正态定量变量时,可采用多元线性回归分析 与变量,之间的关系:,现 为发病或未发病,生存与死亡等定性分类变量,不能直接用上述模型进行分析。,能否用发病的概率,P,来直接代替 呢?,用 的比例代替 本身作为因变量;回归函数是,0,1,区间的连续曲线。,?,48,等式左边,变化范围,P,发病概率,0 P1,1,P,不发病概率,0 P1,p/1-p,比数,(ratio)0 p/1-p+,ln(p/1-p),对数比,(ratio)-,ln(p/1-p)+,49,2,、,Logistic,回归模型为,:,定义,:,为,Logistic,变换,Logistic,回归模型为,:,50,Logit,变换,经数学变换可得,:,exp,表示指数函数。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!