资源描述
第十章 统计回归模型,10.1 牙膏的销售量,10.2 软件开发人员的薪金,10.3 酶促反响,10.4 投资额与国民生产总值和物价指数,10.5 教学评估,10.6 冠心病与年龄,回归模型,是用统计分析方法建立的最常用的一类模型.,数学建模的根本方法,机理分析,测试分析,通过对数据的,统计分析,,找出与数据拟合最好的模型.,不涉及回归分析的数学原理和方法,.,通过,实例,讨论如何选择不同类型的模型,.,对软件得到的结果进展分析,对模型进展改进.,由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立符合机理规律的数学模型.,10.1,牙膏的销售量,问题,建立,牙膏销售量与价格、广告投入之间的,模型,;,预测,在不同价格和广告费用下的牙膏,销售量,.,收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其他厂家同类牙膏的平均售价 .,9.26,0.55,6.80,4.25,3.70,30,7.93,0.05,5.80,3.85,3.80,29,8.51,0.25,6.75,4.00,3.75,2,7.38,-0.05,5.50,3.80,3.85,1,销售量,(百万支),价格差,(元),广告费用,(百万元),其他厂家价格(元),本公司价格(元),销售周期,根本模型,y ,公司牙膏销售量,x,1,其他厂家与本公司,价格差,x,2,公司广告费用,x,2,y,x,1,y,x,1,x,2,解释变量(回归变量, 自变量),y被解释变量因变量,0, ,1, ,2, ,3,回归系数,随机误差均值为零的正态分布随机变量,MATLAB,统计工具箱,模型求解,b,bint,r,rint,stats=regress(y,x,alpha),输入,x=,n,4数据矩阵, 第1列为全1向量,alpha,(,置信,水平,0.05,),b,的,估计值,bint,b,的置信区间,r,残差向量,y,-,xb,rint,r,的置信区间,Stats,检验统计量,R,2,F,p,s,2,y,n,维数据向量,输出,由数据,y,x,1,x,2,估计,参数,参数估计值,置信区间,17.3244,5.7282 28.9206,1.3070,0.6829 1.9311 ,-3.6956,-7.4989 0.1077 ,0.3486,0.0379 0.6594 ,R,2,=0.9054,F,=82.9409,p,0.0001,s,2,=,0.0490,0,1,2,3,结果分析,y,的90.54%可由模型确定,参数,参数估计值,置信区间,17.3244,5.7282 28.9206,1.3070,0.6829 1.9311 ,-3.6956,-7.4989 0.1077 ,0.3486,0.0379 0.6594 ,R,2,=0.9054,F,=82.9409,p,0.0001 s,2,=0.0490,0,1,2,3,F,远超过,F,检验的临界值,p,远小于,=,0.05,2,的置信区间包含零点(右端点距零点很近),x,2,对因变量,y,的影响不太显著,x,2,2,项显著,可将x2保存在模型中,模型从整体上看成立,销售量预测,价格差,x,1,=其他厂家,价格,x,3,-本公司,价格,x,4,估计,x,3,调整,x,4,控制价格差,x,1,=0.2元,投入广告费,x,2,=6.5百万元,销售量预测区间为 7.8230,8.7636置信度95%,上限用作库存管理的目标值,下限用来把握公司的现金流,假设估计x3=3.9,设定x4=3.7,那么可以95%的把握知道销售额在 7.83203.7 29百万元以上,控制,x,1,通过,x,1,x,2,预测,y,(百万支),模型改进,x,1,和,x,2,对,y,的,影响独立,参数,参数估计值,置信区间,17.3244,5.7282 28.9206,1.3070,0.6829 1.9311 ,-3.6956,-7.4989 0.1077 ,0.3486,0.0379 0.6594 ,R,2,=0.9054,F,=82.9409,p,0.0001 s,2,=0.0426,0,1,2,3,参数,参数估计值,置信区间,29.1133,13.7013 44.5252,11.1342,1.9778 20.2906 ,-7.6080,-12.6932 -2.5228 ,0.6712,0.2538 1.0887 ,-1.4777,-2.8518 -0.1037 ,R,2,=0.9209,F,=72.7771,p,0.0001 s,2,=0.0490,3,0,1,2,4,x,1,和,x,2,对,y,的影响有交互作用,两模型销售量预测比较,预测区间 7.8230,8.7636,预测区间 7.8953,8.7592,控制价格差,x,1,=0.2元,投入广告费,x,2,=6.5百万元,预测区间长度更短,略有增加,预测值,预测值,x,2,=6.5,x,1,=0.2,x,1,x,1,x,2,x,2,两模型 与,x,1,x,2,关系的,比较,交互作用影响的讨论,价格差,x,1,=0.1,价格差,x,1,=0.3,加大广告投入使销售量增加, x2大于6百万元,价格差较小时增加的速率更大,x,2,价格优势会使销售量增加,价格差较小时更需要靠广告来吸引顾客的眼球,完全二次多项式模型,MATLAB,中有命令,rstool,直接求解,从输出 Export 可得,鼠标移动十字线(或下方窗口输入)可改变,x,1,x,2, 左边窗口显示预测值 及预测区间,牙膏的销售量,建立统计回归模型的根本步骤,根据数据从常识和经历分析, 辅之以作图,决定回归变量及函数形式(先取尽量简单的形式).,用,软件,(,如,MATLAB,统计工具箱,),求解,.,对结果作,统计分析,:,R,2,F,p, s,2,是对模型整体评价,回归系数置信区间是否含零点检验其影响的显著性,.,模型改进, 如增添二次项、交互项等.,对因变量进展预测.,10.2 软件开发人员的薪金,资历,从事专业工作的年数;管理,1,=管理人员,0,=非管理人员;教育,1,=中学,,2,=大学,,3,=更高程度.,建立模型研究薪金与资历、管理责任、教育程度的关系.,分析人事策略的合理性,作为新聘用人员薪金的参考.,编号,薪金,资历,管理,教育,01,13876,1,1,1,02,11608,1,0,3,03,18701,1,1,3,04,11283,1,0,2,编号,薪金,资历,管理,教育,42,27837,16,1,2,43,18838,16,0,2,44,17483,16,0,1,45,19207,17,0,2,46,19346,20,0,1,46,名软件开发人员的档案资料,分析与假设,y 薪金,x1 资历年,x,2,=,1,管理人员,,x,2,=,0,非管理人员,1,=中学,2,=大学,3,=更高,假设资历每加一年薪金的增长是常数;,且管理、教育、资历之间无交互作用.,教育,线性回归模型,a,0,a,1, ,a,4,是待估计的回归系数,,是随机误差,中学:,x,3,=1,x,4,=0,;大学:,x,3,=0,x,4,=1;,更高:,x,3,=0,x,4,=0,模型求解,参数,参数估计值,置信区间,a,0,11033, 10258 11807 ,a,1,546, 484 608 ,a,2,6883, 6248 7517 ,a,3,-2994, -3826 -2162 ,a,4,148, -636 931 ,R,2,=0.9567,F,=226,p,0.0001 s,2,=10,6,R,2,F, p,模型整体上可用,资历增加,1,年薪金增长,546,管理人员薪金多,6883,中学程度薪金比更高的少,2994,大学程度薪金比更高的多,148,a,4,置信区间包含零点,解释不可靠!,中学:,x,3,=1,x,4,=0;,大学:,x,3,=0,x,4,=1;,更高:,x,3,=0,x,4,=0.,x,2,=,1,管理,,x,2,=,0,非管理,x,1,资历(年),残差分析方法,结果分析,残差,e,与资历,x,1,的关系,e,与管理教育组合的关系,残差全为正,或全为负,管理教育组合处理不当.,残差大概分成,3,个水平,6,种管理教育组合混在一起,未正确反映,.,应在模型中增加管理,x,2,与教育,x,3,x,4,的交互项,.,组合,1,2,3,4,5,6,管理,0,1,0,1,0,1,教育,1,1,2,2,3,3,管理与教育的组合,进一步的模型,增加管理,x,2,与教育,x,3,x,4,的交互项,参数,参数估计值,置信区间,a,0,11204,11044 11363,a,1,497,486 508,a,2,7048,6841 7255,a,3,-1727,-1939 -1514,a,4,-348,-545 152,a,5,-3071,-3372 -2769,a,6,1836,1571 2101,R,2,=0.9988,F,=554,p,0.0001 s,2,=3,10,4,R2,F有改进,所有回归系数置信区间不含零点,模型完全可用,消除了不正常现象,异常数据(,33,号)应去掉!,e x,1,e ,组合,去掉异常数据后,的结果,参数,参数估计值,置信区间,a,0,11200,11139 11261,a,1,498,494 503,a,2,7041,6962 7120,a,3,-1737,-1818 -1656,a,4,-356,-431 281,a,5,-3056,-3171 2942,a,6,1997,1894 2100,R,2,= 0.9998,F,=36701,p,0.0001 s,2,=4,10,3,e x,1,e ,组合,R,2,: 0.9567,0.9988,0.9998,F,:226,554,36701,s,2,:,10,4,3,10,4,4,10,3,置信区间长度更短,残差,图十分正常,最终模型的结果可以应用,模型应用,制订6种管理教育组合人员的“根底薪金(资历为0,组合,管理,教育,系数,“基础”薪金,1,0,1,a,0,+,a,3,9463,2,1,1,a,0,+,a,2,+,a,3,+,a,5,13448,3,0,2,a,0,+,a,4,10844,4,1,2,a,0,+,a,2,+,a,4,+,a,6,19882,5,0,3,a,0,11200,6,1,3,a,0,+,a,2,18241,中学:,x,3,=1,x,4,=0,;大学:,x,3,=0,x,4,=1;,更高:,x,3,=0,x,4,=0,x,1,=,0,;,x,2,=,1,管理,,x,2,=,0,非管理,大学程度管理人员比更高程度管理人员的薪金高.,大学程度非管理人员比更高程度非管理人员的薪金略低.,对定性因素(如管理、教育),可以,引入,0,-,1,变量,处理,,0,-,1,变量的个数可比定性因素的水平少,1.,软件开发人员的薪金,残差分析方法,可以发现模型的缺陷,,引入交互作用项,常常能够改善模型.,剔除异常数据,,有助于得到更好的结果.,注:可以直接对,6,种管理教育组合引入,5,个,0,-,1,变量.,10.3 酶促反响,问题,研究酶促反响酶催化反响中嘌呤霉素对反响速度与底物反响物浓度之间关系的影响.,建立数学模型,反映该酶促反响的速度与底物浓度以及经嘌呤霉素处理与否之间的关系.,设计了两个实验 :酶经过嘌呤霉素处理;酶未经嘌呤霉素处理. 实验数据见下表.,方案,底物浓度,(ppm),0.02,0.06,0.11,0.22,0.56,1.10,反应速度,处理,76,47,97,107,123,139,159,152,191,201,207,200,未处理,67,51,84,86,98,115,131,124,144,158,160,/,根本模型,Michaelis-Menten模型,y 酶促反响的速度, x 底物浓度,1, ,2,待定,系数,底物浓度较小时,反响速度大致与浓度成正比;,底物浓度很大、渐进饱和时,反响速度趋于固定值.,酶促反响的根本性质,x,y,0,1,实验数据,经嘌呤霉素处理,x,y,未经嘌呤霉素处理,x,y,线性化模型,经嘌呤霉素处理后实验数据的估计结果,参数,参数估计值(10,-3,),置信区间(10,-3,),1,5.1072,3.5386 6.6758,2,0.2472,0.1757 0.3188,R,2,=0.8557,F,=59.2975,p,0.0001,s,2,=3.5806,10,-6,对,1, ,2,非线性,对,1,2,线性,线性化模型结果分析,x,较大时,,y,有较大偏差,1/,x,较小时有很好的线性趋势,,1/,x,较大时出现很大的起落,参数估计时,x较小1/x很大的数据控制了回归参数确实定,1/,y,1/,x,x,y,beta,R,J = nlinfit (x,y,model,beta0),beta的置信区间,MATLAB,统计工具箱,输入,x,自变量,数据矩阵,y 因变量数据向量,beta,参数的估计值R,残差,J,估计预测误差的Jacobi矩阵,model,模型的函数M文件名,beta0,给定的参数初值,输出,betaci =nlparci(beta,R,J),非线性模型参数估计,function y=f1(beta, x),y=beta(1)*x./(beta(2)+x);,x= ; y= ;,beta0=195.8027 0.04841;,beta,R,J=nlinfit(x,y,f1,beta0),;,betaci=nlparci(beta,R,J);,beta, betaci,beta0线性化模型估计结果,非线性模型结果分析,参数,参数估计值,置信区间,1,212.68,19,197.2029 228.1609,2,0.0641,0.0457 0.0826 ,画面左下方的Export 输出其它统计结果.,拖动画面的十字线,得,y,的预测值和预测区间,剩余标准差,s,= 10.9337,最终反应速度为,其他输出,命令nlintool 给出交互画面,o 原始数据,+ 拟合结果,半速度点(,达到最终速度一半时的,x,值,)为,混合反响模型,x1为底物浓度, x2为一示性变量,x2=1表示经过处理,x2=0表示未经处理,1是未经处理的最终反响速度,1是经处理后最终反响速度的增长值,2是未经处理的反响的半速度点,2是经处理后反响的半速度点的增长值,在同一模型中考虑嘌呤霉素处理的影响,o 原始数据,+ 拟合结果,混合模型求解,用nlinfit 和 nlintool命令,估计结果和预测,剩余标准差,s,= 10.4000,参数,参数估计值,置信区间,1,160.2802,145.8466 174.7137,2,0.0477,0.0304 0.0650 ,1,52.4035,32.4130 72.3941 ,2,0.0164,-0.0075 0.0403,2置信区间包含零点,说明2对因变量y的影响不显著,参数初值(基于对数据的分析),经嘌呤霉素处理的作用不影响半速度点参数,未经处理,经处理,o 原始数据,+ 拟合结果,未经处理,经处理,简化的混合模型,简化的混合模型,形式简单,,参数置信区间,不含零点.,剩余标准差,s,= 10.5851,,比一般混合模型略大.,估计结果和预测,参数,参数估计值,置信区间,1,166.6025,154.4886 178.7164,2,0.0580,0.0456 0.0703 ,1,42.0252,28.9419 55.1085,一般混合模型与简化混合模型预测比较,实际值,一般模型预测值,(一般,模型,),简化模型预测值,(简化,模型,),67,47.3443,9.2078,42.7358,5.4446,51,47.3443,9.2078,42.7358,5.4446,84,89.2856,9.5710,84.7356,7.0478,191,190.8329,9.1484,189.0574,8.8438,201,190.8329,9.1484,189.0574,8.8438,207,200.9688,11.0447,198.1837,10.1812,200,200.9688,11.0447,198.1837,10.1812,简化混合模型的预测区间较短,更为实用、有效.,预测区间为预测值,注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但,R,2,与,s,仍然有效.,酶促反响,反响速度与底物浓度的关系,非线性,关系,求解,线性模型,求解非线性模型,机理分析,嘌呤霉素处理对反响速度与底物浓度关系的影响,混合模型,发现问题,,得参数初值,引入,0-1,变量,简化模型,检查,参数置信区间,是否包含零点,10.4 投资额与国民生产总值和物价指数,问题,建立投资额模型,研究,某地区,实际投资额与国民生产总值,( GNP ),及物价指数,(,PI,),的关系.,2.0688,3073.0,424.5,20,1.0000,1185.9,195.0,10,1.9514,2954.7,474.9,19,0.9601,1077.6,166.4,9,1.7842,2631.7,401.9,18,0.9145,992.7,144.2,8,1.6342,2417.8,423.0,17,0.8679,944.0,149.3,7,1.5042,2163.9,386.6,16,0.8254,873.4,133.3,6,1.4005,1918.3,324.1,15,0.7906,799.0,122.8,5,1.3234,1718.0,257.9,14,0.7676,756.0,125.7,4,1.2579,1549.2,206.1,13,0.7436,691.1,113.5,3,1.1508,1434.2,228.7,12,0.7277,637.7,97.4,2,1.0575,1326.4,229.8,11,0.7167,596.7,90.9,1,物价,指数,国民生产总值,投资额,年份,序号,物价,指数,国民生产总值,投资额,年份序号,根据对未来,GNP,及,PI,的估计,预测未来投资额.,该地区,连续,20,年的统计数据,时间序列中同一变量的顺序观测值之间存在,自相关.,以时间为序的数据,称为,时间序列.,分析,许多经济数据在时间上有一定的,滞后,性.,需要诊断并消除数据的自相关性,建立新的模型.,假设采用普通回归模型直接处理,将会出现不良后果.,投资额与国民生产总值和物价指数,1.3234,1718.0,257.9,14,0.7676,756.0,125.7,4,1.2579,1549.2,206.1,13,0.7436,691.1,113.5,3,1.1508,1434.2,228.7,12,0.7277,637.7,97.4,2,1.0575,1326.4,229.8,11,0.7167,596.7,90.9,1,物价,指数,国民生产总值,投资额,年份,序号,物价,指数,国民生产总值,投资额,年份序号,根本回归模型,投资额与,GNP,及物价指数间均有很强的线性关系,t ,年份,,y,t,投资额,,x,1,t,GNP,x,2,t,物价指数,0, ,1, ,2,回归系数,x,1,t,y,t,x,2,t,y,t,t,对,t,相互,独立的零均值正态随机变量,根本回归模型的结果与分析,MATLAB,统计工具箱,参数,参数估计值,置信区间,0,322.7250,224.3386 421.1114,1,0.6185,0.4773 0.7596,2,-859.4790,-1121.4757 -597.4823 ,R,2,= 0.9908,F,= 919.8529,p,0,0,如何估计,如何消除自相关,性,D-W,统计量,D-W检验,u,t,对,t,相互,独立的零均值正态随机变量,存在负,自相关性,存在正,自相关性,广义差分法,D-W统计量与D-W,检验,检验水平,样本容量,回归变量数目,D-W,分布,表,n,较大,DW,4-,d,U,4,4-,d,L,d,U,d,L,2,0,正自,相关,负自,相关,不能确定,不能确定,无自相关,检验,临界值,d,L,和,d,U,由,DW,值的大小确定,自相关性,广义差分变换,以,*,0, ,1, ,2,为,回归系数的普通回归模型,原模型,DW,值,D-W,检验,无自相关,有自相关,广义差分,继续此过程,原模型,新模型,新模型,步骤,原模型,变换,不能确定,增加数据量;,选用其他方法,.,投资额新模型的建立,DW,old,d,L,作变换,原模型残差,e,t,样本容量,n,=20, 回归变量数目,k,=3,=0.05,查表,临界值,d,L,=1.10,d,U,=1.54,DW,old,=,0.8754,原模型有正自相关,DW,4-,d,U,4,4-,d,L,d,U,d,L,2,0,正自,相关,负自,相关,不能确定,不能确定,无自相关,参数,参数估计值,置信区间,*,0,163.4905,1265.4592 2005.2178,1,0.6990,0.5751 0.8247,2,-1009.0333,-1235.9392 -782.1274,R,2,= 0.9772,F,=342.8988,p,0.0001,s,2,=96.58,总体效果良好,剩余标准差,s,new,= 9.8277,s,old,=,12.7164,投资额新模型的建立,新模型的自相关性检验,d,U, DW,new,4,-d,U,新模型残差,e,t,样本容量,n,=19, 回归变量数目,k,=3,=0.05,查表,临界值,d,L,=1.08,d,U,=1.53,DW,new,=,1.5751,新模型无自相关性,DW,4-,d,U,4,4-,d,L,d,U,d,L,2,0,正自,相关,负自,相关,不能确定,不能确定,无自相关,新模型,复原为,原始变量,一阶自回归模型,一阶自回归模型残差et比根本回归模型要小.,新模型,e,t, *,,原模型,e,t, +,残差图比较,新模型,t, *,,新模型,t, +,拟合图比较,模型结果比较,基本回归模型,一阶自回归模型,投资额预测,对未来投资额,y,t,作预测,需先,估计出未来的国民生产总值,x,1,t,和物价指数,x,2,t,设 t=21时, x1t =3312,x2t=2.1938,一阶自回归模型,2.0688,3073.0,424.5,20,1.9514,2954.7,474.9,19,1.7842,2631.7,401.9,18,0.7436,691.1,113.5,3,0.7277,637.7,97.4,2,0.7167,596.7,90.9,1,物价,指数,国民生产总值,投资额,年份,序号,物价,指数,国民生产总值,投资额,年份序号,一阶自回归模型,基本回归模型,t,较小是由于,y,t,-1,=424.5,过小所致,10.5,教学评估,为了考评教师的教学质量,教学研究部门对学生进展问卷调查 ,得到15门课程各项评分的平均值.,问题,X1 内容组织的合理性;X2 问题展开的逻辑性;,X3 答复学生的有效性;X4 课下交流的有助性;,X5 教材的帮助性;X6 考试的公正性;Y 总体评价.,编号,X,1,X,2,X,3,X,4,X,5,X,6,Y,201,4.46,4.42,4.23,4.10,4.56,4.37,4.11,224,4.11,3.82,3.29,3.60,3.99,3.82,3.38,424,4.24,4.38,4.35,4.48,4.15,4.50,4.33,建立,Y,与,X,1,X,6,间简单、有效的模型,,给教师提出建议.,从,X,1,X,6,中挑选出对,Y,影响显著的变量建立回归模型.,将所有对,Y,影响显著的,X,都选入模型,而影响不显著的,X,都不选入模型,使模型中自变量个数尽可能少.,问题分析,继续进展,直到不能引入和移出为止 .,确定一个包含假设干X的初始集合S0 .,从,S,0,外的,X,中引入一个对,Y,影响最大的,S,0,S,1,.,对S1中的X进展检验,移出一个影响最小的, S1 S2 .,引入和移出都以给定的显著 性水平为标准,.,解决方法,利用,逐步回归,MATLAB统计工具箱中的逐步回归,输入x自变量集合的nk 数据矩阵n是数据容量, k是变量数目, y因变量数据向量n维,stepwise (x,y,inmodel,penter,premove),Inmodel初始模型S0中包括的自变量集合的指标即矩阵x的列序数,缺省时为无自变量,penter引入变量的显著性水平缺省时为0.05,premove移出变量的显著性水平缺省时为0.10,输出几个交互式画面,供使用者人工选择变量,进展统计分析.,MATLAB统计工具箱中的逐步回归,stepwise (x,y),其中,x为,X,1,X,6,数据矩阵,y为,Y,向量,输出交互式画面,按照提示点击,x,2的热点引入,x,2,MATLAB统计工具箱中的逐步回归,依次按照提示: Move,x,3 in, Move,x,1 in, Move,x,2 out,按照提示, 包含,x,1,x,3的模型是最终结果,最终模型,模型解释,计算,X,1,X,6,Y,的相关系数矩阵(,MATLAB的,corrcoef,):,1.0000,0.9008,0.6752 0.7361 0.2910 0.6471,0.8973,0.9008,1.0000,0.8504,0.7399 0.2775 0.8026,0.9363,0.6752,0.8504,1.0000 0.7499 0.0808 0.8490,0.9116,0.7361 0.7399 0.7499 1.0000 0.4370 0.7041 0.8219,0.2910 0.2775 0.0808 0.4370 1.0000 0.1872 0.1783,0.6471 0.8026 0.8490 0.7041 0.1872 1.0000 0.8246,0.8973 0.9363 0.9116,0.8219 0.1783 0.8246,1.0000,与,Y,的相关系数大于,0.85,的是,X,1,X,2,X,3,.,X,2,与,X,1,X,3,的相关系数大于,0.85.,为什么只有X1, X2 进入最终模型,X,1,提高1分,Y,提高0.5分,X,3,提高1分,Y,提高0.77分.,模型解释,X1 内容组织的合理性;X2 问题展开的逻辑性;,X3 答复学生的有效性;X4 课下交流的有助性;,X5 教材的帮助性;X6 考试的公正性;Y 总体评价.,逐步回归是从众多变量中挑选出影响显著变量,的有效方法,.,原有变量的平方项、交互项等也可以作为新变量,参加到候选行列,用逐步回归处理.,逐步回归,10.6,冠心病与年龄,冠心病是一种常见的心脏疾病, 严重危害人类的安康.,多项研究说明, 冠心病发病率随着年龄的增加而上升.,在冠心病流行病学研究中,年龄,是最常见的混杂因素之一,.,100名被观察者的,年龄,及他们是否,患冠心病,的数据,根据以上数据建立数学模型,分析发病率与年龄的关系,并进展统计预测.,序号,年龄,冠心病,序号,年龄,冠心病,序号,年龄,冠心病,序号,年龄,冠心病,1,20,0,26,35,0,51,44,1,76,55,1,25,34,0,50,44,0,75,55,1,100,69,1,分析与假设,被观察者独立选取,x,被观察者,年龄,Y,患病情况 (,Y,=1患病,Y,=0不患病,),年龄段,段中点,人数,患病人数,患病比例,20-29,24.5,10,1,0.1,30-34,32,15,2,0.13,60-69,64.5,10,8,0.80,合计,100,43,0.43,按年龄段,分组,统计患病人数及,比例,患病比例随年龄增大而递增,是介于0与1之间的S-型曲线.,无法建立前面那样的回归模型,需要对数据进展预处理.,患病比例,y,是,年龄段中点,x,时,Y,的平均值,分析与假设,Y,取值 0, 1,;,y,取值 0, 1,用普通方法建立回归方程,y,取值不一定在,0,1,中,.,误差项,只能取值,0,1,不具有正态性,且具有异方差性,.,违反普通回归分析的前提条件!,当因变量,Y,为一个,二分类,(或多分类)变量时,需要用到,新的回归模型,.,Y,的,条件期望,Logit 模型,Y,的(条件)期望,(,x,)年龄,x,的患病概率(患病比例,y,),方差,(,x,) S-型曲线, 取值0,1,Logit模型 (Logistic回归模型),(,x,)的变换,取值,连接函数,,Logistic模型,反函数,Logit 模型,数据预处理: 将年龄分成,k,(=8)组.,x,i,第,i,组年龄,n,i,被观察人数,m,i,患病人数,i,=1,k,患病概率,0,1,回归系数,设,m,i,服从二项分布,回归系数可用极大似然法估计得到.,Logit 模型,模型求解,Logit模型可用MATLAB命令,glmfit,求解,b,=,glmfit,(x, y, distr, link) b,dev,stats =,glmfit,(x, y, distr, link),x自变量数据矩阵(第1列自动添加列向量1).,y因变量数据向量(对distr =binomial, y可取矩阵: 第1列为 “成功次数, 第2列为观察次数).,distr 估计系数所用分布(,binomial,poisson 等),缺省时为 normal .,link logit,probit 等(缺省时为logit).,b回归系数的估计值, dev拟合偏差, stats统计指标,模型求解,参数,估计值,标准差,0,-5.0382,1.0863,1,0.1050,0.0231,yhat, dylo, dyhi = glmval(b, x, logit),年龄段,年龄x,患病比例,( 实际值),患病比例,(,预测值y),置信区间,20-29,24.5,0.1,0.0783,0.0282, 0.1992,60-69,64.5,0.80,0.8501,0.6855, 0.9366,编程计算,回归曲线,自变量为x时y的预测值yhat及置信度为95%的置信区间,拟合偏差0.5242,模型评价与结果分析,Logit,模型是否需要引入,x,2,项?,用似然比统计量计算:,pval = 1 - chi2cdf(dev-dev2,1) =0.9371,选用,Probit,模型,(,另一种广义线性模型,),结果如何?,是正态概率分布函数(S-型曲线),模型中,引入,x,2,项不能显著提高拟合程度.,glmfit中需将logit改为probit,年龄段,年龄x,患病比例,( 实际值),预测值1(Logit),预测值2(Probit),20-29,24.5,0.1,0.0783,0.0715,60-69,64.5,0.80,0.8501,0.8489,两个模型的拟合程度不相上下.,模型评价与结果分析,Probit模型,求解,参数,估计值,标准差,0,-2.9933,0.6011,1,0.0624,0.0128,拟合偏差0.6529,1,的直观解释,Odds,事件发生(患病)概率与不发生(不患病)概率之比.,模型评价与结果分析,年龄,x,的人患与不患病概率之比,年龄增加1岁的Odds比(发生比率),年龄增加1岁,Odds比的对数,年龄增加,k,岁后的Odds,模型评价与结果分析,20岁,的青年人患冠心病的概率,发生比(患与不患冠心病的概率之比,10年后,30岁,人的发生比,60岁,时,48岁时患冠心病的概率会大于不患冠心病的概率.,年龄增加1岁患病概率的变化很小.,Logit回归模型,是20岁的 倍,因变量是定性变量的回归分析作为一种有效的数据处理方法已被广泛应用,尤其在医学、社会调查、生物信息处理等领域,.,自变量 可以是定量变量或定性变量,可以用逐步回归方法建立多元Logit模型和Probit模型, 逐个地参加自变量(包括某个自变量的高次项及某些自变量的穿插变量), 并且实时地进展模型比较检验, 选择与数据拟合较好的模型.,模型评述,多元Logit模型,
展开阅读全文