第7章统计回归模型

上传人:bei****lei 文档编号:244177089 上传时间:2024-10-03 格式:PPT 页数:44 大小:999.50KB
返回 下载 相关 举报
第7章统计回归模型_第1页
第1页 / 共44页
第7章统计回归模型_第2页
第2页 / 共44页
第7章统计回归模型_第3页
第3页 / 共44页
点击查看更多>>
资源描述
第七章 统计回归模型,7.1,牙膏的销售量,7.2,软件开发人员的薪金,7.3,酶促反应,7.4,投资额与国民生产总值和,物价指数,回归模型是用,统计分析方法建立的最常用的一类模型,数学建模的基本方法,机理分析,测试分析,通过对数据的统计分析,找出与数据拟合最好的模型,不涉及回归分析的数学原理和方法,通过实例讨论如何选择不同类型的模型,对软件得到的结果进行分析,对模型进行改进,由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。,7.1,牙膏的销售量,问题,建立牙膏销售量与价格、广告投入之间的模型,预测在不同价格和广告费用下的牙膏销售量,收集了,30,个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价,9.26,0.55,6.80,4.25,3.70,30,7.93,0.05,5.80,3.85,3.80,29,8.51,0.25,6.75,4.00,3.75,2,7.38,-0.05,5.50,3.80,3.85,1,销售量,(,百万支,),价格差,(元),广告费用,(,百万元,),其它厂家价格,(,元,),本公司价格,(,元,),销售周期,基本模型,y ,公司牙膏销售量,x,1,其它厂家与本公司,价格差,x,2,公司广告费用,x,2,y,x,1,y,x,1,x,2,解释变量,(,回归变量,自变量,),y,被解释变量(因变量),0, ,1, ,2, ,3,回归系数,随机,误差(,均值为零的正态分布随机变量),MATLAB,统计工具箱,模型求解,b,bint,r,rint,stats,=regress(y,x,alpha),输入,x=,n,4,数据矩阵,第,1,列为全,1,向量,alpha,(,置信,水平,0.05,),b,的,估计值,bint,b,的置信区间,r,残差向量,y,-,xb,rint,r,的置信区间,Stats,检验统计量,R,2,F,p,y,n,维数据向量,输出,由,数据,y,x,1,x,2,估计,参数,参数估计值,置信区间,17.3244,5.7282 28.9206,1.3070,0.6829 1.9311 ,-3.6956,-7.4989 0.1077 ,0.3486,0.0379 0.6594 ,R,2,=0.9054,F,=82.9409,p,=0.0000,0,1,2,3,结果分析,y,的,90.54%,可由模型确定,参数,参数估计值,置信区间,17.3244,5.7282 28.9206,1.3070,0.6829 1.9311 ,-3.6956,-7.4989 0.1077 ,0.3486,0.0379 0.6594 ,R,2,=0.9054,F,=82.9409,p,=0.0000,0,1,2,3,F,远超过,F,检验的临界值,p,远小于,=,0.05,2,的置信区间包含零点,(,右端点距零点很近,),x,2,对因变量,y,的影响不太显著,x,2,2,项显著,可将,x,2,保留在模型中,模型从整体上看成立,销售量预测,价格差,x,1,=,其它厂家,价格,x,3,-,本公司,价格,x,4,估计,x,3,调整,x,4,控制价格差,x,1,=0.2,元,投入广告费,x,2,=650,万元,销售量预测区间为,7.8230,,,8.7636,(置信度,95%,),上限用作库存管理的目标值,下限用来把握公司的现金流,若估计,x,3,=3.9,,,设定,x,4,=3.7,,,则可以,95%,的把握知道销售额在,7.8320,3.7,29,(百万元)以上,控制,x,1,通过,x,1,x,2,预测,y,(,百万支,),模型改进,x,1,和,x,2,对,y,的,影响独立,参数,参数估计值,置信区间,17.3244,5.7282 28.9206,1.3070,0.6829 1.9311 ,-3.6956,-7.4989 0.1077 ,0.3486,0.0379 0.6594 ,R,2,=0.9054,F,=82.9409,p,=0.0000,0,1,2,3,参数,参数估计值,置信区间,29.1133,13.7013 44.5252,11.1342,1.9778 20.2906 ,-7.6080,-12.6932 -2.5228 ,0.6712,0.2538 1.0887 ,-1.4777,-2.8518 -0.1037 ,R,2,=0.9209,F,=72.7771,p,=0.0000,3,0,1,2,4,x,1,和,x,2,对,y,的影响有交互作用,两模型销售量预测,比较,(,百万支,),区间,7.8230,,,8.7636,区间,7.8953,,,8.7592,(,百万支,),控制价格差,x,1,=0.2,元,投入广告费,x,2,=6.5,百万元,预测区间长度更短,略有增加,x,2,=6.5,x,1,=0.2,x,1,x,1,x,2,x,2,两模型 与,x,1,x,2,关系的,比较,交互作用影响的讨论,价格差,x,1,=0.1,价格差,x,1,=0.3,加大广告投入使销售量增加,(,x,2,大于,6,百万元),价格差较小时增加的速率更大,x,2,价格优势会使销售量增加,价格差较小时更需要靠广告来吸引顾客的眼球,完全二次多项式模型,MATLAB,中有命令,rstool,直接求解,x,1,x,2,从输出,Export,可得,7.2,软件开发人员的薪金,资历,从事专业工作的年数;管理,1,=,管理人员,,0,=,非管理人员;教育,1,=,中学,,2,=,大学,,3,=,更高程度,建立模型研究薪金与资历、管理责任、教育程度的关系,分析人事策略的合理性,作为新聘用人员薪金的参考,编号,薪金,资历,管理,教育,01,13876,1,1,1,02,11608,1,0,3,03,18701,1,1,3,04,11283,1,0,2,编号,薪金,资历,管理,教育,42,27837,16,1,2,43,18838,16,0,2,44,17483,16,0,1,45,19207,17,0,2,46,19346,20,0,1,46,名软件开发人员的档案资料,分析与假设,y,薪金,,,x,1,资历(年),x,2,=,1,管理人员,,x,2,=,0,非管理人员,1,=,中学,2,=,大学,3,=,更高,资历每加一年薪金的增长是常数;,管理、教育、资历之间无交互作用,教育,线性回归模型,a,0,a,1, ,a,4,是待估计的回归系数,,是随机误差,中学:,x,3,=1,x,4,=0,;,大,学:,x,3,=0,x,4,=1,;,更高:,x,3,=0,x,4,=0,模型求解,参数,参数估计值,置信区间,a,0,11032, 10258 11807 ,a,1,546, 484 608 ,a,2,6883, 6248 7517 ,a,3,-2994, -3826 -2162 ,a,4,148, -636 931 ,R,2,=0.957,F,=226,p,=0.000,R,2,F, p,模型整体上可用,资历增加,1,年薪金增长,546,管理人员薪金多,6883,中学程度薪金比更高的少,2994,大学程度薪金比更高的多,148,a,4,置信区间包含零点,解释不可靠,!,中学:,x,3,=1,x,4,=0;,大,学:,x,3,=0,x,4,=1;,更高:,x,3,=0,x,4,=0.,x,2,=,1,管理,,x,2,=,0,非管理,x,1,资历,(,年,),残差分析方法,结果分析,残差,e,与资历,x,1,的关系,e,与管理,教育组合的关系,残差全为正,或全为负,管理,教育组合处理不当,残差大概分成,3,个水平,,6,种管理,教育组合混在一起,未正确反映,。,应在模型中增加管理,x,2,与教育,x,3,x,4,的交互项,组合,1,2,3,4,5,6,管理,0,1,0,1,0,1,教育,1,1,2,2,3,3,管理与教育的组合,进一步的模型,增加管理,x,2,与教育,x,3,x,4,的交互项,参数,参数估计值,置信区间,a,0,11204,11044 11363,a,1,497,486 508,a,2,7048,6841 7255,a,3,-1727,-1939 -1514,a,4,-348,-545 152,a,5,-3071,-3372 -2769,a,6,1836,1571 2101,R,2,=0.999,F,=554,p,=0.000,R,2,F,有改进,所有回归系数置信区间都不含零点,模型完全可用,消除了不正常现象,异常数据,(,33,号,),应去掉,e x,1,e ,组合,去掉异常数据后,的结果,参数,参数估计值,置信区间,a,0,11200,11139 11261,a,1,498,494 503,a,2,7041,6962 7120,a,3,-1737,-1818 -1656,a,4,-356,-431 281,a,5,-3056,-3171 2942,a,6,1997,1894 2100,R,2,= 0.9998,F,=36701,p,=0.0000,e x,1,e ,组合,R,2,:,0.957,0.999,0.9998,F,:,226,554,36701,置信区间长度更短,残差,图十分正常,最终模型的结果可以应用,模型应用,制订,6,种管理,教育组合人员的“基础”薪金,(,资历为,0,),组合,管理,教育,系数,“基础”薪金,1,0,1,a,0,+,a,3,9463,2,1,1,a,0,+,a,2,+,a,3,+,a,5,13448,3,0,2,a,0,+,a,4,10844,4,1,2,a,0,+,a,2,+,a,4,+,a,6,19882,5,0,3,a,0,11200,6,1,3,a,0,+,a,2,18241,中学:,x,3,=1,x,4,=0,;,大,学:,x,3,=0,x,4,=1,;,更高:,x,3,=0,x,4,=0,x,1,=,0,;,x,2,=,1,管理,,x,2,=,0,非管理,大学程度管理人员比,更高,程度管理人员的薪金高,大学程度非管理人员比,更高,程度非管理人员的薪金略低,对定性因素,(,如管理、教育,),,可以,引入,0,-,1,变量,处理,,0,-,1,变量的个数应比定性因素的水平少,1,软件开发人员的薪金,残差分析方法,可以发现模型的缺陷,,引入交互作用项,常常能够改善模型,剔除异常数据,,有助于得到更好的结果,注:可以直接对,6,种管理,教育组合引入,5,个,0,-,1,变量,7.3,酶促反应,问题,研究酶促反应(,酶催化反应),中嘌呤霉素对反应速度与底物,(反应物),浓度之间关系的影响,建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系,设计了两个实验 :酶经过嘌呤霉素处理;酶未经嘌呤霉素处理。实验数据见下表,:,方案,底物浓度,(,ppm,),0.02,0.06,0.11,0.22,0.56,1.10,反应速度,处理,76,47,97,107,123,139,159,152,191,201,207,200,未处理,67,51,84,86,98,115,131,124,144,158,160,/,基本模型,Michaelis-Menten,模型,y,酶促反应的速度,x,底物浓度,1, ,2,待定,系数,底物浓度较小时,反应速度大致与浓度成正比;,底物浓度很大、渐进饱和时,反应速度趋于固定值。,酶促反应的基本性质,x,y,0,1,实验数据,经嘌呤霉素处理,x,y,未经嘌呤霉素处理,x,y,线性化模型,经嘌呤霉素处理后实验数据的估计结果,参数,参数估计值(,10,-3,),置信区间(,10,-3,),1,5.107,3.539 6.676,2,0.247,0.176 0.319,R,2,=0.8557,F,=59.2975,p,=0.0000,对,1, ,2,非,线性,对,1,2,线性,线性化模型结果分析,x,较大时,,y,有较大偏差,1/,x,较小时有很好的线性趋势,,1/,x,较大时出现很大的起落,参数估计时,,x,较小,(,1/,x,很大)的数据控制了回归参数的确定,1/,y,1/,x,x,y,beta,R,J =,nlinfit,(x,y,model,beta0),beta,的置信区间,MATLAB,统计工具箱,输入,x,自变量,数据矩阵,y ,因变量数据向量,beta,参数的估计值,R,残差,,J,估计预测误差的,Jacobi,矩阵,model,模型的函数,M,文件名,beta0,给定的参数初值,输出,betaci,=,nlparci(beta,R,J,),非线性模型参数估计,function y=f1(beta, x),y=beta(1)*x./(beta(2)+x);,x= ; y= ;,beta0=195.8027 0.04841;,beta,R,J=nlinfit(x,y,f1,beta0),;,betaci,=,nlparci(beta,R,J,);,beta,betaci,beta0,线性化模型估计结果,非线性模型结果分析,参数,参数估计值,置信区间,1,212.68,19,197.2029 228.1609,2,0.0641,0.0457 0.0826 ,画面左下方的,Export,输出其它统计结果。,拖动画面的十字线,得,y,的预测值和预测区间,剩余标准差,s,= 10.9337,最终反应速度为,半速度点,(,达到最终速度一半时的,x,值,),为,其它输出,命令,nlintool,给出交互画面,o ,原始数据,+ ,拟合结果,混合反应,模型,x,1,为底物浓度,,x,2,为一示性变量,x,2,=1,表示经过处理,,x,2,=0,表示未经处理,1,是未经处理的最终反应速度,1,是经处理后最终反应速度的增长值,2,是未经处理的反应的半速度点,2,是经处理后反应的半速度点的增长值,在同一模型中考虑嘌呤霉素处理的影响,o ,原始数据,+ ,拟合结果,混合模型求解,用,nlinfit,和,nlintool,命令,估计结果和预测,剩余标准差,s,= 10.4000,参数,参数估计值,置信区间,1,160.2802,145.8466 174.7137,2,0.0477,0.0304 0.0650 ,1,52.4035,32.4130 72.3941 ,2,0.0164,-0.0075 0.0403,2,置信区间包含零点,,表明,2,对因变量,y,的影响不显著,参数初值,(,基于对数据的分析,),经,嘌呤霉素,处理,的作用不影响半速度,点,参数,未经处理,经处理,o ,原始数据,+ ,拟合结果,未经处理,经处理,简化的混合模型,简化的混合模型,形式简单,,参数置信区间,不含零点,剩余标准差,s,= 10.5851,,,比一般混合模型略大,估计结果和预测,参数,参数估计值,置信区间,1,166.6025,154.4886 178.7164,2,0.0580,0.0456 0.0703 ,1,42.0252,28.9419 55.1085,一般混合模型与简化混合模型预测比较,实际值,一般模型预测值,(,一般,模型,),简化模型预测值,(,简化,模型,),67,47.3443,9.2078,42.7358,5.4446,51,47.3443,9.2078,42.7358,5.4446,84,89.2856,9.5710,84.7356,7.0478,191,190.8329,9.1484,189.0574,8.8438,201,190.8329,9.1484,189.0574,8.8438,207,200.9688,11.0447,198.1837,10.1812,200,200.9688,11.0447,198.1837,10.1812,简化混合模型的预测区间较短,更为实用、有效,预测区间为预测值,注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但,R,2,与,s,仍然有效。,酶促反应,反应速度与底物浓度的关系,非线性,关系,求解,线性模型,求解非线性模型,机理分析,嘌呤霉素处理对反应速度与底物浓度关系的影响,混合,模型,发现问题,得参数初值,引入,0-1,变量,简化,模型,检查,参数置信区间,是否包含零点,7.4,投资额与国民生产总值和物价指数,问题,建立投资额模型,研究,某地区,实际投资额与国民生产总值,( GNP ),及物价指数,(,PI,),的关系,2.0688,3073.0,424.5,20,1.0000,1185.9,195.0,10,1.9514,2954.7,474.9,19,0.9601,1077.6,166.4,9,1.7842,2631.7,401.9,18,0.9145,992.7,144.2,8,1.6342,2417.8,423.0,17,0.8679,944.0,149.3,7,1.5042,2163.9,386.6,16,0.8254,873.4,133.3,6,1.4005,1918.3,324.1,15,0.7906,799.0,122.8,5,1.3234,1718.0,257.9,14,0.7676,756.0,125.7,4,1.2579,1549.2,206.1,13,0.7436,691.1,113.5,3,1.1508,1434.2,228.7,12,0.7277,637.7,97.4,2,1.0575,1326.4,229.8,11,0.7167,596.7,90.9,1,物价,指数,国民生产总值,投资额,年份,序号,物价,指数,国民生产总值,投资额,年份序号,根据对未来,GNP,及,PI,的估计,预测未来投资额,该地区,连续,20,年的统计数据,时间序列中同一变量的顺序观测值之间存在,自相关,以时间为序的数据,称为,时间序列,分析,许多经济数据在时间上有一定的,滞后,性,需要诊断并消除数据的自相关性,建立新的模型,若采用普通回归模型直接处理,将会出现不良后果,投资额与国民生产总值和物价指数,1.3234,1718.0,257.9,14,0.7676,756.0,125.7,4,1.2579,1549.2,206.1,13,0.7436,691.1,113.5,3,1.1508,1434.2,228.7,12,0.7277,637.7,97.4,2,1.0575,1326.4,229.8,11,0.7167,596.7,90.9,1,物价,指数,国民生产总值,投资额,年份,序号,物价,指数,国民生产总值,投资额,年份序号,基本回归模型,投资额与,GNP,及物价指数间均有很强的线性关系,t ,年份,,y,t,投资额,,x,1,t,GNP,x,2,t,物价指数,0, ,1, ,2,回归系数,x,1,t,y,t,x,2,t,y,t,t,对,t,相互,独立的零均值正态随机变量,基本回归模型的结果与分析,MATLAB,统计工具箱,参数,参数估计值,置信区间,0,322.7250,224.3386 421.1114,1,0.6185,0.4773 0.7596,2,-859.4790,-1121.4757 -597.4823 ,R,2,= 0.9908,F,= 919.8529,p,=0.0000,剩余标准差,s,=12.7164,没有考虑时间序列数据的,滞后性影响,R,2,0.9908,,,拟合度高,模型优点,模型缺点,可能忽视了随机误差存在,自相关,;如果存在自相关性,用此模型会有不良后果,自相关性的定性诊断,残差诊断法,模型残差,作残差,e,t,e,t,-1,散点图,大部分点落在第,1, 3,象限,t,存在正的自相关,大部分点落在第,2, 4,象限,自相关性直观判断,在,MATLAB,工作区中输出,e,t,为随机误差,t,的估计值,e,t,-1,e,t,t,存在负的自相关,基本回归,模型的随机误差项,t,存在正的自相关,自回归,性,的,定量诊断,自回归模型,自相关系数,0, ,1, ,2,回归系数,=,0,无,自相关性,0,0,如何估计,如何消除自相关,性,D-W,统计量,D-W,检验,u,t,对,t,相互,独立的零均值正态随机变量,存在负,自相关性,存在正,自相关性,广义差分法,D-W,统计量与,D-W,检验,检验水平,样本容量,回归变量数目,D-W,分布,表,n,较大,DW,4-,d,U,4,4-,d,L,d,U,d,L,2,0,正自,相关,负自,相关,不能确定,不能确定,无自相关,检验,临界值,d,L,和,d,U,由,DW,值的大小确定,自相关性,广义差分变换,以,*,0, ,1, ,2,为,回归系数的普通回归模型,原模型,DW,值,D-W,检验,无自相关,有自相关,广义差分,继续此过程,原模型,新模型,新模型,步骤,原模型,变换,不能确定,增加数据量;选用其它方法,投资额新模型的建立,DW,old,d,L,作变换,原模型残差,e,t,样本容量,n,=20,,,回归变量数目,k,=3,,,=0.05,查表,临界值,d,L,=1.10,d,U,=1.54,DW,old,=,0.8754,原模型有正自相关,DW,4-,d,U,4,4-,d,L,d,U,d,L,2,0,正自,相关,负自,相关,不能确定,不能确定,无自相关,参数,参数估计值,置信区间,*,0,163.4905,1265.4592 2005.2178,1,0.6990,0.5751 0.8247,2,-1009.0333,-1235.9392 -782.1274,R,2,= 0.9772,F,=342.8988,p,=0.0000,总体效果良好,剩余标准差,s,new,= 9.8277,s,old,=,12.7164,投资额新模型的建立,新模型的自相关性检验,d,U,DW,new,4,-d,U,新模型残差,e,t,样本容量,n,=19,,,回归变量数目,k,=3,,,=0.05,查表,临界值,d,L,=1.08,d,U,=1.53,DW,new,=,1.5751,新模型无自相关性,DW,4-,d,U,4,4-,d,L,d,U,d,L,2,0,正自,相关,负自,相关,不能确定,不能确定,无自相关,新模型,还原为,原始变量,一阶自回归模型,一阶自回归,模型残差,e,t,比,基本回归,模型要小,新模型,e,t, *,,,原模型,e,t, +,残差图比较,新模型,t, *,,,新模型,t, +,拟合图比较,模型结果比较,基本回归模型,一阶自回归模型,投资额预测,对未来投资额,y,t,作预测,需先,估计出未来的国民生产总值,x,1,t,和物价指数,x,2,t,设已知,t,=21,时,,x,1,t,=,3312,,,x,2,t,=2.1938,一阶自回归模型,2.0688,3073.0,424.5,20,1.9514,2954.7,474.9,19,1.7842,2631.7,401.9,18,0.7436,691.1,113.5,3,0.7277,637.7,97.4,2,0.7167,596.7,90.9,1,物价,指数,国民生产总值,投资额,年份,序号,物价,指数,国民生产总值,投资额,年份序号,一阶自回归模型,基本回归模型,t,较小是由于,y,t,-1,=424.5,过小所致,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!