资源描述
第七章 统计回归模型,7.1,牙膏的销售量,7.2,软件开发人员的薪金,7.3,酶促反应,7.4,投资额与国民生产总值和,物价指数,回归模型是用统计分析方法建立的最常用的一类模型,数学建模的基本方法,机理分析,测试分析,通过对数据的统计分析,找出与数据拟合最好的模型,不涉及回归分析的数学原理和方法,通过实例讨论如何选择不同类型的模型,对软件得到的结果进行分析,对模型进行改进,由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。,7.1,牙膏的销售量,问题,建立牙膏销售量与价格、广告投入之间的模型,预测在不同价格和广告费用下的牙膏销售量,收集了,30,个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价,9.26,0.55,6.80,4.25,3.70,30,7.93,0.05,5.80,3.85,3.80,29,8.51,0.25,6.75,4.00,3.75,2,7.38,-0.05,5.50,3.80,3.85,1,销售量,(,百万支,),价格差,(元),广告费用,(,百万元,),其它厂家价格,(,元,),本公司价格,(,元,),销售周期,基本模型,y,公司牙膏销售量,x,1,其它厂家与本公司,价格差,x,2,公司广告费用,x,2,y,x,1,y,x,1,x,2,解释变量,(,回归变量,自变量,),y,被解释变量(因变量),0,1,2,3,回归系数,随机,误差(,均值为零的正态分布随机变量),MATLAB,统计工具箱,模型求解,b,bint,r,rint,stats=regress(y,x,alpha),输入,x=,n,4,数据矩阵,第,1,列为全,1,向量,alpha,(,置信,水平,0.05,),b,的,估计值,bint,b,的置信区间,r,残差向量,y,-,xb,rint,r,的置信区间,Stats,检验统计量,R,2,F,p,y,n,维数据向量,输出,由数据,y,x,1,x,2,估计,参数,参数估计值,置信区间,17.3244,5.7282 28.9206,1.3070,0.6829 1.9311,-3.6956,-7.4989 0.1077,0.3486,0.0379 0.6594,R,2,=0.9054,F,=82.9409,p,=0.0000,0,1,2,3,结果分析,y,的,90.54%,可由模型确定,参数,参数估计值,置信区间,17.3244,5.7282 28.9206,1.3070,0.6829 1.9311,-3.6956,-7.4989 0.1077,0.3486,0.0379 0.6594,R,2,=0.9054,F,=82.9409,p,=0.0000,0,1,2,3,F,远超过,F,检验的临界值,p,远小于,=,0.05,2,的置信区间包含零点,(,右端点距零点很近,),x,2,对因变量,y,的影响不太显著,x,2,2,项显著,可将,x,2,保留在模型中,模型从整体上看成立,销售量预测,价格差,x,1,=,其它厂家,价格,x,3,-,本公司,价格,x,4,估计,x,3,调整,x,4,控制价格差,x,1,=0.2,元,投入广告费,x,2,=650,万元,销售量预测区间为,7.8230,,,8.7636,(置信度,95%,),上限用作库存管理的目标值,下限用来把握公司的现金流,若估计,x,3,=3.9,,设定,x,4,=3.7,,则可以,95%,的把握知道销售额在,7.8320,3.7,29,(百万元)以上,控制,x,1,通过,x,1,x,2,预测,y,(,百万支,),模型改进,x,1,和,x,2,对,y,的,影响独立,参数,参数估计值,置信区间,17.3244,5.7282 28.9206,1.3070,0.6829 1.9311,-3.6956,-7.4989 0.1077,0.3486,0.0379 0.6594,R,2,=0.9054,F,=82.9409,p,=0.0000,0,1,2,3,参数,参数估计值,置信区间,29.1133,13.7013 44.5252,11.1342,1.9778 20.2906,-7.6080,-12.6932 -2.5228,0.6712,0.2538 1.0887,-1.4777,-2.8518 -0.1037,R,2,=0.9209,F,=72.7771,p,=0.0000,3,0,1,2,4,x,1,和,x,2,对,y,的影响有交互作用,两模型销售量预测,比较,(,百万支,),区间,7.8230,,,8.7636,区间,7.8953,,,8.7592,(,百万支,),控制价格差,x,1,=0.2,元,投入广告费,x,2,=6.5,百万元,预测区间长度更短,略有增加,x,2,=6.5,x,1,=0.2,x,1,x,1,x,2,x,2,两模型 与,x,1,x,2,关系的,比较,交互作用影响的讨论,价格差,x,1,=0.1,价格差,x,1,=0.3,加大广告投入使销售量增加,(,x,2,大于,6,百万元),价格差较小时增加的速率更大,x,2,价格优势会使销售量增加,价格差较小时更需要靠广告来吸引顾客的眼球,完全二次多项式模型,MATLAB,中有命令,rstool,直接求解,x,1,x,2,从输出,Export,可得,7.2,软件开发人员的薪金,资历,从事专业工作的年数;管理,1,=,管理人员,,0,=,非管理人员;教育,1,=,中学,,2,=,大学,,3,=,更高程度,建立模型研究薪金与资历、管理责任、教育程度的关系,分析人事策略的合理性,作为新聘用人员薪金的参考,编号,薪金,资历,管理,教育,01,13876,1,1,1,02,11608,1,0,3,03,18701,1,1,3,04,11283,1,0,2,编号,薪金,资历,管理,教育,42,27837,16,1,2,43,18838,16,0,2,44,17483,16,0,1,45,19207,17,0,2,46,19346,20,0,1,46,名软件开发人员的档案资料,分析与假设,y,薪金,,x,1,资历(年),x,2,=,1,管理人员,,x,2,=,0,非管理人员,1,=,中学,2,=,大学,3,=,更高,资历每加一年薪金的增长是常数;,管理、教育、资历之间无交互作用,教育,线性回归模型,a,0,a,1,a,4,是待估计的回归系数,,是随机误差,中学:,x,3,=1,x,4,=0,;大学:,x,3,=0,x,4,=1,;,更高:,x,3,=0,x,4,=0,模型求解,参数,参数估计值,置信区间,a,0,11032,10258 11807,a,1,546,484 608,a,2,6883,6248 7517,a,3,-2994,-3826 -2162,a,4,148,-636 931,R,2,=0.957,F,=226,p,=0.000,R,2,F,p,模型整体上可用,资历增加,1,年薪金增长,546,管理人员薪金多,6883,中学程度薪金比更高的少,2994,大学程度薪金比更高的多,148,a,4,置信区间包含零点,解释不可靠,!,中学:,x,3,=1,x,4,=0;,大学:,x,3,=0,x,4,=1;,更高:,x,3,=0,x,4,=0.,x,2,=,1,管理,,x,2,=,0,非管理,x,1,资历,(,年,),残差分析方法,结果分析,残差,e,与资历,x,1,的关系,e,与管理,教育组合的关系,残差全为正,或全为负,管理,教育组合处理不当,残差大概分成,3,个水平,,6,种管理,教育组合混在一起,未正确反映,。,应在模型中增加管理,x,2,与教育,x,3,x,4,的交互项,组合,1,2,3,4,5,6,管理,0,1,0,1,0,1,教育,1,1,2,2,3,3,管理与教育的组合,进一步的模型,增加管理,x,2,与教育,x,3,x,4,的交互项,参数,参数估计值,置信区间,a,0,11204,11044 11363,a,1,497,486 508,a,2,7048,6841 7255,a,3,-1727,-1939 -1514,a,4,-348,-545 152,a,5,-3071,-3372-2769,a,6,1836,1571 2101,R,2,=0.999,F,=554,p,=0.000,R,2,F,有改进,所有回归系数置信区间都不含零点,模型完全可用,消除了不正常现象,异常数据,(,33,号,),应去掉,e x,1,e,组合,去掉异常数据后,的结果,参数,参数估计值,置信区间,a,0,11200,11139 11261,a,1,498,494 503,a,2,7041,6962 7120,a,3,-1737,-1818 -1656,a,4,-356,-431 281,a,5,-3056,-3171 2942,a,6,1997,1894 2100,R,2,=0.9998,F,=36701,p,=0.0000,e x,1,e,组合,R,2,:,0.957,0.999,0.9998,F,:,226,554,36701,置信区间长度更短,残差,图十分正常,最终模型的结果可以应用,模型应用,制订,6,种管理,教育组合人员的,“,基础,”,薪金,(,资历为,0,),组合,管理,教育,系数,“,基础”薪金,1,0,1,a,0,+,a,3,9463,2,1,1,a,0,+,a,2,+,a,3,+,a,5,13448,3,0,2,a,0,+,a,4,10844,4,1,2,a,0,+,a,2,+,a,4,+,a,6,19882,5,0,3,a,0,11200,6,1,3,a,0,+,a,2,18241,中学:,x,3,=1,x,4,=0,;大学:,x,3,=0,x,4,=1,;,更高:,x,3,=0,x,4,=0,x,1,=,0,;,x,2,=,1,管理,,x,2,=,0,非管理,大学程度管理人员比更高程度管理人员的薪金高,大学程度非管理人员比更高程度非管理人员的薪金略低,对定性因素,(,如管理、教育,),,可以,引入,0,-,1,变量,处理,,0,-,1,变量的个数应比定性因素的水平少,1,软件开发人员的薪金,残差分析方法,可以发现模型的缺陷,,引入交互作用项,常常能够改善模型,剔除异常数据,,有助于得到更好的结果,注:可以直接对,6,种管理,教育组合引入,5,个,0,-,1,变量,7.3,酶促反应,问题,研究酶促反应(,酶催化反应),中嘌呤霉素对反应速度与底物,(反应物),浓度之间关系的影响,建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系,设计了两个实验:酶经过嘌呤霉素处理;酶未经嘌呤霉素处理。实验数据见下表,:,方案,底物浓度,(ppm),0.02,0.06,0.11,0.22,0.56,1.10,反应速度,处理,76,47,97,107,123,139,159,152,191,201,207,200,未处理,67,51,84,86,98,115,131,124,144,158,160,/,基本模型,Michaelis-Menten,模型,y,酶促反应的速度,x,底物浓度,1,2,待定,系数,底物浓度较小时,反应速度大致与浓度成正比;,底物浓度很大、渐进饱和时,反应速度趋于固定值。,酶促反应的基本性质,x,y,0,1,实验数据,经嘌呤霉素处理,x,y,未经嘌呤霉素处理,x,y,线性化模型,经嘌呤霉素处理后实验数据的估计结果,参数,参数估计值(,10,-3,),置信区间(,10,-3,),1,5.107,3.539 6.676,2,0.247,0.176 0.319,R,2,=0.8557,F,=59.2975,p,=0.0000,对,1,2,非线性,对,1,2,线性,线性化模型结果分析,x,较大时,,y,有较大偏差,1/,x,较小时有很好的线性趋势,,1/,x,较大时出现很大的起落,参数估计时,,x,较小(,1/,x,很大)的数据控制了回归参数的确定,1/,y,1
展开阅读全文