资源描述
MATLAB统计工具箱在数学建模中的应用,确定性模型和随机性模型,随机因素可以忽略,随机因素影响可以简单地以平均值的作用出现,随机因素影响必须考虑,概率模型,回归模型,马氏链模型,例:报童的利润,为了获得最大的利润,报童每天应购进多少份报纸?,概率模型,162天报纸需求量的调查,报童早上购进报纸零售,晚上将未卖掉的报纸退回。,购进价b(=0.8元),零售价a(=1元),退回价c(=0.75元),售出一份赚a-b,退回一份赔b-c,136214195219224197213187187230172227157114156,问题分析,购进太多卖不完退回赔钱,购进太少不够销售赚钱少,应根据需求确定购进量,每天需求量是随机的,目标函数应是长期的日平均利润,=每天收入的期望值,随机性优化模型,需求量的随机规律由162天报纸需求量的调查得到,模型建立,设每天购进n份,日平均收入为G(n),求n使G(n)最大,已知售出一份赚a-b;退回一份赔b-c,r视为连续变量,模型建立,模型建立,结果解释,取n使,a-b售出一份赚的钱b-c退回一份赔的钱,MATLAB统计工具箱常用命令(一),MATLAB统计工具箱常用命令(一),y=normpdf(1.5,1,2)正态分布x=1.5的概率密度(=1,=2),y=fcdf(1,10,50)F分布x=1的分布函数(自由度n1=10,n2=50),y=tinv(0.9,10)概率=0.9的逆t分布(分位数,自由度n=10),用MATLAB统计工具箱求解报童模型,根据数据确定需求量的概率分布p(x),baotongdata.m,由计算n,baotong1.m,回归模型,例1:血压与年龄、体重指数、吸烟习惯,体重指数=体重(kg)/身高(m)的平方,吸烟习惯:0表示不吸烟,1表示吸烟,建立血压与年龄、体重指数、吸烟习惯之间的回归模型,模型建立,血压y,年龄x1,体重指数x2,吸烟习惯x3,y与x1的散点图,y与x2的散点图,线性回归模型,回归系数0,1,2,3由数据估计,是随机误差,MATLAB统计工具箱常用命令(二),b=regress(y,X)b,bint,r,rint,s=regress(y,X,alpha),输入:y因变量(列向量),X1与自变量组成的矩阵,Alpha显著性水平(缺省时设定为0.05),s:3个统计量:决定系数R2,F值,F(1,n-2)分布大于F值的概率p,p时回归模型有效,rcoplot(r,rint),残差及其置信区间作图,模型求解,剔除异常点(第2点和第10点)后,xueya01.m,例2软件开发人员的薪金,资历从事专业工作的年数;管理1=管理人员,0=非管理人员;教育1=中学,2=大学,3=更高程度,建立模型研究薪金与资历、管理责任、教育程度的关系,分析人事策略的合理性,作为新聘用人员薪金的参考,回归模型,分析与假设,y薪金,x1资历(年),x2=1管理人员,x2=0非管理人员,1=中学2=大学3=更高,资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用,教育,线性回归模型,a0,a1,a4是待估计的回归系数,是随机误差,模型求解,R2,F,p模型整体上可用,资历增加1年薪金增长546,管理人员薪金多6883,中学程度薪金比更高的少2994,大学程度薪金比更高的多148,a4置信区间包含零点,解释不可靠!,xinjindata.mxinjin.m,残差分析方法,结果分析,残差,e与资历x1的关系,e与管理教育组合的关系,残差全为正,或全为负,管理教育组合处理不当,残差大概分成3个水平,6种管理教育组合混在一起,未正确反映,应在模型中增加管理x2与教育x3,x4的交互项,进一步的模型,增加管理x2与教育x3,x4的交互项,R2,F有改进,所有回归系数置信区间都不含零点,模型完全可用,消除了不正常现象,异常数据(33号)应去掉,ex1,e组合,去掉异常数据后的结果,ex1,e组合,R2:0.9570.9990.9998F:22655436701置信区间长度更短,残差图十分正常,最终模型的结果可以应用,xinjindata2.mxinjin1.m,模型应用,制订6种管理教育组合人员的“基础”薪金(资历为0),中学:x3=1,x4=0;大学:x3=0,x4=1;更高:x3=0,x4=0,x1=0;x2=1管理,x2=0非管理,大学程度管理人员比更高程度管理人员的薪金高,大学程度非管理人员比更高程度非管理人员的薪金略低,例3商品销售量与价格,回归模型,某厂生产的一种电器的销售量y与竞争对手的价格x1及本厂的价格x2有关,该商品在10个城市的销售记录如下,根据数据建立y与x1和x2的模型;若某市本厂产品售价160(元),竞争对手售价170(元),预测该市的销售量.,将(x1,y),(x2,y)各10个点分别画图,y与x2有较明显的线性关系,y与x1之间的关系难以确定,需要对模型y=f(x1,x2)作几种尝试,用统计分析决定优劣。,例3商品销售量与价格,b,bint,r,rint,stats=regress(Y,X,alpha),例3商品销售量与价格,一次函数的回归模型,结果不是太好:=0.05时模型有效,但=0.01时模型不能用;R2较小;1的置信区间包含零点。,MATLAB统计工具箱常用命令(三),rstool(x,y,model,alpha),xnm矩阵,n是数据容量,yn维列向量,alpha显著性水平,多元二项式回归,model从以下4个模型中选取:(设m=2),例3商品销售量与价格,x1=;x2=;x=x1x2;y=;rstool(x,y,quadratic),Export向工作区传送参数:beta-回归系数,rmse-剩余标准差s,residuals-残差(向量);,Shangpin.m,以剩余标准差rmse最小为标准,比较4种模型,Model:linearpurequadraticinteractionquadraticrmse:18.736216.643619.162618.6064,=(-312.58717.2701-1.7337-0.02280.0037),例3商品销售量与价格,MATLAB统计工具箱常用命令(四),逐步回归stepwise(x,y,inmodel,penter,premove),x候选变量集合的nk数据矩阵(n是数据容量,k是变量数目);y因变量数据向量(n维);Inmodel初始模型中包括的候选变量集合的指标(矩阵x的列序数,缺省时设定为全部候选变量);penter引入变量的显著性水平(缺省时设定为0.05);premove剔除变量的显著性水平(缺省时设定为0.10)。,例3商品销售量与价格,x=x1;x2;x1.*x2;x1.2;x2.2;stepwise(x,y),Shangpin.m,MATLAB统计工具箱常用命令(五),x自变量数据矩阵,y因变量数据向量,model模型的函数名(m文件:y=f(b,x),b为待估系数),b0回归系数的初值;b的估计值,R残差,J估计预测误差的Jacobi矩阵。,谢谢大家!,
展开阅读全文