资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第五讲 数据统计分析以及 概率模型,1 MATLAB中统计工具箱中的基本统计命令,2 概率模型,11/26/2024,1,一 MATLAB中统计工具箱中的基本统计命令,1. 数据的录入、保存和调用,2. 基本统计量,3.,常见的概率分布函数,4.,频 数 直 方 图 的 描 绘,5. 参数估计,6. 假设检验,7. 综合实例,返回,11/26/2024,2,一、数据的录入、保存和调用,例1,上海市区社会商品零售总额和全民所有制职工工资总额的数据如下:,统计工具箱中的基本统计命令,11/26/2024,3,1,年份数据以1为增量,用产生向量的方法输入.,命令格式:,x=a:h:b,t=78:87,2,分别以,x,和,y,代表变量职工工资总额和商品零售总额.,x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4,y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,3将变量,t、x、y,的数据保存在文件,data,中.,save data t x y,4进行统计分析时,调用数据文件,data,中的数据.,load data,To MATLAB(txy),方法1,11/26/2024,4,1,输入矩阵:,data=78,79,80,81,82,83,84,85,86,87,88; 23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4; 41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,2将矩阵,data,的数据保存在文件,data1,中:,save data1 data,3,进行统计分析时,先用命令,:load data1,调用数据文件,data1,中的数据,再用以下命令分别将矩阵,data,的第一、二、三行的数据赋给变量,t、x、y,:,t=data(1,:),x=data(2,:),y=data(3,:),若要调用矩阵,data,的第,j,列的数据,可用命令:,data(:,j),方法2,To MATLAB(data),返回,11/26/2024,5,基本统计量,11/26/2024,6,11/26/2024,7,二、基本统计量,对随机变量,x,,计算其基本统计量的命令如下:,均值:,mean(x),中位数:,median(x),标准差:,std(x),方差:,var(x),偏度:,skewness(x),峰度:,kurtosis(x),例,对例1中的职工工资总额,x,,可计算上述基本统计量.,To MATLAB(tjl),返回,11/26/2024,8,三,、,常见概率分布的函数,MATLAB,工具箱对每一种分布都提供5类函数,其命令字符为:,概率密度:,pdf,概率分布:,cdf,逆概率分布:,inv,均值与方差:,stat,随机数生成:,rnd,(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.),11/26/2024,9,在,MATLAB,中输入以下命令:,x=-6:0.01:6;,y=normpdf(x); z=normpdf(x,0,2);,plot(x,y,x,z),1密度函数,:,p=normpdf(x,mu,sigma),(当,mu,=0,sigma,=1时可缺省),To MATLAB(liti2),如对均值为mu、标准差为sigma的正态分布,举例如下:,11/26/2024,10,To MATLAB(liti3),2概率分布,:,P=normcdf(x,mu,sigma),4均值与方差:,m,v=normstat(mu,sigma),例5,求正态分布,N,(3,5,2,)的均值与方差.,命令为:,m,v=normstat(3,5),结果为:,m=3,v=25,To MATLAB(liti5),11/26/2024,11,1,给出数组,data,的,频数表,的命令为:,N,X=hist(data,k),此命令将区间,min(data),max(data),分为,k,个小区间(缺省为10),返回数组,data,落在每一个小区间的频数,N,和每一个小区间的中点,X,.,2描绘数组,data,的,频数直方图,的命令为:,hist(data,k),四、数 直 方 图 的 描 绘,返回,11/26/2024,12,五、参数估计,1,正态总体的参数估计,设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:,muhat,sigmahat,muci,sigmaci=normfit(X,alpha),此命令在显著性水平,alpha,下估计数据X的参数(,alpha,缺省时设定为,0.05,),返回值,muhat,是,X,的均值的点估计值,,sigmahat,是标准差的点估计值,muci,是均值的区间估计,sigmaci,是标准差的区间估计.,11/26/2024,13,2其它分布的参数估计,有两种处理办法:,一、取容量充分大的样本(,n,50),按中心极限定理,它近似地,服从正态分布;,二、使用MATLAB工具箱中具有特定分布总体的估计命令.,(1)muhat, muci = expfit(,X,alpha),在显著性水平,alpha,下,求,指数分布的数据,X,的,均值的点估计及其区间估计.,(2)lambdahat, lambdaci = poissfit(,X,alpha),在显著性水平,alpha,下,求,泊松分布的数据,X,的参数的点估计及其区间估计.,(3)phat, pci = weibfit(,X,alpha),在显著性水平,alpha,下,求,Weibull分布的数据,X,的参数的点估计及其区间估计.,返回,11/26/2024,14,六、假设检验,在总体服从正态分布的情况下,可用以下命令进行假设检验.,1,总体方差,已知时,总体均值的检验使用,z,检验,h,sig,ci = ztest(x,m,sigma,alpha,tail),检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差, alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail = 0,检验假设“x 的均值等于 m ”,tail = 1,检验假设“x 的均值大于 m ”,tail =-1,检验假设“x 的均值小于 m ”,tail的缺省值为 0, alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,11/26/2024,15,例7,MATLAB统计工具箱中的数据文件gas.mat.中提供了美国1993年1月份和2月份的汽油平均价格(price1,price2分别是1、2月份的油价,单位为美分),它是容量为20的双样本.假设1月份油价的标准偏差是每加仑4分币(,=4),试检验1月份油价的均值是否等于115.,解,作假设:m = 115.,首先取出数据,用以下命令:,load gas,然后用以下命令检验,h,sig,ci = ztest(price1,115,4),返回:h = 0,sig = 0.8668,ci = 113.3970 116.9030.,检验结果: 1. 布尔变量,h=0, 表示不拒绝零假设. 说明提出的假设均值115,是合理的.,2.,sig,值为0.8668, 远超过0.5, 不能拒绝零假设,3. 95%的置信区间为113.4, 116.9, 它完全包括115, 且精度很,高.,.,To MATLAB(liti7),11/26/2024,16,2,总体方差,未知时,总体均值的检验使用,t,检验,h,sig,ci = ttest(x,m,alpha,tail),检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail = 0,检验假设“x 的均值等于 m ”,tail = 1,检验假设“x 的均值大于 m ”,tail =-1,检验假设“x 的均值小于 m ”,tail的缺省值为 0, alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,11/26/2024,17,返回:,h = 1,sig = 4.9517e-004,ci =116.8 120.2.,检验结果: 1. 布尔变量,h,=1, 表示拒绝零假设. 说明提出的假,设油价均值115是不合理的.,2. 95%的置信区间为,116.8 120.2, 它不包括,115, 故不能接受假设.,3.,sig,值为,4.9517e-004, 远小于0.5, 不能接受零,假设.,To MATLAB(liti8),例8,试检验例8中2月份油价,price2,的均值是否等于115.,解,作假设:m = 115,,price2,为2月份的油价,不知其方差,故用以下命令检验,h,sig,ci = ttest( price2 ,115),11/26/2024,18,3,两总体均值的假设检验,使用,t,检验,h,sig,ci = ttest2(x,y,alpha,tail),检验数据 x ,y 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值:,tail = 0,检验假设“x 的均值等于 y 的均值 ”,tail = 1,检验假设“x 的均值大于 y 的均值 ”,tail =-1,检验假设“x 的均值小于 y 的均值 ”,tail的缺省值为 0, alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为与x与y均值差的的 1-alpha 置信区间.,11/26/2024,19,返回:,h = 1,sig = 0.0083,ci =-5.8,-0.9.,检验结果:1. 布尔变量h=1, 表示拒绝零假设. 说明提出的,假设“油价均值相同”是不合理的.,2. 95%的置信区间为,-5.8,-0.9,说明一月份油,价比二月份油价约低1至6分.,3. sig-值为,0.0083, 远小于0.5, 不能接受“油价均,相同”假设.,To MATLAB(liti9),例9,试检验例8中1月份油价,price1,与2月份的油价,price2,均值是否相同.,解,用以下命令检验,h,sig,ci = ttest2(price1,price2),11/26/2024,20,4,非参数检验:总体分布的检验,MATLAB,工具箱提供了两个对总体分布进行检验的命令:,(1),h = normplot(x),(2)h = weibplot(x),此命令显示数据矩阵,x,的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.,此命令显示数据矩阵,x,的,Weibull,概率图.如果数据来自于,Weibull,分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.,返回,11/26/2024,21,分布函数的近似求法,11/26/2024,22,11/26/2024,23,11/26/2024,24,返回,F,(10,50)分布的密度函数曲线,11/26/2024,25,例10,一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下:,459 362 624 542 509 584 433 748 815 505,612 452 434 982 640 742 565 706 593 680,926 653 164 487 734 608 428 1153 593 844,527 552 513 781 474 388 824 538 862 659,775 859 755 49 697 515 628 954 771 609,402 960 885 610 292 837 473 677 358 638,699 634 555 570 84 416 606 1062 484 120,447 654 564 339 280 246 687 539 790 581,621 724 531 512 577 496 468 499 544 645,764 558 378 765 666 763 217 715 310 851,试观察该刀具出现故障时完成的零件数属于哪种分布.,11/26/2024,26,解,1数据输入,To MATLAB(liti101),2,作频数直方图,hist(x,10),3分布的正态性检验,normplot(x),4参数估计:,muhat,sigmahat,muci,sigmaci=normfit(x),(看起来刀具寿命服从正态分布),(刀具寿命近似服从正态分布),估计出该刀具的均值为594,方差204,,均值的0.95置信区间为 553.4962,634.5038,,方差的0.95置信区间为 179.2276,237.1329.,To MATLAB(liti104),To MATLAB(liti102),To MATLAB(liti103),11/26/2024,27,5假设检验,To MATLAB(liti105),已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值 m 是否等于594.,结果:,h = 0,sig = 1,ci =553.4962,634.5038.,检验结果: 1. 布尔变量,h=0, 表示不拒绝零假设. 说,明提出的假设寿命均值594是合理的.,2. 95%的置信区间为,553.5,634.5, 它,完全包括594, 且精度很高.,3.,sig,值为1, 远超过0.5, 不能拒绝零假,设.,返回,11/26/2024,28,第五讲 概率模型,1 轧钢中的浪费,2 随机存储策略,11/26/2024,29,确定性因素和随机性因素,随机因素可以忽略,随机因素影响可以简单地以平均值的作用出现,随机因素影响必须考虑,概率模型,统计回归模型,马氏链模型,随机模型,确定性模型,随机性模型,11/26/2024,30,1 轧钢中的浪费,轧制钢材两道工序,粗轧,(,热轧,) ,形成钢材的雏形,精轧,(,冷轧,) ,得到钢材规定的长度,粗轧,钢材长度正态分布,均值可以调整,方差由设备精度确定,粗轧钢材长度大于规定,切掉多余 部分,粗轧钢材长度小于规定,整根报废,随机因素影响,精轧,问题:如何调整粗轧的均值,使精轧的浪费最小,背景,11/26/2024,31,分析,设已知精轧后钢材的规定长度为,l,, 粗轧后钢材长度的均方差为,记粗轧时可以调整的均值为,m,,则粗轧得到的钢材长度为正态随机变量,记作,xN,(,m,2,),切掉多余部分的概率,整根报废,的概率,存在最佳的,m,使总的浪费最小,l,P,0,p,(概率密度),m,x,P,m,P,P,11/26/2024,32,建模,选择合适的目标函数,切掉多余部分的浪费,整根报废的浪费,总浪费 =,+,粗轧一根钢材平均浪费长度,粗轧,N,根,成品材,PN,根,成品材长度,l PN,总长度,mN,共浪费长度,mN-lPN,11/26/2024,33,选择合适的目标函数,粗轧一根钢材平均浪费长度,得到一根成品材平均浪费长度,更合适的目标函数,优化模型:求,m,使,J,(,m,) 最小(已知,l,),建模,粗轧,N,根得成品材,PN,根,11/26/2024,34,求解,求,z,使,J,(,z,) 最小(已知,),11/26/2024,35,求解,11/26/2024,36,例,设,l,=2(米,),=20(厘米),求,m,使浪费最小。,=,l,/=10,z,*,=-1.78,*,=,-,z,*,=11.78,m,*,=,*,=2.36(,米),求解,1.253,0.876,0.656,0.516,0.420,0.355,0,227.0,-3.0,0.5,56.79,-2.5,1.0,18.10,-2.0,1.5,7.206,-1.5,2.0,2.5,3.477,1.680,-1.0,-0.5,z,z,F,(,z,),F,(,z,),1.0,2.0,0,-1.0,-2.0,10,5,F,(,z,),z,11/26/2024,37,2 随机存贮策略,问题,以周为时间单位;一周的商品销售量为随机;周末根据库存决定是否订货,供下周销售。,(,s, S,),存贮策略,制订下界,s, 上界,S,,当周末库存小于,s,时订货,使下周初的库存达到,S,; 否则,不订货。,考虑订货费、存贮费、缺货费、购进费,制订,(,s, S,),存贮策略,使(平均意义下),总费用最小,11/26/2024,38,模型假设,每次订货费,c,0,每件商品购进价,c,1,每件商品一周贮存费,c,2,每件商品缺货损失费,c,3,(,c,1,c,3,),每周销售量,r,随机、连续,概率密度,p,(,r,),周末库存量,x,订货量,u,周初库存量,x+u,每周贮存量按,x+u-r,计,11/26/2024,39,建模与求解,(,s, S,),存贮策略,确定,(,s, S,),使目标函数每周总费用的平均值最小,平均费用,订货费,c,0, 购进价,c,1, 贮存费,c,2, 缺货费,c,3, 销售量,r,s ,订货点,,S ,订货值,11/26/2024,40,建模与求解,1)设,xs, 求,u,使,J,(,u,) 最小,确定,S,建模与求解,S,P,1,P,2,0,r,p,11/26/2024,41,2)对库存,x,,确定订货点,s,若订货,u, u+x=S, 总费用为,若不订货,u,=0, 总费用为,订货点,s,是,的最小正根,建模与求解,不订货,11/26/2024,42,最小正根的,图解法,J,(,u,)在,u+x=S,处达到最小,x,I,(,x,),0,S,I,(,S,),s,I,(,S,),+c,0,I,(,x,)在,x=S,处达到最小值,I,(,S,),I,(,x,)图形,建模与求解,J,(,u,)与,I,(,x,)相似,I,(,S,),的最小正根,s,11/26/2024,43,某校60名学生的一次考试成绩如下:,93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55,1),计算均值、标准差、极差、偏度、峰度,画出直方图;,2),检验分布的正态性;,3)若检验符合正态分布,估计正态分布的参数并检验参数.,作 业,11/26/2024,44,
展开阅读全文