蒙牛统计技术及DOE讲座

上传人:yc****d 文档编号:243432469 上传时间:2024-09-23 格式:PPT 页数:180 大小:2.06MB
返回 下载 相关 举报
蒙牛统计技术及DOE讲座_第1页
第1页 / 共180页
蒙牛统计技术及DOE讲座_第2页
第2页 / 共180页
蒙牛统计技术及DOE讲座_第3页
第3页 / 共180页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,(,及,DOE),讲座,Email:,手机,:,1,统计技术,(,及,DOE),是生产力,是每个研发人员和管理人员必须掌握的基础技术,-,从蒙牛研发团队的二个问题说起,2,我们的问题?,某乳品公司要研发一种新的乳酸菌饮品,主要原料有:白砂糖,乳酸,牛奶,稳定剂,水。,目前,白砂糖有三个供应商,分别来自南宁(,N),,福州,(F),和韩国,(H),;,乳酸有三个供应商,分别来自河南(,HN),,荷兰,(HL),和安徽,(AH),。,研发团队接到指令在两周内完成实验,使糖酸比得到最佳,符合北方人的口感。按照经验,糖的添加量应该在,8.5-11%,之间,乳酸的添加量,0.4-0.6%,之间。,如果原料作单因素分析,会有很大工作量,希望统计分析能为我们带来有效的解决方案。,3,乳酸菌饮品新品开发的实验设计,本问题为四因素,(,糖供应商、乳酸供应商、糖添加量、乳酸添加量,),三水平实验问题,.,分析,:,采用全面试验需做,3,4,=81,次试验,由于评价指标是感官指标,最佳评比对象为,79,个,无法分辩,81,个结果和排序,.,而所谓单因素循环是一种很糟糕的,”,方法,”(,参见讲座正交试验的优良性,).,因此采用正交试验,安排在正交表,L,9,(3,4,),上,其因素水平表为,4,全面试验,”,单因素循环”与正交试验,三因素三水平全面试验,做,3,3,=27,次试验,(,图中的,27,个交点,),图中黑点为所谓,”单因素循环”,而空心点为正交试,验的点,5,实验方案正交表,L,9,(3,4,),6,关于多重感官指标的评定的德尔菲赋权法,邀请多名评比专家评比乳酸菌饮品的九个结果,方法一,:,直接给出每个结果的综合感官评分,然后取各专家的评分平均值,填入前表的最后一列,方法二,:,评比饮品的各单项指标分,(,取各专家的平均分填入前表的各单项评分列,),采用德尔菲法对各单项指标赋权,然后对各单项指标的平均分加权综合填入前表最后一列,(,德尔菲赋权法见下页,),如果要考虑成本,则可把每种配比的成本作为一单项指标与感官指标再加权综合,7,德尔菲专家赋权法,8,试验结果的分析,通过分析四个因素对九个结果的方差,(,通常需借助计算机软件,)(,或极差,),的贡献,试图探明,四个因素对指标的影响大小顺序,哪些是不显著因素,(,就是取不同水平时对指标值影响较小的因素,可以根据实际需要取适当水平,),哪些是显著因素,(,就是取不同水平时指标值变化较大,此时需取使指标值最佳的水平,),对不显著因素取恰当水平,对显著因素取好水平,得到理论上的最佳水平组合,利用因素水平趋势图检查糖添加量与乳酸添加量的取值范围是否恰当,有必要时进行下一轮实验以获求更佳结果,分析过程的具体细节见讲座中正交试验内容,9,我们的问题?,2.,某乳品企业希望开发新型混合果味奶产品,产品中会用到四种香精:菠萝,(P),,香蕉,(B),,橙子,(O),,芒果,(M),。,受到成本限制,他们加起来的总添加量不会超过,0.4%,研发团队接到指令在一周内完成实验,使产品的风味最佳,符合年轻女性的喜欢。,希望统计分析能为我们带来有效的解决方案,得到最佳香精配比。,10,开发新型混合果味奶产品中香精的最佳配比,-,一个典型的混料设计问题,由于配方实验是很常见的实验,因此一般统计软件都有混料设计的内容,这儿分别介绍软件,SAS,与软件,Design Expert,中的混料设计,.,针对香精总量,0.4%,的限制条件只要把本问题中的,0.4%,视为,1,即可进入以下讨论,:,设菠萝,(P),,香蕉,(B),,橙子,(O),,芒果,(M),实际用量为,U,P,U,B,U,O,U,M,令,Z1=250*U,P, Z2=250*U,B, Z3=250*U,O, Z4=250*U,M,则本问题转化为,0Z1,Z2,Z3,Z4 1,Z1+Z2+Z3+Z4=1,以上问题称为无下界约束的混料设计问题,(Mixture Design).,为了增加解决问题的能力,主讲人把问题修改成更一般化的有下界约束的混料设计,:,设出于成本,(,或其它专业原因,),要求成份,z120%,成份,z430%,这样的问题称为有下界约束的混料设计,:,0Z1,Z4 1, 0.2Z1 1, 0.3Z4 1,Z1+Z2+Z3+Z4=1,对于有下界约束则先进行无下界约束转换,然后可按照软件提供的实验方案进行实验,把实验结果填入设计过程中的表格,软件会自动进行很全面的分析,.,以下为软件中混料设计的内容,11,混料设计,(Mixture Design),混料设计问题即配比配方设计问题,(,在前一问题中已经介绍了利用正交表进行配方配比试验,),.,以三因素为例,.,设配方成份为,A,B,C,在配方中的百分比分别为,x1,x2,x3,满足条件,x1,0,x2,0,x3,0,x1+x2+x3=1(,*,)-,无下界约束的混料问题,由于,x,1,+x,2,+x,3,=1,x,1,2,=x,1,(1-x,2,-x,3,),x,2,2,=(1-x,1,-x,3,),x,3,2,(1-x,1,-x,2,),代入可消去常数项和平方项,指标,y,与三个自变量的三元二次回归方程在约束条件,(*),下的回归方程可表为,y=b,1,x,1,+b,2,x,2,+b,3,x,3,+b,12,x,1,x,2,+b,13,x,1,x,3,+b,23,x,2,x,3,满足条件的试验点均位于,A(1,0,0),B(0,1,0),C(0,0,1),构成的正三角形内,具体设计方案见,SAS,的,Mixture Design,对于有下界约束,z1,a1,z2,a2,z3,a3, a1+a2+a30.05,时称不显著,;0.01P0.05,时称为显著,;p0.05,时接受零假设,;,当零假设概率,P,r,0.05,时拒绝零假设,.,45,讨论例,1,包装机,涉及假设检验的所有统计方法中,我们总是先设定零假设成立,(,这样的设定可能对可能错,),于是在零假设成立的前提下,统计量,z= ,已知分布,N(0,1),将样本均值,=0.511,以及,=0.015,、,0,=0.05,代入 算得,z=2.244,然后利用通过软件求出零假设成立前提下统计量,z,统计量值,2.244,的概率为,Pr=0.0248, (,见下图,),46,第三节 单总体假设检验的,t,检验法,案例,例,3.3.1,某车间用一台包装机包装葡萄糖,.,包得的袋装糖重是一个随机变量,它服从正态分布,.,当机器正常时,其均值为,0.5,公斤,标准差为,0.015,公斤,.,某日开工为检验包装机是否正常,随机地抽取它所包装的糖,9,袋,称得净重为,(,公斤,),:,0.497 0.506 0.518 0.524 0.498 0.511 0.520,0.515 0.512,问机器是否正常?,(,数据名,Data E331),请看通过菜单系统进行假设检验的演示,47,第四节 双个总体假设检验的,t,检验法,案例,由专业的需要可知,如果新工艺比老工艺致癌物质在过程中的减少达到,2,个单位,(,差异的要求,与专业考虑有关,),以上则会考虑采用新工艺,通常出于保护老工艺的角度,作如上零假设,.,在,两个总体均值差的检验中要求两个总体的方差大致相等,称为需先检验方差的齐性,1.,编程序输入数据,:,Data E335;,input x y ;,card;,6 2 4 1 5 2 5 2 6,1 5 0 5 3 6 2 4 1,6 0 7 1 4 3,;,proc print;,run;,请看演示,48,第三章 方差分析,方差分析是测量数值波动,程度的方法之一,在,ISO,9000-2,标准推荐的统计方法,把方差分析描述为”,(,对所观察,的变量进行分离,),通过对变量,组元的分析估计,为控制图和产,品性能及交付设计样本结构,也,是优化质量改进的工作基础,;”,在,提高产品质量中,在研究工作中,在风险分析和财务金融活动等等中都要通过减少方差来实现,.,方差分析主要用于产品设计、,生产过程控制、采购过程、纠正措施,在质量持续改进中特别有用,.,几乎所有的试验结果分,析中都要用到方差分析这一工具,譬如在正交试验结果的分析工作中用方差分析来分析各个,因素对指标的量化影响,.,在分析中互相影响和关联的因素越多,就越能发挥方差分析的特长,.,49,第一节 方差分析模型,如下问题提法所涉及的都是方差分析模型,:,“,问不同机器对生产的铝合金板的厚度有无影响,?”,-,单因素方差分析模型,考察因素机器对指标厚度的影响,“导弹射程试验,:,问推进器和燃料的不同水平对射程是否有显著的影响,?,推进器和燃料不同水平组合对射程有无显著影响,?”,-,有交互效应的双因素方差分析模型,考察因素推进器、燃料以及它们的交互作用对指标射程的影响,“高速公路质量试验,:,问在沥青型号、岩性相同的情况下,不同的沥青生产厂家、不同的岩料产地对高速公路质量指标,(,抗水指标、抗高温指标、抗低温指标,),有无显著影响,?”,-,带二个分组变量,(,沥青型号、岩性,),的多指标,(,抗水指标、抗高温指标、抗低温指标,),双因素,(,沥青生产厂家、岩料产地,),方差分析模型,利用正交试验提高产品得率,.,指标,y(,回收率,),因素,:XA(,尿素量,),XB(,水量,),XC(,反应时间,),XD(,溶剂量,),-,多因素,(3),方差分析模型,研究各因素对指标的定量影响,“,不同糖供应商,不同乳酸供应商,不同糖配比,不同乳酸配比对口感的是否有显著影响”,-,多因素,(3),方差分析模型,研究各因素对指标的定量影响,50,第二节 方差分析的统计原理,51,52,统计原理,-,将指标的总波动,(,方差,),分解成诸因素和随机误差之和,以随机误差的平均方差,为参照对被考察对象的平均方差即方差比进行分析,.,统计结论,-,方差分析的零假设是模型或效应不显著,软件在输出结果中给出了零假设成立的概率,Pr,1)Pr0.05,时则接受零假设称模型,(,或效应,),不显著,;,2)0.05Pr0.01,时则拒绝零假设称模型,(,或效应,),显著,;(,本例因素,f,的效应是显著的,),3)Pr F,0.01,(fr, f,e,),称方程高度显著,;,若,F F,0.05,(fr, f,e,),称方程显著,;,若,F F,0.05,(fr, f,e,),(,或,FF),当,P,r,0.05,时接受零假设,认为方程不显著,;,当,P,r,0.05,时拒绝零假设,认为方程显著,;,当,P,r,0.01,时拒绝零假设,认为方程高度显著,;,3. y,和自变量集的,(,修正的,),复相关系数,(y;x,1,x,p,)=cos(y*,b,1,x,1,*+b,p,x,p,*),其平方越大越显著建议采用考虑自由度的修正的复相关系数平方,Adj R-sq,4.,重复试验和失拟检验,(,涉及重复试验,参见附录,3),请看演示,:,数据,E123(,分别用线性和二次进行,),数据,pcontent,的分析结果,77,最优回归方程和逐步回归法,78,由偏回归平方和的概念可知当回归方程中项数,p,时,误差平方和,e,2,.,同时显著性检验统计量,F=(S,r,/,p,)/(e,2,/,n-1-p,),中却有,n-1-p,因此,当,p,或时,e,2,/n-1-p,的变化决定于因子的显著性,所谓“最优”回归方程,是指包括对因变量有明显影响的自变量,不包括那些影响不显著或根本无影响的自变量,而且是残余方差较小的回归方程,.,SAS,利用逐步回归,stepwise,或,Adjusted R-square,等方法寻求最优回归方程,请看演示,(,数据名,data rumay,逐步回归中试用选入临界值,=0.6,和淘汰,=0.05,看因素的进出,),特别提醒,:1),即使方程高度显著,不能保证理论模型与实际拟合的优劣,参见附录,3,重复 试验,2),对于由于众多小因素造成复共线性较严重模型,(,即使由于众多因素的共同作用使方程高度显著但每个因素都不显著,),以上方法无效,适合用主成份分析过滤复共线性后用主成份作为新因素对指标进行回归,79,例,4.,”,最优回归方程”和逐步回归法,演示,1.,利用,SAS,软件对数据,rumay,分别用菜单和编程进行逐步回归,:,1),逐步回归的,SAS,程序,data rumay;,input x1-x6 y;,cards;,数据,(,略,),;,Proc,reg,data=rumay;,Model,y,=,x1-x6/,selection=stepwise,;,Run;,2)SAS,菜单,演示,2.,用,Design Expert,软件对数据,Mydesign1,进行逐步回归,80,第四节 可转化为多元线性回归的其它模型,例,5,经钻探某地区煤矿上表面高度数据如表,其中,x,为横坐标,,y,为纵坐标,为了作趋势面分析,建立上表面高度,h,的回归方程,.,我们用二次多项式拟合这组数据,从而建立回归模型,h=b,0,+b,1,x+b,2,y+b,3,x,2,+b,4,xy+b,5,y,2,+,其中,是零均值随机变量我们得 地质钻探数据表,81,只要令,x2,=x,2, xy=x*y, y2=y,2,,则模型,( 6.6.1),式就变成,5,个自变量的线性回归模型:,y=b,0,+b,1,x+b,2,y+b,3,x,2,+b,4,xy+b,5,y,2,+ (6.6.2),从而可以用线性回归的计算公式和检验方法,.,用,SAS,软件来计算例,6.6.1,的程序是,data corn: /*,数据,h,可看成带行、列下标的变量*,/,do x=2 to 3 by 0.25 ;,do y = 6 to 4 by 0.5 ;,input h ;,x2=x*x;xy=x*y;y2=y*2;,output;,end;,end;,cards;,82,数据略,;,proc,reg,data=corn;,model h=x y x2 xy y2;,run;,一般,如果回归模型形如,y=b,0,+b,1,f,1,( x,1,x,2,x,k,),+b,p,f,p,( x,1,x,2,x,k,),+,其中,f,j,( x,1,x,2,x,k,),是不含未知参数的函数,则称为关于参数的线性模型,令,X,j,=f,j,( x,1,x,2,x,k,) ( j=1,2,m),就可转化成线性回归模型,y=b,0,+b,1,X,1,+b,p,X,p,+,从而采用,reg,回归程序,83,84,data da64;,input x y ;,u=1/y;,v=1/x;,cards;,2 106.42 3 108.20 4 109.58 5 109.50 7 110.00 8 109.93 10 110.49,11 110.59 14 110.60 15 110.90 16 110.76 18 111.00 19 111.20,;,proc print;,run;,然后进行,u,对,v,的回归,请看演示,85,86,第五节 二次响应面分析,案例,当试验中考察的指标宜于用多元二次回归方程来拟合因素与指标的函数关系,就可以分析回归方程所反应的曲面形状,如果得到的曲面是凸面,(,像山丘,),或凹面,(,像山谷,),这类简单曲面,那么预测的最佳指标值,(,极大值或极小值,),可以从所估计的曲面上获得;如果曲面很复杂,或者预测的最佳点远离所考察因素的试验范围,那么可以通过岭嵴分析来确定重新进行试验的方向,.,这就是应用较广,颇有实用价值的响应面分析法,(Response Surface Analysis).,87,88,89,90,响应面分析的,SAS,程序如下,:,Data E62;,Input x1-x3 y1 y2 ;,Cards;,数据,(,略,),;,Proc,RsReg,data=E62 ; /*,响应面分析*,/,Model y1 y2=x1-x3;,Run;,请看演示,91,可以作二个因素的响应面图,(,固定其它因素,),E62,的响应面图如下,(,作图的方法或程序参见,SAS,操作入门,):,回归方程作响应面,在对数据集,E62,进行响应面回归,(Rsreg),后得回归方程,(,固定水平,x3=0,本例,自变量均已经编码处理,),y,1,=37.9-0.5625x,1,-0.6x,2,-2.875x,1,2,-3.575x,1,x,2,-3.45x,2,2,SAS,程序如下,:,Data E62G ;,Do x1=-1 to 1 by 0.1; /*,当自变量是原始变量时取类似的二元网格点,即,do,变量,=,左端,点,to,右端点,by,步长*,/,Do x2=-1 to 1 by 0.1; /*,当自变量是原始变量时取类似的二元网格点,即,do,变量,=,左端点,to,右端点,by,步长*,/,Y1=37.9-0.5625*x1-0.6*x2-2.875*x1*2-3.575*x1*x2-3.45*x2*2;,Output;,End;,End;,Proc print;,以上,E62G,数据可用菜单系统或程序作响应面图,Run; /*,以上为由回归方程建立作图数据集*,/,92,93,第六节 非线性回归,案例,非线性回归是指模型从参数角度为非线性的且无法线性化的模型,例如,y=b,0,+b,1,x,1,+b,2,x,2,+b,11,x,1,2,+b,12,x,1,x,2,+b,22,x,2,2,是诸参数,b,i,及,b,ij,的线性模型,(,从自变量,x,1,x,2,角度模型是非线性的,),y=ae,bx,是可以线性化的非线性模型,(,线性化后,log(y)=b*x+log(a),而,y=a* exp(-exp(b-c*x),是非线性的且无法线性化的模型,.,此时,SAS,采用,nlin,非线性回归程序,94,程序形式,:,proc nlin data =;,model,因变量,=,非线性函数表达式,;,parms,参数,1=,初值 参数,2=,初值, ;,der.,参数,1=,偏导表达式,;,der.,参数,2=,偏导表达式,; ;,runs;,方法,:,采用迭代求参数,要给出参数的一阶偏导表达式,der.,参数,=;,要赋参数初值,parms,参数,=;,请看例子演示,95,data hw;,input x y;,cards;,数据,(,略,),;,pro,c,nlin,data=hw;,/*,调用,nlin,进行非线性回归*,/,自由度,=,变量个数,-,约束方程个数,譬如在单因素方差分析中,:,term=exp(-zz);,/*,简化记号*,/,model y=,a*term;,/*,因变量,=,非线性函数表达式,即,y=a exp(-exp(b-cx)*/,parms,a=70 b=1.1 c=0.2;,/*,赋参数初值*,/,der.,a=term;,/*,给出参数的一阶偏导表达式*,/,der.b=-a*zz*term;,der.c=a*x*zz*term;,run;,96,/*,以下作,hw,曲线图,:1.,先取点,2,作图*,/,data hwplot;,do x=9 to 79 by 2; /*,步长根据实际情况调整*,/,y=82.8321*exp(-exp(1.2237-0.0371*x) ;,output;,end;,proc plot;,plot y*x=. ; /*,图上符号根据实际情况调整*,/,title hw,曲线图,;,run;,/*,曲线,y=x*2,与,y=x*3,重叠*,/,data plotoverlay;,do x=-1 to 1 by 0.1;,y=x*2 ; z=x*3 ;,output;,end;,proc plot;,plot y*x=. z*x=* /overlay ; /*,图上符号根据实际情况调整*,/,title ,重叠曲线图,;,run;,/*,文件,Data h,曲线菜单作图,3,展示了先把数据点文件和回归方程估计点文件合并然后,用,Insight,系统中的,line plot,功能作重叠图*,/,97,第七节 两个变量的相关性分析,98,第五章 正交试验设计,实验设计,(Design of Experiments,简称,DOE),是关于实验、研究实验的做法和实验数据的分析处理方法的学问,.,实验设计在生产过程、产品研发、改进产品质量和产量中起着大大提高效率的作用,包括降低次品率、增加质量稳定性、使产品指标参数接近目标值或要求、缩短研发时间、降低总成本、对影响指标的各因素进行评估、评估改变原料或工艺条件、工艺参数的选择等等,正交试验设计由于具有优良的均衡分散性和整齐可比性,其设计的试验点具有强烈的代表性,在工艺改革等多因素试验设计问题中,往往能以较少的试验次数,分析出各因素的主次顺序以及对试验指标的影响规律,删选出较满意的试验结果,.,正交试验法还渗透到其它一些试验设计方法中,提高了试验的效率和分析质量,.,正交试验法应用广泛,具有卓越的经济效益,是多因素试验设计问题中的常用手段,.,99,第一节 正交表介绍,三因素三水平全面试验,做,3,3,=27,次试验,(,图中的,27,个交点,),图中黑点为所谓,”单因素循环”,而红点为正交试,验的点,100,第一节 正交表介绍,三因素三水平全面试验,做,3,3,=27,次试验,(,图中的,27,个交点,),图中黑点为所谓,”单因素循环”,而空心点为正交试,验的点,101,关于正交试验设计的优良性质之均衡分散性,1.,由上图可见均衡分布见,(L,9,(3,4,),前三列,),正交试验方案使每个试验点,(,红色点,),有强烈的代表性,正交试验的试验次数,(,红点总数,)/,全面试验试验次数,(,格子点数,),=,每个平面上红点数,/,每个平面上格子点数,=,每条棱上红点数,/,每条棱上格子点数,即,9/27=3/9=1/3 (,三因素三水平场合,),局部试验的最优点的平均名次,=(N+1)/(n+1),这儿,N,是全面试验次数,n,是局部试验次数,对于正交表,L,8,(2,7,),则有,(128+1)/(8+1)14,102,关于正交试验设计的优良性质之均衡分散性,1.,由上图可见均衡分布见,(L,9,(3,4,),前三列,),正交试验方案使每个试验点,(,空心点,),有强烈的代表性,正交试验的试验次数,(,空心点总数,)/,全面试验试验次数,(,格子点数,),=,每个平面上空心点数,/,每个平面上格子点数,=,每条棱上空心点数,/,每条棱上格子点数,即,9/27
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!