六西格玛数据分析技术概述

上传人:嘀****l 文档编号:253041986 上传时间:2024-11-27 格式:PPT 页数:60 大小:27.25MB
返回 下载 相关 举报
六西格玛数据分析技术概述_第1页
第1页 / 共60页
六西格玛数据分析技术概述_第2页
第2页 / 共60页
六西格玛数据分析技术概述_第3页
第3页 / 共60页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,SSMC,中国人民大学六西格玛质量管理研究中心,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,SSMC,中国人民大学六西格玛质量管理研究中心,中国人民大学六西格玛质量管理研究中心,六西格玛管理培训丛书(,5,),何晓群 主编,六西格玛数据分析技术,何晓群 编著,光盘作者:陶 沙 苏晨辉,中 国 人 民 大 学 出 版 社,中国人民大学六西格玛质量管理研究中心,3.1,随机变量,3.2,随机变量的分布,3.3,随机变量的均值与方差,3.4,二项分布及其应用,3.5,泊松分布及其应用,3.6,正态分布及其应用,3.7,中心极限定理,3.8,各种概率分布计算的,Minitab,实现,小组讨论与练习,第,3,章 管理中常见的几个概率分布,返回目录,中国人民大学六西格玛质量管理研究中心,本 章 目 标,1.,理解随机变量及随机变量分布的基本概念,2.,理解随机变量的均值及方差在管理中运用的思想,3.,理解二项分布的意义,掌握二项分布的应用,4.,掌握泊松分布的意义和应用理念,5.,理解正态分布与,6,的关系,6.,理解中心极限定理的意义,7.,掌握各种概率分布的计算实现,返回目录,中国人民大学六西格玛质量管理研究中心,3.1,随机变量,日常生活中,生产实践中随机现象无处不在,把随机现象的结果用变量来表示,就称为随机变量,随机变量是随机现象表示的一种抽象,有了这种抽象,使得我们的研究更具普遍性。,常用大写的字母,X,,,Y,,,Z,等表示随机变量,随机变量的取值常用小写字母,x,y,z,等表示。,随机变量有离散型和连续型两大类,返回目录,中国人民大学六西格玛质量管理研究中心,离散型随机变量,定义:如果一个随机变量的取值是可数的,则称该随机变量是离散型随机变量。,离散型随机变量是仅取数轴上有限个点或可列个点,x,1,x,2,x,3,x,4,x,5,x,6,x,7,X,图,1,公路上的汽车,完好瓷砖的数目,返回目录,中国人民大学六西格玛质量管理研究中心,连续型随机变量,定义:如果一个随机变量可取数轴上某一区间内的任一值,则称该随机变量为连续型随机变量。,连续型随机变量的取值可以是整个实数轴上的任一区间,(a,b)(,如图,2),。,a,b,X,图,2,返回目录,中国人民大学六西格玛质量管理研究中心,3.2,随机变量的分布,随机变量的取值的统计规律就是随机变量的分布。,知道了一个随机变量的分布就掌握了它的关键。,离散型随机变量的分布。,随机变量,X,可能取哪些值,,X,取这些值的概率各是多大?,连续型随机变量的分布。,随机变量,X,在哪个区间上取值,它在任意小区间取值的概率是多少?,返回目录,中国人民大学六西格玛质量管理研究中心,离散型随机变量的分布,离散型随机变量的分布常用下面表格形式的分布列来表示:,用数学表达式表示即为,:,P(,X=x,i,)=p,i,i=1,2,n,离散型随机变量的分布应满足概率公理化定义的要求,即,p,i,0,,,p,1,+p,2,+,+p,n,=1,掷一枚骰子出现的点数及其概率就可用离散型随机变量的分布列表示,:,X x,1,x,2 ,x,n,P p,1,p,2 ,p,n,X,(,出现的点数,) 1 2 3 4 5 6,P,(,所对应的概率,)1/6 1/6 1/6 1/6 1/6 1/6,返回目录,中国人民大学六西格玛质量管理研究中心,连续型随机变量的分布,连续型随机变量,X,,它可取某一区间内的所有值,但它的取值不能逐一列出。我们用函数,f(x),表示随机变量,X,的密度函数。,用概率密度函数,f(x),来反映随机变量,X,在某一区间取值的统计规律性,连续型随机变量取某一固定值的概率为零,在,6,管理中用连续型随机变量,X,常常表示产品的某种质量特性,譬如啤酒的装量、电子元件的灵敏度、电子产品的寿命等。,返回目录,中国人民大学六西格玛质量管理研究中心,质量特性与概率密度函数,在生产制造业的管理现场我们常常要抽取若干样品测定某种产品的质量特性,X,。如在啤酒厂今天生产的啤酒中随机抽取若干瓶量测它们的装量,(,ml,),,就可用直方图表示它们的质量特性。随着测定的数量越多,直方图就会演变成一条光滑曲线,这就是所谓的概率密度函数曲线,它就刻画出隐藏在质量特性,X,随机取值后面的统计规律性。这条光滑曲线,f(x),告诉了我们什么信息?,640,645,635,LSL,USL,640,645,635,LSL,USL,640,645,635,LSL,USL,640,645,635,LSL,USL,640,645,635,LSL,USL,640,645,635,LSL,USL,返回目录,中国人民大学六西格玛质量管理研究中心,概率密度曲线的几种不同情形,在管理现场,不同产品的不同质量特性所表现的概率密度曲线不同,这决定了形状不同,散布不同,位置不同。正是这些不同的曲线形式决定了质量特性的差别。,正态,偏态,形状不同,散布不同,位置不同,返回目录,中国人民大学六西格玛质量管理研究中心,概率密度函数的性质,概率密度曲线的纵轴在做直方图时,它是,“,单位长度上的频率,”,,由于频率的稳定性,于是用概率代替了频率,从而纵轴就演变成为,“,单位长度上的概率,”,,这也是为什么把密度曲线称为概率密度曲线的缘由。,连续型随机变量的密度函数,f(x),具有如下性质:,1.,2.,3.,其中 表示质量特性值在区间,(a,b),中的概率。,这里涉及到积分概念,不必感到忧虑,因为积分计算不是重点。,f(x),x,a,b,返回目录,中国人民大学六西格玛质量管理研究中心,3.3,随机变量的均值与方差,前面第,1,章中看到的具体数据可以用均值和方差来分别描述数据的集中趋势和离种趋势,随机变量也有均值和方差的概念,用它们分别表示分布的中心位置和分散程度。,在掷骰子例子中,每次掷下后出现的点数不仅相同,平均出现的点数是多少?在啤酒的装量测定中,每瓶啤酒的装量严格来说都不一样,它们的平均装量是多少?这就是随机变量的均值问题。,相对均值而言,每次掷骰子出现的结果都在它的左右,那么平均的偏差有多大?假如一批瓶装啤酒的平均装量是,640ml,,各瓶偏离,640ml,的多少都不一样,它们平均偏离是多少?这就是随机变量的方差及标准差问题。,返回目录,中国人民大学六西格玛质量管理研究中心,随机变量均值与方差的理解,生产或服务过程中的差别是难以避免的。生产过程中由于种种随机因素的影响,使得我们无法避免变异的产生。,在扔飞镖时,谁都想发发命中靶心,可遗憾的事常常发生!,计算多次投标的平均结果就是求均值,计算相对均值的离散程度就是计算方差。,5,4,3,2,1,5,4,3,2,1,如何理解上面两图的结果,返回目录,中国人民大学六西格玛质量管理研究中心,如何理解直方图,直方图的上下公差限的总宽度是对生产能力的一个设计。在大部分时间里,生产运行的结果就在这一区间上发生。,譬如,根据啤酒装量的抽检数据建立了如下的直方图,T,废品,废品,期望值,640,返回目录,中国人民大学六西格玛质量管理研究中心,直方图的解释,图形纵轴表示在某一范围内量测到的数目,公差限以内就是合格品,出了公差限就是废品。,上图中的,T,值就是均值,(640ml),,也即数学期望。这是一个理想值,也就是说,设计人员期望每瓶啤酒的装量正好是,640ml,,然而由于种种说不清道不明的原因的影响,不可能,也不存在正好的,640ml,,于是只要在上下公差限之内的都是合格品,出了上下公差限的就是废品。,假如总共抽检了,300,瓶啤酒,有,10,瓶低于下规格限,LSL,,,15,瓶超过了上规格限,USL,,因此,这批产品的废品率是,25/300=0.083,合格率是,1-0.083=0.917,,即合格率为,91.7%,返回目录,中国人民大学六西格玛质量管理研究中心,实际与理想的差距,我们应该意识到,一个生产过程内在的精度不是由设计人员及设计方案所规定的。就像我们扔飞镖每一发都想命中靶心,但往往事与愿违。,提高质量的核心就是优化流程,减小变异,提高生产流程内在的精度。这是,6,管理的精髓。,返回目录,中国人民大学六西格玛质量管理研究中心,6,管理的目标是缩小实际与理想的差距,T,是目标值,期望值,设计值。然而常常在生产实际中,生产实际的中心值会发生变化,偏离目标值。这也说明实际生产结果的中心值 是独立于设计值规定的目标值,(T),的。,6,管理的目的就在于优化流程,减小变异,使实际生产结果的中心值尽可能与设计的目标值重合。,LSL,USL,T,返回目录,中国人民大学六西格玛质量管理研究中心,均值的计算公式,离散型随机变量的数学期望(均值),连续型随机变量的数学期望,返回目录,中国人民大学六西格玛质量管理研究中心,均值计算举例,例,3,1.,掷骰子试验中出现的点数用随机变量,X,表示,随机变量,X,的均值,(,数学期望,),为,即掷骰子出现的结果很不一样,但它们的平均取值是,3.5,例,3,2.,电子产品首次发生故障(需要维修)的时间通常遵从指数分布。譬如某种品牌的手机首次发生故障的时间,T(,单位:小时,),遵从指数分布,问计算这种品牌的手机首次需要维修的平均时间是多少小时。,解:,即这种品牌的手机首次需要维修的平均时间是,10000,小时。,返回目录,中国人民大学六西格玛质量管理研究中心,方差的计算公式,离散型随机变量的方差,连续型随机变量的方差,由于方差不能带单位,故用标准差来刻画随机变量相对均值的离散程度,返回目录,中国人民大学六西格玛质量管理研究中心,方差计算举例,例,3,3,.,掷骰子问题中,出现点数的平均值是,3.5,,每次取值相对于均值的离散程度是多大?,解:,即相对均值平均偏离,1.71,点。,可以证明,指数分布的均值与标准差相等,即,例,3,2,中某种品牌的手机首次需要维修的平均时间是,10000,小时,即标准差,也为,10000,小时。标准差如此之大有点不好理解。然而,凡是遵从指数分布的产品寿命问题就是这样,也即你的期望越高,标准差必然就大。实际中,也确有同一品牌的手机有的刚刚使用就遇到故障,而有的用了好几年也不需修理。,返回目录,中国人民大学六西格玛质量管理研究中心,3.4,二项分布及其应用,二项分布的概率计算公式:,其中 是从,n,个不同元素中取出,x,个的组合数,计算公式为:,二项分布的概率计算公式中有两个重要的参数,一个是,n,,一个是,p,,故通常把二项分布记为,B(n,p),返回目录,中国人民大学六西格玛质量管理研究中心,一个产品检验的例子,例,3,4.,已知某生产流程生产的产品中有,10%,是有缺陷的,而该生产流程生产的产品是否有缺陷完全是随机的,现在随机选取,5,个产品,求其中有,2,个产品有缺陷的概率是多大?,解:这是一个符合二项分布情形的问题。设,X,为抽取的,5,个产品中有缺陷的产品的个数,则,X,是遵从二项分布,B(5,0.1),的随机变量。某一产品有缺陷的概率为,p=0.1,,,n=5,。择所要求的概率为:,类似可以计算出在抽取的,5,件产品中有,0,、,1,、,3,、,4,、,5,个产品有缺陷的概率分别为,返回目录,中国人民大学六西格玛质量管理研究中心,二项分布的均值与标准差,可以证明,如果随机变量,XB(n,p),它们的均值、方差、标准差分别为:,在例,3,4,中,二项分布,B(5,0.1),的均值、方差与标准差分别为:,二项分布的计算在,n,很大时,像上面的那样的运算是很麻烦的,然而,通常可以通过查二项分布表直接解决这一问题,或通过,Minitab,软件计算。,返回目录,中国人民大学六西格玛质量管理研究中心,3.5,泊松分布及其应用,单位产品缺陷数的概念,在任何生产流程中,缺陷的出现难以避免,缺陷的出现完全是随机的,如果,50,件产品发现了,50,处缺陷,则单位产品的缺陷数为,1,生产一件产品无缺陷的最大可能性是多少?,一件产品保证不再返工或修理的最大可能性是多少?,返回目录,中国人民大学六西格玛质量管理研究中心,某一产品无缺陷的最大可能性是多大?,假设某种产品由,10,个零部件组成,设零部件有缺陷的概率是,0.10,该零部件无缺陷的概率是,0.90,重要结论:该种产品无缺陷的最大可能性是,34.87%,返回目录,中国人民大学六西格玛质量管理研究中心,零件数和单位产品缺陷数(,DPU,),10,100,1000,10000,100000,.3480,.3500,.3520,.3540,.3560,.3580,.3600,.3620,.3640,.3660,.3680,0.90,10,=.34868,0.99,100,0.999,1000,0.9999,10000,0.99999,100000,零件数,产生合格率,(,以,DPU=1,为例,),返回目录,中国人民大学六西格玛质量管理研究中心,对缺陷模型的泊松模拟(,DPU=1,),当零件数趋于无限时,我们可以注意到合格品率趋于:,泊松公式:,其中,,d/U,是单位产品缺陷数,,r,是缺,陷实际发生的数量。因此,当,r=0,时,,就可得到单位产品无缺陷的概率。,注意:它不同于传统意义上的产品合格,率。例如合格产品的数量比上所有被检,验产品的数量。,r,P,(,r,),0,0.36788,1,0.36788,2,0.18394,3,0.06131,4,0.01533,5,0.00307,6,0.00051,7,0.00007,8,0.00000,9,0.00000,10,0.00000,11,0.00000,12,0.00000,13,0.00000,14,0.00000,1.00000,返回目录,中国人民大学六西格玛质量管理研究中心,泊松分布的更一般情形,泊松分布常用来描述在一指定时间、面积、体积之内某一事件出现的个数的分布。譬如:,1.,修一条铁路,每月出的伤亡事故数,2.,在某一单位时间内,某种机器发生的故障数,3.,一辆汽车的表面上的斑痕数,4.,你的手机每天接到的呼唤次数,泊松分布的一般数学形式是:,其中 为某种特定单位内的平均数。在研究产品缺陷问题中,返回目录,中国人民大学六西格玛质量管理研究中心,一个实际例子,例,3,5.,某一大型矿山每年发生工伤事故的平均次数为,2.7,,如果企业的安全条件没有质的改变,则下一年发生的工伤事故小于,2,的概率是多少?,解:设,X,为下一年发生的工伤事故数,则,X,遵从 为,2.7,的泊松分布,于是,X,遵从的分布为,于是 可算得,即下一年发生工伤事故数小于,2,的概率为,24.866%,。,可以证明泊松分布的均值与方差相等,且均为,,即,返回目录,中国人民大学六西格玛质量管理研究中心,用泊松分布近似二项分布,通常在实际应用中,当 时,用泊松分布近似二项分布效果良好。,例,3,6.,已知某种电子元件的次品率为,1.5,,在一大批元件中随机抽取,1000,个,问次品数为,0,,,1,,,2,,,3,的概率是多少?,解:把,“,电子元件的次品数,”,看成随机变量,X,,显然,X,遵从二项分布,B(1000,0.0015),。如果直接利用二项分布公式求解,就要计算,显然,计算量很大!,返回目录,中国人民大学六西格玛质量管理研究中心,用泊松分布近似二项分布(续),如果用泊松分布去近似计算,则,泊松分布与二项分布计算结果的比较,P(X=x),二项分布,泊松分布,绝对差,P(X=0),0.222879,0.223130,0.000251,P(X=1),0.334821,0.334695,0.000126,P(X=2),0.251241,0.251021,0.000220,P(X=3),0.125558,0.125511,0.000047,返回目录,中国人民大学六西格玛质量管理研究中心,3.6,正态分布及其应用,随机变量,X,N,(,2,),的正态分布曲线,:,曲线拐点的横坐标,或,s,P(,aXb,)=?,返回目录,中国人民大学六西格玛质量管理研究中心,不同的,、,对应的正态曲线,相同,,不同的情况,相同,,不同的情况,返回目录,中国人民大学六西格玛质量管理研究中心,当,不变时,不同的,对应的曲线形状不变,仅仅是位置不同。而当,不变时,不同的,对应的曲线形状不同,,大的曲线较矮胖,,小的曲线较瘦高。因此,反映了曲线的位置,是位置参数,它是正态随机变量的平均值,也称,为正态变量的均值,(,或数学期望,),。,反映了曲线的形状,即随机变量取值的离散程度,是形状参数,(,也称尺度参数,),,称,为正态变量的标准差,,2,为其方差。常记为,返回目录,中国人民大学六西格玛质量管理研究中心,标准正态分布,蓝色部分的面积:,P,(,-3X3,),=0.9973,返回目录,中国人民大学六西格玛质量管理研究中心,当,=0,,,=1,时 ,称随机变量,X,遵从标准正态分布,记为 。如果一个随机变量,X,遵从标准正态分布,则其取值落在横轴上任意区间的概率可通过标准正态分布表查出。,标准正态分布的分布函数用 表示,即,例:,当 时,,即,返回目录,中国人民大学六西格玛质量管理研究中心,把一般正态分布转换为标准正态分布,返回目录,中国人民大学六西格玛质量管理研究中心,把一般正态分布转换为标准正态分布,1.,当 时,要通过变换公式 把一般正态分布转换为标准正态分布,2.,当转换为标准正态分布后,查相应的标准正态分布表,3.,对于,,,可由 获取,4.,当 时,直接查表即可,5.,当 时,有公式,:,返回目录,中国人民大学六西格玛质量管理研究中心,例,3,7,:,某批零件的长度遵从正态分布,,平均长度为,10mm,,标准差为,0.2mm,.,试问:,(,1,)从该批零件中随机抽取一件,其长度不到,9.4mm,的概率是多少?,(,2,)为了保证产品质量,要求以,95%,的概率保证该零件的长度在,9.5mm10.5mm,之间,这一要求能否得到保证?,解:已知,XN(10,0.2,2,),(1)P(X9.4)=(9.4-10)/0.2)=(-3)=0.00135,返回目录,中国人民大学六西格玛质量管理研究中心,-2.5,2.5,9.5,10.5,(2)P(9.5x10.5)=(10.5-10)/0.2)-(9.5-10)/0.2)= (2.5)-(-2.5)=2(2.5)-1=0.98758,P(9.5X10.5)=?,P(-2.5z,上下限内,曲线的面积,上下限内,曲线的面积,上下限内,所容,s,个数,上下限内,所容,s,个数,Probability Distributions,Binomial,.,3,、选取,Probability,.,4,、在,Number of trials,(,试验次数,),栏中,填入,5.,在,Probability of success,(,成功概率,),栏中,填入,0.10.,5,、选取,Input column,并选择数据列,.,点击,OK,.,返回目录,中国人民大学六西格玛质量管理研究中心,用,Minitab,计算二项分布概率,输入数据,选取,Calc,Probability,Distributions,Binomial.,返回目录,中国人民大学六西格玛质量管理研究中心,用,Minitab,计算二项分布概率,(,续,),在,Number of trials,(,试验次数,),栏中,填入,5,.,在,Probability of success,(,成功概率,),栏中,填入,0.10,.,选取,Input column,并选择数据列,.,点击,OK,计算得,5,个产品中有,2,个产品有缺陷的概率是,0.0729,返回目录,中国人民大学六西格玛质量管理研究中心,泊松分布,以例,3,5,为例,1,、在工作表中填入,1-2(,只需考虑,2,次事故,),2,、选取,Calc,Probability Distributions,Possion,.,3,、选取,Cumulative,probability,.,4,、在,Mean,(,均值,),栏中,填入,2.7.,5,、选取,Input column,并选择数据列,.,点击,OK,.,用,Minitab,计算泊松分布概率,返回目录,中国人民大学六西格玛质量管理研究中心,用,Minitab,计算泊松分布概率,(,续一,),输入数据,选取,Calc,Probability,Distributions,Possion.,返回目录,中国人民大学六西格玛质量管理研究中心,用,Minitab,计算泊松分布概率,(,续二,),选取,Cumulative,probability,.,在,Mean,(,均值,),栏中,填入,2.7,.,选取,Input column,并选择数据列,.,点击,OK,计算得下一年发生的工伤事故小于,2,的概率是,0.2487,返回目录,中国人民大学六西格玛质量管理研究中心,正态分布,计算一个服从,=28 ,=1,的正态分布随机变量小于等于,27,的概率,。,1,、选取,Calc Probability Distributions Normal,.,2,、选取,Cumulative probability,.,3,、在,Mean,栏中,输入,28.,在,Standard deviation,(,标准差,),栏中填入,1.,4,、选取,Input constant,并输入,27.,点击,OK.,用,Minitab,计算正态分布概率,返回目录,中国人民大学六西格玛质量管理研究中心,用,Minitab,计算正态分布概率,(,续一,),选取,Calc,Probability,Distributions,Normal.,返回目录,中国人民大学六西格玛质量管理研究中心,用,Minitab,计算正态分布概率,(,续二,),选取,Cumulative probability,,,在,Mean,栏中,输入,28,.,在,Standard deviation,(,标准差,),栏中填入,1,.,选取,Input constant,并输入,27,.,点击,OK,计算得该随机变量小于等于,27,的概率是,0.1587,返回目录,中国人民大学六西格玛质量管理研究中心,小组讨论与练习,如何理解管理实践中的连续型随机变量和离散型随机变量?,已知一批产品的次品率为,5%,,现从中随机抽取,3,个,求在所抽取的,3,个产品中恰有两个次品的概率。,设 ,求,P(X2)=?,设 ,求,P(2X10)=?,设 是相互独立且同分布,的随机变量,它们的分布为正态分布,N(10,25),,求其均值 和标准差 。,返回目录,谢谢观看,/,欢迎下载,BY FAITH I MEAN A VISION OF GOOD ONE CHERISHES AND THE ENTHUSIASM THAT PUSHES ONE TO SEEK ITS FULFILLMENT REGARDLESS OF OBSTACLES. BY FAITH I BY FAITH,内容总结,中国人民大学六西格玛质量管理研究中心。日常生活中,生产实践中随机现象无处不在。随机变量X可能取哪些值,X取这些值的概率各是多大。随机变量X在哪个区间上取值,它在任意小区间取值的概率是多少。我们用函数f(x)表示随机变量X的密度函数。在大部分时间里,生产运行的结果就在这一区间上发生。合格率是1-0.083=0.917,即合格率为91.7%。某一产品有缺陷的概率为p=0.1,n=5。可以证明,如果随机变量XB(n,p),它们的均值、方差、标准差分别为:。如果50件产品发现了50处缺陷,则单位产品的缺陷数为1。零件数和单位产品缺陷数(DPU)。解:把“电子元件的次品数”看成随机变量X,显然X遵从二项分布B(1000,0.0015)。P(aXb)=。如果一个随机变量X遵从标准正态分布,则其取值落在横轴上任意区间的概率可通过标准正态分布表查出。把一般正态分布转换为标准正态分布。平均长度为10mm,标准差为0.2mm.,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!