联想集团6sigma培训资料--对比实验

上传人:t****d 文档编号:243022065 上传时间:2024-09-14 格式:PPT 页数:70 大小:1.12MB
返回 下载 相关 举报
联想集团6sigma培训资料--对比实验_第1页
第1页 / 共70页
联想集团6sigma培训资料--对比实验_第2页
第2页 / 共70页
联想集团6sigma培训资料--对比实验_第3页
第3页 / 共70页
点击查看更多>>
资源描述
Legend Confidential,对比实验,欢迎光临6,sigma,世界,1,统计基础知识,参数估计,假设检验,对比实验报告编写和练习,课程进程,为什么要学习对比实验,许多,的,问题,需要就某些,参数,作出接受或,拒绝的决定,这说明是一个假设。它代表把一个实务的问题演绎成统计学上的问题。而这个决策过程便称为:,Hypothesis Testing,我们把实现假设检验的过程成为对比实验。,统计学上的测试能为我们就问题作出客观解说,相比较以前,我们只能作出主观的解说。这是后续学习内容的基础。,统计基础知识,第一单元,总体,(,Population,),:,在统计问题中,我们把研究对象的全体成为总体,个体:构成总体的每个成员称为个体,样本,(,Sample,),:,从总体中抽取部分个体所组成的集合称为样本,样品:样本中的个体称为样品,样本容量:样品的个数称为样本容量,常用,n,表示,1.1总体和样本,样本,随机样本,(,Random sample,):,能够被推广应用于更大的总体的样本。总体的每个个体有一个已知的(有时是相等的)机会被包含在该样本中。,简单随机样本,(,Simple random sample,):,1、同一性:样本与总体有同样的分布,2、独立性:,如果给定第一个事件,无论它的结果是什么,第二个事件的机会都一样。,1.2统计量和抽样分布,统计量,:不含未知参数的样本函数称为统计量。,抽样分布:统计量的分布称为抽样分布。,有序样本:,是从总体,X,中随机抽取的容量为,n,的样本,将它们的观测值从小到大排序,这便是有序样本。,统计推断过程,统计学的主要任务:,1、研究总体是什么分布?,2、这个总体(即分布)的均值、方差是多少?,样本,总体,样本统计量,例如:样本均值、方差,总体均值、方差,抽样,1.2常用统计量,描述中心位置的统计量:,1、众数(,mode,),:,一个变量的众数是指出现次数最多的值,不过它不一定唯一。,2、中位数:,3、均值,(,mean,):,1.2常用统计量,描述数据分散程度的统计量:,1、极差(,range,):,2、方差(,variance,),3、标准差(,standard deviation,):,4、标准误差(,standard error,):是很多不同样本的均值的标准差。,5、变异系数:,1.,3,正态分布,正态分布:,1.,3,正态分布,标准正态分布:,它是特殊的正态分布,服从标准的正态分布的随机变量记为,z,,概率密度函数记为,(,z,),1.,3,正态分布,标准正态分布的变换:,1.,3,正态分布,标准正态分布的分位数:,0.975,是随机变量,z,不超过,1.96,的概率,1.96,是标准正态分布,N,(,0,1),的,0.975,的分位数,记为,z,0.975,0.975,0.025,1.,4,常用的抽样分布,正态样本均值的分布:,=10,X,n,= 4,X,n,=16,总体分布,抽样分布,1.,4,常用的抽样分布,t,分布,:,X,t,分布与正态分布的比较,正态分布,t,分布,t,不同自由度的,t,分布,标准正态分布,t,(,df,= 13),t,(,df,= 5),1.,4,常用的抽样分布,F,分布,:,设,X,1,,,X,2,,,,,X,n,是来自正态总体,N,(,1,1,2,),的一个样本,,Y,1,,,Y,2,,,,,Y,n,是来自正态总体,N,(,2,2,2,),的一个样本,且相互独立,则,:,将,F,(,n,-1 , m-1 ),称为第一自由度为,(,n,-1),,第二自由度为,(m-1),的,F,分布,1.,4,常用的抽样分布,F,分布,:,F,(,1,10),(5,10),(10,10),参数估计,第二单元,2.1,点估计,点估计的概念(,point estimation,):,用样本均值估计总体均值,用样本方差估计总体方差,用样本标准差估计总体标准差,2.2,区间估计,区间估计的概念(,interval estimate,):,置信区间(,confidence interval,):,,则称这种置信区间为等尾置信区间。,2.2,区间估计,置信区间下限值,1 - a,a/2,a/2,x,置信区间上限值,点估计与区间估计的区别:,我是意见是这个值是,10,,,但误差在,1,之间。,2.2,区间估计,2.2,区间估计,置信水平的概念:,是,的置信水平为,1-,的置信区间。它的含义是能盖住未知参数,的概率为,1-,。,置信区间量化了数据的不定性。,2.2,区间估计,总体均值置信区间的计算:,已知,:,未知,:,2.2,区间估计,2,分布:,方差置信区间的计算:,2.2,区间估计,置信区间的长度:,1、大的样本产生,较短的区间,小的样本产生较长的区间。,2、低的置信水平产生较短的区间,高的置信水平产生较长的区间。,N=100,N=200,N=300,N=400,N=500,Exercise,s,X,=,s,X,n,Distribution of Sampling Averages,X,X,研究草莓酱的重量是多少?,答案:,=,95,的置信区间,假设检验,第三单元,3.1,假设检验问题,例:草莓酱的净重服从正态分布,N,(,,,2,),,6,月份从产品中随机抽取,50,瓶称重的平均重量为,180.5,克, 5,月份从产品中随机抽取,50,瓶称重的平均重量为,179.6,克,,问从总体上是否重量比原来少了?,1、这不是一个参数估计问题,2、要求对,6,-,5,=0,作出回答:是与否,3,、这类问题被称为统计假设检验问题,估计的主要任务是找参数值等于几;,假设检验的兴趣主要是看参数的值是否等于某个特别感兴趣的值,3.2,定义假设,H,0,和,H,a,H,0,要判断,0.9,克这个值是否超出了样本变换所能造成的差异的范围,我们先要问一问在总体均值相等的情况下,样本均值会发生什么情况,即是否两个均值的差等于,0,,在统计学上被称为,零假设,(null hypothesis),之所以用零来修饰假设,其原因是假设的内容总是没有差异或没有改变,3.2,定义假设,H,0,和,H,a,H,A,零假设其逻辑上的反面假设是“两个参数有区别”。这种反面假设称为,备择假设(,alternative hypothesis,)。,当零假设所提问的问题被否定时,备择假设的答案就是正确的。如果样本数据能证明对于零假设提出的问题应该否定,那么我们就拒绝(,reject,)零假设而倾向于备择假设。,3.3,怎样回答零假设所提出的问题,概率:,p-,值,p-,值是当零假设正确时,得到所观测的数据或更极端的数据的概率,这个概率称为,p-,值(,p-value,)。,当,p-,值小到以至于几乎不可能在零假设正确时出现目前的观测数据时,我们就拒绝零假设。,p-,值越小,拒绝零假设的理由就越充分。,注意:,有时错误以为,p-,值与零假设对错的概率有关,但这是不可能的,. p-,值指的是关于数据的概率。,p-,值告诉我们在某总体的许多样本中,某一类数据出现的经常程度。,3.3,怎样回答零假设所提出的问题,假设检验机制:,为了求,p-,值,统计理论指出要把观测到的,0.9,这个样本均值之差变换成标准得分。,标准得分:,0.0,H,0,0.0,0.5,1,0.9,观测到的差,样本均值的差,标准得分,2.142 p-,值,0.0347,3.3,怎样回答零假设所提出的问题,假设检验机制:,t,值等于,2.142,的概率是,0.0347,因此两个样本均值之差等于,0.9,的概率也是,0.0347,,换句话说就是如果两总体均值相等的话,从均值相等的总体中抽取,200,个样本两两相减所得之差只有,3.47,个样本的样本均值相差在,0.9,,是小概率(,0.05,)事件,我们拒绝零假设。,H,0,0.0,0.5,1,0.9,观测到的差,样本均值的差,标准得分,2.142 p-,值,0.0347,3.4,显著水平,显著水平:我们不是在数据收集,完毕,之后计算,p-,值,而是在收集数据,以前,就已经确定好的小概率来构造一个区间。当样本数据落入这个区间时就拒绝零假设。这个小概率 称为检验的显著水平(,significant level,),通常选,0.05.,一个检验的显著水平,是抽样所得的数据拒绝了本来是正确的零假设的概率。,拒绝域:当样本数据落入这个区间时就拒绝零假设,那么这个区间就称为拒绝域。,临界值(,critical values,):,拒绝域的边界所对应的标准得分的值。对于双边检验,样本统计量的临界,值是两个值。,3.4,显著水平,Ho,值,临界值,临界值,a,/2,a,/2,样本统计量,拒绝域,拒绝域,接受域,抽样分布,1 -,置信水平,3.5,风险(,和,),s,X,=,s,X,n,Distribution of Sampling Averages,X,X,3.5,和,的关系,s,X,=,s,X,n,Distribution of Sampling Averages,X,X,你不能同时减少两类错误,!,3.6,假设检验的步骤,1,、建立假设,2,、数据独立性检查,3,、数据正态性检查,4,、如为,One to One,问题进行方差的,F,检验,5,、计算检验统计量,6,、给出显著性水平,,通常,=0.05,7,、定出临界值,写出拒绝域,8,、判断,案例,1,例:草莓酱的净重服从正态分布,N,(,180,,,2,2,),,5,月份随机抽取,50,罐称重的平均重量为,179.6,克,问是否符合标准?,平均净重:,179.6g,3.7One to Standard,的问题,是假设检验的特例:,其中一个,已知,3.7One to Standard,的问题,计算标准得分:,已知时,使用,z,统计量计算,未知时,使用,t,统计量计算,双侧问题,Ho,值,临界值,临界值,a,/2,a,/2,样本统计量,拒绝域,拒绝域,接受域,抽样分布,1 -,置信水平,3.7One to Standard,的问题,单侧左检验,表格值,(,临界值),拒绝范围,无法拒绝,H,O,Ha: ,(,大于),3.7One to Standard,的问题,单侧右检验,拒绝范围,无法拒绝,H,O,表格值,(,临界值),Ha: ,(,小于),3.7One to Standard,的问题,JMP,中的操作,3.7One to Standard,的问题,JMP,中的操作,3.7One to Standard,的问题,JMP,中的操作,案例,2,例:草莓酱的净重服从正态分布,N,(,,,2,),,6,月份从产品中随机抽取,50,瓶称重的平均重量为,180.5,克, 5,月份从产品中随机抽取,50,瓶称重的平均重量为,179.6,克,,问从总体上是否重量比原来少了?,假设检验的步骤,1,、建立假设,2,、数据独立性检查,3,、数据正态性检查,4,、如为,One to One,问题进行方差的,F,检验,5,、计算检验统计量,6,、给出显著性水平,,通常,=0.05,7,、定出临界值,写出拒绝域,8,、判断,3.8One to One,的问题,建立假设:,假设检验的步骤,1,、建立假设,2,、数据独立性检查,3,、数据正态性检查,4,、如为,One to One,问题进行方差的,F,检验,5,、计算检验统计量,6,、给出显著性水平,,通常,=0.05,7,、定出临界值,写出拒绝域,8,、判断,假设检验的步骤,1,、建立假设,2,、数据独立性检查,3,、数据正态性检查,4,、如为,One to One,问题进行方差的,F,检验,5,、计算检验统计量,6,、给出显著性水平,,通常,=0.05,7,、定出临界值,写出拒绝域,8,、判断,3.8One to One,的问题,F,crit,a,F,检验:,假设检验的步骤,1,、建立假设,2,、数据独立性检查,3,、数据正态性检查,4,、如为,One to One,问题进行方差的,F,检验,5,、计算检验统计量,6,、给出显著性水平,,通常,=0.05,7,、定出临界值,写出拒绝域,8,、判断,3.8One to One,的问题,相等时,t,的计算:,Sp,为,s,1,,,s,2,的加权平均,称为两个样本的联合方差。,3.8One to One,的问题,不等时,t,的计算:,3.8One to One,的问题,假设检验的步骤,1,、建立假设,2,、数据独立性检查,3,、数据正态性检查,4,、如为,One to One,问题进行方差的,F,检验,5,、计算检验统计量,6,、给出显著性水平,,通常,=0.05,7,、定出临界值,写出拒绝域,8,、判断,3.8One to One,的问题,Ho,值,临界值,临界值,a,/2,a,/2,样本统计量,拒绝域,拒绝域,接受域,抽样分布,1 -,置信水平,假设检验的步骤,1,、建立假设,2,、数据独立性检查,3,、数据正态性检查,4,、如为,One to One,问题进行方差的,F,检验,5,、计算检验统计量,6,、给出显著性水平,,通常,=0.05,7,、定出临界值,写出拒绝域,8,、判断,3.8One to One,的问题,因为,Prob,0.03470.05,,所以我们拒绝零假设,接受备择假设!,3.8One to One,的问题,不等,实验和报告编写,第四单元,练习(,30,分钟),例:两家供应商的硬盘性能指标数据,问是否这两个供应商有显著差异?,谢谢大家!,课程开发人员:孟繁一、高武,66,附录,假设检验术语,零假设,(,Ho) -,不存在变化或差异的命题。如果没有充分的证据拒绝它,就假设这一命题是真的。,备,择假设(,Ha) -,存在变化或差异的命题。如果拒绝,Ho,,则认为这一命题是真的。,一类错误 - 当,Ho,实际上为真时而被拒绝所产生的错误,或是接受存在差异、但事实上却没有差异时所犯的错误。,二类错误 -,当,Ho,实际上为伪而没有被拒绝所产生的错误,或是接受没有差异、但事实上存在差异时所犯的错误。,假设检验术语,风险 -,出现第一类错误的最大风险或机率。这个机率总是大于零,通常为5%。研究人员决定拒绝,Ho,所可以接受的最大风险。,风险 -,出现第二类错误出现的风险或机率,或者是说,忽略了问题的有效处理或解决方案,显著水平-,。,显著性差异 -,用于描述统计假设检验结果的术语,即差异大得不能合理地归因于偶然因素,假设检验术语,检验统计值- 标准化数值(,z、t、F,等),代表,Ho,的可行性,它以已知的方式分布,因此可以确定这种观察值出现的机率。通常,,Ho,的可能性越高,则检验统计值的绝对值就越小,在这种分布范围内观察到这个值的机率也就越大,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!