资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单样本CI和假设检验,修订版10 1999年1月11日,GE Appliances Copyright 1999,3.,34,第3局部:,单样本,置信区间,和,假设检验,第3局部:单样本置信区间和假设检验,目的:,这一局部的目的是介绍连续数据的置信区间和假设检验。,目标:,了解假设检验和置信区间的根本原理- 确定所观测的差异是真实的,还是偶然因素引起的。,计算样本平均值的置信区间,并将这一平均值与期望(或目标)平均值相比较。,使用单样本置信区间和假设检验,将平均值与目标值相比较。,举例,洗衣机传动装置的总高度将影响制动性能。工程Y是总高度,目标值=5.394,加工这种部件时所使用的固定架共有8个。,您想了解什么?,使用第三个固定架生产出的部件的平均高度与目标值是否一致?,分析步骤:,1. 将数据绘制成图,2. 使用假设检验和置信区间来确定所观测到的差异是否真实。,3. 得出结论。,设备3 的10 个部件的高度,用图形来表示数据,设备3中10个部件的高度,5.394,5.394,5.393,5.394,5.394,5.395,5.396,5.397,5.395,5.395,5.393,5.394,5.395,5.396,5.397,设备 3,高度 (英寸),目标值 = 5.394英寸,n =10,x = 5.3947,s,= 0.00116,总体平均值的最可能的范围是多少?,x(5.3947)与目标值(5.394)之间的差异是由于偶然因素造成的吗?,置信区间,设备3所制造的,所有部件的平均值最可能的取值范围,是什么?,让我们来计算一下,置信区间,,以便找出该值!,单个平均值的置信区间,置信区间下限值,1 - a,a/2,a/2,x,置信区间上限值,(1-,)100%置信度,真正的总体均值,包含在置信区间内。,什么是t分布?,类似于正态分布(z),正态分布(z):总体标准差,,t,分布,(t):估计的标准差,,s,用于提供有关平均值的结论(置信区间和假设检验),我们将需要使用,t,分布,z =,(x -,),n,t = (x -,)/(,s,/ n),3,2,1,0,-1,-2,-3,0.4,0.3,0.2,0.1,0.0,Y,z,t,N,-,置信区间,其中:,x = 样本平均值,t,= t,表格中的t统计结果,a,=,a,风险,df,=,自由度 = n -1,s = 样本标准差,n = 样本中的数据点数量,置信区间上限值 = x +,t,(,a,/2,df),n,s,置信区间下限值 = x -,t,(,a,/2,df),n,s,用所给出的有关部件的数据代入以上公式,置信区间,计算利用设备3所生产的传输设备平均高度的置信区间,使用,=0.05(95%的置信区间),x = 5.3947,s = 0.00116,n = 10,df,= n - 1 = 9,t,(a/2,df),取自t表格。,t,(,0.025,9),= 2.262,区间下限 = x -,t,(,a,/2,df),n,s,= -,( ),=,区间上限 = x +,t,(,a,/2,df),n,s,= +,( ),=,t表格,自由度为9,= .05,/2 = .025,范例,-续,设备3所制造部件的平均值是否在目标范围之内?,设备3生产出的部件总体的平均值最有可能是5.3947,但实际值可能比该值大一点或小一点。,5.393,5.394,5.395,5.396,5.397,设备3,高度 (英寸),目标值 = 5.394英寸,平均值的95%置信区间,置信区间上限值 = 5.3955英寸,置信区间下限值 = 5.3939 英寸,设备3所生产的部件的总体平均值最可能的取值范围为5.3939到5.3955。,举例,-续,置信区间说明,以这种方式构成的区间的95%是正确的(包含真正的总体平均值),以此构成的区间的5%是不正确的。,目标值5.394包含在此区间内。,统计评价,:没有证据证明设备3所制造部件的平均高度不在目标范围之内。,实际评价,:目标值刚好在置信区间内。计算时只用到10 个数据点,并且,=0.05。,您可以使用置信区间来进一步调查设备3,获得更多样本(如果是实际的)并计算置信区间,使用不同的,值来计算置信区间,置信区间量化了数据的不定性。,样本大小对置信区间的影响,让我们取20个以上的样本(总数 n = 30),看一看对95%的置信区间有何影响。,假设平均值和标准差保持不变:,x = 5.3947 和 s = 0.00116 。,置信区间上限值 = x +,t,(,a,/2,df),n,s,置信区间下限值 = x -,t,(,a,/2,df),n,s,= -,( ),=,= +,( ),=,样本大小对置信区间的影响,-续,通过增加样本,可以,证明,设备3所制造部件的平均高度不在目标范围内。,目标值 = 5.394英寸,n=10的95%置信区间为5.3939-5.3955。,n=30的95%置信区间为5.3943-5.3951。,唯一改变的是n。,5.397,5.396,5.395,5.394,5.393,5.392,设备3,高度 (英寸),平均值的95% 置信区间,置信上限 = 5.3951英寸,置信下限 = 5.3943英寸,n = 10,的95%置信区间为5.3939 - 5.3955.,n = 30的95%置信区间为 5.3943 - 5.3951.,唯一改变的是,n,。,置信区间随样本容量的增加而减小。,对置信区间的影响,计算设备3所制造传送装置的平均高度的90%置信区间。取 n = 10 (,x = 5.3947,s = 0.00116),计算设备3所制造传送装置的平均高度的99%置信区间。取 n = 10 (,x = 5.3947,s = 0.00116),对置信区间有何影响?,对置信区间的影响,高度 (英寸),5.393,5.394,5.395,5.396,5.397,设备3,平均值90%的置信区间,平均值99%的置信区间,唯一改变的是,a,。,我们,能够,以,90% 置信度,来说明设备3所制造的部件不在,目标范围内,我们,不能,以,99%,的置信度,说,来说明设备3所制造的部件不在,目标范围内。,置信区间,随着,值的增大而增大。,另一种确定是否存在差异的方法:,假设检验,置信区间,给出了总体值(参数)的,最可能的取值范围,。,假设检验,用于,确定所观测的差异是,确实存在,,还是,偶然产生,的。我们可以,量化,确实存在差异的置信程度。,所有,潜在,“ X,关键少数“ X,定义假设:H,o,和 H,a,H,o,假设检验的起点是零假设- H,0。,H,0,是,相同,或,没有差异,假设。,举例:总体均值等于检验均值。,H,a,第二条假设是H,a,- 备择假设,即,差异,假设。,举例:总体均值不等于检验均值。,您通常想说明差异是确实存在的(Ha)。,通过假定相等 (Ho)开始。,如果数据说明它们不相等,那么它们一定存在差异(Ha)。,和风险,风险,:当H,0,为真时,拒绝H,o,-有时称为,厂商风险,风险,:当H,0,为假时,接受H,o,-有时称为,消费者风险,实际,决定,H,o, =,H,a, 非 =,H,o, =,H,a, 非 =,第1,类,错误,第2类,错误,正确的决定,正确的决定,t 检验,t检验可用来检验:,目标值(或检验均值)与计算的样本均值的比照 - 单样本t检验,或者,两个计算的样本均值之间的比照 - 双样本t检验(将在第4局部进行讨论),让我们使用Minitab来执行单样本t检验。,将设备3的平均值与目标值5.394进行比较。,假设检验,Ho: = 5.394,Ha: 不等于5.394,在Minitab中翻开文件“ lth,L:6sigmaMinitabTrainingMinitabSession 2lth.mtw,点击“图形,双击“确定按钮运行,单样本检验 t-,检验-利用Minitab,选择: Stat Basic Statistics 1-Sample t,点击两次“ OK,运行,键入目标平均值,选择 H,a,单击,“ Graphs,单击 “ Boxplot of data,置信区间指出了总体平均值的近似值范围。,Hmmmm 5.394刚好在置信区间内。我们可能会进,一步调查。,按目标均值进行设备3的单样本t检验,H,o,和,H,a,的假设,置信区间指出总体均值的最可能的取值范围。,P,值 0.05; 不能拒绝 H,o,5.394,刚刚落在置信区间内。也许我们需要进一步调查。,请注意 不得将假设检验用作“行/不行检验。,所存在的差异是否真的很重要?,x -,/ n,t =,计算,平均值的T-检验,Test of mu = 5.39400 vs mu not = 5.39400,Variable N Mean StDev SE Mean T P,fix 3 10 5.39470 0.00116 0.00037 1.91 0.089,有关差异的统计决策的三种方法,方法1,如果计算值大于()表格(关键)值,那么拒绝Ho,接受存在差异。,方法2,如果计算的p值小于(),那么拒绝Ho,接受存在差异。,方法3,如果检验值(目标值)不在置信区间内,那么拒绝Ho,接受存在差异。,这3种方法将得出相同的结论。,何谓p值?,p值的统计定义,观察到的显著水平。,当不存在差异时, 接受,H,a,,即接受存在差异的概率,导致拒绝零假设的最小,值。,这些都是很好的,统计,定义,但,我如何利用它?,如果 p ,那么差异具有统计显著性。,拒绝零假设,接受存在差异。,将(1-p)看作存在差异的置信度。,举例1:p = 0.001,那么(1 - p) = 0.999或99.9%。,您可以将99.9%看成是存在差异的置信度。,举例2:p = 0.25,那么(1- p) = 0.75或75%,您可以将75%看成是存在差异的置信度。,单样本 t,-,课堂练习,3. 写出有关设备3的平均值的结论。,设备1的10个部件的高度,5.390,5.389,5.390,5.389,5.388,5.391,5.391,5.391,5.391,5.389,1.,计算设备1的95%置信区间的平均值。,n = _,x = _,s = _,df,= _,置信下限 = _,置信上限 = _,2.,进行假设检验,以确定平均值是否显,著地不同于目标值5.394,H,o,: _,H,a,: _,正态分布对有关平均值的命题有多重要?,根据,中心极限定理,,平均值趋于正态分布,即使单个变量并不具备正态分布特征。,只要样本不是太小,而且没有极端值,正态分布这个前提对于,平均值,的置信区间和假设检验正态分布通常不成问题。,关键概念:-第3局部,置信区间与假设检验,1. 假设,Ho:事物相同,Ha:事物不同,2. 置信区间:总体参数最可能的取值范围(与数据一致的值)。,3.平均值,t检验是一种假设检验,用于将样本的平均值与目标值或与其它样本的平均值相比较。,单样本t检验用于将样本平均值与目标平均值相比较。,关键概念:-第3局部,置信区间与假设检验,统计风险,错误,:将实际上相同的事物说成不同(在装配线上拒绝合格的部件),风险,:出现,错误的风险 - 习惯上,,风险为5%(或 =,0.05,),p,值,:所观察到的显著水平。在总体参数相同的情况下,观察到显著差异的概率。,如果观察到的显著水平(“ p)小于可接受的风险(“ ),那么接受 Ha(否认Ho)。,如果观察到的显著水平(“ p)大于可接受的风险(“ ),那么拒绝 Ha (不拒绝Ho)。,附录,定义假设,零假设,假定总体/样本,相同,。,公式选择,实际应用,H,o,:,1,=,假定设备相同,H,o,:,1,-,2,= 0,H,o,:,1,=,2,=,3,=.,n,H,o,:,1,=,2,H,o,:,1,=,2,=,3,=.,n,备择假设,假定总体/样本之间存在,差异,。,公式选择,H,a,:,1,=,2,双边,检验,H,a,:,1,2,H,a,:,1,-,2,=,0 双边,检验,H,a,:,1,-,2, 0,H,a,:,1,=,2,双边,检验,H,a,:,1,2,单边检验,单边检验,单边检验,实际应用,用以确定,一台设备是比其它的好、坏,或与其它设备不同。,H,a,是可以,得到证明,的唯一假设!,假设检验的九个步骤,1.定义问题/陈述检验的目的,2.建立假设 - H,o,和 H,a,陈述零假设(,H,o,):,总体的参数,相同,陈述备择假设(,H,a,):,总体的参数,不同,3.确定适当的统计检验,(假设的概率分布:,t、F、,或,x,2,)。,4.,陈述可接受的,风险,和,风险,水平:,风险:,通常为,5%,风险:,通常为 10-20%,在进行任何假设检验之前,,必须,确定这四个方面,假设检验中的九个步骤(续),5.使用检验灵敏度(/)确定样本大小,6.制定抽样方案和收集样本,7.根据数据计算检验统计值(t、F或x2),8.确定所计算的检验统计值由于偶然因素引发的概率(p值):,如果概率(p) ,那么拒绝Ho并接受 Ha,如果概率(p) ,那么不能拒绝Ho(无法得出结论),9.复制结果,并将统计结论转换为实际解决方案。,在每个假设检验中,我们都在努力证明H,a,有关假设的注解,假设代表了实际问题向统计问题的转换。在这种方法中,以各种术语来表述实际问题,以使其适于科学检验和检测。实质上,假设就是与给定概率分布的参数相关的命题;如平均值和/或方差。换句话说,假设是这样一些命题:使我们能够在进行调查之前提出所有可能的结果。在统计调查之后,我们只需接受或拒绝每个假设,反过来,这些假设又为我们制定现实生活中的实际决策奠定了坚实的根底。,当以零假设表述时,假设通常的含义与偶发事件的分布相关。这种特殊的假设经常被称为“ 零假设,并以“ Ho表示。通常,它被称为“名义上的假设。其意思非常简单-调查的全体参数相等;也就是说,我们所关心的所有参数(平均值和/或偏差)之间没有差异。,直接与零假设相对的是备择假设(Ha)。这类假设一般与非偶发事件的分布相关,因而,被称之为“统计显著地不同于偶发事件的分布,也就是说,观察到的存在于所调查的样本参数之间的差异不是源于样本的随机偏差。如果观测到的样本的差异不是偶发原因所致,我们可以得出结论,从一个或多个方面来说,样本不同于我们所调查的总体。因此,我们接受不相同的备择假设,并认为样本是从其它总体、而不是从我们所调查的总体中 抽取的。,当接受或拒绝零假设和备择假设时,我们冒程度的风险、具有一定的置信度。为此,我们规定(在调查之前)了可接受的决策风险的大小(、)和检验灵敏度(/)。一旦选择完毕,我们就拥有了所需的信息来确定“合理的样本大小。用于计算的数学等式确实存在;然而,我们必须将这些计算值与本钱、时间和可用资源的实际限制范围相平衡,以便得出“合理的抽样方案。,t分布的性质,如果总体分布为未知,我们可以通过随机取样来进行估计。当样本为无穷大时,那么不存在估算误差;因此,我们可以应用正态(z)分布来发现偶发事件的概率。然而,随着样本大小的降低,我们的不确定性也不断提高;因此,对于同一概率,我们必须扩大预测的范围。换句话说,我们必须纠正z来弥补自由度的损失。,5%,df =,无穷大,单件测量的,分布,z,=,x,5%,df = 4,t,=,x,m,/,n,z = 1.645,t = 2.132,x,由自由度的改变而引起的差异,平均值的标准差,观察值-预期值,单件测量的,分布,均值的标准差即为平均值的范围。,标准差除以样本大小的平方根就得出了均值的标准差(这一除法即是根据样本大小调整曲线),平均值的标准差,平均值曲线,平均值的标准差大约在,5至10个点之后稳定,X,=,X,n,抽样平均值的分布,X,X,Copyright 1995 Six Sigma Academy Inc.,B14.7,样本大小(n),
展开阅读全文