置信区间与假设检验

资源描述

,*,参数估计与置信区间,在分析和解决实际问题时,要取得分析对象的全部数据是非常困难的,很多时候也是根本不能实现的.比较可行的方法是从总体中抽取一定数量的样本,取得样本的测量数据,现通过样本数据对总体数据进估计.区间估计方法就是在已知样本状况时,估计总体值的可能区间的方法.此类例子在实际中非常多,如要估计全国人口的平均身高,可在已取得一定量样本的情况下可以估计出全国人口的的身高范围.要估计消费者对某产品的满意程度,可采取抽样调查方式取得一部分样本,再根据此样本值估计出全部消费者和满意程度范围,一般这种估计要求有比较高的“可信程度”,如95%的可信度.,区间估计的概念,设,及,是由样本观测值确定的两个统计量,如对给定概率1-,a,有,P,(,)=1-a,则随机区,(,),叫作参数,的对应,于置信概率,1-,a,的置信区间,叫作置信下限,叫作置,信上限.对于已知的置信概率(置信度),根据样本观测值,来确定未知参数,的置信区间,称为参数,的区间估计.,将置信区间用图示如下(以单个平均值的置信区间为例),1-a,置信区间,下限值,置信区间,上限值,在(1-,a)100%,的置信度下,总体的均值会落在置信区间范围内.,区间估计的种类,区间估计分为:,1.对正态总体均值的,的区间估计,即已知样本的平均值,用样本均值评估总体均值的在定,置信度下的置信区间,又分为两种情况.,(1)已知样本标准差等于总体标准差.,(2)未知总体标准差.,2.对正态总体方差,的区间估计.,即已知样本的标准差,用样本标准差估计总体标准,在一定置信度下的置信区间,也分两种情况.,已知样本均值等于总体均值.,未知总体均值.,3.,对两个正态总体均值差的区间估计,也分两种情况.,(1)已知两个总体标准差.,(2)未知两个总体的标准差,但假设,其中,为总体,1,的标准差,为总体,2,的标准差.,4.,对两个正态总体方差比的区间估计,也分两种情况.,(1)已知两个总体的均值.,(2)未知总体均值.,各类区间估计的计算公式,列于下表,单样本区间估计应用例,区间估计方法在日常生活中应用广泛,如调查机构通过抽取一部分样本,根据计算的样本数据值来估计全部调查对象的某种观点的可能范围.通过对两种同一物料不同供应商的抽样计算来判断其总体数值的分布范围,从而得出品质优劣的结论等.六西格玛管理法中许多分析方法都包含了对数据进行区间估计以判断改善前后或不同类别数据间的区别,特别说明的是本章第一节置信区间的计算公式的前提条件是数据连续数据且总体数据服从正态分布.非正态分布数据的置信区间是很难计算的,估计作以讨论.本节将讨论连续数据单样本区间估计例.,单样本正态总体均值的区间估计,例:激光头定位座的高度会影响光头读碟性能,项目,Y,是定位座高度,目标值是10.88,mm,加工这种定位座的机床工有5台,我们想判断机床1所加工出来的定位座的平均高度与目标值是否相同.,抽取机床1加工的10个定位座并测得高度尺寸如下:,用图形表示以上数据如下(下页图):,计算抽取得当样本数据的均值和标准差,我们从计算的样本均值可发现,与目标值存在差异,我,们想知道这种差异是因偶然因素还是特殊因素造成的.,计算总体均值的置信区间,根据本章第一节公式,本例为未知,b,所以计算置信区间的公式为:,置信范围下限值=,置信范围下限值=,其中:,=,样本平均值,t=t,分布表中查得的,t,值,a=a,风险,S=,样本标准差,n=,样本容易,代入数据得:,置信区间下限值=,置信区间下限值=,=,式中,2.262为查,对应的,t,分布表,得数值.,由此得:本例总体均值的置信区间为(10.869,10.885).即机床1所加工出的定位座总体均值分布范围为10.869到10.885之间.,用图示此结果如下:,置信区间,上限10.885,置信区间,下限10.885,总体正均值,95%的置信,区间,分析,1.从图中可以看出,目标值10.88包含在置信区间内.,2.本例选取的,a,为5%,表明置信区间的95%是正确的,5%,是不正确的.我们可以说总体均值以此为95%的置信,度落在置信区间内.,3.从上面讨论可知:置信区间将总体数据的不确定性,易化了,从而使我们对问题的理解更加深刻.,结论,我们在下结论时应先从统计角度得出结论,再得出实际问题的结论,本例中:,统计结论为:没有证据表明机床1所加工的定,位座的平均高度不在目标范围之内.,实际结论:目标值正好落在置信区间内.,a=0.05,取样数为10.,样本大小对置信区间的影响,如果我们在取样时得到更多或更少的样本,得到的,总体均值的置信区间会如何变化呢?,假设上例中我们取样量,100,pcs,假定样本平均值和标准值保持不变,即得出机床,1,加工出的定位座的平均高度不在目标值范围之内.,我们将,n=10,和,n=100,时总体均值的置信区间比较如,下表:,从上表我们可以发现,随着样本容量的增加,置信区间减小,这可以理解为样本容量越大,样本越能反映总体的实际情况.在同样的置,信度下,其预测区间会变小.,a,值对样本容量的影响,下面我们比较一下不同,a,值(即不同置信度)对置信,区间的影响.,上面计算时是按,a=0.05,即95%的置信度进行置信区间计算的,如换成99%的置信度,即,a=0.01,时,置信区交易会发生何种变化?计算如下:,置信区间下限值,置信区间下限值,我们将,a=0,和,n=0.01,时总体均值的置信区间比较如下表:,从上表我们可以发现,随,a,值的减少,置信区间,增加.所以置信区间随着,a,值的减少而增长.,单样本正态总体方差的区间估计,在实际应用中,有时会需要估计总体的分布状况,即根据样本方差来估计总体方差的置信区间,仍以上例数据为例,用这些样本来估计95%置信度下总体方差的置信区间.,计算样本数据的标准差为:,根据本章第一节三之“正态总体方差,的区间统计“公,式,本例为未知总体均值,所以计算公式为:,置信区间下限值,置信区间上限值,其中:,代入数据得,置信区间下限值,置信区间上限值,式中,2.7和19分别为查,、,和,df =10-1=9,对应的,分布表所得的数值.,由此得,本例总体方差的置信区间为,(0.00008,0.00005),双样本区间估计应用例,在解决问题时,常会遇到需要对多个样本进行,比较的情况,如比较两个不同供应商同一种来料,的品德,这时会用到双样本区间估计方法,下面我,们讨论连续数据双样本区间估计例.,双样本正态总体均值差的区间估计,某公司生产传真机,其某种关键部品由两家供应商提供,为了确认两家供应商所供物料品德方面有无差异,某工程师决定先估计两家供应商提供物料的总体均值方面差异程度,分别从两家供应商来料中抽取10个11个,测得数据如下:,供应商,A:,供应商,B:,设物料参数服从正态分布,求两种物料的均值,对应,于置信概率,I-a=90%,的置信区间,假定,计算样本数据的平均值和标准差,计算两个总体均值差的置信区间,根据本章第一节公式,“,两个正态总体均值的区间估计,”,未知,和,但假定,计算置信区间的公式为:,置信区间下限值,置信区间上限值,其中:,代入数据得,置信区间下限值,置信区间上限值,式中,1.729为查,df=10+12-2=19,对应的物料的均值,差的置信区间为(-0.937,0.357),因为均值的置信区间过0,所以可以有90%的把握认为供应商,A,与供应商,B,供应的物料均值方面无显著差异.,双样本正态总体方差比的估计,在实际应用中,有时需要比较两个样本的分布状况,这时一般是通过估计其方差的置信区间来进行比较,仍以上例数据为例,用这些样本比较,90%,置信区度下,两供应商供应物料方差比的区间估计.,供应商,A:,供应商,B:,计算两个样本的标准差,计算两个总体方差比的置信区间,根据本章第一节公司,“,两个正态总体分布方差比的区间估计,”,未知,计算置信区间的公式为;,置信区间下限值,置信区间上限值,其中:,置信区间下限值,置信区间上限值,代入数值得,式中,3.02和3.19分别为查,对应的,F,分布表所得值.,由此得到本例供应商,A,和供应商,B,所供应的物料的,方差比的置信区间为(0.66,6.25).,

展开阅读全文

置信区间与假设检验

最新文档