资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,统计,学,学,从数,据,据到,结,结论,第五,章,章总,体,体参,数,数的,估,估计,估计,就,就是,根,根据,你,你拥,有,有的,信,信息,来,来对,现,现实,世,世界,进,进行,某,某种,判,判断,。,。,你可,以,以根,据,据一,个,个人,的,的衣,着,着、,言,言谈,和,和举,止,止判,断,断其,身,身份,你可,以,以根,据,据一,个,个人,的,的脸,色,色,,猜,猜出,其,其心,情,情和,身,身体,状,状况,统计,中,中的,估,估计,也,也不,例,例外,,,,它,是,是完,全,全根,据,据数,据,据做,出,出的,。,。,如果,我,我们,想,想知,道,道北,京,京人,认,认可,某,某饮,料,料的,比,比例,,,,人,们,们只,有,有在,北,北京,从不同的样本得到的结论也不会完全一样。虽然真实的比例在这种抽样过程中永远也不知道;但可以知道估计出来的比例和真实的比例大致差多少。,从数,据,据得,到,到关,于,于现,实,实世,界,界的,结,结论,的,的过,程,程就,叫,叫做统计推断(statisticalinference)。,上面调查,例,例子是估,计,计总体参,数,数(某种,意,意见的比,例,例)的一,个,个过程。,估计(estimation)是统计推,断,断的重要,内,内容之一,。,。,统计推断,的,的另一个,主,主要内容,是,是下一章,要,要引进的假设检验(hypothesistest,ing),。,5.1,用,用估计,量,量估计总,体,体参数,人们往往,先,先假定某,数,数据来自,一,一个特定,的,的总体族,(,(比如正,态,态分布族,),)。,而要确定,是,是总体族,的,的哪个成,员,员则需要,知,知道总体,参,参数值(,比,比如总体,均,均值和总,体,体方差),。,。,人们于是,可,可以用相,应,应的样本,统,统计量(,比,比如样本,均,均值和样,本,本方差),来,来估计相,应,应的总体,参,参数,5.1,用,用估计,量,量估计总,体,体参数,一些常见,的,的涉及总,体,体的参数,包,包括总体,均,均值(,m,)、总体,标,标准差(,s,)或方差(,s,2,)和(Bernoulli,试,试验中),成,成功概率,p,等(总体,中,中含有某,种,种特征的,个,个体之比,例,例)。,正态分布,族,族中的成,员,员被(总,体,体)均值,和,和标准差,完,完全确定,;,;,Bernoulli分布族,的,的成员被,概,概率(或,比,比例),p,完全决定,。,。,因此如果,能,能够对这,些,些参数进,行,行估计,,总,总体分布,也,也就估计,出,出来了。,5.1,用,用估计,量,量估计总,体,体参数,估计的根,据,据为总体,抽,抽取的样,本,本。,样本的(,不,不包含未,知,知总体参,数,数的)函,数,数称为统,计,计量;而,用,用于估计,的,的统计量,称,称为估计量(estimator)。,由于一个,统,统计量对,于,于不同的,样,样本取值,不,不同,所,以,以,估计,量,量也是随,机,机变量,,并,并有其分,布,布。,如果样本,已,已经得到,,,,把数据,带,带入之后,,,,估计量,就,就有了一,个,个数值,,称,称为该估,计,计量的一,个,个实现(realization)或取值,,也,也称为一,个,个估计值(estimate)。,5.1,用,用估计,量,量估计总,体,体参数,这里介绍,两,两种估计,,,,一种是,点估计(,point estima,另一种是,区间估计(interval estimation),;它是包括估计量在内(有时是以估计量为中心)的一个区间;该区间被认为很可能包含总体参数。,点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不像点估计那么绝对。,5.2,点,点估计,用什么样,的,的估计量,来,来估计参,数,数呢?,实际上没,有,有硬性限,制,制。任何,统,统计量,,只,只要人们,觉,觉得合适,就,就可以当,成,成估计量,。,。,当然,统,计,计学家想,出,出了许多,标,标准来衡,量,量一个估,计,计量的好,坏,坏。每个,标,标准一般,都,都仅反映,估,估计量的,某,某个方面,。,。,这样就出,现,现了按照,这,这些标准,定,定义的各,种,种名目的,估,估计量(,如,如无偏估,计,计量等),。,。,另一些估,计,计量则是,由,由它们的,计,计算方式,来,来命名的,(,(如最大,似,似然估计,和,和矩估计,等,等)。,5.2,点,点估计,最常用的,估,估计量就,是,是我们熟,悉,悉的样本,均,均值、样,本,本标准差(,s,)和(Bernoulli,试,试验的),成,成功比例(,x,/,n,);,人们用它,们,们来分别,估,估计总体,均,均值(,m,)、总体,标,标准差(,s,)和成功,概,概率(或,总,总体中的,比,比例),p,。这些在,前,前面都已,经,经介绍过,,,,大家也,知,知道如何,通,通过计算,机,机(或公,式,式)来计,算,算它们。,5.2,点,点估计,那么,什,么,么是好估,计,计量的标,准,准呢?,一种统计,量,量称为无偏估计,量,量(unbiased estimator)。,所谓的无偏性(unbiasedness)就是:虽,然,然每个样,本,本产生的,估,估计量的,取,取值不一,定,定等于参,数,数,但当,抽,抽取大量,样,样本时,,那,那些样本,产,产生的估,计,计量的均,值,值会接近,真,真正要估,计,计的参数,。,。,5.2,点,点估计,由于一般,仅,仅仅抽取,一,一个样本,,,,并且用,该,该样本的,这,这个估计,量,量的实现,来,来估计对,应,应的参数,,,,人们并,不,不知道这,个,个估计值,和,和要估计,的,的参数差,多,多少。,因此,无,偏,偏性仅仅,是,是非常多,次,次重复抽,样,样时的一,个,个渐近概,念,念。,随机样本,产,产生的样,本,本均值、,样,样本标准,差,差和Bernoulli试,验,验的成功,比,比例分别,都,都是相应,的,的总体均,值,值、总体,标,标准差和,总,总体比例,的,的无偏估,计,计。,5.2,点,点估计,在无偏估,计,计量的类,中,中,人们,还,还希望寻,找,找方差最,小,小的估计,量,量,称为,最,最小方差,无,无偏估计,量,量。,此因为方,差,差小说明,反,反复抽样,产,产生的许,多,多估计量,差,差别不大,,,,因此更,加,加精确。,评价一个,统,统计量好,坏,坏的标准,很,很多;而,且,且许多都,涉,涉及一些,大,大样本的,极,极限性质,。,。我们不,想,想在这里,涉,涉及太多,此,此方面的,细,细节。,5.3,区,区间估,计,计,当描述一,个,个人的体,重,重时,你,一,一般可能,不,不会说这,个,个人是76.35,公,公斤,你会说这,个,个人是七,八,八十公斤,,,,或者是,在,在70公,斤,斤到80,公,公斤之间,。,。这个范,围,围就是区,间,间估计的,例,例子。,5.3,区,区间估,计,计,在抽样调,查,查例子中,也,也常用点,估,估计加区,间,间估计的,说,说法。,比如,为,了,了估计某,电,电视节目,在,在观众中,的,的支持率,(,(即总体,比,比例,p,),某调,查,查结果会,显,显示,该,节,节目的“,收,收视率为90%,,误,误差是3%,置,信,信度为95%”云,云,云。这这,种,种说法意,味,味着下面,三,三点,5.3,区,区间估,计,计,1.样,本,本中的支,持,持率为90%,即,用,用样本比,例,例作为对,总,总体比例,的,的点估计,2.,估,估计范,围,围为90%3%(,3%,的,的误差),即,区,区间(93%,,,,87%)。,3.,如,如用类,似,似的方,式,式,重,复,复抽取,大,大量(,样,样本量,相,相同的,),)样本,时,时,产,生,生的大,量,量类似,区,区间中,有,有些会,覆,覆盖真,正,正的,p,,而有,些,些不会,;,;但其,中,中大约,有,有95%会覆,盖,盖真正,的,的总体,比,比例。,5.3 区,间,间估计,这样得,到,到的区,间,间被称,为,为总体,比,比例,p,的置信,度,度(confidencelevel)为95%的,置,置信区,间,间(confidenceinterval)。这里的,置,置信度,又,又称置信水,平,平或置信系,数,数。,显然置,信,信度的,概,概念又,是,是大量,重,重复抽,样,样时的,一,一个渐,近,近概念,。,。,5.3 区,间,间估计,因此说,“,“我们,目,目前得,到,到的区,间,间(比,如,如上面,的,的90%3%)以,概,概率0.95,覆,覆盖真,正,正的比,例,例p”是个错,误,误的说,法,法。,这里的,区,区间,(93%,87%),是固定,的,的,而,总,总体比,例,例p也,是,是固定,的,的值。,因,因此只,有,有两种,可,可能:,或,或者该,区,区间包,含,含总体,比,比例,,或,或者不,包,包含;,在固定,数,数值之,间,间没有,任,任何概,率,率可言,。,。,5.3 区,间,间估计,例5.1(noodle.txt)某厂,家,家生产,的,的挂面,包,包装上,写,写明“,净,净含量450,克,克”。,在,在用天,平,平称量,了,了商场,中,中的48包挂,面,面之后,,,,得到,样,样本量,为,为48,的,的关于,挂,挂面重,量,量(单,位,位:克,),)的一,个,个样本,:,:,用计算,机,机可以,很,很容易,地,地得到,挂,挂面重,量,量的样,本,本均值,、,、总体,均,均值的,置,置信区,间,间等等,。,。下面,是,是SPSS的,输,输出:,该输出,给,给出了,许,许多第,三,三章引,进,进的描,述,述统计,量,量。和,估,估计有,关,关的是,作,作为总,体,体均点,估,估计的,样,样本均,值,值,它,等,等于449.01;,而,而总体,均,均值的95%,置,置信区,间,间为(447.41,,,,450.61),5.3 区,间,间估计,我们还,可,可以构,造,造两个,总,总体的,均,均值(,或,或比例,),)之差,的,的置信,区,区间。,如想知,道,道两个,地,地区学,生,生成绩,的,的差异,,,,可以,建,建造两,个,个地区,成,成绩均,值,值之差,m,1,-,m,2,的置信,区,区间。,如想比,较,较一个,候,候选人,在,在不同,阶,阶段支,持,持率的,差,差异,,那,那就可,构,构造比,例,例之差,p,1,-,p,2,的置信,区,区间。,5.3 区,间,间估计,例5.2有两,个,个地区,大,大学生,的,的高度,数,数据(height2.txt),(a),我,我们想,要,要分别,得,得到这,两,两个总,体,体均值,和,和标准,差,差的点,估,估计(,即,即样本,均,均值和,样,样本标,准,准差),和,和各总,体,体均值,的,的95%置信,区,区间。,(b),求,求两个,均,均值差,m,1,-,m,2,的点估,计,计和95%置,信,信区间,。,。利用,软,软件很,容,容易得,到,到下面,结,结果:,5.3 区,间,间估计,两个总,体,体均值,估,估计量,的,的样本,均,均值分,别,别为170.56和165.60,,,,样本,标,标准差,分,分别为6.97857和7.55659,;,;还得,到,到均值,的,的置信,区,区间分,别,别是(168.5767,172.5433),(163.4524,167.7476)。,可以得到两,个,个样本均值,的,的差(4.9600),,,,另外还给,出,出了两总体,均,均值差的95%置信区,间,间(2.073,7.847)。,5.4,关,关于置信区,间,间的注意点,前面提到,,不,不要认为由某一样本数据得到总,体,体参数的某一个95%置信,区,区间,就以,为,为该区间以0.95的概率,覆,覆盖总体参,数,数。,置信度95%仅仅描述,用,用来构造该,区,区间上下界,
展开阅读全文