资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,流行病与卫生统计学教研室,金英良,第四章 抽样误差与假设检验,本章主要内容,:,第一节 均数的抽样误差与标准误差,第二节 总体均数的估计,第三节 假设检验的意义和步骤,第一节 均数的抽样误差与标准误差,假定某年某地所有13岁女学生身高服从总体均数,=155.4cm,,总体标准差,=5.3cm,的正态分布,N(155.4,5.3,2,)。,随机抽取30人为一个样本(,n=30),,并计算样本的均数和标准差,共抽取100次,可以得到100份样本,每份样本可以计算相应的均数和标准差。,1.156.7,5.16,158.1,5.21,155.6,5.32,99.154.6,5.15,100.156.6,5.25,=155.4cm,=5.3cm,X S,一百个样本,抽样误差,(smpling error),这种由抽样造成的,样本统计量,与,总体参数,之间的差异成为抽样误差,.,总体,样本,随机抽样,统计量,参 数,只要有个体变异和随机抽样研究,抽样误差就是,不可避免,的。,若从正态总体,N(,,2,),中,反复多次随机抽取样本含量固定为,n,的样本,那么这些样本均数,也服从正态分布。样本均数,的总体均数仍为,,,样本均数的标准差为,其计算公式为:,中心极限定理,SAMPLE 1,:,x,11,x,12,x,13,x,14,.x,1n,SAMPLE 2,:,x,21,x,22,x,23,x,24,.x,2n,SAMPLE k,:,x,k1,x,k2,x,k3,x,k4,.x,kn,原始,总体,k,个样本均数的频数分布图,标准误,(standard error,SE),样本均数的标准差。,它反映了来自同一总体的样本均数之间的离散程度以及样本均数和总体均数的差异程度,即均数的抽样误差的大小。,统计上用标准误来衡量抽样误差的大小!,由于在实际工作中,总体标准差,往往未知,而是用样本标准差,S,来代替,,,故只能求得样本均数标准误的估计值,S,X,,,其计算公式为:,估计,例 4.1 某市随机抽查成年男子1,40,人,得红细胞均数,4.7710,12,/L,,标准差,0.3810,12,/L,,计算其标准误。,第二节 总体均数的估计,1.,统计推断(,statistical inference,),在总体中随机抽取一定数量观察单位作为样本进行抽样研究,然后由样本信息推断总体特征,这一过程称为统计推断。,一、可信区间的概念,统计推断,参数估计,假设检验,点估计,区间估计(可信区间),2.,参数估计(,parameter estimation,),是指由样本统计量估计总体参数,是统计推断的一个重要内容。,(,1,)点估计(,point estimation,),用样本统计量直接作为总体参数的估计值。,(,2,)区间估计(,interval estimation,),又称可信区间(置信区间,,CI),按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。,=155.4cm,身高(,cm),总体均数的95%可信区间,平均有95个可信区间包括了总体均数,,,只有5个可信区间不包括,,,即估计错误。,进行100次抽样,每次样本量为,n=30,,利用样本均数和标准差估计总体均数范围。,3.,可信区间有两个要素:,(,1,),准确度(,accuracy),可信度的大小,即可信区间包容,的概率大小(1-,)。,(,2,),精密度(,precision),反映在区间的长度,区间长度越小精密度越高。,一般情况下,95%的可信区间更为常用。,在可信度确定的情况下,增加样本量,可减少区间长度,提高精密度。,t,分布,是,t,检验的基础,亦称,student t,检验,是计量资料中最常用的假设检验方法。,戈塞特,(,William Sealey Gosset),英国著名统计学家。出生于英国肯特郡坎特伯雷市,求学于曼彻斯特学院和牛津大学,主要学习化学和数学。,二、总体均数可信区间的计算,1899年作为一名酿酒师进入爱尔兰的都柏林一家啤酒厂工作,在那里他涉及到有关酿造过程的数据处理问题。,由于酿酒厂的规定禁止戈塞特发表关于酿酒过程变化性的研究成果,因此戈塞特不得不于1908年,首次以“学生”(,Student),为笔名,在生物计量学杂志上发表了“平均数的概率误差”。,Gosset,在文章中使用,Z,统计量来检验常态分配母群的平均数。由于这篇文章提供了“学生,t,检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。,随机变量,X,N,(,m,,,s,2,),标准正态分布,N(0,1,2,),u,变换,当总体均数与标准差未知时,均数,标准正态分布,N(0,1,2,),在实际工作中,往往未知,常用 代替进行变换,即,不服从标准正态分布!,而服从自由度,=n-1,的,t,分布,f,(,t,),=(,标准正态曲线,),=5,=1,0.1,0.2,-4,-3,-2,-1,0,1,2,3,4,0.3,t,分布,1、以0为中心,左右对称的单峰分布。,2、,t,分布曲线是一簇曲线,其形态变化与自由度,的大小有关系(,=,n-1)。,t,分布的特征:,自由度越小,,t,分布的峰越低,而两侧尾部翘得越高;,自由度逐渐增大时,,t,分布逐渐逼近标准正态分布,当自由度为无穷大时,,t,分布就是标准正态分布,。,为便于使用,统计学家编制了不同自由度,对应的,t,界值表。,t,分布的用途:,主要用于总体均数的区间估计及,t,检验。,s,未知 且,n,较小,(,n50,)按,u,分布,s,已知,按,u,分布,总体均数可信区间的计算方法,随总体标准差,s,是否已知,以及样本含量,n,的大小而异。,通常有,t,分布和,u,分布,两类方法:,(一),已知,u,变换公式:,-1.96,+1.96,2.5%,2.5%,95%,(二),未知,1.n,较小(,n50),例4.,2,某医生测得,25,名动脉粥样硬化患者血浆纤维蛋白原含量的均数为,3.32g/L,,标准差为,0.57g/L,,试计算该种病人血浆纤维蛋白原含量总体均数的,95%,可信区间。,该种病人血浆纤维蛋白原含量总体均数的,95%,可信区间为,3.09g/L,3.56g/L,例4.,3,试计算例,4.1,中该地成年男子红细胞总体均数的,95%,可信区间。,该地成年男子红细胞总体均数的,95%,可信区间为,4.7110,12,/L,4.8310,12,/L,第三节 假设检验的意义和步骤,一、假设检验的基本思想,“反证法”的思想,先根据研究目的建立假设,从,H,0,假设出发,先假设它是正确的,再分析样本提供的信息是否与,H,0,有较大矛盾,即是否支持,H,0,,若样本信息不支持,H,0,,便拒绝之并接受,H,1,,否则不拒绝,H,0,。,例4.4 以往通过大规模调查已知某地新生儿出生体重为,3.30kg.,从该地难产儿中随机抽取,35,名新生儿作为研究样本,平均出生体重为,3.42kg,标准差为,0.40kg,。,问该地难产儿出生体重是否与一般新生儿体重不同?,0,=3.30kg,次/分,已知总体,未知总体,n=35,=3.42kg,S=0.40kg,与,0,之间的差异(不相等),有两种可能:,1、,=,0,,,仅因为用,去估计,时存在抽样误差,所以导致了,与,0,之间的差异。,2、,与,0,本身就不相等,所以导致了,与,之间的差异。,假设检验的基本原理,:,抽样误差所致,P0.05,(来自同一总体),?,假设检验回答,本身存在差别,P,0,(,单侧检验,),0,(,单侧检验,),=,0.05,例如:要比较经常参加体育锻炼的中学男生心率是否低于一般中学男生的心率,就属于单侧检验。,H,1,:,0,,双侧,,0,都有可能,H,1,:,0,,单侧,H,1,:,,,则接受,H,0,,,拒绝,H,1,检验水准,确定的,P,值,1.,对于,H,0,只能说拒绝与不拒绝,而对,H,1,只能说接受。,2.,P,,则拒绝,H,0,,接受,H,1,,差异有统计学意义,可认为,不同或不等。,3.,P,,则不拒绝,H,0,,差异无统计学意义,尚不能认为,不同或不等。,4.,应事先确定,。选,0.05,只是一种习惯,而不是绝对的标准。,关于假设检验的几个观点,
展开阅读全文