资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,宋曼殳,首都医科大学,公共卫生学院,流行病与卫生统计学系,医学统计学,概率分布,概率分布,(probability distribution),概率分布,:,描述随机变量值,x,i,及这些值对应概率,P,(,X,=,x,i,),的表格、公式或图形,连续型,随机变量概率分布,正态分布,离散型,随机变量概率分布,二项分布,Poisson分布,随机变量及其概率分布概述,连续型,随机变量,(continous random variable,)数据间无缝隙,其取值充满整个区间,无法一一列举每一可能值,例如,:,身高、体重、血清胆固醇含量,离散型,随机变量,(,discrete random variable,),数据间有缝隙,其取值可以列举,例如:抛硬币,10次,正面的可能取值x为0、1、2、,3、4、5、6、7、8、9、10,一、正态分布,正态分布概念、特征,正态曲线下的面积分布规律,标准正态分布,正态分布的应用,估计频数分布,制定医学参考值范围,质量控制,统计方法的理论基础,概率分布,正态分布的概念和特性,正态分布及其应用,图,3-1,临产母亲体重频率密度图,图,3-2,概率密度曲线示意图,频率密度直方图就近似地反映了一个变量的分布,当样本量,n,越来越大,而组距越来越小时,就得到该连续变量所在总体的概率分布。,可以设想,如果观察例数逐渐增多,组段数也不断增多,就会形成一条光滑曲线,图,(3),,称为,正态分布曲线,。,正态分布的概念和特性,这条呈中间高、两边低、左右基本对称的“钟形”曲线数学上称为,正态分布曲线,由于纵坐标相当于概率密度,故叫做,正态分布的概率密度曲线,正态分布及其应用,图,3-2,概率密度曲线示意图,正态分布曲线略呈钟形,中间高,两头低,以均数,为中心,左右对称,均数处最高,正态分布的曲线在横轴上方,向两侧逐渐减低,两侧都以横轴为其渐近线,正态分布有两个参数,即,均数,和,标准差,正态分布的特性,正态分布及其应用,把服从正态分布的变量表示为:,XN(,2,),正态分布的特性,正态分布曲线的参数的意义,均数(位置参数),表示正态分布曲线峰(集中趋势)的位置,固定时,增大,曲线沿横轴向右移动,减小,曲线沿横轴向左移动,正态分布及其应用,正态分布的特性,正态分布曲线的参数,标准差 (变异度参数),表示正态变量取值的离中程度,固定时,越大,曲线越宽,表示数据越分散,越小,曲线越窄,表示数据越集中,正态分布及其应用,正态分布的概率密度函数,正态分布及其应用,式中,,为总体均数,;,为总体标准差,;,=3.14159,为圆周率;,e,为自然对数的底,(e2.71828),X,为变量,服从正态分布的变量,X,的概率密度函数,f,(,x,),为,图,1,正态分布的概率密度函数与分布函数,X,取值落在区间(,-,x,)内的累积概率为概率密度曲线下位于(,-,x,)的图形面积,等于其概率密度函数,f,(,x,),在,-,到,x,上的积分,记作,为正态分布 的分布函数。其值表示变量,X,落在区间,(,-,x,),内的,概率,,对应于从,-,到,x,概率密度曲线下的,阴影面积,(常称为左侧尾部面积),图,1,正态分布的概率密度函数与分布函数,图,1,正态分布的概率密度函数与分布函数 图,2,正态分布的概率,利用分布函数 可以计算正态分布变量取值在任意区间,a,b,)的概率为,P,(,a,X,b,)=,F,(,b,)-,F,(,a,)(,其几何意义如图,2,中阴影部分所示,),。,由图可得,P,(X,b,)=1-,P,(X,b,),=1-,F,(,b,),正态分布曲线下面积的分布规律,正态分布及其应用,服从正态分布的随机变量在一区间上曲线下的,面积,与该随机变量在同一区间内取值的,概率,相等,正态曲线与横轴所夹面积为,1,正态分布曲线下面积的规律,正态分布及其应用,1),正态曲线与横轴所夹的面积为1,2)位于,(-1.64,+1.64),内的面积为,0.90,,说明正态变量在1.64范围内取值的概率为0.9,在该区间以外取值的概率(两侧的阴影面积之和)为0.1,左右两侧各0.05,3)位于,(-1.96,+1.96),内的面积为,0.95,,说明正态变量在1.96范围内取值的概率为0.95,在该区间以外取值的概率(两侧的阴影面积之和)为0.05,左右两侧各0.025,4)位于(,-2.58,+2.58),内的面积为,0.99,,说明正态变量在2.58范围内取值的概率为0.99,在该区间以外取值的概率(两侧的阴影面积之和)为0.01,左右两侧各0.005,正态分布曲线下面积分布规律示意图,正态分布曲线下的面积分布规律,正态分布曲线下的面积分布规律,正态分布及其应用,正态分布下的概率计算,方法一,:,利用统计软件计算,方法二,:,转化为标准正态分布查表计算,曲线下面积的求法:,定积分法,和,标准正态分布法,标准正态分布,当参数 和 已知时,依据正态分布N(,,2,)的分布函数公式,正态变量取值落在各区间的,概率,都归结为正态分布曲线下的面积,只需知道分布函数,F,(,x,)在区间端点处的函数值,就可以算出,但要通过该公式计算,F,(,x,)是困难的,实际应用中,要把服从一般正态分布N(,,2,)的随机变量X作如下标准化变换:,变换后新的随机变量,z,服从,=0,=1的正态分布,即 ZN(0,1),正态分布及其应用,标准正态分布,指数据经标准化变换后,=0,=1时的正态分布,标准正态分布(又称Z分布):ZN(0,1),公式,任何一个正态分布,都可以通过变换,成为标准正态分布,正态分布及其应用,m,m+s,m-s,X N(,m,s,2,),0,1,-1,X,-,m,s,Z =,N(,0,1,),正态分布及其应用,标准正态分布,图中阴影部分的,面积,表示标准正态变量Z落在(-,z)内的,概率,即为分布函数 的值,标准正态分布的概率密度曲线与分布函数示意图,z,0,z,1,0,z,2,1-,正态分布及其应用,标准正态分布,图中阴影部分的,面积,表示标准正态变量Z落在(-,z)内的,概率,即为分布函数 的值,标准正态分布的概率密度曲线与分布函数示意图,正态分布的应用,1、估计频数分布,标准正态分布,正态分布及其应用,查,标准正态分布表,(附表,C1,)得标准正态变量,z,落在(,-,z,)内的概率值,表,C1,标准正态分布,(z-,分布,),密度曲线下的面积,(z),值,自,-,到,-z,的面积,(-,-z),,,(z,+)=1-(-,-z),正态分布曲线下面积分布规律示意图,正态分布曲线下的面积分布规律,正态分布的应用,1、估计频数分布,例:,140,名成年男子红细胞均数和标准差分别为,4.7810,12,/L,和 0.3710,12,/,L,,求红细胞数在,4 10,12,/L5.3 10,12,/L,范围内所占的比例,?,正态分布及其应用,z,0,z,1,0,z,2,正态分布的应用,练习:,假定一组男孩的体重呈正态分布,体重均数40kg、体重的标准差4kg,请回答以下问题:,(1)体重低于46.6kg的男孩占百分之几?,(2)体重大于什么值的男孩占10%?,正态分布及其应用,以,z,1,1.65,查表,得,(z,1,)0.04950.05,(z,2,)10.050.95,即体重低于,46.6kg,的男孩占,95%,z,1,0 z,2,40 46.6,?,%,z,1,0 z,2,40,10%,X,?,(,2,)以,(z),10%,0.10,先查表,得,z,1,1.28,z,2,z,1,z,2,1.28,X,X+z,S,X,40,1.284,45.12,(,kg,),即体重大于,45.12kg,的男孩占,10%,2、制定医学参考值范围,医学参考值,又称,正常值范围,,医学上包括绝大多数正常人的某指标值的波动范围,确定范围:一般以95%参考值范围最常用,按资料特点选取不同方法计算正常值范围的上下限,正态分布的应用,正态分布及其应用,单侧下限,-,过低异常,单侧下限,异常,正常,单侧上限,异常,正常,异常,正常,双侧下限,双侧上限,异常,单侧上限,-,过高异常,双侧,-,过高、过低均异常,根据指标含义决定单、双侧范围,正态分布的应用,2、制定医学参考值范围,依据资料的分布类型有以下两种的常用方法:,1)正态近似法,适用于服从正态分布或近似正态分布的资料,双侧 参考值范围,单侧 参考值范围,或,正态分布的应用,2、制定医学参考值范围,依据资料的分布类型有以下两种的常用方法:,1)正态近似法,对于正态分布或近似正态分布的资料,只要样本含量足够大(n100)时,可用:,作为95%的正常值范围(双侧),正态分布及其应用,例:,估计例3-4中该地正常成年女子的血清总蛋白,(g/L,g/L)的95%参考值范围。,解:,由于该地正常成年女子血清总蛋白近似服从正态分布,可用,正态分布法,计算。因血清总蛋白过多或过少均属异常,所以应取,双侧,,即计算95%参考值范围的上下限。,下限为:(g/L),上限为:(g/L),故该地正常成年女子血清总蛋白的95%参考值范围为65.3580.25(g/L)。,正态分布的应用,正态分布及其应用,正态分布的应用,2、制定医学参考值范围,2)百分位数法,适用于偏态分布资料、分布型未知的资料以及分布末端有不确定值的资料,双侧 95%参考值范围,单侧95%参考值范围,正态分布及其应用,或,正态分布的应用,例:某地调查110名健康成年男子的第一秒肺通气量(近似服从正态分布)得:,均数为4.2(L),标准差为0.7(L),请据此估计该地成年男子第一秒肺通气量的95%正常值范围?,正态分布及其应用,正态分布的应用,因第一秒肺通气量仅过低属异常,故此正常值范围属仅有下限的单侧正常值范围,又因此资料近似正态分布,故可用正态分布法,即该地成年男子第一秒肺通气量的95%正常值范围不低于3.05(L),正态分布及其应用,例,测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的,95%,参考值范围。,表,282,名正常人尿汞值()测量结果,单侧上限,常用参考值范围的制定,正态分布的应用,3、质量控制,绘出质量控制图,正态分布及其应用,上、下警戒限,上、下控制限,各测定值均在警戒限以内,且随机地分布在中心线的两侧,说明质量在控制中,正态分布的应用,3、质量控制,例如,某实验室对同一控制血清作尿酸定量测定,连续观察20天,得20个数据如下(mg/dl):,正态分布及其应用,正态分布的应用,4、统计方法的理论基础,许多统计方法(如,t,检验、方差分析等)都要求指标服从正态分布,有些统计量的分布(如,t,分布等)都是在正态分布的基础上推演出来的,正态分布在统计学中占有极其重要的地位,正态分布及其应用,1、正态分布是一种很重要的连续型分布,很多医学现象服从正态分布或近似正态分布,或经变量转换转换为正态分布,可按正态分布规律来处理,是许多统计学方法的理论基础,2、正态分布的特征:曲线在横轴上方,均数处最高;以均数为中心,左右对称;确定正态分布的两个参数是均数与标准差,3、正态曲线下面积的分布有一定规律。利用此规律可用于估计医学参考值范围和质量控制,小 结,
展开阅读全文