资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,定量资料,89,第四章,定量资料的统计描述,统计图表,1,【例4-1】2019,年某市120名10岁男孩的身高(cm)资料如下。,135.4139.8144.0 147.3146.3142.5138.1143.6141.6152.6,132.1144.7143.6146.8144.2141.3137.5142.8140.6150.4,145.9140.2144.5148.2146.4142.4138.5148.9146.2,155.4,134.2139.2143.5141.6143.5142.3148.9143.6141.5151.1,132.5138.7149.6146.9148.7141.5137.8142.7144.6151.8,136.4140.0144.3147.5145.6142.5138.5143.7149.5153.6,130.2,138.9143.7146.5138.8141.7136.9142.0140.5150.3,135.7145.7144.2147.8145.8142.6138.6143.8141.3153.9,133.4139.6143.7147.5144.8148.0137.4142.1140.8141.8,134.5139.4142.9147.5144.7141.8136.9143.5140.7151.4,145.6147.3143.9141.9151.6145.6148.9144.3139.1145.8,145.6145.3147.6148.6145.5137.3146.5140.3148.4136.5,【问题4-1】,该组数据为何种类型资料?,如何描述,10,岁男孩身高的数量特征?,本章主要内容,频数表和频数图,集中趋势的描述,离散趋势的描述,正态分布及其应用,第一节,频数表和频数图,表达变量取值及其不同取值频数分布情况的统计表称为频数分布表,简称频数表(,frequency table,)。,频数表和频数图,频数表,频数表的编制,求极差(,range,),找出一组观察值中的最大值与最小值,其差值即为极差(或全距),用,R,表示。,如例,4-1,中,:,R,=155.4-130.2=25.2,。,频数表和频数图,2. 确定组数和组距(,i,),根据样本含量的大小及研究目的确定组数;,一般设815个组。,例4-1:,i,=25.2/10=2.52,,取整数2做组距。,频数表和频数图,3. 确定组段,即确定每一组的起点(下限)和终点(上限) 。,起点称为下限,(,lower limit,),终点称为上限,(,upper limit,),上限=下限+组距,频数表和频数图,4. 归组计数,整理成表,确定组段界限后,采用计算机或用划记法将,各原始数据归入各组汇总,得出各组段的观,察例数,也就是频数 。,频数表和频数图,表4-1 2019年某市120名10岁男孩身高(cm)的频数表,身高,(1),频数,(2),频率(%),(3),累计频数,(4),累计频率(%),(5),130,132,134,136,138,140,142,144,146,148,150,152,154156,1,3,4,8,12,17,21,20,14,10,6,3,1,0.8,2.5,3.3,6.7,10.0,14.2,17.5,16.7,11.7,8.3,5.0,2.5,0.8,1,4,8,16,28,45,66,86,100,110,116,119,120,0.8,3.3,6.7,13.3,23.3,37.5,55.0,71.7,83.3,91.7,96.7,99.2,100.0,合计,120,100.0,频数表和频数图,频数表的用途,揭示资料的频数分布特征和频数分布类型,频数分布的特征:,集中趋势(,central tendency,),离散趋势(,dispersion,),频数分布的类型:,对称分布,偏态分布,频数表和频数图,频 数,频 数,频 数,图1 101名正常女子血清总胆固醇的频数分布,图2 69例RA患者血清EBV-VCA-IgG,抗体滴度的频数分布,图3 101名正常人血清肌红蛋白的频数分布,血清肌红蛋白(,g/ml),正(右)偏态,负(左)偏态,对称分布,2.便于进一步计算指标和统计处理,可利用频数表计算百分位数、中位数、标准差等,频数表和频数图,3. 便于发现某些特大或特小的可疑值。,频数图(,graph of frequency,)是以变量值为横坐标、频数(频率)为纵坐标(不等距分组时以频率,/,组距,=,频率密度为纵坐标),以每个等宽的距形面积表示每组的频数(或频率)。,频数表和频数图,频数图,连续型定量资料:频数图中各距形是相连的,又称,直方图,(histogram);,离散型定量资料:频数图中各距形是间隔的,又称,直条图,(bar graph)。,频数表和频数图,图4-1 2019年某市120名10岁男孩身高的频数图,频数表和频数图,第二节,集中趋势的描述,定量资料集中趋势的描述,常用平均数(,average,),表达一组同质定量数据的平均水平或集中位置。,集中趋势的描述,算术均数,几何均数,中位数,众数,调和均数,又称均数(,mean,),是用一组观察值相加除以观察值的个数所得。样本均数用,,总体均数用 。,算术均数(,arithmetic mean,),集中趋势的描述,1. 计算方法,直接法:样本含量较少,加权法:相同观察值较多或频数表资料,集中趋势的描述,【例4-2】 某医生测量了10名脑出血患者的血尿素氮(mmol/L)分别是:7.4、6.7、6.9、7.3、7.6、6.5、7.8、8.2、8.0、6.6,试计算该组数据的均数。,集中趋势的描述,【例4-3】根据表,4-1资料,用加权法求120名10岁男孩身高的均数。,身高,(1),频数,f,i,(2),组中值,x,i,(3),f,i,x,i,(4),130,132,134,136,138,140,142,144,146,148,150,152,154156,1,3,4,8,12,17,21,20,14,10,6,3,1,131,133,135,137,139,141,143,145,147,149,151,153,155,131,399,540,1096,1668,2397,3003,2900,2058,1490,906,459,155,合计,120( ),17202( ),表4-2 2019年某市120名10岁男孩身高(cm)的均数计算表,集中趋势的描述,2. 应用,均数适用于,对称分布,特别是,正态分布,资料。,集中趋势的描述,是,n,个观察值乘积的,n,次方根,又称倍数均数,用,G,表示 。,几何均数(,geometric mean,),集中趋势的描述,1. 计算方法,直接法:样本含量较少,加权法:相同观察值较多或频数表资料,集中趋势的描述,【例4-4】,某实验室测得7人血清中某种抗体的滴度分别为1/4,1/8,1/16,1/32,1/64,1/128,1/256,试求平均滴度。,集中趋势的描述,集中趋势的描述,【例4-6】50名麻疹易感儿接种麻疹疫苗后,测得血凝,抑制抗体滴度资料见表4-3,求抗体的平均滴度。,86.9977,抗体滴度,(1),频数,(2),滴度倒数,(3),(4),(5),1/4,1/8,1/16,1/32,1/64,1/128,1/256,1,3,6,10,13,10,7,4,8,16,32,64,128,256,0.6021,0.9031,1.2041,1.5051,1.8062,2.1072,2.4082,0.6021,2.7093,7.2246,15.5051,23.4806,21.0720,16.8574,合计,50,表4-3 50名麻疹易感儿血凝抑制抗体滴度,集中趋势的描述,50名麻疹易感儿接种麻疹疫苗后血凝抑制抗体的平均滴度为1/54。,2. 应用及注意事项,几何均数适用,对数正态分布,等比级数资料,观察值中不能有,0,实验设计的基本要素,中位数与百分位数,集中趋势的描述,【例4-7】200名食物中毒患者潜伏期资料如表4-4,,研究人员据此采用加权法计算均数得平均潜伏期,为27小时。,(1),该组数据在分布上有何特点?,(2),用均数描述该资料的平均水平是否,合适?,集中趋势的描述,表4-4 200名食物中毒患者的潜伏期,潜伏期(小时),(1),频数,(2),累计频数,(3),累计频率(%),(4)=(3)/,n,0,30,30,15.0,12,71,101,50.5,24,49,149,74.5,36,28,178,89.0,48,14,192,96.0,60,7,199,99.5,7284,1,200,100.0,合计,200,中位数(,median,):,将一组观察值由小到大排序后,居于中间位置的数值即为中位数 ,用 表示。,中位数是一种位置平均数,它将全部数据排列成的有序数列平均分为两部分,小于和大于中位数的观察值个数相等,各占50%。,集中趋势的描述,1. 中位数的计算,(1)直接法:观察值个数较少,集中趋势的描述,【例4-8】某实验师对10只小白鼠染毒后观察各小鼠的生存时间(分钟),得数据为:35,60,62,63,63,65,66,68,69,69,试计算小白鼠的平均生存时间。,集中趋势的描述,(2)频数表法 :频数表资料,L,M,中位数所在组段下限,组距,中位数所在组段的频数,中位数所在组段前一组的累计频数,集中趋势的描述,求:下表200名食物中毒患者的平均潜伏期,潜伏期(小时),(1),频数,(2),累计频数,(3),累计频率(%),(4)=(3)/,n,0,30,30,15.0,12,71,101,50.5,24,49,149,74.5,36,28,178,89.0,48,14,192,96.0,60,7,199,99.5,7284,1,200,100.0,合计,200,集中趋势的描述,(小时),百分位数(,percentile,):,是指将一组观察值由小到大排序后,将其平均分成,100,等份,对应于每一分割位置上的数值就称为一个百分位数,用,表示 。,集中趋势的描述,是一种位置指标,一个百分位数将一组观察值分为两部分,理论上有,x,%的观察值比它小,有(100-,x,)%的观察值比它大。,集中趋势的描述,【例4-10】根据表4-4,计算,P,25,、,P,75,。,集中趋势的描述,2. 中位数与百分位数的应用,中 位 数:,偏态分布资料,一端或两端无确切值,总体分布不明,百分位数:,非正态分布资料,集中趋势的描述,第三节,离散趋势的描述,【例4-11】,分别观察两组各9只动物的每日进食量(mg/g),结果如下:,A组 24 25 26 27 28 29 30 31 32,B组 20 21 22 23 24 25 26 27 64,两组动物每日进食量的平均数,均为,28mg/g,。,离散趋势是频数分布的另一特征,反映了观察值之间的变异情况,只有将,集中趋势,与,离散趋势,结合起来描述才能全面反映定量资料的数量特征。,描述离散,趋势指标,极差,四分位间距,标准差,变异系数,极差(,range,,,R,):亦称全距,是一组同质观察值中最大值( )与最小值( )之差。,极 差,概念,只考虑最大值与最小值之差异,不能,反映组内其它观察值的变异度,样本含量越大,极差可能越大,极 差,不足之处,四分位数间距(,inter-quartile range,,,Q,):为上四分位数,Q,U,(即,P,75,)与下四分位数,Q,L,(即,P,25,)之差。,四分位数间距,概念,【例4-12】根据例4-7资料,计算四分位数间距。,小时,小时,四分位数间距:,(小时),每个观察值,x,与 间的变异称为离均差,由于,变异程度用离均差平方和反应,方 差,考虑观察值个数,N,的影响,在实际工作中,方 差,n,-1称为自由度,( degree of freedom),方差适用:,描述对称分布特别是正态分布资料的离散程度。,方差的度量单位是原度量单位的平方,方差开方后即与原数据的度量单位相同,这就是,标准差,(,standard deviation,),标准差,在实际工作中,n,-1称为自由度,( degree of freedom),标准差适用:,描述对称分布特别是正态分布资料的离散程度。,标准差,数学上可以证明,标准差,【例4-13】 某医生测量了10名脑出血患者的血尿素氮(mmol/L)分别是:7.4、6.7、6.9、7.3、7.6、6.5、7.8、8.2、8.0、6.6,试计算该组数据的标准差。,标准差,身高,(1),频数,(2),频率(%),(3),累计频数,(4),累计频率(%),(5),130,132,134,136,138,140,142,144,146,148,150,152,154156,1,3,4,8,12,17,21,20,14,10,6,3,1,0.8,2.5,3.3,6.7,10.0,14.2,17.5,16.7,11.7,8.3,5.0,2.5,0.8,1,4,8,16,28,45,66,86,100,110,116,119,120,0.8,3.3,6.7,13.3,23.3,37.5,55.0,71.7,83.3,91.7,96.7,99.2,100.0,合计,120,100.0,【例4-14】根据下表资料,计算120名10岁男孩身高的标准差。,标准差,标准差,【例4-15】某医院预防保健科,对一组5岁男孩进行体检,测量身高、体重等指标。得身高均数与标准差为115.8 cm和4.5,cm,体重均数与标准差为20.2kg和0.56 kg,得出结论:身高的变异程度比体重大。,变异系数,上述结论是否正确?,变异系数(,coefficient of variation,简记为,CV,):是一组观察值的标准差与其均数的比值,,概念,变异系数,度量衡单位不同的资料,单位相同但均数相差悬殊的两组或多组资料,适用于,变异系数,根据例4-15资料分别计算身高与体重的变异系数。,身高:,体重:,描述数值变量资料集中趋势的指标,描述数值变量资料离散趋势的指标,第四节,正态分布及其应用,正态分布的概念与特征,图4-1 120名10岁男孩身高资料的频数图,正态分布的概念与特征,正态分布(normal distribution)称为高斯分布(Gauss distribution),如果连续型随机变量,X,的概率密度函数为:,概念,正态分布的概念与特征,则称随机变量,X,服从参数为 和 的正态分布,,记作:,x,正态曲线(,normal curve,)在横轴上方均数处最高;并以均数为中心,左右对称;两端与横轴永不相交,呈钟形的曲线。,正态分布特征,正态分布的概念与特征,正态曲线,正态分布有两个参数,即位置参数 和形状参数,正态分布的概念与特征,位置参数,形态参数,正态分布的概念与特征,正态分布的概念与特征,正态曲线下面积的分布有一定的规律。,正态曲线与横轴之间的面积恒等于1或100%;,对称分布,对称轴两侧的面积各为50;,在 区间的面积为,68.27,在 区间的面积为,95.00,在 区间的面积为,99.00,正态分布的概念与特征,思考:能否编制正态曲线下面积的分布表,然,后通过查表来确定某区间对应的面积呢?,标准正态分布,统计学家发现,可以使所有的正态分布转化为统一的 的正态分布,该正态分布称为,标准正态分布,(,standard normal distribution,)。,标准正态分布,这种变换称为标准化变换或,Z,变换。若,X,服从正态分布 ,则,Z,就服从 。,标准正态分布曲线下面积分布规律,【例4-18】 已知某地2019年18岁男大学生身高的均数 cm,标准差 cm,且18岁男大学生的身高服从正态分布。问该地18岁男大学生中身高在166.8 cm及其以下者占多大的比例?,标准正态分布,先将,x,转换为,z,查附表3,表的左侧找-1.9,表的上方找0.06,相交处为0.025,【例4-19】某地2019年抽样调查了100名18岁男大学生身高,算得均数为172.70cm,标准差为4.01cm。,正态分布的应用,估计正态分布资料的频数分布,【问题】,该地18岁男大学生中身高在162.35cm183.05cm范,围内者所占的比例是多少?,查附表3, 左侧的面积为0.005,由正态分布曲线的对称性可知, 右侧的面积也为0.005,又由正态分布曲线下的总面积为1,可得-2.58与2.58之间的面积为1-20.005=0.99=99% 。,正态分布的应用,制定医学参考值范围,医学参考值范围:亦称正常值范围,指绝大多数“正常人”的解剖、生理、生化等指标的波动范围。,所谓“正常人”不是指绝对的“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群。,正态分布的应用,制定医学参考值范围的注意事项,要确定一批样本含量足够大的“正常人”,根据研究目的和使用要求选定适当的百分界值,根据专业知识确定单侧或双侧界值,根据资料的分布选用恰当的计算方法,正态分布的应用,制定医学参考值范围常用方法,正态分布法:适用于正态或近似正态分布的资料,双侧界值,单侧界值,表4-6 常用,z,值表,参考值范围(%),单侧,双侧,80,0.842,1.282,90,1.282,1.645,95,1.645,1.960,99,2.326,2.576,【例4-19】,某地2019年抽样调查了100名18岁男大学生身高(cm),算得均数为172.70cm,标准差为4.01cm。,【例4-20】,利用例4-19资料估计该地18岁男大学生身高的95参考值范围。,身高服从正态分布,其参考值范围应为双侧。,采用公式 计算,百分数取95%,,得164.84180.56,故该地18岁男大学生身高的,95参考值范围是(164.84180.56)cm,。,正态分布的应用,制定医学参考值范围常用方法,百分位数法:偏态分布资料以及资料中一端或两端无确切数值,双侧界值,单侧界值,P,2.5,P,97.5,上界为:,P,95,下界为:,P,5,【例4-21】,测得某地200名正常人尿汞值( ),,求该地正常人尿汞值的95参考值范围?,表4-7 某地200名正常人尿汞值( ),尿汞值,0,4,8,12,16,20,24,28,32,36,40,44,48,5256,例 数,30,21,33,27,25,22,14,8,6,5,3,3,2,1,由表4-7可以看出,正常人尿汞值的分布为偏态分布,不适宜采用正态分布法,应采用百分位数法;且尿汞的参考值范围应为单侧上界,正态分布的应用,质量控制,正态分布是许多统计方法的理论基础,THE END,
展开阅读全文