资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章,定量资料的统计描述,主讲人:王汝芬,联 系:,教研室:卫生统计学,8462426,思考讨论,1,、本堂课你学到了什么?,2,、为什么要学这门课?,3,、你准备用什么方法学?,学习目标:,1、熟悉频数表的划记步骤,频数表的用途。,2、掌握 均数、几何均数、中位数的定义、计算方法、适用范围。,3,、掌握标准差,s,、四分位间距(,p75-p25,)、变异系数,CV,的计算与应用。,第一节 频数分布表及频数分布图,定量资料进行描述时,如果样本量较大,需要对原始资料进行整理,列出频数分布表,(,frequency distribution table,),,通过频数表以显示资料的分布类型。,一、离散型定量资料的频数分布,即变量的取值是不连续的,如1998年某山区96名孕妇产前检查次数资料:见11页,表2-1 1998年某地96名孕妇产前检查次数分布,检查次数,(1),频 数,(2),频率(%),(3),0,4,4.2,1,7,7.3,2,11,11.5,3,13,13.5,4,26,27.1,5,23,24.0,5,12,12.5,合计,96,100.0,根据表2-1频数的分布可绘出频数分布图,见12页图2-1。,图中横坐标表示产前检查次数,纵坐标表示,各检查次数的孕妇例数占总孕妇数的频率,(比例)。,从图2-1其直条高度和分布情况看出,某地96名孕妇产前检查次数分布呈负偏态分布。,正态分布见图2-2,正偏态分布见图2-3。,二、连续型定量资料的频数分布,频数表的划记步骤,:见1,2,页,1、找出最大值和最小值,,2、求极差,R(Range),R=,最大值-最小值,R=29.64-7.42=22.22,3、,定组段数与组距,:,(1)确定组数,K:,根据样本例数,n,大小而定,一般分10组左右,如样本较小,可少于10组;如样本较大时,可大于10组,,以能反映出分布规律为原则,。,(2)定组距,i:,即组与组间的距离,一般等距分组。,i=R/K(,极差/组数)=22.22/10=2.222 最终原则是取整、取偶数,所以本例,i=2,(3)定组段的上下限并划记:,每个组段的起点(最小值)称为该组的下限(,lower limit),终点(最大值)称为该组的上限(,upper limit)。,注意,第一组段把最小值包括进去,最后一组把最大值包括进去。,4、列表:统计各组段的频数:见表2-2,120名正常成男血清铁含量的频数分布,组 段,(1),划 记,(2),频数,f,(3),频 率(%),(4),6,1,0.83,8,3,2.50,10,6,5.00,12,8,6.67,14,12,10.00,16,20,16.67,18,27,22.50,20,18,15.00,22,12,10.00,24,8,6.67,26,4,3.33,2830,1,0.83,合计,120,100.00,三、频数分布表的用途,1、,揭示资料的分布类型,;,频数分布可分为对称分布和偏态分布两种类型。对称分布是指集中位置在中间,左右两侧频数大体对称的,对称分布包括正态分布,如第14页图2-2所示。,偏态分布是指集中位置偏向一侧,频数分布不对称的。集中位置偏向左侧的,为正偏态,集中位置偏向右侧的,为负偏态。,2、,揭示频数分布的两个分布特征,;,集中趋势和离散趋势,。如成年男子血清铁分布,大多集中在18组段,偏离18组段的越来越少。,3、,便于发现特大或特小的可疑值。以确定取舍,;,4、,便于进一步选择方法计算统计指标,。,第二节描述集中趋势的统计指标,描述定量资料的分布特征的指标有两类,一类是描述分布集中趋势的,另一类是描述分布的离散趋势的。,今介绍描述定量资料分布集中趋势的指标,平均数(,average)。,平均数,包括,算术均数、几何均数、中位数、,众数、调和均数。,一、算术均数,:,简称均数 (,mean,),总体均数用希腊字母,,,样本均数,样本例数用,n,表示。,1、均数的适用范围:,对称分布,尤其正态或近似正态分布的资料。,2、均数的计算方法:,直接法(用于小样本),频率表法(用于大样本,),其中,f,为各组段的频数,,X,0,是各组的组中值,,如,p16,表2-,3,第一组段的组中值是,按均数的计算公式求得均数为:,二、几何均数,G(geometric mean),由该公式可得到定义:,n,个观察值的乘积开,n,次方所得的根即为几何均数。,1、,G,的,适用范围:,变量值呈倍数关系的;,对数正态分布的资料。,2、几何均数的计算方法:,直接法(用于小样本),式中:,log,对数符号,,log,-1,反对数符号,例如,7名慢性迁延性肝炎的,HBsAg,滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。计算其几何均数,即求平均滴度。,G=1:64,该7名慢性迁延性肝炎的,HBsAg,平均滴度为1:64。,频率表法(用于大样本),例如1,7,页表2-4资料,表2-4 52例慢性肝炎的,HBsAg,滴度资料,抗体滴度,人数,f,滴度倒数,x,lgx,flgx,1:16,2,16,1.20412,2.40824,1:32,7,32,1.50515,10.53605,1:64,11,64,1.80618,19.86798,1:128,13,128,2.10721,27.39373,1:256,12,256,2.40824,28.89888,1:512,7,512,2.70927,18.96489,合计,52,108.06977,G=1:119.74705,即1:120,52名慢性肝炎的,HBsAg,滴度资料其平均滴度,为1:120。,三、中位数(,median,M),是指一组观察值从小到大(或从大到小)顺序排列后居于中间位置的数。,即总数中有一半的数低于它,一半的数高于它。,1、,M,的适用范围:,理论上用于各种分布的资料。,实际用于:,偏态分布资料;,开口资料;分布类型不清的资料。,2、,M,的计算方法:,小样本计算法:,当,n,为奇数时,M=x,(,中间),当,n,为偶数时,M=(,中间两位)/2,注:按升序排列后的,如 今有5名工人接触某有害物质后,引起中毒的潜伏期分别是:1天,3天,5天,4天,8天。该5位工人的平均潜伏期是多少天?,大样本频数表资料,可用百分位数法计算:,百分位数(,percentile,Px):,它表示一组观察值按升序排列,并等分为100等份,位居第,x%,位置的数。,其中,中位数,M=P,50,式中,,P,x,:,百分位数,L,:,百分位数,所在,组下限;,i,:,组距;,f,x,:,百分位数所在组的频数;,f,L,:,百分位数所在组之前的累计例数;,n:,样本例数。,例:对1,8,页表2-,5,资料,求中位数:,表2-2,50,名链球菌咽夹炎患者潜伏期(小时)的频数分布,组段,频数,f,累计频数,f,累计频率%,12,1,1,0.83,24,3,4,3.33,36,6,10,8.33,48,8,18,15.00,60,12,30,25.00,72,20,50,41.67,84,27,77,64.17,96,18,108,120,12,合计,120,表,2-2 50,名链球菌咽夹炎患者潜伏期(小时)的频数分布,组 段,组中值(,X,0,),频 数,(,f,),频率(,%,),累积频数(,f,),累积频率(,%,),12,18,1,2,1,2,24,30,7,14,8,16,36,42,11,22,19,38,48,54,11,22,30,60,60,66,7,14,72,78,5,10,84,90,4,8,96,102,2,4,108,114,2,4,合 计,-,50,100,本例怎样找中位数组段呢?,因为本例,n=50,是偶数,按照中位数的定义,中位数,M,所在组为,50/2=25,所在组,可从累计频数一栏中找刚包括,25,的那一组,也可从累计频率一栏中找刚包括50%的那一组。,本例中位数所在组的下限为,48,的组;,i,为,12,;,f,为,11,;,f,L,为,19,,将其代入公式,求得,M,
展开阅读全文