资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,定量变量的统计描述,定量变量的,统计描述,统计图表,统计指标:,集中趋势指标,离散趋势指标,利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。,一、,频率分布表与频率分布图,(,Frequency / Frequency distribution),二、,描述平均水平统计指标,(,Description of,central tendency,),【,教学内容,】,三、,描述变异程度统计指标,(,Description of,tendency of dispersion,),四、,描述分布形态统计指标,(,Description of distribution ),五、,统计表与统计图,(,statistical table, statistic chart,),【,教学内容,】,变 量,统计学,卫生统计学,研,究,内,容,定性变量,定量变量,统计描述,统计推断,随机性现象,概率论,数理统计,统计描述,:,从资料中获取信息最基本的方法,掌握资料基本的特征,为统计分析打下基础,表,2-2,120,名,18-35,岁健康男性居民血清铁含量(,umol/L,),7、42,8、65,23、02,21、61,21、31,21、46,9、97,22、73,14、94,20、18,21、62,23、07,20、38,8、4,17、32,29、64,19、69,21、69,23、9,17、45,19、08,20、52,24、14,23、77,18、36,23、04,24、22,24、13,21、53,11、09,18、89,18、26,23、29,17、67,15、38,18、61,14、27,17、4,22、55,17、55,16、1,17、98,20、13,21,14、56,19、89,19、82,17、48,14、89,18、37,19、5,17、08,18、12,26、02,11、34,13、81,10、25,15、94,15、83,18、54,24、52,19、26,26、13,16、99,18、89,18、46,20、87,17、51,13、12,11、75,17、4,21、36,17、14,13、77,12、5,20、4,20、3,19、38,23、11,12、67,23、02,24、36,25、61,19、53,14、77,14、37,24、75,12、73,17、25,19、09,16、79,17、19,19、32,19、59,19、12,15、31,21、75,19、47,15、51,10、86,27、81,21、65,16、32,20、75,22、11,13、17,17、55,19、26,12、65,18、48,19、83,23、12,19、22,19、22,16、72,27、9,11、74,24、66,14、18,16、52,目的:描述该组,18-35,岁健康男性居民血清铁含量,的分布规律。,问题,1、,该组,居民血清铁含量,平均值多少?,问题,4、,用表,/,图表示血清铁分布,?,问题,2、,血清铁含量范围?最高多少?最,低,多少?,问题,3、,血清铁含量主要集中在哪个范围,?,?,集中趋势,频数表,频数分布图,离散趋势,【,教学要求,】,了解频数分布表的编制方法及应用,掌握数值变量资料的平均水平、变,异程度常用统计描述指标,及各自,的应用。,第一节 频数与频数分布,频数,(frequency),:对一个随机变量做重复观察,其中某变量值出现的次数。,频数分布表,(,frequency distribution table,),:将各变量值及其相应的频数列成表格的形式。,例,2-2,抽样调查某地,120,名,18,岁,35,岁健康男性居民血清铁含量,(mol/L),试编制频数分布表。,频数表的编制:,一、连续型定量变量的频数分布,(二)连续型变量频数表的编制方法:,求全距,列表划记,步骤:,写组段,定组距,求全距,(Range,简记,R ):,是一组资料中最大值(,Xmax,)与最小值(,Xmin,)之差,亦称极差,。,全距(,R,),=,X,max,-,X,min,=29、64, 7、42 = 22、22,(,umol/L,),7、42,8、65,23、02,21、61,21、31,21、46,9、97,22、73,14、94,20、18,21、62,23、07,20、38,8、4,17、32,29、64,19、69,21、69,23、9,17、45,19、08,20、52,24、14,23、77,18、36,23、04,24、22,24、13,21、53,11、09,18、89,18、26,23、29,17、67,15、38,18、61,14、27,17、4,22、55,17、55,16、1,17、98,20、13,21,14、56,19、89,19、82,17、48,14、89,18、37,19、5,17、08,18、12,26、02,11、34,13、81,10、25,15、94,15、83,18、54,24、52,19、26,26、13,16、99,18、89,18、46,20、87,17、51,13、12,11、75,17、4,21、36,17、14,13、77,12、5,20、4,20、3,19、38,23、11,12、67,23、02,24、36,25、61,19、53,14、77,14、37,24、75,12、73,17、25,19、09,16、79,17、19,19、32,19、59,19、12,15、31,21、75,19、47,15、51,10、86,27、81,21、65,16、32,20、75,22、11,13、17,17、55,19、26,12、65,18、48,19、83,23、12,19、22,19、22,16、72,27、9,11、74,24、66,14、18,16、52,2、,定组距:将全距分为若干段,称为组段。组与组之间的距离,称为组距,;用小写,i,表示。,原则,:,(,1,)“组段”数一般为,8-15,个;(,2,)“组距”一般为,R/10,取整;(,3,),为计算方便依照组距采取取整数方法,本例题:,组距(,i,),=,全距,/,预分组段,= 22、22,/10=2、222,(,umol/L,),3、,写组段:马上全距分为若干段的过程,。,原则,:,(,1,)第一组段要包括,X,min,最末组段包括,X,max,;,(,2,),每组段均用下限值加 “, ”,表示,最终组段同时注明上下限。,注意:各组段不能重叠,每一组段均为半开半闭区间。,4、,列表划记:依照预定的组段和,组距,用划记的方法整理原始资料。,表,2-3 120,名,18-35,岁健康男性居民血清铁含量的频数分布表,6,8,10,12,14,16,18,20,22,24,26,2830,合计,一,上,正一,正上,正正丅,正正正正,正正正正正丅,正正正上,正正丅,正上,止,一,1,3,6,8,12,20,27,18,12,8,4,1,组段,划记,频数,120,表,2、2,120,名,18-35,岁健康男性居民血清铁含量(,umol/L,)频数表,组段 频数 频率,%,累计频数 累计频率,%,6 1 0、83 1 0、83,8 3 2、50 4 3、33,10 6 5、00 10 8、33,12 8 6、67 18 15、00,14 12 10、00 30 25、00,16 20 16、67 50 41、67,18 27 22、50 77 64、17,20 18 15、00 95 79、17,22 12 10、00 107 89、17,24 8 6、67 115 95、83,26 4 3、33 119 99、17,2830 1 0、83 120 100、00,合计,120 100、0,特点:中间高、两侧逐渐下降、左右基本对称的分布,-,直方图,(,直条间连续,),用于表达连续型变量的频数分布。,频数直方图,(,frequency distribution figure,),:,依照频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。,的频数是,7,频率为,7、3%,进行,3,次检查,的频数是,11,频率,为,11、5%,进行,5,次以上检查的,频数是,12,频率为,12、5%,。,进行,0,次检查的频数是,4,其频率为,4、2%,进行,1,次,检查,0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,4,7,二、离散型定量变量的频数分布,例,2-1,(,P11,),离散型变量的频数分布表每一个组段就是一个固定的取值,离散型变量的频数分布图 直条图,横坐标为产前检查次数;纵坐标为 频率,即产前检查,K,次的妇女在被统计妇女中所占的比例,%,。图中等宽矩形长条的高度与相应检查次数的频率呈正比。,频率:各组的频数除以总例数,n,所得的比值。频率描述了各组频数在全体中所占的比重,各组频率之和等于,100%,。,累计频数:本组段的频数与往常各组段的频数相加; 累计频率:每组段的累计频数除以总例数。,三、 频数分布的两个特征,集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在,18,这个组段,这种现象为集中趋势。,离散趋势:从中央部分到两侧的频数分布,逐渐减少,而且,血清铁含量,的值参差不齐,最低的接近,6,最高的接近,30,这种现象称为离散趋势。,由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。,离散趋势或变异程度是指观察值之间参差不齐的程度。,血清胆固醇组段,(,1,),划记,(,2,),频数,(,3,),2、30,2、60,2、90,3、20,3、50,3、80,4、10,4、40,4、70,5、00,5、30,5、60,一,下,正一,正下,正正正丅,正正正正,正正正丅,正正丅,正止,正,丅,一,1,3,6,8,17,20,17,12,9,5,2,1,表,2-2,某地,101,名,正常成年女子血清总胆固醇,的频数表,合计,140,从中央部分到两侧的频数分布逐渐减少、血清胆固醇的的值参差不齐,离散趋势,血清胆固醇值向中央部分集中,即中等含量者居多,集中趋势,频数分布,四、频数分布的类型,对称分布型:指集中位置在正中,左右,两侧频数分布大体对称,。,偏态分布型:指集中位置偏向一侧,频数,分布不对称。,偏态分布,正偏态分布:集中位置偏向数值小的一侧。,负偏态分布:集中位置偏向数值大的一侧,。,(三)频数表的用途:,1、,揭示变量的分布特征,图,3、1,某市,100,名,8,岁男童身高,(cm),的频数分布,离散趋势,(,tendency of dispersion),集中趋势与离散趋势结合能全面反映频数的分布特征,集中趋势,(,central tendency),身高,(cm),频数,分布特征,2、,揭示变量的分布类型,频数,分布,偏态,分布,正偏,负偏,集中部位在中部,两端渐少,左右两侧的基本对称,为,对称(正态,),分布,。,对称,分布,集中部位偏于较小值一侧,(,左侧,),较大值方向渐减少,为,正偏态分布,。,集中部位偏于较大值一侧,(,右侧,),较小值方向渐减少,为,负偏态分布,。,4、,便于进一步计算统计指标和统计分析,3、,便于发现某些离群值或极端值,。,图,3、1,某市,101,名,8,岁男童身高,(cm),的频数分布,身高,(cm),频数,一,、,集中趋势统计指标:反映总体内部的同质。 二,、,离散度统计指标:反映总体内个体间的变异。 三,、,分布形态统计指标:反映高峰的形态。,第二节 描述平均水平的统计指标,平均数:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。,常用的平均数有算术均数,几何均数和中位数。,(一)算术均数,(mean),:简称均数,总体均数用希腊字母,表示,样本均数用拉丁字母 表示。,1、,计算方法,1,) 直截了当法:适用于样本例数,n,较少的资料。,其中,X,1,X,2,X,n,为各变量值,n,为样本例数。,2,) 加权法:适用于变量值较多的资料。,K=1,、,2,、,3、,f,k,为第,k,组段的频数,X,0k,为第,k,组段的组中值,组中值,=(,本组段下限,+,下组段下限,)/2,。,权,即频数多,权数大,作用也大,频数小,权数小,作用也小。,10,10,10,15,15,10,有,3,个,权数为,3,计算均数时起,3/5,的作用,频数多,权数大,作用大,15,有,2,个,权数为,2,计算均数时起,2/5,的作用,频数小,权数小,作用小,例,2-3,某年某医院,8,名女性晚期肺癌患者红细胞计数,(10,12,/L),为,4、20,6、43,2、08,3、45,2、26,4、04,5、42,3、38,。试求其算术均数。,例,2-4,求例,2-2,中某地,120,名,18-35,岁健康男性居民的血清铁含量的均数。,120,名,18-35,岁健康男性居民,血清铁含量均数、标准差计算表(加权法),组段 频数(,f,) 组中值(,X,0,),fX,0,(1) (2) (3) (4)=(2)(3) (5)=(3)(4),6,8,10,12,14,16,18,20,22,24,26,2830,合计,120,(,f,),2228(fX,0,) 43640( ),1,3,6,8,12,20,27,12,10,8,4,1,7,27,66,104,180,340,513,378,276,200,108,29,7,9,11,13,15,17,19,21,23,25,27,29,49,243,726,1352,2700,5780,9747,7938,6348,5000,2916,841,2、,算数均数的应用 它最适用于对称分布资料,尤其是,正态分布资料,。因为这时均数位于分布的中心,最能反映资料的集中趋势。,(,二)几何均数,(,geometric mean,),:,(几何均数也称为倍数均数,用,G,表示),1、,几何均数的计算方法,1,) 直截了当法:适用于样本例数,n,较少的资料。 将,n,个观察值,X,1,X,2,X,3,X,n,的乘积开,n,次方,对数形式:,G=lg,-1,(lgX,1,+lgX,2,+lgX,3,+lgX,n,)/n =lg,-1,(lgX/n),例,2-5 7,名慢性迁延性肝炎患者的,HBsAg,滴度资料为,1,:,16,1,:,32,1,:,32,1,:,64,1,:,64,1,:,128,1,:,512,。求其平均效价。,7,份,HBsAg,的平均滴度为,1,:,64,2,) 加权法:适用于样本例数,n,较多的资料。,X,1,X,2,X,n,为各组段的滴度或滴度倒数。,f,1,f,2,f,n,分别为各组段的频数。,例,2-6 52,例慢性肝炎患者的,HBsAg,滴度数据见表,求其平均滴度。,52,例慢性肝炎患者的,HBsAg,滴度的几何均数为,1:119、74705,二)几何均数应用的注意事项:,1,)几何均数常用于等比资料或对数正态分布资料。,2,)观察值中不能有,0,。,3,)观察值中不能同时有正值和负值。,练习题:,1、,有,8,份血清的抗体效价分别为:,1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640,求平均抗体效价。,2、,有,50,人的血清抗体效价,分别为:,5,人,1:10, 9,人,1:20, 20,人,1:40, 10,人,1:80, 6,人,1:160,求平均抗体效价,。,中位数(,median,M,):,将一组变量值从小到大按顺序排列,位次居中的那个变量值就是中位数。,(三)中位数和百分位数,百分位数(,percentile,Px,):,指把数据从小到大排列后位于第,X%,位置的数值。,有,n,个观察值,X1,X2Xn,把他们由小到大按顺序排列成,X1X2X3Xn,将这,n,个观察值,平均的,分为,100,等份,对应于每一等份的数值就是一个百分位数,对应于前面,X%,个位置的数值称为第,X,百分位数,用,Px,表示。,一个百分位数,Px,将总体或样本的全部观察值分为两部分,理论上,在不包括,Px,的全部数据中有,X%,的观察值比它小,有,(100-X,),%,的观察值比它大。,1、,中位数和百分位数的计算,1,),直截了当法:,适用于样本例数,n,较少的资料。 将观察值按大小顺序排列,当,n,为,奇数,时,中间那个数就是中位数。当,n,为,偶数,时,中间两个数的平均数就是中位数。,例,2-7,某药厂观察,9,只小鼠口服高山红景天醇,提物(,RSAE,)后在乏氧条件下的生存时间(分钟),如下:,49、1,60、8,63、3,63、6,63、6,65、6,65、8,68、6,69、0 n,为奇数,M=63、6,(,cm,),练习:,1、,某病患者,9,名,发病潜伏期分别为顺序,2,、,3,、,3,、,3,、,4,、,5,、,6,、,9,、,16d,求中位数。,2、,某病患者,8,名,发病潜伏期从小到大排分别为,5,、,6,、,8,、,9,、,11,、,11,、,13,、,16d,求平均潜伏期。,2,),频数表法计算中位数和百分位数:,适用于样本例数,n,较多的资料。,累计频数:本组段的频数与往常各组段的频数相加; 累计频率:每组段的累计频数除以总例数。 公式为,L,为百分位数所在组段的下限,i,为该组段的组距,f,x,为该组段的频数,f,L,为百分位数所在组段的,前一组段,的累计频数,n,为总例数。,例,2-8 50,例链球菌咽峡炎患者潜伏期(,h,),计算其中位数。,组段 频数 累计频数 累计频率 (,%,),12,24,36,48,60,72,84,96,108120,合计,50,1 1 2,7 8 16,11 19 38,11 30 60,7 37 74,5 42 84,4 46 92,2 48 96,2 50 100,求,P,25,P,75,。,2、,中位数和百分位数的应用,1,)中位数常用于描述偏态分布资料的集中趋势,反映位次居中的观察值的平均水平。在对称分布的资料中,中位数和均数在理论上是相同的。,2,)百分位数可用于确定医学参考值范围(详后),。,3,)分布在中部的百分位数相当稳定,具有较好的代表性,但靠近两端的百分位数,只有在样本例数足够多时才比较稳定。,应用平均数的注意事项,1、,平均数的计算和应用必须具备同质基础,必须先合理分组。,不同质的事物要分别求平均数,以便分析比较。,2、,依照资料的分布选用适当的平均数,。对称分布资料,尤其是,正态分布资料,宜用均数,也可用中位数,而,偏态分布资料,则中位数的代表性较好,对数正态分布及等比级数资料,宜用几何均数。,4、,众数(,mode,),是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段。,例 有,16,例高血压病人的发病年龄(岁)为:,42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数,?,出现频数最多的数值为,58,故众数为,58,。,58,岁为高血压的高发年龄。,众数从概念上易于理解。但没有充分利用样本观察值的全部信息。,例,、,对甲乙两名高血压患者连续观察,5,天,测得的收缩压,(,mmHg),结果,如下:,能够看出:,两患者收缩压的均数十分接近,但甲患者的血压波动较大,而乙患者相对稳定,。,患者,第,1,天,第,2,天,第,3,天,第,4,天,第,5,天,均数,甲患者,162,145,178,142,186,162、6,乙患者,164,160,163,159,166,162、4,第三节、描述变异程度的统计指标,只用平均数描述资料的弊病,甲组,26 29 30 31 34,均数,30kg,乙组,24 27 30 33 36,均数,30kg,丙组,26 28 30 32 34,均数,30kg,丙,乙,甲,三组儿童体重的离散程度,例,2-11,试观察,3,组数据的离散情况。,A,组,26 28 30 32 34,B,组,24 27 30 33 36,C,组,26 29 30 31 34,为了全面的掌握数据的分布特征,通常,描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。,离散趋势,:,用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。,包括,极差,(,Range,R,),四分位数间距,(,Quartile,Q,),方差,(,Variance,, ),标准差,(,Standard deviation,,,S,),变异系数,(,Coefficient of,variation,CV,),1、,极差,(range ,R),也称为全距,用,R,表示,即一组资料中,最大值与最小值之差。 缺点:,1,)除了最大、最小值外,不能反映组内其他数据的变异度。,2,)样本例数越多,抽到较大或较小变量值的估计性越大,因而极差估计越大。,3,)即使样本含量相同,极差也不够稳定。,1,、适用条件:常用于描述,单峰对称分布,小样本,资料的变异程度,或用于初步,了解资料的变异程度。,2,、意义:关于计量单位相同的变量,极差越,大,观察值的离散程度越大。,3,、优点:用以说明数据分布的离散程度,方法,简单明了;理论上可用于各种分布资,料,4,、缺点,(,1,)除了最大值与最小值外,不能反映组内其它观察值的变异度;,稳定性差,。,(,2,)样本较大时,抽到较大值与较小值的估计性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。,(,3,)当两组样本例数相差悬殊时,不宜选用极差作为比较两组变异程度的指标,2、,四分位数间距,(quartile range ,Q),简记为,Q,可看为特定的百分位数。,P,25,表示全部观察值中有,25%,(,1/4,)的观察值比它小,记为下四分位数,Q,L,P,75,表示全部观察值中有,75%,的观察值比它小,记为上四分位数,Q,U,。,Q,适用于各种类型的连续型变量,特别是偏态分布的资料。,例,2-8,四分位数间距的特点:,适用于描述偏态分布、一端或两端无确切数值、分布不明确资料的离散程度。,四分位数间距越大,数据分布的变异度越大,;,反之,变异度越小。,与中位数一起描述偏态分布资料的分布特征。,作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,未考虑全部观察值的变异度,在统计分析中应用的不够普遍,。,3、,方差(,Variance,),公式及来源:,极差和四分位间距未考虑,全部观察值,的变异度,全面地考虑,每个,变量值的,离散,情况,为了衡量每个变量值的变异;先选择一个数值作为比较标准;谁合适呢?均数最有代表性。,应考虑总体中每个变量值,x,与总体均数,之差;,x,-,称为,离均差,。,分析:,为解决这个问题,给每项离均差平方后再相加,称,离均差平方和,即,(,x,-),2,。,但每个变量值与均数相减所得到得差值有正有负相消,即,(,x,-,x,)=0;,这样就不能反映变异的大小,? ?,还有没有问题没考虑到?,离均差平方和的大小,除与变异度有关外,还与,变量值的个数,(多少)有关,为在变量值个数不等时进行比较,还要除以变量值的个数,所得值即为,总体方差,用,2,表示:,2,=,总体方差:,N,X,-,2,),(,m,样本方差,:,以样本均数代表,,用样本例数,n,代表总体例数,N,,所得方差称,样本方差,,用,S,2,表示:,n,X,X,S,-,=,2,2,),(,公式中存在的问题?,依照以上公式研究的结果表明求得的样本方差总是偏小;为解决此问题,英国统计学家通过实验,用,n,-1,代替可消除误差。,n,-1,称为,自由度,(,degree of freedom,),用希腊字母,nju:,表示,表示随机变量能够自由取值的个,数。,n-,1,X,X,S,-,=,2,2,),(,样本方差,的,公式调整为:,(,n,-1,)称为,自由度,(,degree of freedom,),用希腊字母,nju:,表示,表示随机变量能够自由取值的个数。,分析: 如有一组四个(,n,=4,)数据的样本,受到,= 5,的条件限制,在自由确定,4,、,2,、,5,三个数据后,第四个数据只能是,9,,否则,5,。因而这里的自由度,=,n,-1= 4-1=3,。推而广之,任何统计量的 自由度,=,n,-,限制条件的个数。,方差,:,分总体方差 ,样本方差,S,2,计算:,意义:,克服了,值的不足,考虑了每个变量值的离散情况并消除了,的影响。,优点:全面地考虑每个变量值的,离散情况,缺点:,其单位是原度量单位的平方。,总体方差,样本方差,例:计算三组数据的方差,A,组:,24,27,30,33,36,;,B,组:,26,28,30,32,34,;,C,组:,26,29,30,31,34,。,方差的特点,适用条件:对称分布资料,特别是正态分布或近似正态分布资料。,意义:方差越大,数据间的变异越大,优点:利用了每个数据的信息,是常用的,描述数据分布离散程度指标,不足:度量衡单位发生了改变,不便于实际应用。为此,更常用的是标准差。,4、,标准差(,Standard deviation,SD,或,S,),方差的单位是原度量单位的平方,不便使用。,将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即,标准差,简写为,S,。,公式来源:,总体标准差:,1,(,),2,-,-,=,n,X,X,s,样本标准差:,1、,直截了当法:适用于,n,较小的资料,求例题中,A,组数据的标准差。,2、,加权法:适用于,n,较大的资料,120,名成年男子血清铁含量均数、标准差计算表(加权法),组段 频数(,f,) 组中值(,X,0,),fX,0,fX,0,2,(1) (2) (3) (4)=(2)(3) (5)=(3)(4),6,8,10,12,14,16,18,20,22,24,26,2830,合计,120,(,f,),2228(fX,0,) 43640(fX,0,2,),1,3,6,8,12,20,27,12,10,8,4,1,7,27,66,104,180,340,513,378,276,200,108,29,7,9,11,13,15,17,19,21,23,25,27,29,49,243,726,1352,2700,5780,9747,7938,6348,5000,2916,841,3、,标准差的应用:,1,) 表示变量分布的离散程度,。,2,) 结合均数计算变异系数。,3,) 结合样本含量计算标准误。,4,)结合均数描述正态分布特征。,问题的引入,例: 某校一年级男大学生,身高样本均数为,167、4cm,标准差为,5、8cm;,体重均数为,57、3kg,标准差为,6、4kg,。,试比较其变异程度的大小?,5、,变异系数,(coefficient of variation ,CV),公式为:常用于:,1,),比较度量衡单位不同的多组资料的变异度,。,例,2-15,某年通过,10,省调查得知,农村刚满周岁的女童体重均数为,8、42kg,标准差为,0、98kg,;身高均数为,72、4cm,标准差为,3、0cm,试比较二者变异度。,体重,CV=0、98/8、42100%=11、64%,身高,CV=3、0/72、4100%=4、14%,2)、,比较均数相差悬殊的几组资料的变异度。,运用变异系数的注意事项:,1,、,有关的事物才能比较 。,2、,均数小于标准差时要考虑事实上际运用价值 。,某地不同年龄段男子身高的变异度,年龄组 人数 均数 标准差 变异系数(,%,),3-3、5,岁,100 96、1 3、1 3、23,30-35,岁,100 170、2 4、0 2、35,变异系数的特点:,与前面的四种离散程度指标相比,变异系数有以下两个不同之处:,1,、它描述的不是数据分布的绝对离散程度,而是相对离散程度;,不属于描述性统计指标,是一个用于比较的统计指标。,2,、它不像极差、四分位数间距、方差、标准差那样具有取值单位。它没有取值单位,偏度系数,(,coefficient of skewness,SKEW,),理论上,总体偏度系数为,0,时,分布是,对称分布,;取正值时,分布为,正偏峰,;取负值时,分布为,负偏峰,。,第四节、描述分布形态的特征数,峰度系数,(coefficient of kurtosis,KURT),理论上,正态分布,的总体峰度系数为,0,;取负值时,其分布较正态分布的,峰平阔,;取正值时,其分布较正态分布的,峰尖峭,。,SKEW=-0、19393,KURT=-0、01783,小结,反映集中趋势的指标,:,算术均数:对称分布,几何均数:测定值按等比级数变化,中位数:不规则分布,反映离散度的指标: 标准差(方差):对称分布,变异系数: 对称分布,四分位数间距: 不规则分布,极差,(,全距,),: 不规则分布,反映峰型的指标:,偏度系数:测定高峰的位置,分布的对称性,、,峰度系数 :测定峰度的高低。,集中趋势的强度,、,平均数与标准差,(方差)联合应用,中位数与四分位数间距(极差),联合应用,统计表(,statistical table,)和统计图(,statistical chart,)是统计描述的重要工具。医学科学研究资料经过整理和计算各种必要的统计指标后,所得结果除了用适当文字说明以外,常用统计表和统计图表达分析结果。统计图表能够关于数据进行概括、对比或做直观的表达。统计表和统计图不仅便于阅读,而且便于分析比较,。,第五节 统计图表和统计图,1,、概念:指在科技报告中,常将统计分析的事物,及其指标用表格列出,以反映事物的内在规律性和,关联性。,2,、作用:,1,)幸免繁杂的文字叙述,2,)便于计算,3,)便于事物间的比较分析,一、,统计表,3、,统计表的结构,从外形上看,统计表由标题、标目(包括横标目、纵标目)、线条、数字及必要的文字说明和备注,5,部分构成。其基本格式如表,1,:,1,)标题:,概括说明表的中心内容,要求用,词简练、确切。必要时注明资料的时间、地点,写在表的上端中央。,注意:,防止标题过于简略或过于繁杂,有的 甚至不写标题。,2,)标目:,要求文字简明,有单位的标目要 注明单位。横标目位于表的左侧,说明各横行数字的含义。纵标目位于表的右侧,向下说明各纵行数字的含义。,注意:,防止标目过多,层次不清。,3,、线条:,只需要顶线、底线及纵标目下面与合,计上面的横线。,注意:,线条不宜过多,表的左上角不宜有斜线,表内不能有纵线。,4,、数字:,表内数字一律用阿拉伯数字表示,同一,个指标的数字精确度应当一致,表内不宜有空格,无,数字用“,”,表示,数字为,0,则填写,0,。,5,、备注:,表格一般不列备注或其他文字说明,如,有特别情况需要说明时可用“*”标出,将文字说明写在,表格的下面。,从内容上看,每张表都有主语和谓语。主语指被研究的事物,如表,2-5,中的药物分组,一般置于表的左侧;谓语指说明主语的各项统计指标,如表,2-5,中的,“,治愈,”,和,“,未愈,”,、,“,合计,”,一般置于表的右侧,主语和谓语结合起来构成一个完整的句子。如表,2-5,可读成,用替硝唑治疗组治愈,25,例,未愈,4,例,合计,29,例。,4、,统计表的种类,依照说明事物的主要标志(主语)的复杂程度,统计表能够分成简单表和复合表。,l、,简单表:只有一种主要标志,即主语按一个标志分组。,2、,复合表:有两种或两种以上的标志,即主语按多个标志分组。在安排上能够将部分主语放在表的上方与谓语配合起来。,5、,编制统计表的基本要求,1,)重点突出,简单明了。,即一张表只包括一个中心内容,表达一个主题。,2,)主谓分明,层次清楚,。即主谓语的位置准确,标目的安排及分组要层次清楚,符合专业逻辑。,简单表只有一个分组标志,一般作为横标目,而纵标目就是统计指标名称。复合表有两个以上分组标志,一般把其中主要的和分项较多的一个作为横标目,而其余的则安排在纵标目上。,3,)数据准确、可靠。,6、,统计表的审查与修改,统计表制作是否良好,能够从以下几方面检查:,1),、标题是否正确,2),、主谓语的排列是否合适,标目是否组合重复。,3),、表线是否过多过密。,1、,概念:利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料和指标,、2、,作用:,它将研究对象的特征、内部构成、相互关系、对比情况、频数分布等情况形象而生动地表达出来,更直观地反映出事物间的数量关系,更易于比较和理解。但对数量的表达较粗略,从图中不能获得确切数字。,二、统计图,医学中常用的统计图有:,直条图、百分条图、圆图、,普通线图、半对数线图、,直方图、箱式图、散点图、,统计地图,3、,制图的基本要求,统计图通常由标题、标目、刻度、图域和图例,5,部分组成。,1,)标题:简明扼要地说明资料的内容、时间和地点,、,一般写在图的下方中央。,2,)图域:即制图空间。除圆图外,一般用直角坐标系第一象限的位置表示图域,或者用长方形的框架表示。不同事物用不同线条(实线、虚线、点线)或颜色表示。,图域的高,:,宽比例习惯上为,7:10,。,感谢您的聆听!,
展开阅读全文