资源描述
第二章第二章第二章第二章 定量资料定量资料定量资料定量资料的统计描述的统计描述的统计描述的统计描述2024/5/161第二章定量资料的统计描述2023/8/311 学学习要求要求 了解:了解:应用用SASSAS程序程序编制制频率表的方法和率表的方法和meansmeans、univariateunivariate过程程对定量定量资料的描述。料的描述。熟悉:熟悉:定量定量资料料频率表的率表的编制方法和用途。制方法和用途。掌握:掌握:算算术均数、几何均数、中位数的均数、几何均数、中位数的计算方法和算方法和使用条件;四分位使用条件;四分位间距、方差、距、方差、标准差、准差、变异系数的异系数的计算方法和使用条件。算方法和使用条件。2024/5/1622023/8/322 统计描述是用描述是用统计图表、表、统计指指标来描述来描述资料的分布料的分布规律及其数量特征的。律及其数量特征的。第一节第一节 频率分布表与频率分布图频率分布表与频率分布图 医学研究医学研究资料料变量量值的个数的个数较多多时,对个个变量量值出出现的的频数或数或频率列表即率列表即为频数分布表或数分布表或频率分布表率分布表(frequency distribution table),),简称称频数表数表或或频率表率表。2024/5/163统计描述是用统计图表、统计指标来描述资料的3 一、离散型定量变量的频率分布一、离散型定量变量的频率分布 例例2-1 1998年某山区年某山区96名孕名孕妇产前前检查次数次数资料,料,编制制频率表。率表。表表2-1 1998年某地年某地96名孕名孕妇产前前检查次数次数频率分布率分布2024/5/164一、离散型定量变量的频率分布2023/8/344 图2-1 1998年某地年某地96名孕妇产前检查次数频率分布名孕妇产前检查次数频率分布 离散型定量离散型定量变量的量的频率分布率分布图可用直条可用直条图表达,以等表达,以等宽直条的高度表示各直条的高度表示各组频率的多少率的多少2024/5/165图2-11998年某地96名孕妇产前5二、连续型定量变量的频率分布二、连续型定量变量的频率分布 例例2-2 抽抽样调查某地某地120名名1835岁健康男性居民血清健康男性居民血清铁含量含量(mmo/L),数数据如下。据如下。试编制血清制血清铁含量的含量的频率分布表。率分布表。2024/5/166二、连续型定量变量的频率分布例2-2抽样调查6频率表的率表的编制步制步骤如下:如下:1.计算算极极差差(range,R),亦亦称称全全距距,即即最最大大值与与最最小小值之之差差。本本例例最最大大值为29.64,最小,最小值为7.42,故,故R=29.64-7.42=22.22(mmo/L)。2.确确定定组段段数数与与组距距(class interval)组段段数数一一般般取取10组左左右右。组距距用用i表表示示,组距距=极极差差/组段段数数,本本例例拟分分10组,i=22.22/10=2.22,一一般般取取靠靠近的整数作近的整数作为组距,本例取距,本例取i2。3.确确定定各各组段段的的上上、下下限限 每每个个组段段的的起起点点称称为组段段的的下下限限,终点点称称为组段段的的上上限限。第第一一组段段要要包包括括最最小小值,其其下下限限取取小小于于或或等等于于最最小小值的的整整数数,本本例例取取6最最为第第一一组段段的的下下限限(也也可可取取7),最最后后一一个个组段段要要包包括括最最大大值。注注意意各各组段段不不能能重重合合,每每组段段只只写写出出下下限限,如如6,8,最最后后一个一个组段可包括其上限段可包括其上限值,如本例,如本例2830。4.列表列表 清点各清点各组的的频数,数,计算算频率、累率、累积频率数和累率数和累计频率。率。2024/5/167频率表的编制步骤如下:2023/8/377表2-2120名正常成年男子血清铁含量(mmo/L)频率分布2024/5/168表2-2120名正常成年男子血清铁含量(mmo/L)8图2-2 120名健康成年男子血清名健康成年男子血清铁含量(含量(mol/L)分布分布2024/5/169图2-2120名健康成年男子血清铁含量(mol/L)分92-2 1202-2 120名健康成年男子血清名健康成年男子血清铁含量含量(mmo/L)(mmo/L)分布分布2024/5/16102-2120名健康成年男子血清铁含量(mmo/L)分10三、频率分布表(图)的用途三、频率分布表(图)的用途 1.1.揭示揭示资料的分布料的分布类型型 2024/5/1611三、频率分布表(图)的用途2023/8/31111 正偏态(右偏态)负偏态(左偏态)2.2.观察察资料的集中料的集中趋势和离散和离散趋势 3.3.便于便于发现某些特大或特小的可疑某些特大或特小的可疑值 4.4.便于便于进一步一步计算算统计指指标和作和作统计处理理2024/5/1612正偏态(右偏态)负偏态(左偏态12第二节第二节 描述集中趋势的统计指标描述集中趋势的统计指标 医学定量医学定量资料中,描述集中料中,描述集中趋势的的统计指指标主要有主要有算算术均数、几何均数和中位数。均数、几何均数和中位数。一、算一、算术均数均数(arithmetic mean)(arithmetic mean)简称均数。均数适用于称均数。均数适用于对称分布或近似称分布或近似对称分布的称分布的资料。料。习惯上以希腊字母上以希腊字母 表示表示总体均数体均数(population(population mean)mean),以表示,以表示样本均数本均数 (sample mean)(sample mean)。常用。常用计算算方法有直接法和方法有直接法和频率表法(亦称加率表法(亦称加权法)。法)。2024/5/1613第二节描述集中趋势的统计指标医学定量资料131.1.直接法直接法 例例2-32-3 测得得8至至正正常常大大白白鼠鼠血血清清总酸酸性性磷磷酸酸酶(TACP)含含量量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算求其算术均数。均数。本例本例(U/L)2024/5/16141.直接法例2-3测得8至正常大白鼠血清总酸性磷酸14 2.频率率表表法法 当当变量量值的的个个数数较多多时,在在编制制频率率表表的基的基础上,上,应用加用加权法法计算均数的近似算均数的近似值。公式中,公式中,f 为各各组段的段的频数,数,X0为各各组段的段的组中中值,X0=(组段上限段上限+组段下限)段下限)/2。例例2-4 (mmo/L)如用直接法如用直接法计算算,=18.61(mmo/L)2024/5/16152.频率表法当变量值的个数较多时,在编制频率表15 表表2-3 2-3 频数表法计算均数频数表法计算均数2024/5/1616表2-3频数表法计算均16二、几何均数(geometric mean,)几几何何均均数数使使用用于于原原始始变量量不不呈呈对称称分分布布,但但对变量量经对数数转换后后呈呈对称称分分布布的的资料料,又又称称对数数正正态分分布布资料料。常常见于于正正偏偏态分分布布资料料,如如抗抗体体滴滴度度,某某些些传染染病病的的潜潜伏伏期期,细菌菌计数等。数等。计算公式亦可用直接法和算公式亦可用直接法和频数表法。数表法。1.1.直接法直接法 对数的形式数的形式为 2024/5/1617二、几何均数(geometricmean,)1.直17 例例2-5 7名慢性迁延型肝炎患者的名慢性迁延型肝炎患者的HBsAg滴度滴度资料料为:1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。算其几何均数。本例先求平均滴度的倒数本例先求平均滴度的倒数7 7名慢性迁延型肝炎患者的名慢性迁延型肝炎患者的HBsAgHBsAg滴度几何均数滴度几何均数为1:641:64。2024/5/1618例2-57名慢性迁延型肝炎患者的HBsAg18 2.2.频率率表表法法:当当资料料中中相相同同变量量值的的个个数数f(即即频数数)较多多时,可通,可通过频率表法率表法计算几何均数,公式算几何均数,公式为 表表2-4 52例慢性肝炎患者的例慢性肝炎患者的 HBsAg滴度资料滴度资料2024/5/16192.频率表法:当资料中相同变量值的个数f(即频19本例本例f lgX=108.06977,f=52,代入公式得代入公式得 52例慢性肝炎患者的例慢性肝炎患者的 HBsAg滴度的几何均数滴度的几何均数为1:119.75 计算算几几何何均均数数应注注意意:变量量值中中不不能能有有0 0;不不能能同同时有有正正值和和负值;若若全全是是负值,计算算时可可先先把把负号号去去掉掉,得得出出结果后再加上果后再加上负号。号。2024/5/1620本例flgX=108.06977,f=52,代入202024/5/16212023/8/321212024/5/16222023/8/322222024/5/16232023/8/32323三、中位数及百分位数三、中位数及百分位数 1.1.中位数(中位数(median,median,M M)将将一一组变量量值从从小小到到大大按按顺序序排排列列,位位次次居居中中的的变量量值称称为中中位位数数。在在全全部部变量量值中中,大大于于和和小小于于中中位位数数的的变量量值的个数相等。的个数相等。用用中中位位数数表表示示平平均均水水平平主主要要适适用用于于:变量量值中中出出现个个别特特小小或或特特大大的的数数值;资料料的的分分布布呈呈明明显偏偏态,即即大大部部分分的的变量量值偏偏向向一一侧;变量量值分分布布一一端端或或两两端端无无确确定定数数值,只有小于或大于某个数只有小于或大于某个数值;资料的分布不清。料的分布不清。2024/5/1624三、中位数及百分位数2023/8/32424 (1 1)直直接接法法 当当例例数数较少少时,先先将将变量量值由由小小到到大大顺序排列,再按以下公式序排列,再按以下公式计算。算。n为奇数奇数时 n为偶数偶数时 式中式中X的下的下标为变量量值的位置。的位置。2024/5/1625(1)直接法当例数较少时,先将变量值由小到大顺序排25 例例2-7 某某药厂厂观察察9只只小小鼠鼠口口服服高高山山红景景天天醇醇提提物物后后在在乏乏氧氧条条件件下下的的生生存存时间(min)如如下下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.9,69.0。试求其中位数。求其中位数。本例本例n=9,为奇数奇数如果如果n=10例,生存例,生存时间为69.6,则中位数中位数为2024/5/1626例2-7某药厂观察9只小鼠口服高山红景天醇提物26 (2 2)频率率表表法法 当当例例数数较多多时,先先将将变量量值从从小小到到大大编制制频率率表表,并并分分别计算算累累计频数数和和累累计频率率(见表表2-52-5)。先先从累从累计频率找出率找出M M所在的所在的组段,然后按下式段,然后按下式计算。算。式式中中L为中中位位数数所所在在组段段的的下下限限,i为该组段段的的组距距,fm为该组段的段的频数,数,fL为小于小于L的各的各组段累段累计频数。数。例例2-8 50例例链球球菌菌咽咽颊炎炎患患者者的的潜潜伏伏期期(小小时)如如表表2-5,试计算潜伏期的中位数。算潜伏期的中位数。2024/5/1627(2)频率表法当例数较多时,先将变量值从小到27表表2-52-5 50例例链球菌咽球菌咽颊炎患者的潜伏期(小炎患者的潜伏期(小时)的)的频率分布表率分布表 本例从累本例从累计频率看,率看,M位于位于48组段,即段,即L=48,i=12,fm=11,fL=19,(小(小时)2024/5/1628表2-550例链球菌咽颊炎患者的潜伏期(小时)的频率分28fLMfm2024/5/1629fLMfm2023/8/32929 1.1.百分位数百分位数 百百分分位位数数(percentile,P)是是一一种种位位置置指指标,以以Px表表示示。百百分分位位数数是是将将频数数等等分分为一一百百的的分分位位数数。一一组观察察值从从小小到到大大按按顺序序排排列列,理理论上上有有x%的的变量量值比比Px小小,有有(100 x)%的的变量量值比比Px大大。故故P50分分位位数数也也就就是是中中位位数数,即即P50=M。百分位数的。百分位数的计算公式算公式为 式中式中L为Px所在所在组段的下限,段的下限,i为该组段的段的组距,距,fx为该组段段的的频数,数,fL为小于小于L的各的各组段累段累计频数。数。2024/5/16301.百分位数式中L为Px所在组段的下限,30 如如 试求表求表2-5资料中百分位数料中百分位数P25、P75。由由表表2-5累累计频数数栏可可见P25在在“36”组段段,L=36,i=12,fx=11,fL=8,代入公式得代入公式得(小(小时)同同 理理 可可 知知 P75在在“72”组 段段,L=72,i=12,fx=5,fL=74,代入公式得代入公式得(小(小时)百分位数的使用条件同中位数一百分位数的使用条件同中位数一样。主要用途。主要用途为:描描述一述一组资料在某百分位置上的水平;料在某百分位置上的水平;用于确定正常用于确定正常值范范围;计算四分位数算四分位数间距。距。2024/5/1631如试求表2-5资料中百分位数P25、P75。(31四、众数(四、众数(mode)一一组数据中出数据中出现次数最多的数次数最多的数值,叫众数。众数在,叫众数。众数在频率率分布表中是分布表中是频数最多的那一数最多的那一组的的组中中值,有,有时众数在一众数在一组数中有好几个或者没有众数。数中有好几个或者没有众数。例如:例如:1,2,3,3,4的众数是的众数是3;1,2,2,3,3,4的众数是的众数是2和和3;1,2,3,4,5没有众数;表没有众数;表2-5众数众数为42和和54。2024/5/1632四、众数(mode)2023/8/33232第三节第三节 描述离散趋势的统计指标描述离散趋势的统计指标 例例2-10 是是观察察三三组数数据据的的离离散散状状况况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。三。三组均数都是均数都是30。A组 .B组 .C组 .常用的离散指常用的离散指标有:有:极差、四分位数极差、四分位数间距、方差、距、方差、标准差和准差和变异系数,最常异系数,最常用的指用的指标为标准差。准差。2024/5/1633第三节描述离散趋势的统计指标2023/8/33333一、极差和四分位数一、极差和四分位数间距距 1.极差极差 极差极差(range,R)亦称全距,即一亦称全距,即一组变量量值中最大中最大值与最与最小小值之差。之差。R值大,离散度就大;大,离散度就大;R值小,离散度就小。小,离散度就小。A组:R=34-26=8 B组:R=36-24=12 C组:R=34-26=8 极差的特点是极差的特点是计算算简单,但只考,但只考虑最大最大值和最小和最小值,容易受个容易受个别极端极端值的影响,且不能反映的影响,且不能反映组内其他内其他变量量值的的离散情况。另外,当离散情况。另外,当调查例数增多例数增多时,遇到,遇到较大或大或较小小变量量值的机会就大,极差就可能增大。的机会就大,极差就可能增大。2024/5/1634一、极差和四分位数间距2023/8/33434 2.2.四分位数四分位数间距距(quartile interval,Q)极极差差的的不不稳定定主主要要受受两两端端值的的影影响响,如如将将两两端端数数据据各各去去掉掉一一部部分分,这样所所得得的的数数据据就就比比较稳定定了了。例例如如两两端端各各去去掉掉2525,取取中中间5050的的数数据据的的极极差差,这样可可先先计算算P P2525和和P P7575,求求出出P P7575与与P P2525之差,即之差,即为四分位数四分位数间距。距。Q=P75P25 P75又称又称为上四分位数上四分位数(upper quartile);P25又称又称为下四分下四分位数位数(lower quartile)。2024/5/16352.四分位数间距(quartileinterva35 例例2-12 试计算表算表2-5中中 50例例链球菌咽球菌咽颊炎患者的潜伏炎患者的潜伏期(小期(小时)的四分位)的四分位间距。距。已知已知P75=73.20小小时,P25=40.91小小时,代入公式得,代入公式得 Q=73.2040.91=32.29(小(小时)由由以以上上的的结果果可可以以看看出出:链球球菌菌咽咽颊炎炎患患者者的的潜潜伏伏期期在在40.9173.20小小时之之间,其其四四分分位位数数间距距为32.29小小时。四分位数四分位数间距可用于各种分布距可用于各种分布资料,特料,特别是偏是偏态分分布布资料,料,经常把常把中位数和四分位中位数和四分位间结合起来描述合起来描述资料的料的集中集中趋势和离散和离散趋势。2024/5/1636例2-12试计算表2-5中50例链球菌咽颊36二、方差和二、方差和标准差准差 方方差差(variance)和和标准准差差(standard deviation)是是描描述述对称称分分布布,特特别是是正正态分分布布或或近近似似正正态分分布布资料料离离散散趋势(变异异程度)的常用指程度)的常用指标。1.方差方差 总体方差用体方差用 表示,表示,样本方差用本方差用S2表示。表示。2024/5/1637二、方差和标准差2023/8/33737 式式中中:n-1是是自自由由度度(degree of freedom),用用希希腊腊小小写写字字母母表表示示。它它描描述述了了当当 不不变的的情情况况下下,n个个变量量值(X)中中能能自自由由变动的的变量量值的的个个数数。用用n-1作作分分母母,S2可可作作为 的的无无偏偏估估计。对于于频率表率表资料料如例如例2-10三三组数据其方差数据其方差为2024/5/1638式中:n-1是自由度(degreeoff38 2.2.标准差准差 标准准差差为方方差差的的开开方方根根,它它与与原原始始变量量值单位位相相同同。总体体标准差用准差用 表示表示 ,样本本标准差用准差用S表示。表示。总体体标准差准差计算公式算公式为 样本本标准差准差计算公式算公式为 2024/5/16392.标准差样本标准差计算公式为2023/8/339 对于于频率表率表资料料例例 2-14 计算例算例2-2数据的数据的标准差。准差。已算得已算得fX0=2228,n=f=120,=43640(mol/L)对于正于正态分布分布资料,研究料,研究报告中告中经常用常用 的形式来描述的形式来描述资料的集中料的集中趋势和离散和离散趋势。2024/5/1640对于频率表资料例2-14计算例2-2数据的标准40三、三、变异系数异系数(coefficient of variation,CV)当当两两组或或多多组变量量值的的单位位不不同同或或均均数数相相差差较大大时,不不能能或或不不宜宜用用两两个个或或多多个个标准准差差的的大大小小来来比比较其其离离散散程程度度的的大大小小。此此时可可用用变异异系系数数反反映映变量量值的的相相对离离散程度。散程度。样本本变异系数异系数CV的的计算公式算公式 由由上上式式可可以以看看出出:变异异系系数数为无无量量纲单位位,可可以以比比较不不同同单位位指指标间的的变异异度度;变异异系系数数消消除除了了均均数数的的大大小小对标准准差差的的影影响响,所所以以可可以以比比较两两均均数数相相差差较大大时指指标间的的变异度。异度。2024/5/1641三、变异系数(coefficientofvariatio41 例例2.14 1985年年通通过十十省省调查得得知知,农村村刚满周周岁的的女女童童体体重重均均数数为8.42kg,标准准差差为0.98kg,身身高高均均数数为72.4cm,标准准差差为3.0cm。试计算算周周岁女女童童身身高高与与均均数数变异系数。异系数。身高身高 体重体重 周周岁女童体重的女童体重的变异程度比身高的异程度比身高的变异程度大。异程度大。2024/5/1642例2.141985年通过十省调查得知,农42 第四节第四节 描述分布形态的统计指标描述分布形态的统计指标 1.1.偏度系数(偏度系数(coefficient of skewness,coefficient of skewness,SKEWSKEW)偏度系数(偏度系数(G G1 1)按照以下公式)按照以下公式计算算G1=0为正正态分布;分布;G10为正偏正偏态分布;分布;G10负偏偏态G1M0负偏态G1M44 2.峰度系数(峰度系数(coefficient of kurtosis,KURT)峰度系数(峰度系数(G2)按照以下公式)按照以下公式计算算G2=0,为标准正准正态峰;峰;G20,为尖峭峰;尖峭峰;G2|t|=|M|=|S|.0001 Tests for Normality Test -Statistic-p Value-Shapiro-Wilk(W检验)检验)W 0.992187 Pr D 0.1500 Cramer-von Mises W-Sq 0.060468 Pr W-Sq 0.2500 Anderson-Darling A-Sq 0.343631 Pr A-Sq 0.25002024/5/166060Quantiles(Definition 5)Quantile Estimate 100%Max 29.640 99%27.900 95%25.180 90%24.135 75%Q3 21.570 50%Median 18.985 25%Q1 16.020 10%12.660 5%10.975 1%8.400 0%Min 7.4202024/5/1661Quantiles(Definition5)2023/861 Extreme Observations -Lowest-Highest-Value Obs Value Obs 7.42 1 26.02 54 8.40 14 26.13 63 8.65 2 27.81 101 9.97 7 27.90 116 10.25 57 29.64 162024/5/1662622024/5/16632023/8/363632024/5/16642023/8/36464四、四、频率表的率表的编制制 例例6 对例例2-2某地某地120名健康男性居民血清名健康男性居民血清铁含量含量资料用料用SAS过程程编制制频率表率表DATA EX2_6;INPUT X;L=6;/*定定义第一第一组的下限的下限值*/I=2;/*定定义组距距*/Y=X-MOD(X-L,I);/*y值取取6,8,10,12,.,等整数等整数*/CARDS;7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.0712.65 18.48 19.83 23.1219.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52;PROC FREQ;/*用用freq语句句输出出频数表数表*/TABLES Y;/*一一维的分的分组变量量*/PROC UNIVARIATE ;VAR Y;HISTOGRAM Y/VSCAL=COUNT MIDPOINTS=7 TO 29 BY 2 CFILL=RED;RUN;2024/5/1665四、频率表的编制2023/8/365652024/5/16662023/8/366662024/5/16672023/8/36767思考题思考题1.1.数数值变量量资料料频数表的数表的组段数目是否越多越好?段数目是否越多越好?2.2.均数、几何均数和中位数的适用范均数、几何均数和中位数的适用范围有何异同?有何异同?3.3.中位数与百分位数在意中位数与百分位数在意义、计算和算和应用上有何区用上有何区别与与联系?系?4.4.标准差和准差和变异系数在异系数在计算公式上有何算公式上有何联系?在适用范系?在适用范围上有何不同?上有何不同?2024/5/1668思考题2023/8/368682024/5/1669ThankYou!2023/8/36969
展开阅读全文