医学统计学定量资料的统计描述课件

上传人:文**** 文档编号:241620541 上传时间:2024-07-10 格式:PPT 页数:104 大小:3.33MB
返回 下载 相关 举报
医学统计学定量资料的统计描述课件_第1页
第1页 / 共104页
医学统计学定量资料的统计描述课件_第2页
第2页 / 共104页
医学统计学定量资料的统计描述课件_第3页
第3页 / 共104页
点击查看更多>>
资源描述
定量资料的统计描述1定量资料的统计描述1一二请在这里输入您的主要叙述内容整体概述三请在这里输入您的主要叙述内容请在这里输入您的主要叙述内容2一二请在这里输入您的主要叙述内容整体概述三请在这里输入您的主引 子:变 量统计学 医学统计学 研究方法定性资料定量资料统计描述统计推断随机性现象概率论数理统计3引 子:变 量统计学 医学统计学 研定性资料定量资料统计描述例2-2抽样调查某地120名1835岁健康男性居民血清铁含量(mol/L),数据如下:7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.0720.38 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 23.7718.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.6114.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.4814.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.5424.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.3617.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.5314.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.3121.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.2612.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.524例2-2 抽样调查某地120名1835岁健康男性居民血清目的:提取该组男性居民血清铁的分布信息。问题1.该组男性血清铁是怎样分布的?问题2.血清铁主要集中在哪个范围?频数表频数分布图问题4.变异情况?最高?最低?问题3.该组男性血清铁的平均水平?离散趋势集中趋势5目的:提取该组男性居民血清铁的分布信息。问题1.该组男性血统计描述:从数据资料中获取信息最基本的方法n 把握资料基本的特征n 为统计分析打下基础频率表与频率分布图描述性统计指标统计表与统计图包 括集中趋势的描述离散趋势的描述6统计描述:从数据资料中获取信息最基本的方法 把握资料基本的特第一节 频率分布表与频率分布图7第一节7例2-2抽样调查某地120名1835岁健康男性居民血清铁含量(mol/L),数据如下:7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.0720.38 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 23.7718.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.6114.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.4814.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.5424.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.3617.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.5314.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.3121.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.2612.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.5212例2-2 抽样调查某地120名1835岁健康男性居民血清求全距列表划记步骤:写组段定组距13求全距列表划记步骤:写组段定组距137.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.0720.38 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 23.7718.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.6114.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.4814.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.5424.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.3617.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.5314.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.3121.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.2612.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.52 求全距(RangeRange,简记R R):是一组资料中最大值(X Xmaxmax)与最小值(X Xminmin)之差,亦称极差。R R=Xmax-Xmin=29.647.42=22.227.42=22.22(mol/L)14 7.42 8.6523.0221.6121.3121.2.定组距:将全距分为若干段,称为组段。每个组段有其上限和下限,上限和下限之差 为组距,用小写i 表示。原则:(1)“组段”数一般为10个左右,;(2)一般用等距分组;(3)“组距”一般为R/10取整。本例题:本例题:组距(组距(i i)=全距全距/预分组段预分组段=22.22=22.22/10=2.222/10=2.222152.定组距:将全距分为若干段,称为组段。每个组段有其上限和3.写组段:即确定各组段的上、下限。原则:(1)第一组段要包括Xmin,最末组段包括Xmax;(2)每组段均用下限值加“”表示,最终组段同时注明上下限。注:各组段连续但不 能 重 叠,每一组段均为半开半闭区间。0163.写组段:即确定各组段的上、下限。原则:(1)第一组段要包4.列表划记:用划记的方法整理原始资料,清点各组段内的数据频数。组段划记频率(1)(2)618310正612正814正 正1216正 正 正 正2018正 正 正 正 正2720正 正 正 1822正 正1224正826428301合计120表2-2120名正常成年男子血清铁含量(mol/L)频数174.列表划记:用划记的方法整理原始资料,清点各组段内的数据另:用计算各组段的频率、累计频数和累计频率。18另:用计算各组段的频率、累计频数和累计频率。18频率直方图(frequency distribution figure):图2-2120例健康成年男子血清铁含量(mol/L)的频率分布图7 9 11 13 15 17 19 21 23 25 27 2919频率直方图(frequency distribution f(三)频率分布表/图的用途:1.1.揭示资料的分布类型7 9 11 13 15 17 19 21 23 25 27 29图2-2120例健康成年男子血清铁含量(mol/L)的频率密度分布图对称分布21(三)频率分布表/图的用途:1.揭示资料的分布类型7 频数分布偏峰分布正偏负偏集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。对称分布集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏峰分布。集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏峰分布。22频数偏峰正偏 负偏集中部位在中部,两端渐少,左右两侧的基2.2.描述资料的分布特征离散趋势(tendencyofdispersion)集中趋势与离散趋势结合能全面反映频数的分布特征集中趋势(centraltendency)7 9 11 13 15 17 19 21 23 25 27 29分布特征232.描述资料的分布特征离散趋势 集中趋势与离散趋势结合能全面4.样本含量足够大时,以频率作为概率的估计值。3.便于发现某些特大或特小的可疑值。5.作为陈述资料的形式。图3.1某市101名8岁男童身高(cm)的频数分布身高(cm)频数244.样本含量足够大时,以频率作为概率的估计值。3.便于发现第二节 描述集中趋势的统计指标25第二节25算术均数几何均数中位数集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。注意:1.1.同质的事物或现象才能求平均数平均数单峰对称分布(正态分布)对数正态分布偏态分布 .应根据资料分布状态选用适当的均数。26算术均数集中趋势:用于描述一组计量资料的集中位置,说明这种变(一)算术平均数(arithmeticmean)27(一)算术平均数(arithmetic mean)简称10X)(171.7cm=7169.4178.168.7+=28举例:某地10名18岁健康男大学生身高为(cm):29(1)直接法:方法:将观察值X1、X2、X3、Xn直接例2-2抽样调查某地120名1835岁健康男性居民血清铁含量(mol/L),求平均数:7.42 8.65 23.02 21.61 21.31 21.46 9.97 22.73 14.94 20.18 21.62 23.0720.38 8.40 17.32 29.64 19.69 21.69 23.90 17.45 19.08 20.52 24.14 23.7718.36 23.04 24.22 24.13 21.53 11.09 18.89 18.26 23.29 17.67 15.38 18.6114.27 17.40 22.55 17.55 16.10 17.98 20.13 21.00 14.56 19.89 19.82 17.4814.89 18.37 19.50 17.08 18.12 26.02 11.34 13.81 10.25 15.94 15.83 18.5424.52 19.26 26.13 16.99 18.89 18.46 20.87 17.51 13.12 11.75 17.40 21.3617.14 13.77 12.50 20.40 20.30 19.38 23.11 12.67 23.02 24.36 25.61 19.5314.77 14.37 24.75 12.73 17.25 19.09 16.79 17.19 19.32 19.59 19.12 15.3121.75 19.47 15.51 10.86 27.81 21.65 16.32 20.75 22.11 13.17 17.55 19.2612.65 18.48 19.83 23.12 19.22 19.22 16.72 27.90 11.74 24.66 14.18 16.5230例2-2 抽样调查某地120名1835岁健康男性居民血清计算各组段的组中值xi、fxi和fx(mol/L)31(2)频率表法(加权法):计算各组段的组中值xi、fxi和32频率表法:方法:计算各组段的组中值 xi、f xi,后除以算术平均数的适用范围:它适用描述一组性质相同的、单峰、且对称分布的(特别是正态分布的),且观察值之间差异不大的定量资料,此时均数最能反映分布的集中趋势,位于分布的中心。33算术平均数的适用范围:33几何均数38举例:设有5份血清样品,滴度分别为:(二)几何均数(geometricmean,G)39(二)几何均数(geometric mean,G)概40(1)直接法:方法:将n个观察值(X1,X2,X3,Xn41举例:设有5份血清样品,滴度分别为:42(2)频率表法:公式:适用范围:大样本含量的分组资料或频数表例2-652例慢性肝炎患者的HBsAg滴度数据如下表示,试计算滴度的平均数。43答:即52例慢性肝炎患者的HBsAg滴度的几何均数计算几何均数(G)注意事项:(1)观察值不能为0;(2)观察值不能同时有正有负;(3)同一组资料求得的几何均数小于算术均数。44计算几何均数(G)注意事项:44123456789“中位数”的概念48123456789“中位数”的概念48P50=M 050100小大P0P50P100中位数49P50=M 0 (三)中位数(Median,M)50(三)中位数(Median,M)概念:将原始观察值从小到M=Xn+12n2+1M=(X +X )n212举例:有7个人的血压(收缩压mmHg)测定值为:120,123,125,127,128,130,132求中位数?排序后取中间,即 M=X =127(mmHg)51(1)直接法:由原始数据计算中位数M=X当n为奇数时:当n为1.某病患者9名,发病潜伏期分别为顺序2、3、3、3、4、5、6、9、16d,求中位数。2.某病患者8名,发病潜伏期从小到大排分别为5、6、8、9、11、11、13、16d,求平均潜伏期。52练习:1.某病患者9名,发病潜伏期分别为顺序 2、3Px百分位数(Percentile,Px):一个数值,它将原始观察值分成两部分,理论上有x%的值小于Px,另有1-x%的观察值大于Px,故它是一个位置指标。P50=Mx%1-x%54(2)用频数表法计算中位数Px百分位数(PercentilePx所在组段的组距Px所在组段的下限Px所在组段的频数FL为小于 L的各组段累计频数百分位数(Px)计算公式:55Px 所在组段的组距Px 所在组段的下限Px 所在组段的频数例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试计算潜伏期的中位数、P5、P95。即:该组潜伏期资料的中位数是54.55小时。56例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试573.同样方法,可求P5、P95:57中位数的特点及应用:特点:中位数是一位置指标,它对信息资 料的利用率较低,故准确度不算术均数、几何均数。.应用:1.适用于任何分类类型的资料。2.常但更常用于描述:偏峰分布资料分布的一端或两端无确定值的资料分布不清资料 .60中位数的特点及应用:特点:中位数是一位置指标,它对信息资 例2-11998年某山区96名孕妇产前检查次数资料:众 数61例2-1 1998年某山区96名孕妇产前检查次数资料:众 数(四)众数(Mode)62(四)众数(Mode)概念:62偏峰分布正态分布问:算术均数、中位数及众数在以下分布中的 大小关系?63偏峰分布正态分布问:算术均数、中位数及众数在以下分布中的 第三节 描述离散趋势的统计指标64第三节64举 例:有三组数据A组:26,28,30,32,34B组:24,27,30,33,36C组:26,29,30,31,34 集中C组:A组:B组:RA=8RB=12RC=8 变异度65举 例:有三组数据A组:26,28,30,32,34 说明集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的变异程度。观察值的离散趋势离散程度大说明均数代表性差离散程度小说明均数代表性好66 说明集中趋势是数据分布的一个重要特征,但单有集离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。包括极差(Range,Range,R R)四分位数间距(Quartile,Quartile,Q Q)方差(VarianceVariance,)标准差(Standard deviationStandard deviation,S S2 2)变异系数(Coefficient of variation,Coefficient of variation,CVCV)67离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变(一)极差(Range,简称R)68(一)极差(Range,简称R)计算:R=最大值最小2 2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。极差的缺点:1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。3 3.即使样本例数不变,极差的抽样误差亦较大,即不够稳定。乙:甲:692.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数四分位数间距(Quartile range,用Q表示)小大1255075100P1P25P50P75P100Q QL LQ QU U下四分位数 上四分位数Q QU U Q QL L=四分位数间距70四分位数间距(Quartile range,用Q表示)(二)四分位数间距(uartile,简称)71(二)四分位数间距(uartile,简称)计算:例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试计算潜伏期的四分位数间距。P25P75四分位数间距Q=QUQL=P75-P2572例2-8:50例链球菌咽峡炎患者的潜伏期(小时)如下表示,试Q Q=P75-P25=73.20-40.91=32.29=73.20-40.91=32.29(小时)(小时)732.求P25、P75:1.求P25、P75:Q=P(三)方差(Variance,简称)公式及来源:极差和四分位间距未考虑全部观察值的变异度全面地考虑每个变量值的离散情况为了衡量每个变量值的变异;先选择一个数值作为比较标准;谁合适呢?均数最有代表性。74(三)方差(Variance,简称 )公式及来源应考虑总体中每个变量值x与总体均数之差;x-称为离均差。为解决这个问题,给每项离均差平方后再相加,称离均差平方和,即(x-)2,可表示为SS或Lxx。但每个变量值与均数相减所得差值有正有负,有,这样就不能反映变异的大小。75应考虑总体中每个变量值x与总体均数之差;x-称为离均差。(x-)2的大小,除与变异度有关外,还与观察值的个数(N)有关。为在N不等时进行比较,(x-)2还要除以N,所得值在就称为方差,又称均方差(mean square deviation),用Var(X)用2表示:总体方差:以样本均数 代表,用样本例数n代表总体例数N,所得方差称样本方差,用S2表示。nXXS-=22)(n-1XXS-=22)(公式调整77(x-)2的大小,除与变异度有关外,还与观察值的个数(N (n-1)称为自由度(degree of freedom),用希腊字母nju:表示,表示随机变量能够自由取值的个数。分析:如有一组四个(n=4)数据的样本,受到X=5的条件限制,在自由确定4、2、5三个数据后,第四个数据只能是9,否则X5。因而这里的自由度=n-1=4-1=3。自由度=n-限制条件的个数78 (n-1)称为自由度(degree of f方差:分总体方差,样本方差S2总体方差样本方差79 方差:分总体方差 ,样本方差S2计算:总体方差样(四)标准差(Standarddeviation,SD或S)方差的单位是原度量单位的平方,不便使用。将方差公式展开,并开方,即得到另一个重要的离散趋势的指标,即标准差,简写为S。公式来源:总体标准差:1()2-=nXXs样本标准差:80(四)标准差(Standard deviation,SD或S标准差的计算:利用(a-b)2展开原理 直接法:频数表法:81标准差的计算:利用(a-b)2展开原理 直接法:81 先求出X 和X 2,再代入公式计算:(1)直接法:用于小样本资料最大次之最小82举例 分别求A、B、C三组数据的标准差:答:先求出(2 2)频数表法:用于大样本资料或频数表资料例2-2求120名1835岁健康男性居民血清铁含量的标准差:答:83(2)频数表法:用于大样本资料或频数表资料例2-2 求12(五)变异系数:简称CV84(五)变异系数:简称CV概念:是同一组资料的标准差与均通过变异系数的计算身高体重说明其体重的变异度大于身高的,即身高比体重稳定。例2-15:某1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高的均数为72.4cm,标准差3.0cm;试问其体重、身高的哪个指标更稳定些?85答:通过变异系数的计算身高体重说明其体重的变异度大于身高的,附表某地不同年龄儿童身高(cm)的变异度分析:1.儿童身高的标准差随着年龄的增大而增大。2.但不同年龄儿童身高的均数相差较大,也在随着年龄的增大而增大。3.从变异系数的角度,6岁以下儿童随年龄增加其身高的变异度逐渐减小。86例2:试分析下组资料变异程度的变化趋势附表 某地不同年龄儿小 结为描述定量变量的分布规律,可将观察值编制频数表,绘制频数分布图,要描述资料的分布特征(集中趋势及离散趋势)和分布类型。常用平均数意义适用资料算术均数平均数量水平对称分布,特别正态分布资料几何均数平均增减倍数对数正态分布;等比级数据资料中位数位次居中的观察值水平任何分布的资料,特别适用于偏峰分布;分布末端无确定值;分布不清的资料集中趋势描述的主要指标是平均数。常用平均数及其适用资料91小 结为描述定量变量的分布规律,可将观察值编制频数表,绘3.描述频数分布离散程度的指标有:极差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程度,适用于各种分布类型的资料,但更常用于描述偏峰分布资料。方差和标准差最常用,对正态分布尤重要。变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比较。注意:变异指标的大小这与平均指标值的大小无关。923.描述频数分布离散程度的指标有:注意:变异指标的大小这与4.平均指标和变异指标相结合,能对各种分布的资料作很好的描述。5.常用描述资料分布形态的统计指标包括偏度系数与峰度系数。正态分布资料算术均数标准差偏峰分布资料分布不明资料分布末端无确定值资料中位数(四位分数间距)中位数(QL,QU)934.平均指标和变异指标相结合,能对各种分布的资料作很好的描符号小结总体均数X样本均数总体标准差S样本标准差=n-1自由度Px第X位百分位数M中位数f 频数n样本含量R全距i组距 G 几何均数CV变异系数QU-QL四分位数间距94符号小结总体均数X 样本均数总体标准差S样本标准差=【学习要求】了解频数分布表的编制方法及应用。掌握定量变量资料的集中趋势、离趋势常用描述指标,及各自的适用范围。掌握正态分布资料、及偏峰分布资料的分布特征、分布类型的描述方法。95【学习要求】了解频数分布表的编制方法及应用。掌握定量变量案例讨论1.某市1974年测定的238人的发汞值(mol/Kg)检测结果如下表示,试进行统计描述。2.为描述其集中和离散趋势,某研究者采用均数标准差,即7.143.32mol/Kg,是否合理?为什么?96案例讨论 1.某市1974年测定的238人的案例讨论连续型定量变量分布形态整理频率分布表或分布图选择描述分布特征的指标直方图正偏峰分布中位数(四分位数间距)考察原始数据数据变换对数正态分布97案例讨论连续型定量变量分布形态整理频率分布表或分布图选择描述选择题1用频率计算平均数时,各组的组中值应为。A.本组段变量值的平均数;B.本组段变量值的中位数;C.本组段的上限值;D.(本组段上限值+下限值)/22血清学滴度资料最常计算以表示其平均水平。A.算术均数;B.中位数;C.几何均数;D.全距。98选择题983.在正态分布条件下表示变量值变异情况的指标最常用的是。A.标准差B.百分位数C.变异系数D.全距4.变异系数越大说明。A.标准差越大B以均数为准变异程度大C.平均数越小D标准差、平均数都大 993.在正态分布条件下表示变量值变异情况的指标最常用的是 5.已知某疾病患者10人的潜伏期(天)分别为:6,13,5,9,12,10,8,11,8,20,其潜伏期的平均水平约为。A.9天B.9.5天C.10天D.10.2天E.11天6.均数和标准差的关系是 。A.均数越大,标准差越小B.均数越大,标准差越大C.标准差越大,均数对各变量值的代表性越好D.标准差越小,均数对各变量值的代表性越好E.均数和标准差都可以描述资料的离散趋势1005.已知某疾病患者10人的潜伏期(天)分别为:6,13,5 简答题 1 1.描述数值变量集中趋势和离散趋势的指标各有哪些?各自的应用是什么?2 2.测定某地健康妇女255255人的两种血象指标结果为:红细胞数(10101212/L L)的均数为4.1784.178,标准差为0.2910.291;血红蛋白(g/L)g/L)的均数为117.6117.6,标准差为10.210.2。能否说血红蛋白的变异比红细胞数的变异大?应如何比较?101 简答题101提问与解答环节Questionsandanswers102提问与解答环节102添加标题添加标题添加标题添加标题此处结束语点击此处添加段落文本.您的内容打在这里,或通过复制您的文本后在此框中选择粘贴并选择只保留文字103添加标题添加添加添加标题此处结束语点击此处添加段落文本 .最后、感谢您的到来讲师:XXXX时间:202X.XX.XX104最后、感谢您的到来104
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!