医学统计学02个体变异课件

上传人:wz****p 文档编号:241410190 上传时间:2024-06-24 格式:PPTX 页数:70 大小:3.87MB
返回 下载 相关 举报
医学统计学02个体变异课件_第1页
第1页 / 共70页
医学统计学02个体变异课件_第2页
第2页 / 共70页
医学统计学02个体变异课件_第3页
第3页 / 共70页
点击查看更多>>
资源描述
医学医学统计学学02个体个体变异异医学统计学02个体变异l研究数据的收集、整理、分析的一门学科。Statistics is the science dealing with the collections,analysis,interpretation and presentation of masses of numerical data.(Webster 国际大词典)Statistics is the science and art of dealing with variation in data through collection,classification and analysis in such a way as to obtain reliable result.统计学是什么?What is Statistics?2研究数据的收集、整理、分析的一门学科。统计学是医学统计学医学统计学l医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门科学。3医学统计学医学统计学是以医学理论为指导,应用概率论与数理统计医学研究的三个步骤1.1.研究设计研究设计3.3.结论结论2.2.资料分析资料分析统计学推断统计学推断专业推断专业推断结结合合假设假设实验或调查获得数实验或调查获得数据据l运用医学统计学的起点,也是高质量地完成整个研究的重要基础。l在数据分析的基础上,应用统计学处理的结果,进行统计学推断;同时,依据相应的专业知识,作出专业性的结论。l在研究设计基础上,通过实验(试验)或调查,将所得数据进行统计学处理的过程。4医学研究的三个步骤1.研究设计3.结论2.资料分第一种分类(三类资料三类资料)(1)定量资料(quantitative data)(2)定性资料(qualitative data)(3)等级资料(ranked data,ordinal data)5第一种分类(三类资料)(1)定量资料(quantitati 数值变量资料(numerical variable)分类资料(categorical variable)第二种分类(两类资料)6 数值变量资料(numerical variable)数学上的分类l连续性资料(continuous data)l离散型资料(discrete data)7数学上的分类7一些重要的基本概念l1.1.同质和异质同质和异质l2.2.变异变异l3.3.总体与样本总体与样本l4.4.随机随机l5.5.参数和统计量参数和统计量l6.6.频率和概率频率和概率l7.7.抽样误差抽样误差8一些重要的基本概念1.同质和异质8医学统计学思维l归纳型思维 推理型思维l从样本到总体 l从个别到一般9医学统计学思维归纳型思维 推理型思维9个体变异(individual variation)因为变异,世界才变得如此丰富多彩!10个体变异(individual variation)因为变异Outlinel个体变异个体变异l频数分布表和频数分布图频数分布表和频数分布图 频数图和频数表的信息频数图和频数表的信息l资料的统计描述资料的统计描述描述集中趋势的指标描述集中趋势的指标:平均数平均数描述离散趋势的指标描述离散趋势的指标:变异度变异度 正确应用正确应用l总结总结11Outline个体变异11个体变异l个个体体变变异异(individual individual variationvariation)是是同同质质观观察察对对象象间间表表现现出出的差异。的差异。l变变异异是是生生物物体体在在一一种种或或多多种种、已已知知或或未未知知的的不不可可控控因因素素作作用用下所产生的综合反映。下所产生的综合反映。l就就每每个个观观察察单单位位而而言言,其其观观察察指指标标的的变变异异是是不不可可预预测测的的,或或者者说是随机的说是随机的(random)(random)。l就总体而言,个体变异是有规律的。就总体而言,个体变异是有规律的。12个体变异个体变异(individual variation)个体变异是统计学应用的前提个体变异抽样误差统计推断13个体变异是统计学应用的前提个体变异抽样误差统计推断13例1:个体变异的表现l某地所有某地所有20岁健康男生的血红蛋白岁健康男生的血红蛋白l某地所有某地所有20岁健康男生和女生的血红蛋白岁健康男生和女生的血红蛋白l江苏和西藏所有江苏和西藏所有20岁健康男生的血红蛋白岁健康男生的血红蛋白 l某地所有某地所有20岁健康男生和女生的白细胞计数岁健康男生和女生的白细胞计数 14例1:个体变异的表现某地所有20岁健康男生的血红蛋白个体变异l生物体的变异是普遍存在的,是客观事实,无法准确预测。l这种变异是有规律的,是可以认识的。15个体变异生物体的变异是普遍存在的,是客观事实,无法准确预测。Heterogeneity or Individual variation?There are 1.23%different chromosomes between human and jocko.(Science,2002)16Heterogeneity or Individual例2:乱七八糟的原始数据某市某市19971997年年1212岁男童岁男童120120人的身高人的身高(cm)(cm)资料如下。资料如下。142.3 156.6 142.7 145.7 138.2 141.6 142.5 130.5 134.5 148.8134.4 148.8 137.9 151.3 140.8 149.8 145.2 141.8 146.8 135.1150.3 133.1 142.7 143.9 151.1 144.0 145.4 146.2 143.3 156.3141.9 140.7 141.2 141.5 148.8 140.1 150.6 139.5 146.4 143.8143.5 139.2 144.7 139.3 141.9 147.8 140.5 138.9 134.7 147.3138.1 140.2 137.4 145.1 145.8 147.9 150.8 144.5 137.1 147.1142.9 134.9 143.6 142.3 125.9 132.7 152.9 147.9 141.8 141.4140.9 141.4 160.9 154.2 137.9 139.9 149.7 147.5 136.9 148.1134.7 138.5 138.9 137.7 138.5 139.6 143.5 142.9 129.4 142.5141.2 148.9 154.0 147.7 152.3 146.6 132.1 145.9 146.7 144.0135.5 144.4 143.4 137.4 143.6 150.0 143.3 146.5 149.0 142.1140.2 145.4 142.4 148.9 146.7 139.2 139.6 142.4 138.7 139.917例2:乱七八糟的原始数据某市1997年12岁男童120人的身频数分布l原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。l现状:医学研究得到的原始数据(raw data)往往是庞大的、混乱的。l解决:频数分布的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。18频数分布18频数表的编制频数表的编制找出极大值和极小值找出极大值和极小值,并计算极差并计算极差R R 此例此例R=160.9-125.9=35R=160.9-125.9=35依依R R分组分组,确定确定组数组距组段组数组距组段,常取常取8-158-15组组,用用1/10R1/10R取整作组距。取整作组距。这里取这里取4 4计算频数计算频数19频数表的编制找出极大值和极小值,并计算极差R 19计量资料的频数、频率分布组 段 频 数 频 率 12410.0083 12820.0167 132100.0833 136220.1834 140370.3083 144260.2167 148150.1250 15240.0333 15620.0167 16010.0083合 计 1201.000020计量资料的频数、频率分布组 段 频 数 计量资料的频数分布 x Freq.124 1 *128 2 *132 10 *136 22 *140 37 *144 26 *148 15 *152 4 *156 2 *160 1 *Total 120 21计量资料的频数分布 x 124 128 132 136 140 144 148 152 156 160计量资料的频数分布22124 128 132 136 140 144 计量资料的频数分布图23计量资料的频数分布图23计量资料的频数分布图图 某市120名12岁男童身高的频数分布124132140148156164010203040人人数数身高身高(cm)24计量资料的频数分布图图 某市120名12岁男童身高的频定性资料的频数分布血型 频数 频率(%)O205 40.43 A112 22.09 B150 29.59 AB 40 7.89合计 507 100.00表 507名傣族人血型的频数分布25定性资料的频数分布血型频数频率(%)表 507名傣族分类资料的频数分布图OABAB26分类资料的频数分布图OABAB26EXCEL制作的频数图血型人数图 507名傣族人血型的频数分布27EXCEL制作的频数图血型人数图 507名傣族人血型的频EXCEL制作的频率图血型比例图 507名傣族人血型的频率分布28EXCEL制作的频率图血型比例图 507名傣族人血型的频频数分布与频率分布频数频数(率率)分布用于表达观察指标的分布规律。分布用于表达观察指标的分布规律。分布规律:变异规律。分布规律:变异规律。29频数分布与频率分布频数(率)分布用于表达观察指标的分布规律。频数分布所提供的信息l频数分布图用以表示数据的分布规律l考察分布的类型 对称分布非对称分布skewness(偏态分布)l左偏态(负偏态)l右偏态(正偏态)“偏”是偏离的意思,表示个别观察值偏离均数较远,而不是“集中位置偏”;“正偏”是指个别数据偏在均数右侧,其与均数之差为“正”;“负偏”是指个别数据偏在均数左侧,其与均数之差为“负”;正偏分布的偏度系数为正,负偏分布的偏度系数为负。30频数分布所提供的信息频数分布图用以表示数据的分布规律30124132140148156164010203040人数身高(cm)频数(率)分布实例(对称分布)31124132140148156164010203040人身高图图 239 239人发汞含量的频数分布人发汞含量的频数分布1 3 5 7 9 11 13 15 17 19 21发汞含量发汞含量(umol/kg)70605040302010 0人人数数频数(率)分布实例(偏态分布1)正(右)偏态分布32图 239人发汞含量的频数分布1 3 图 某城市892名老年人生存质量自评分的频数分布0 10 20 30 40 50 60 70 80 90 100自评分400300200100 0人数频数(率)分布实例(偏态分布2)负(左)偏态分布33图 某城市892名老年人生存质量自评分的频数分布0 图 102名黑色数瘤患者的生存时间频数分布1 5 10 15 20 25 30 35 40 45生存时间生存时间(月月)40302010 0人人数数频数(率)分布实例(偏态分布3)正(右)偏态分布34图 102名黑色数瘤患者的生存时间频数分布1 图 某地19901992年男性死亡年龄分布 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85死亡年龄死亡年龄(岁岁)2500200015001000 500 0频数(率)分布实例(偏态分布4)35图 某地19901992年男性死亡年龄分布 0 5 偏态,正偏态和负偏态l分布不对称者称为偏态分布。偏态分布又分为正偏分布和负偏分布。所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。36偏态,正偏态和负偏态分布不对称者称为偏态分布。偏态分布又分为定量资料的描述l图形描述频数(率)分布图 趋势图l定量资料的统计指标描述 集中位置:算术均数、加权平均数、几何均数、中位数、百分位数 离散程度:极差、四分位数间距、标准差、方差、变异系数37定量资料的描述图形描述37描述集中位置的指标平均数(Average)算术均数和加权均数(Mean and Weighted Mean)几何均数(Geometric Mean)中位数和百分位数 (Median and Percentile)38描述集中位置的指标平均数(Average)算术均数和加权均数集中位置的描述-平均数(1)l算术均数算术均数(arithmetic mean,mean)简称均数简称均数(mean),是用得最多的统计描述指标。,是用得最多的统计描述指标。39集中位置的描述-平均数(1)算术均数(arithmet总体均数总体均数 the population mean样本均数样本均数the sample mean40总体均数 样本均数40例:11名五岁女童身高值(cm)分别为:112.9,99.5,100.7,101.0,112.1,118.7,107.9,108.1,99.1,104.8,116.5,求平均身高。41例:11名五岁女童身高值(cm)分别为:112.9,99.5l加权均数加权均数(weighted mean)均数是加权均数的一个特例均数是加权均数的一个特例加权均数42加权均数(weighted mean)加权均数42均数的应用:均数的应用:1 1、均数能全面反映全部观察值的平均数量水平,、均数能全面反映全部观察值的平均数量水平,应用甚广。应用甚广。2 2、最适于、最适于对称分布资料对称分布资料,对于偏态资料,均数,对于偏态资料,均数不能较好地反映其集中趋势。不能较好地反映其集中趋势。3 3、在描述正态分布资料方面有重要意义、在描述正态分布资料方面有重要意义43均数的应用:1、均数能全面反映全部观察值的平均数量水平,应用平均数(2)l几何均数几何均数(geometric mean,G)44平均数(2)几何均数(geometric mean,G)44几何均数例l1:10,1:20,1:40,1:80,1:16045几何均数例1:10,1:20,1:40,1:80几何均数的应用:几何均数的应用:1.1.等比资料,如抗体平均滴度等比资料,如抗体平均滴度2.2.对数正态分布资料对数正态分布资料Remember!46几何均数的应用:1.等比资料,如抗体平均滴度2.对数正态分布使用几何均数时的注意点:使用几何均数时的注意点:1)1)观察值不能有观察值不能有0 0。2)2)观察值不能同时有正值和负值。若全为观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再负值,在计算时先把负号去掉,得出结果再加上负号。加上负号。Be careful!47使用几何均数时的注意点:1)观察值不能有0。2)观察值不平均数(3)l中位数中位数(median,M)指将一组观察值从小到大按顺序排列,位次居中指将一组观察值从小到大按顺序排列,位次居中的观察值,常用的观察值,常用M表示。表示。中位数计算方法中位数计算方法:48平均数(3)中位数(median,M)中位数计算方法:48例例:某病患者:某病患者5 5人,其潜伏期分别为人,其潜伏期分别为2 2,3 3,5 5,8 8,2020,求中位数?,求中位数?n=5n=5,M Mx x3 3=5(=5(天天)例例:8 8名新生儿身长名新生儿身长(cm)(cm)依次为依次为5050,5151,5252,5353,5454,5555,5858,求中位数?,求中位数?n=8,M(x4x5)/2=(53+54)/2=53.5(cm)中位数例49例:某病患者5人,其潜伏期分别为2,3,5,8,20,求中位中位数例l9例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 l9例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 16 l10例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16 M=4.8 M=4.8 M=(4.8+5.6)/2=5.250中位数例9例正常人的发汞值:9例正常人的发汞值:10例正常人中位数例l对于某项风险较高的新手术术后的生存时间进行跟踪,共对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了调查了7人,人,6人死亡之前分别生存了人死亡之前分别生存了5天、天、6天、天、10天、天、16天、天、25天、天、29天天,还有一人术后,还有一人术后30天天随访时随访时仍存活仍存活。l本资料属于本资料属于“开口开口”资料。资料。l本例数据已经按从小到大的升序排列,本例数据已经按从小到大的升序排列,n=7,为奇数,其中,为奇数,其中位数为位数为16天。天。51中位数例对于某项风险较高的新手术术后的生存时间进行跟踪,共调平均数(3)l百分位数(百分位数(percentilepercentile)是一个位置单位,以是一个位置单位,以P Px x表示,表示,一个一个P Px x将总体或样本的全部观察值分为两部分。理论上有将总体或样本的全部观察值分为两部分。理论上有x x的观察值比它小,有的观察值比它小,有(100-x)%(100-x)%的观察值比它大的观察值比它大.X%PX (100-X)%l50%分位数就是中位数分位数就是中位数l25%,75%分位数称四分位数(分位数称四分位数(quartile)52平均数(3)百分位数(percentile)是一个位置单位,中位数中位数和百分位数和百分位数的应用的应用1 1、中位数和百分位数的计算对资料分布没有特殊要求。、中位数和百分位数的计算对资料分布没有特殊要求。偏偏态分布;态分布;分布不规则或未知分布;一端或两端有不确定数据(开口资分布不规则或未知分布;一端或两端有不确定数据(开口资料)料)2 2、样本含量较少时不宜用靠近两端的百分位数来估计频、样本含量较少时不宜用靠近两端的百分位数来估计频数分布范围;因为在例数较少时,靠近两端的百分数不够数分布范围;因为在例数较少时,靠近两端的百分数不够稳定。稳定。3 3、中位数比均数具有较好的稳定性。但是,由于只采纳、中位数比均数具有较好的稳定性。但是,由于只采纳了数据的相对大小的信息,不够精确。了数据的相对大小的信息,不够精确。53中位数和百分位数的应用1、中位数和百分位数的计算对资料分布没平均数应用的注意事项l同质的资料计算平均数才有意义。l算术均数适用于:单峰对称分布的资料l几何均数适用于:对数变换后单峰对称的资料l中位数和百分位数适用于:偏态分布资料,分布类型未知的资料,有极端值和不确定值的资料54平均数应用的注意事项同质的资料计算平均数才有意义。54例3 只用平均数描述资料的弊病l甲组 26 29 30 31 34l乙组 24 27 30 33 36 l丙组 26 28 30 32 34丙乙甲三组儿童体重的离散程度均数30kg55例3 只用平均数描述资料的弊病甲组 26 29 30 描述离散趋势的指标变异度极差(Range)四分位数间距(interquartile range)方差(Variance)标准差(Standard Deviation)变异系数(coefficient of variation)56描述离散趋势的指标变异度极差(Range)四分位数间距(in全距全距(range),极差,极差 R=max-minR=max-min优点:简单方便缺点:不灵敏 除了最大、最小值,不能反应组内其他数据的变异。不稳定 两样本例数相差旋殊,不适用全距比较变异度。离散程度的描述指标(1)57全距(range),极差 R=max-min优点:简单方便四分位数间距:四分位数间距:quartilequartileP P75 75 上四分位数上四分位数 P P25 25 下四分位数下四分位数QUQL离散程度的描述指标(2)58四分位数间距:quartileP75 上四分位数 Min QL M QU Max59Min QL M QU 总体方差总体方差 2=在样本中,在样本中,未知,常用未知,常用 替代,替代,S2=方差(方差(variancevariance)离散程度的描述指标(3)60 方差(variance)离散程度的描述指标(3)60总体标准差总体标准差=样本标准差样本标准差 n-1:自由度(degree of freedom)任何统计量的自由度任何统计量的自由度 =变量数变量数-限制条件的个数限制条件的个数离散程度的描述指标(4)标准差(标准差(standard deviationstandard deviation)61 n-1:自由度(degree of freedom)任l甲组 26 29 30 31 34 l乙组 24 27 30 33 36 l丙组 26 28 30 32 34 极差 方差 标准差l甲组 8 8.50 2.92l乙组 12 22.50 4.74l丙组 8 10.00 3.16离散度比较62甲组 26 29 30 31 34 离散l排除了平均水平的影响,并取消了单位。因此变异系数常用于:比较度量衡单位不同的两组或多组资料的变异度比较均数相差悬殊的两组或多组资料的变异度 离散程度的描述指标(5)变异系数(coefficient of variation,CV)63排除了平均水平的影响,并取消了单位。因此变异系数常用于:离散l某地某地100名名20岁男子岁男子l身高:平均身高:平均166.06cm,标准差标准差4.95cml体重:平均体重:平均53.72kg,标准差标准差4.96kg不同指标间变异度的比较64某地100名20岁男子不同指标间变异度的比较64不同指标间变异度的比较65不同指标间变异度的比较65均数相差悬殊资料的变异度均数相差悬殊资料的变异度例例:某地不同年龄女童的身高资料如下,比较不同某地不同年龄女童的身高资料如下,比较不同年龄身高的变异程度。年龄身高的变异程度。年龄组年龄组人数人数均数均数标准差标准差变异系变异系数数12月月10056.32.13.756月月12066.52.23.333.5岁岁30096.13.13.255.5岁岁400107.83.33.1表表 某地不同年龄女童身高(某地不同年龄女童身高(cm)的变异程度)的变异程度66均数相差悬殊资料的变异度例:某地不同年龄女童的身高资料如下,正确应用(1)l算数均数:适用于单峰对称分布资料;l几何均数:适合于作对数变换后单峰对称分布资料;l中位数和百分位数:适用于任何分布的资料;l中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;l中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。l因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。l不同质的资料应考虑分别计算平均数。67正确应用(1)算数均数:适用于单峰对称分布资料;67正确应用(2)l极差不稳定,不灵敏l标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。l在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。l变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。68正确应用(2)极差不稳定,不灵敏68平均数与变异度l均数标准差(min,max)l中位数四分位数间距(min,max)l变异度小,则均数代表性好!l变异度大,数据分散,则均数代表性差!l平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!69平均数与变异度均数标准差(min,max)69总结:l医学研究中,每个观察指标(变量)均有其特定的变异规律;l描述资料的方法:图形描述统计量描述平均数:均数、几何均数、中位数、百分位数变异度:极差、标准差、四分位数间距、变异系数l不同分布的指标,用不同的统计量描述;l用平均数与变异度共同描述。70总结:医学研究中,每个观察指标(变量)均有其特定的变异规律;
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!