资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,第三篇 医学统计学方法,Statistical Methods in Medicine,2,第九章数值变量资料的统计分析,第一节 数值型资料的统计描述,第二节 正态分布和参考值范围的估计第三节 数值型资料的统计推断,第四节,t,检验和,u,检验,第五节 方差分析,3,terminology,statistical description,统计描述,statistical inference,统计推断,parameter estimation,参数估计,Frequency distribution,频数分布,frequency table,频数表,arithmetic Mean, average,算术平均值,standard deviation,标准差,variance,方差,range,极差,全距,范围,geometric mean,几何平均值,median,中位数,normal distribution,正态分布,reference range,参考值范围,4,统计分析包括统计描述和统计推断两大部分。,统计描述,(statistical description),是用统计指标、统计表和统计图描述资料的分析规律及其数量特征;,统计推断,(statistical inference),包括总体参数估计和假设检验两个内容。,参数估计,:,是用样本统计量估计总体参数所在范围。,假设检验,:,是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否成立。,5,第一节 数值型变量资料的统计描述,例,9.1,2002,年某市,150,名,2029,岁正常男子的尿酸浓度,(,mol/L,),,资料见表,9-1,。如何进行统计描述?,6,362.6,359.7,285.9,300.2,333.6,334.0,288.8,338.5,341.9,344.6,3375,298.3,364.2,367.1,338.1,316.9,332.7,324.0,282.6,369.8,398.7,338.7,308.9,392.1,368.7,352.6,378.2,346.1,278.6,318.3,323.2,322.6,382.1,322.6,309.6,352.0,372.5,399.8,335.6,341.1,371.0,355.9,362.7,368.1,332.4,405.6,328.8,358.8,405.9,362.7,316.3,338.7,402.6,379.4,329.6,354.6,331.4,349.6,419.5,324.6,329.8,357.8,312.0,313.6,338.7,328.6,291.3,329.7,361.8,392.4,414.9,319.7,327.6,395.8,358.9,289.4,366.2,387.4,298.4,408.7,389.8,362.5,354.9,352.7,316.6,348.9,348.7,401.6,334.6,308.9,367.0,345.6,401.6,357.1,304.6,338.5,388.2,355.8,329.4,321.1,320.4,313.5,339.8,409.4,387.4,378.5,392.0,352.7,376.2,388.4,344.6,308.6,347.0,428.7,369.1,311.4,376.3,349.4,289.2,366.8,371.0,387.5,413.6,348.7,392.7,401.0,313.6,366.8,387.2,319.7,329.4,357.5,348.5,346.8,406.6,357.6,338.7,341.6,349.8,289.4,366.2,357.5,298.4,336.8,387.5,342.3,366.7,387.6,332.7,324.0,表,9-1,2002,年某市,150,名,2029,岁正常男子的尿酸浓度,(,mol/L,),7,统计描述的内容:,一、制频数,(,分布,),表,(,表,9-2),和频数分布图,(,图,9-1),频数表的用途,(1),揭示资料的分布特征和分布类型,(2),便于发现某些特大或特小的可疑值,(3),便于进一步计算,统计,指标和统计分析处理,二、计算统计指标,(1),计算平均值,代表一组资料的平均水平;,(2),计算标准差,-,反映资料的离散程度。,三、绘制统计表和统计图,8,一、编制频数分布表:制表步骤:,(1),求极差或全距,(range),:,R=X,max,X,min,本例,,R=428.7,278.6,150.1(,mol/L),。,(2),决定组数、组段数和划分组距,(class interval),:,根据样本含量的多少确定组数,一般设,8,15,组。,组段数,=,取整,(,极差,/,组数,),。,本例:组段数,=,取整,(150.1/10)=15.01,15,划分组距:每组段的起点和终点分别称为下界和上界。,组距:本组内的上界和下界之差。,组段的划分,270,285,300,315,330,345,360,375,390,405,420435,1,2,3,4,5,6,7,8,9,10,11,9,(3),列频数表:按上述组段序列制成表的形式,采用划记法或计算机将原始数据汇总,得出各组段中所包含的观察例数,即为频数,如表,9-2,的第,(2),栏。将各组段及其相应的频数列成表格,即为频数表,(frequency table),,如表,9-2,。所绘的图形见图,9-1,。,表,9-2,2002,年某市,150,名,2029,岁正常男子的尿酸浓度的频数分布,尿酸浓度,(,mol/L,),频数,频率,(%),270,2,1.33,285,9,6.00,300,11,7.33,315,22,14.67,330,24,16.00,345,27,18.00,360,20,13.33,375,15,10.00,390,11,7.33,405,8,5.33,420435,1,0.67,合计,150,100.00,10,资料的分布类型:,对称分布或正态分布;,2.,偏态分布:高峰在左侧或右侧;,3.,不规则分布:分布很散,无明显高峰,11,二、计算平均值,代表平均资料的平均水平,1.,平均值的种类:,(,一,),算术均,值,(arithmetic mean,,,average):,常用 表示样本均,值,,希腊字母,表示总体均,值,。适用于对称分布的数值型变量资料。其计算方法有:,直接法,:,i,(I=1,2,n),为第,i,个观察对象的观察值,加权法,:,i,为第,i,组的组中值,f,i,为第,i,组的例数,:,12,表,9-2,分组资料加权法计算平均值及标准差用表,尿酸浓度,(,mol/L,),组中值,(x,i,),频数,(f,i,),f,i, x,i,f,i, x,i,2,270,277.5,2,555.0,154012.5,285,292.5,9,2632.5,770006.3,300,307.5,11,3382.5,1040119.0,315,322.5,22,7095.0,2288138.0,330,337.5,24,8100.0,2733750.0,345,352.5,27,9517.5,3354919.0,360,367.5,20,7350.0,2701125.0,375,382.5,15,5737.5,2194594.0,390,397.5,11,4372.5,1738069.0,405,412.5,8,3300.0,1361250.0,420435,427.5,1,427.5,182756.3,合计,150,52470.0,18518738.0,13,(,二,),几何均,值,(geometric mean,G),适用条件,:,等比级数资料,.,原始观察值呈偏态分布、但数据经过对数变换后呈正态分布或近似正态分布的资料。如医学实践中某些疾病的潜伏期、抗体滴度、平均效价等。其计算方法有:,直接法,:,i,为第,i,个观察对象的观察值,加权法,:,i,为第,i,组的组中值,(,或观察值,),f,i,为第,i,组例数,:,14,抗体滴度,(,i,),人数,f,i,滴度倒数,X,i,lg,10,(X,i,),f,i,lg,10,(X,i,),(1),(2),(3),(4),(5)=(2)(4),1:2.5,3,2.5,0.3979,1.1937,1:5.0,7,5.0,0.6990,4.8930,1:10.0,14,10.0,1.0000,14.0000,1:20.0,6,20.0,1.3010,7.8062,1:40.0,4,40.0,1.6021,6.4084,合计,34,34.3013,表,9-4,某地,34,名儿童接种麻疹疫苗后血清血凝抑制抗体滴度,血清血凝抑制抗体的几何平均滴度为,1:10.206,。,X=(2.5,3+5.0,7+10.0,14+20.0,6+40.0,4)/34=13.6,(,算术平均滴度为,1:13.6),15,(,三,),中位数,(median,,,M):,将观察值按大小排序后,位次居中的观察值。,M=X,(P=50%),在全部观察值中小于,M,的观察值个数与大于,M,的观察值个数相等。由于,M,不受个别特小或特大观察值的影响,适用于分布不规则或分散度很高的资料,.,3,个观察值,:1,3,5. M=3; 4,个观察值,:1,3,5,7. M=4.,直接法,:,设,n,为观察值的个数,有公式,(9-5),及,(9-6),频数表法,:,i,为第,i,组的组中值,(,或观察值,),f,i,为第,i,组例数,:,L,:,中位数组段下限值,f,L,:,小于,L,的累计频数,i,:,中位数组距,.,16,尿铅值,(mmol/L),人数,f,累计频数,f,累计频率,(%),(1),(2),(3),(4)=(3),n,0,27,27,8.77,25,54,81,26.30,50,95,176,57.14,75,55,231,75.00,100,39,270,87.66,125,21,291,94.48,150,12,303,98.38,175,5,308,100.00,合计,308,表,9-5 308,名,6,岁以下儿童尿铅值的频数分布,(,中位数计算,),L,:,中位数组段下限值,f,L,:,小于,L,的累计频数,i,:,中位数组距,f,50%,:,中位数组频数,.,L=50,f,L,=81, i=25,f,50%,=95,17,三、计算标准差,-,反映资料的离散程度。,数值变量数据的频数分布有集中趋势和离散程度两个主要特征,只有两者相结合,才能全面地认识事物。,反映资料的离散程度的统计量,(,统计指标,),有:,(,一,),全距,(range),或极差:,R=X,max,X,min,全距是一组观察值中最大值与最小值之差。,(,二,),四分位数间距,(quartile interval):,Q=X,75%,X,25%, Q,包括了全部观察值中间的一半,.,(,三,),方差,(variance),和标准差,(standard deviation),18,例有,3,组同龄男孩的体重,(),测量值如下,其平均体重都是,30,(),,试分析其离散程度。,分组,观察值,(),全距,R,Q,S,甲组,26,28,30,32,34,30,8,4,3.16,乙组,24,27,30,33,36,30,12,6,4.74,丙组,26,29,30,31,34,30,8,2,2.92,丙,组,*,*,*,*,*,乙,组,*,*,*,*,*,甲,组,*,*,*,*,*,体重,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,(),19,标准差的简化计算方法:,数学上可证明:,故标准差的计算公式又可写成:,直接法:,X,为观察值 加权法:,X,i,为组中值,表,9-3,尿酸浓度,(,mol/L,),分组资料加权法计算平均数及标准差用表,n=f,i,=150,(f,i,x,i,)=,52470.0,(f,i,x,i,2,)=18518738.0,20,标准差的应用:,(1),表示观察值的变异程度,(,离散程度,):,在两组,(,或几组,),资料均数相近、度量单位相同的条件下,标准差大,表示观察值的变异度大,即各观察值离均数较远,均数的代表性较差。,(2),结合均数描述正态分布的特征和估计医学参考值范围。,(3),结合样本含量,n,计算标准误。,21,四分位数间距的计算,(,interquartile range,,,Q),:,中位数计算公式:,25%,位数计算公式:,75%,位数计算公式,尿铅值,(mmol/L),人数,f,累计频数,f,累计频率,(%),(1),(2),(3),(4)=(3),n,0,27,27,8.77,25,54,81,26.30,50,95,176,57.14,75,55,231,75.00,100,39,270,87.66,125,21,291,94.48,150,12,303,98.38,175,5,308,100.00,合计,308,22,四分位数间距(,interquartile range,,,Q),计算公式:,Q = X,75%,X,25%,X,0%,X,25%,X,50%,X,75%,X,100%,| Q |,0 48.15 69.21 100.0 175,X,1,X,n,23,描述性统计量归纳,反映资料的集中趋势的指标,反映资料的离散情况指标,适用的资料类型,1.,算术平均数,方差及标准差,对称分布,特别是正态或近似正态分布资料。,2.,几何平均数,几何标准差,适用于对数正态或近似对数正态分布资料,3.,中位数,四分位数间距或百分位数,分布不规则的资料,分散程度大的资料,24,变异系数,(coefficient of variation,,,CV):,若比较度量单位不同或均数相差悬殊的两组,(,或几组,),观察值的变异度,则需用变异系数为相互比较的指标。,不属于描述性统计指标,是一个比较用的统计指标。,从变异系数比较,体重的变异程度大于身高的变异程度。,变异系数的特点:描述的是相对离散程度,没有单位。,适用于:,(1),比较单位不同的多组资料的变异度。,(2),比较均数相差悬殊的多组资料的变异度。,例,9-10,某地,25,岁男子,100,人的调查结果如下:问题:哪一个指标的变异度大些?,25,第二节 正态分布和医学参考值范围,一、正态分布,(normal distribution),26,表,9-2,尿酸浓度的频数分布,尿酸浓度,(,mol/L,),频数,270,2,285,9,300,11,315,22,330,24,345,27,360,20,375,15,390,11,405,8,420435,1,合计,150,图,9-2,频数分布逐渐向正态分布接近,27,(,一,),正态分布的图形,可以设想,,如果,观察例数逐渐增多,组段数也不断增多,就会形成一条光滑曲线,图,9,-2(3),。,称为正态分布曲线。,这条正态分布,曲线的特点为,:,高峰位于中央均数所在处、两侧逐渐降低,;,左右对称,;,曲线,在无穷远处,与横轴相交。,把服从正态分布的变量表示为:,XN(,2,),正态分布,曲线,由两个参数确定:,平均数,,称位置参数,决定平均数所在的位置;,方差,2,,称形状参数,决定曲线的高低宽窄。,28,服从,正态分布,的变量,X,的概率,密度函数,f(X),为,式中,,为总体均数;,为总体标准差;,=3.14159,为圆周率;,e,为自然对数的底,(e2.71828), X,为变量。,表示为:,uN(0,1),,即平均值为,0,、方差为,1,的正态分布。,为实际应用方便,将一般正态分布转换为标准正态分布。转换公式为:,u,=(X-), u,称为标准正态变量。,服从标准,正态分布,的变量,u,的概率,密度函数,f(u),为,29,A.,正态分布,B.,标准正态分布,图,9-3,正态分布与标准正态分布的面积与纵高,按式,(9-16),,根据,X,的不同取值,绘出正态分布,(normal distribution),的图形,(,图,9-3A),。,按式,(9-16),,根据,u,的不同取值,绘出标准正态分布,(standard normal distribution),的图形,(,图,9-3B),。,X,u,30,图,9-4,正态曲线与标准正态曲线的面积分布,二、正态曲线下面积的分布规律,:,用积分法求得。,表,9-6,正态分布和标准正态分布曲线下面积,(,概率,),分布规律对照,正态分布,标准正态分布,面积,(,概率,) %,左侧界值,右侧界值,左侧界值,右侧界值,中间部份,两侧尾部和,1.0, +1.0,1.0,+1.0,68.27,31.73,1.96, +1.96,1.96,+1.96,95.00,5.00,2.58, +2.58,2.58,+2.58,99.00,1.00,31,为了省去计算的麻烦,编制成了,“,标准正态分布曲线下的面积,”,(表,9-8,)。表中列出了左侧概率:,(-,-u),;,右侧概率:,(u,+)=,(-,-u),,,(-,u)=1,(-,-u),通过查表可求出正态曲线下某区间的面积,进而估计该区间观察例数占总例数的百分数或变量值落在该区间的概率。,查表时应注意:,当, ,已知时,先,将观察值,X,变换,为,u,值,u=(X-)/,,再查表;,当,未知,、但,n,足够大时,可以用样本均数 和样本标准差,s,分别代替,和,,进行,u,变换,u=(X- )/s,求得,u,的估计值,后,再查表;,曲线下对称于,0,的区间面积相等,如,(-,,,-1.96)=,(1.96,,,),曲线下横轴上的总面积为,100,或,1,。,32,三、医学参考值范围的估计,参考值范围,(reference range),的意义,参考值是指正常人体或动物的各种生理常数,正常人体液和排泄物中某种生理生化指标或某种元素的含量,以及人体对各种试验的正常反应值等。,由于存在个体变异,各种数据不仅因人而异,而且同一个人还会随机体内外环境的改变而改变,因而需要确定其波动的范围,即医学参考值范围,亦称医学正常值范围。,33,制订医学参考值范围时须注意:,从同质总体中随机抽样。根据研究目的确定同质总体的标准。排除患有影响所研究指标的疾病和有关因素的同质人群。,需要有一定的样本含量。,n100,例。,控制测量误差。,判断是否需要分组确定参考值范围。如不同性别,不同年龄组,甚至不同民族。,确定是取单侧还是取双侧参考值。,确定适当的百分数范围。,80%,,,90%,,,95%,,,99%,。范围过窄,即诊断标准过严,会增加漏诊;,范围过宽,即诊断标准过松,会增加误诊;,根据资料分布类型选择统计学方法估计参考值范围。,34,表,9-7,三种参考值估计方法的适用对象和,95%,参考值范围的计算,资料类型,统计方法,双侧界限值,单侧上界值,单侧下界值,正态或近似正态分布,正态分布法,对数正态或近似对数正态分布,对数正态分布法,不规则分布,百分位数法,例,9-11,,表,9-2,2002,年某市,150,名,2029,岁正常男子的尿酸浓度资料。,X=350.24 (,mol/L,), S=32.97(,mol/L,).,用,正态分布法双侧,95%,的参考值范围的上下界限值为:,下界,: 350.24,1.96,32.97=285.62,(,mol/L,),上界,: 350.24 +1.96,32.97=414.86,(,mol/L,),即,2029,岁男性尿酸浓度,95%,参考值范围:,285.62414.86,(,mol/L,),35,例,9-12,,例,9-7,表,9-5,308,名,6,岁以下儿童尿铅值资料。用百分位数,法计算单侧,95%,参考值范围的上界值。即,X,95%,尿铅值,(mmol/L),人数,f,累计频数,f,累计频率,(%),(1),(2),(3),(4)=(3),n,0,27,27,8.77,25,54,81,26.30,50,95,176,57.14,75,55,231,75.00,100,39,270,87.66,125,21,291,94.48,150,12,303,98.38,175,5,308,100.00,合计,308,L=150,: 95%,组段下限值,f,L,=291:,小于,L,的累计频数,i=,25: 95%,组的组距,f,95%,:=12,:,95%,组频数,故,6,岁以下儿童尿铅值,单侧,95%,参考值范围为:,153.33(mmol/L),36,本章小节,资料类型,描述性统计量,95%,参考值范围的计算,对称分布,特别是正态或近似正态分布资料,算术平均数,方差及标准差,正态分布法: 根据正态分布规律,双侧:,单侧上界:,单侧下界:,适用于对数正态或近似对数正态分布资料,几何平均数,几何标准差,对数正态分布法:,双侧:,单侧上界:,单侧下界:,分布不规则的资料,分散程度大的资料,中位数,四分位数间距或百分位数,百分位数法:按排序的位置清点位次,双侧:,X,2.5%, X,97.5%,单侧上界,: X,95.0%,单侧下界:,X,5.0%,37,The end,38,第九章 第一讲,练习题,实习九,数值变量资料的统计分析,(1),pp.379-382 ,内容,(,一,),选择题:,1,,,2,,,3,,,9,,,10,。,(,二,),思考题:,1,,,2,,,6,。,(,三,),应用题:,1,,,2,,,3,。,39,u,.00,.01,.02,.03,.04,.05,.06,.07,.08,.09,-3.0,.0013,.0013,.0013,.0012,.0012,.0011,.0011,.0011,.0010,.0010,-2.9,.0019,.0018,.0018,.0017,.0016,.0016,.0015,.0015,.0014,.0014,-2.8,.0026,.0025,.0024,.0023,.0023,.0022,.0021,.0021,.0020,.0019,-2.7,.0035,.0034,.0033,.0032,.0031,.0030,.0029,.0028,.0027,.0026,-2.6,.0047,.0045,.0144,.0043,.0041,.0040,.0039,.0038,.0037,.0036,-2.5,.0062,.0060,.0059,.0057,.0055,.0054,.0052,.0051,.0049,.0048,-2.4,.0082,.0080,.0078,.0075,.0073,.0071,.0069,.0068,.0066,.0064,-2.3,.0107,.0104,.0102,.0099,.0096,.0094,.0091,.0089,.0087,.0084,-2.2,.0139,.0136,.0132,.0129,.0125,.0122,.0119,.0116,.0113,.0110,-2.1,.0179,.0174,.0170,.0166,.0162,.0158,.0154,.0150,.0146,.0143,-2.0,.0228,.0222,.0217,.0212,.0207,.0202,.0197,.0192,.0188,.0183,-1.9,.0287,.0281,.0274,.0268,.0262,.0256,.0250,.0244,.0239,.0233,-1.8,.0359,.0351,.0344,.0336,.0329,.0322,.0314,.0307,.0301,.0294,-1.7,.0446,.0436,.0427,.0418,.0409,.0401,.0392,.0384,.0375,.0367,-1.6,.0548,.0537,.0526,.0516,.0505,.0495,.0485,.0475,.0465,.0455,-1.5,.0668,.0655,.0643,.0630,.0618,.0606,.0594,.0582,.0571,.0559,-1.4,.0808,.0793,.0778,.0764,.0749,.0735,.0721,.0798,.0694,.0681,表,9-8,标准正态分布曲线下的面积,自,-,到,-u,的面积,(-, -u),,,(u, +)=1-(-,-u),40,-1.4,.0808,.0793,.0778,.0764,.0749,.0735,.0721,.0798,.0694,.0681,-1.3,.0968,.0951,.0934,.0918,.0901,.0885,.0869,.0853,.0838,.0823,-1.2,.1151,.1131,.1112,.1093,.1075,.1056,.1038,.1020,.1003,.0985,-1.1,.1357,.1335,.1314,.1292,.1271,.1251,.1230,.1210,.1190,.1170,-1.0,.1587,.1562,.1539,.1515,.1492,.1469,.1446,.1423,.1401,.1379,-0.9,.1841,.1814,.1788,.1762,.1736,.1711,.1685,.1660,.1635,.1611,-0.8,.2119,.2090,.2061,.2033,.2005,.1977,.1949,.1922,.1894,.1867,-0.7,.2420,.2339,.2358,.2327,.2296,.2266,.2236,.2206,.2177,.2148,-0.6,.2743,.2709,.2676,.3643,.2611,.2578,.2546,.2514,.2483,.2451,-0.5,.3085,.3050,.3015,.2981,.2946,.2912,.2877,.2843,.2810,.2776,-0.4,.3446,.3409,.3372,.3336,.3300,.3264,.3228,.3192,.3156,.3121,-0.3,.3821,.3783,.3745,.3707,.3669,.3632,.3594,.3557,.3520,.3483,-0.2,.4207,.4168,.4129,.4090,.4052,.4013,.3974,.3936,.3897,.3859,-0.1,.4602,.4562,.4522,.4483,.4443,.4404,.4364,.4325,.4286,.4247,-0.0,.5000,.4960,.4920,.4880,.4840,.4801,.4761,.4721,.4681,.4641,u,.00,.01,.02,.03,.04,.05,.06,.07,.08,.09,
展开阅读全文