资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,8,、样本量估算的统计学方法,骆福添 公共卫生学院,参考教材:,生物医学研究的统计方法,主编:方积乾,,2007,,高等教育出版社,一、临床研究为什么需要估计样本含量,复习,1,:统计学三大任务与三大规则,任务:,描述,样本特征、,估计,总体参数、检验总体差别,规则:(必须考虑),数据,类型、,分布,类型、,对比,类型,1.,统计描述,任务,例:某样本个体分布的,集中,趋势与,离散,趋势怎样?,(,1V,点,,2V,线,,3,面,.,影子,_,线),数据,:计数(,%,),定量(平均数),等级(平均,Ridit,值),分布,:正态,(Mean,,,SD,,,95%CR,),,对数正态,(G),,偏态,(M,Q/R,,,P,2.5,P,97.5,),(双,/,多变量,-,相关回归),对比,:变量,=,两组观察值(各组均数与标准差),变量,=,差值(差值的均数与标准差),2.,置信区间,任务,例:某总体指标在哪一区间?,(借鉴反推),数据,:计数(直接法,/,正态近似),计量(正态法),等级(正态近似),分布,:正态(正态法),对数正态,(,lg,值置信区间,),,偏态(百分位数法),对比,:变量参数置信区间,差值参数置信区间(临床试验),3.,假设检验,任务,例:某,2,个总体指标相同?,(,直接应用概率分布,),数据,:计数(正态近似法,u,卡方),计量(均数检验),等级(秩和检验),分布,:正态(,u,t,),对数正态(,lg,值,t,检验),偏态(秩和检验),对比,:组间比较(,u,t,H,),与总体比较(,u,t,H,),统计推断中的误差估计,最基本公式:,误差,=,个体变异程度,/,n,的平方根,均数误差,=,标准差,/,sqrt(,n,),率的误差,=,sqrt,p,(1-,p,)/,n,n,大小举例,1,、,n,=3,,三个克隆,2,、女大学生,33%,自动退学?,n,=,?,3,、,n,1,=20,,,n,2,=100,,,n,=,?,4,、,1987,年某产科医师为研究胎次与儿童智力的关系,收集病案资料(考上大学人数):第一胎,19,人、第二胎,18,人、第三胎,10,人、第四胎,7,人、第五胎,4,人。由此得出结论:智力与胎次有关,胎次愈多智力愈差,第一胎智力最好。,n,=,?,可重复原则,样本含量(,Sample,)的估计是临床研究科学设计的重要内容。,可重复性,是指任何科学研究必须遵守的原则,其目的是要排除偶然因素的影响,得出科学的、真实的、规律性的结论。,样本含量的大小,在临床研究中,样本含量越小,其抽样误差越大。,若样本含量不足,可重复性差,检验效能低,不能排除偶然因素的影响,其结论缺乏科学性、真实性。,若样本含量过大,试验条件难以严格控制,容易造成人力、物力和时间上的浪费。,估计样本含量的目的,在保证某个临床试验,/,临床研究的结论具有一定科学性、真实性和可靠性前提下,确定某研究所需的,最小观察例数,。,二、估计样本含量的方法,两大类方法,1,、,公式法,可满足多种设计的要求,目前应用广泛。,2,、,查表法,简单、方便,但受条件限制,有时不一定完全适应。,三、估计样本含量的步骤,1,、确定设计方法,任何临床试验,其设计方案是首先需要确定的,而样本含量的估计也是在设计方案基础上的。不同的临床科研设计方法,其样本含量的估计方法不相同,2,、确定资料类型,当临床试验的设计方案确定后,需要确定临床试验所得数据的类型,例如,,计量,(数值)、,计数,(无序分类)、,等级,(有序分类),因为样本含量估计方法与数据类型有关,3,、考虑统计方法,样本含量的估计还要与以后将要使用的统计方法的条件相结合。如,单因素分析,、,相关与回归,、,多因素分析,等。目前样本含量估计的公式计算主要针对单因素分析,而多因素分析的例数估计请参考有关书籍,4,、确定基本参数,在各种临床科研设计方法的样本含量估计中,需要研究者事先确定的条件有:,第一类错误的概率,,第二类错误概率,,容许误差,。,若终点指标为数值变量时,还需要研究者确定总体标准差,。,若终点指标为分类变量时,有时需要研究者确定总体率,。,(,1,)确定第一类误差的概率,所有样本含量估计公式中,都需要,u,的值,研究者确定检验水准(,)的大小后,查表得,u,值。,有,单侧,与,双侧,之分,单侧,的,u,小于双侧,u,值,所以按单侧计算的样本含量小于双侧。,越小所需样本含量越大,反之越小,一般取,0.05,样本含量计算中,需要,u,的值,即研究者确定,大小后,查表的,u,值。,确定,大小,主要是要确定检验效能(,Power,),用,1-,表示其概率的大小,检验效能是指总体间确有差别时,假设检验能发现这种差别的能力大小。,为第二类误差的概率,,值越小,检验效率越高,所需样本量也就越大,通常,=0.1,或,=0.2,。一般认为检验效率不能小于,0.7,。,(,2,)确定第二类误差的概率,(,3,)确定容许限或插座,即有临床意义或研究意义的,最小差值,。,若为数值变量时,,可为有临床意义的均数差值、实验前后之差等。,若为分类资料,,可为有临床意义的有效率、患病率等率之差。,(,4,)确定总体标准差,总体率,若研究的终点指标为数值变量时,总体标准差,为估计样本含量所必须的条件。,若研究的终点指标为分类变量时,有时,总体率,为估计样本含量条件。,若总体标准差,和总体率,,常常通过文献检索、预试验或对研究作出合理的假设来获得。,5,、计算样本含量,用按设计方案、资料类型及可能涉及的统计分析方法来选择样本含量的计算方法(,查书,),也可以利用统计软件帮助完成样本含量的计算。,6,、校正样本含量,由于估算的样本含量是最少需要量,考虑到受试者可能有不合作者、中途失访、意外死亡等情况出现,而减少有效观察对象的例数(,失访,),因此,应该在估算的样本含量增加若干样本例数。,通常,失访人数不得大于,20%,。,四,、样本含量估计的注意事项,1.,组间例数相等,成组设计的例数,应尽可能采用例数相等的设计,尤其是多组设计时,一般要求各组间的样本含量相等,只有在某些特殊情况下才考虑各组的样本含量不相等。,2.,多指标估算,若某研究有多个效应指标,其样本含量估计应对每个效应指标进行样本量的估计,然后取样本数量最大者为其研究的样本量。,若某研究能区分主要指标和次要指标时,也可以只对主要指标进行样本含量估计,然后取量大者为其研究的样本含量。,3.,多种估计条件,尽可能将多样本含量估计方法联合使用,并且在使用计算法估算时,可多做几种估算方案,以便选择。,如:不同的,、,、,等条件组合下,估计其样本含量。,4.,与研究目的结合,根据研究目的,严格选择估算样本含量的方法,如单、双侧不同,估计参数与假设检验不同,一般假设检验与等价检验不同,样本率超过与位于,0.3-0.7,(,0.2-0.8,)范围不同,,t,检验与,u,检验不同等。,5.,估计的适用条件,目前,国内有关书籍提供的样本含量计算公式,主要适用于临床试验,而并非适用于其他医学实验,如动物实验。,动物实验的样本含量可以参考临床试验的样本含量,并在此基础上适当减少其数量。,五、数值变量的样本含量估计简介,两均数比较的估算,实例分析(例数相等,),欲研究某新药降低高血脂患者的胆固醇疗效,研究者认为试验组与安慰剂组比较,其血清胆固醇值平均下降,0.5mmol/L,才有临床意义,查阅文献得血清胆固醇值的标准差为,0.8mmol/L,且规定两组例数相等,且,=0.05,,,=0.10,(,power=0.90,),该研究所需的样本含量为多少?,计算结果,例数不相等,实例分析(例数不等),某医院研究吲螨酰胺治疗原发性高血压的疗效,经预试验得治疗前后舒张压差值(,kPa,)资料如下,若,=0.05,,,=0.10,时需治疗多少例?,均数,标准差,吲螨酰胺,2.28,1.09,安慰剂,1.32,0.40,计算结果,六、分类变量的样本含量估计简介,两个率比较的估算,实例分析(例数相等),用旧的治疗方案治疗慢性肾炎的控制率为,30%,,现用新的治疗方案治疗慢性肾炎,其控制率应大于,50%,才有临床意义,若取两组例数相等,且,=,0.05,、,=0.10,(,power=0.9,),问每组需多少例数?,计算结果,例数不等,实例分析(例数不等),某医师研究某药对产后宫缩痛、外阴创伤痛效果,预试验旧药镇痛率为,55%,,新药镇痛率为,75%,,当,=,0.05,,,=,0.10,时需观察多少例能说明新药镇痛效果优于旧药?,计算结果,样本含量与统计分析特例,1,、分子、细胞、组织水平的研究:专业判定样本含量,不计算、不必假设检验。,2,、药物临床试验:就高不就低。,3,、特小样本:报告绝对数,如治疗,5,人,治愈,4,人,4,、特大样本:专业上判定,不作假设检验(不适用)。,5,、检验效能:要用调和均数,
展开阅读全文