样本量估算的统计学方法LC骆

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,8,、样本量估算的统计学方法,骆福添公共卫生学院,参考教材：,生物医学研究的统计方法,主编：方积乾，,2007,，高等教育出版社,一、临床研究为什么需要估计样本含量,复习,1,：统计学三大任务与三大规则,任务：,描述,样本特征、,估计,总体参数、检验总体差别,规则：（必须考虑）,数据,类型、,分布,类型、,对比,类型,1.,统计描述,任务,例：某样本个体分布的,集中,趋势与,离散,趋势怎样？,（,1V,点，,2V,线，,3,面,.,影子,_,线）,数据,：计数（,%,），定量（平均数），等级（平均,Ridit,值）,分布,：正态,(Mean,，,SD,，,95%CR,),，对数正态,(G),，偏态,(M,Q/R,，,P,2.5,P,97.5,),（双,/,多变量,-,相关回归）,对比,：变量,=,两组观察值（各组均数与标准差），变量,=,差值（差值的均数与标准差）,2.,置信区间,任务,例：某总体指标在哪一区间？,（借鉴反推）,数据,：计数（直接法,/,正态近似），计量（正态法），等级（正态近似）,分布,：正态（正态法），对数正态,(,lg,值置信区间,),，偏态（百分位数法）,对比,：变量参数置信区间，差值参数置信区间（临床试验）,3.,假设检验,任务,例：某,2,个总体指标相同？,（,直接应用概率分布,）,数据,：计数（正态近似法,u,卡方），计量（均数检验），等级（秩和检验）,分布,：正态（,u,t,），对数正态（,lg,值,t,检验），偏态（秩和检验）,对比,：组间比较（,u,t,H,），与总体比较（,u,t,H,）,统计推断中的误差估计,最基本公式：,误差,=,个体变异程度,/,n,的平方根,均数误差,=,标准差,/,sqrt(,n,),率的误差,=,sqrt,p,(1-,p,)/,n,n,大小举例,1,、,n,=3,，三个克隆,2,、女大学生,33%,自动退学？,n,=,？,3,、,n,1,=20,，,n,2,=100,，,n,=,？,4,、,1987,年某产科医师为研究胎次与儿童智力的关系，收集病案资料（考上大学人数）：第一胎,19,人、第二胎,18,人、第三胎,10,人、第四胎,7,人、第五胎,4,人。由此得出结论：智力与胎次有关，胎次愈多智力愈差，第一胎智力最好。,n,=,？,可重复原则,样本含量（,Sample,）的估计是临床研究科学设计的重要内容。,可重复性，是指任何科学研究必须遵守的原则，其目的是要排除偶然因素的影响，得出科学的、真实的、规律性的结论。,样本含量的大小,在临床研究中，样本含量越小，其抽样误差越大。,若样本含量不足，可重复性差，检验效能低，不能排除偶然因素的影响，其结论缺乏科学性、真实性。,若样本含量过大，试验条件难以严格控制，容易造成人力、物力和时间上的浪费。,估计样本含量的目的,在保证某个临床试验,/,临床研究的结论具有一定科学性、真实性和可靠性前提下，确定某研究所需的,最小观察例数,。,二、估计样本含量的方法,两大类方法,1,、,公式法，可满足多种设计的要求，目前应用广泛。,2,、,查表法，简单、方便，但受条件限制，有时不一定完全适应。,三、估计样本含量的步骤,1,、确定设计方法,任何临床试验，其设计方案是首先需要确定的，而样本含量的估计也是在设计方案基础上的。不同的临床科研设计方法，其样本含量的估计方法不相同,2,、确定资料类型,当临床试验的设计方案确定后，需要确定临床试验所得数据的类型，例如，,计量,（数值）、,计数,（无序分类）、,等级,（有序分类），因为样本含量估计方法与数据类型有关,3,、考虑统计方法,样本含量的估计还要与以后将要使用的统计方法的条件相结合。如,单因素分析,、,相关与回归,、,多因素分析,等。目前样本含量估计的公式计算主要针对单因素分析，而多因素分析的例数估计请参考有关书籍,4,、确定基本参数,在各种临床科研设计方法的样本含量估计中，需要研究者事先确定的条件有：,第一类错误的概率,，第二类错误概率,，容许误差,。,若终点指标为数值变量时，还需要研究者确定总体标准差,。,若终点指标为分类变量时，有时需要研究者确定总体率,。,（,1,）确定第一类误差的概率,所有样本含量估计公式中，都需要,u,的值，研究者确定检验水准（,）的大小后，查表得,u,值。,有,单侧,与,双侧,之分，单侧,的,u,小于双侧,u,值，所以按单侧计算的样本含量小于双侧。,越小所需样本含量越大，反之越小，一般取,0.05,样本含量计算中，需要,u,的值，即研究者确定,大小后，查表的,u,值。,确定,大小，主要是要确定检验效能（,Power,），用,1-,表示其概率的大小，检验效能是指总体间确有差别时，假设检验能发现这种差别的能力大小。,为第二类误差的概率，,值越小，检验效率越高，所需样本量也就越大，通常,=0.1,或,=0.2,。一般认为检验效率不能小于,0.7,。,（,2,）确定第二类误差的概率,（,3,）确定容许限或插座,即有临床意义或研究意义的,最小差值,。,若为数值变量时，,可为有临床意义的均数差值、实验前后之差等。,若为分类资料，,可为有临床意义的有效率、患病率等率之差。,（,4,）确定总体标准差,总体率,若研究的终点指标为数值变量时，总体标准差,为估计样本含量所必须的条件。,若研究的终点指标为分类变量时，有时，总体率,为估计样本含量条件。,若总体标准差,和总体率,，常常通过文献检索、预试验或对研究作出合理的假设来获得。,5,、计算样本含量,用按设计方案、资料类型及可能涉及的统计分析方法来选择样本含量的计算方法（,查书,），也可以利用统计软件帮助完成样本含量的计算。,6,、校正样本含量,由于估算的样本含量是最少需要量，考虑到受试者可能有不合作者、中途失访、意外死亡等情况出现，而减少有效观察对象的例数（,失访,），因此，应该在估算的样本含量增加若干样本例数。,通常，失访人数不得大于,20%,。,四,、样本含量估计的注意事项,1.,组间例数相等,成组设计的例数，应尽可能采用例数相等的设计，尤其是多组设计时，一般要求各组间的样本含量相等，只有在某些特殊情况下才考虑各组的样本含量不相等。,2.,多指标估算,若某研究有多个效应指标，其样本含量估计应对每个效应指标进行样本量的估计，然后取样本数量最大者为其研究的样本量。,若某研究能区分主要指标和次要指标时，也可以只对主要指标进行样本含量估计，然后取量大者为其研究的样本含量。,3.,多种估计条件,尽可能将多样本含量估计方法联合使用，并且在使用计算法估算时，可多做几种估算方案，以便选择。,如：不同的,、,、,等条件组合下，估计其样本含量。,4.,与研究目的结合,根据研究目的，严格选择估算样本含量的方法，如单、双侧不同，估计参数与假设检验不同，一般假设检验与等价检验不同，样本率超过与位于,0.3-0.7,（,0.2-0.8,）范围不同，,t,检验与,u,检验不同等。,5.,估计的适用条件,目前，国内有关书籍提供的样本含量计算公式，主要适用于临床试验，而并非适用于其他医学实验，如动物实验。,动物实验的样本含量可以参考临床试验的样本含量，并在此基础上适当减少其数量。,五、数值变量的样本含量估计简介,两均数比较的估算,实例分析（例数相等,),欲研究某新药降低高血脂患者的胆固醇疗效，研究者认为试验组与安慰剂组比较，其血清胆固醇值平均下降,0.5mmol/L,才有临床意义，查阅文献得血清胆固醇值的标准差为,0.8mmol/L,且规定两组例数相等，且,=0.05,，,=0.10,（,power=0.90,），该研究所需的样本含量为多少？,计算结果,例数不相等,实例分析（例数不等）,某医院研究吲螨酰胺治疗原发性高血压的疗效，经预试验得治疗前后舒张压差值（,kPa,）资料如下，若,=0.05,，,=0.10,时需治疗多少例？,均数,标准差,吲螨酰胺,2.28,1.09,安慰剂,1.32,0.40,计算结果,六、分类变量的样本含量估计简介,两个率比较的估算,实例分析（例数相等）,用旧的治疗方案治疗慢性肾炎的控制率为,30%,，现用新的治疗方案治疗慢性肾炎，其控制率应大于,50%,才有临床意义，若取两组例数相等，且,=,0.05,、,=0.10,（,power=0.9,），问每组需多少例数？,计算结果,例数不等,实例分析（例数不等）,某医师研究某药对产后宫缩痛、外阴创伤痛效果，预试验旧药镇痛率为,55%,，新药镇痛率为,75%,，当,=,0.05,，,=,0.10,时需观察多少例能说明新药镇痛效果优于旧药？,计算结果,样本含量与统计分析特例,1,、分子、细胞、组织水平的研究：专业判定样本含量，不计算、不必假设检验。,2,、药物临床试验：就高不就低。,3,、特小样本：报告绝对数，如治疗,5,人，治愈,4,人,4,、特大样本：专业上判定，不作假设检验（不适用）。,5,、检验效能：要用调和均数,

展开阅读全文

样本量估算的统计学方法LC骆

最新文档