资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学统计学及其软件包,上海第二医科大学,生物统计教研室,第一章 绪论,第一节 医学统计学,数学 ,统计学 ,医学统计学,第一节 医学统计学,1.统计学(statistics):收集,整理和分析,带有随机性,的数据。,2.医学统计学(medical statistics):统计学的原理和方法在医学和生物学中的应用。,第一节 医学统计学,医学统计学的主要内容有:,1.统计研究设计,2.统计描述,3.统计推断,4.研究联系,5.研究分类,鉴别,6.研究检测,统计研究设计,1.估计研究对象的数量(样本大小估计),2.跟据研究目的确定对照的类型,3.保证随机化和双盲原则的贯彻,4.跟据研究目的确定主要和次要考核指标,5.如何收集和汇总数据以保证数据质量,6.如何进行统计分析,统计研究设计,1调查研究或观察性研究(observational study),2实验研究(experimental study),统计描述,(statistical discription),统计描述指用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述。,统计推断,(statistical inference),统计推断指用样本推断总体。,总体(population):一个统计问题所研究对象的全体。,总体中每一个研究对象称为个体(individual)。,有限总体:有确定的时间和空间范围,总体内观察单,位是有限的。,无限总体:没有时间和空间范围限制,因而观察单位,数无限。,样本(sample):按,随机的方式,从总体中抽取若干个,体构成一个样本。,参数(parameter):用于描述总体分布的数字特征,的量。如:,,,统计量(statistics):不包含总体中任何未知参数的,样本指标和样本数据的函数。如:,S,P,统计推断,(statistical inference),1.参数估计(estimation of parameter),根据总体中所抽得的样本,由样本统计量估计总体分布中的未知参数。可分为点估计和区间估计。,1)点估计(point estimation):选择一个适当的样本统计量作为总体参数的估计值称为点估计。,统计推断,(statistical inference),统计推断,(statistical inference),2)区间估计(interval estimation):根据一定的精确度要求,确定一个概率水平,由样本统计量计算出一个适当的区间作为未知总体参数真值所在的范围,称为区间估计。称此概率水平为可信度,或置信度,或可信水平,或置信水平(confidence level)。所估计的区间称为可信区间或置信区间(confidence interval),区间的端点称为可信限(confidence limit),有上限,下限之分。,例如,估计用某方法治疗某病的治愈率。从患某病的病人总体中随机抽得100例病人进行治疗,治愈50例,则可得样本治愈率为50%。总体治愈率的点估计为50%。总体治愈率区间估计,当可信度为95%时,总体治愈率的95%可信区间为40%60%。当可信度为99%时,总体治愈率的99%可信区间为37%63%。,统计推断,(statistical inference),统计推断,(statistical inference),统计推断(statistical inference),2.假设检验(hypothesis testing),又称显著性检验(significance testing)。先对总体的参数或分布作出某种假设,例如总体为正态分布,两个总体均数相等,两总体率相等,然后检验这个假设成立的可能性大小,作出推断,。,统计推断(statistical inference),统计推断(statistical inference),无效假设(null hypothesis)H,0,:,1,2,备择假设(alternative hypothesis)H,1,:,1,2,然后根据检验假设,1,2,70%,成立的情况,下,计算由于抽样误差得到目前样本及更极端情况,的可能性大小。本例用卡方检验,得到检验统计量,2,=9.524,根据检验统计量的分布计算概率(可,能性大小)P值,P=0.002,可能性很小。,统计推断(statistical inference),概率论认为:在一次试验中小概率事件不可能发生。,在统计中,一般公认为P0.05为小概率。本例P=0.0020.05,因此可认为假如,1,2,,即使抽样误差也不可能得到目前样本,于是检验假设,1,2,不成立;与检验假设对立的备择假设成立,即,1,2,,A药组的总体有效率不同于B药组的总体有效率,从本例情况,A药组的总体有效率大于B药组的总体有效率。,统计推断(statistical inference),如果本例用卡方检验,得到其可能性大小P=0.08,0.05,这个概率不是很小,有可能检验假设,1,2,,成立的情况下,由于抽样误差得到目前样本,,所以不能拒绝检验假设。,总结假设性检验的过程。,(1)建立H,0,,H,1,和确定显著性水准(significance level,用表示,常取0.05),(2)选择合适的统计检验方法,计算统计量。,(3)根据检验统计量的分布计算概率P值,根据P值,作出统计的推断结论。,统计推断,(statistical inference),P值:根据H,0,规定的总体情况,作随机抽样,获得,大于等于现有样本统计量值的概率。,如果P0.05,则不拒绝H,0,;0.01P0.05,则在,=0.05水平上,拒绝H,0,;P0.01 则在=0.01水,平上,拒绝H,0,。,假设检验的特点:,(1),反证法。,(2)结论是概率性的,不是绝对的肯定或否定,有,犯错误的可能性,假设检验时应注意的问题,1.要有严密的抽样研究设计,保证样本的随机性,组间的均衡性和可比性:除了对比的主要因素外其它影响结果的因素也应可比。或能在资料处理时消除其影响。,2.选用的假设检验方法应符合其应用条件。,研究变量的类型不同,设计类型不同,是大样本还是小样本等,所用假设检验的方法也不同。,3.正确理解检验假设和备择假设,以两样本均数差异的显著性检验为例。,正确的写法:,H,0,:两总体均数相等 H,1,:两总体均数不相等,以下是错误的写法。,H,0,:两样本均数相等 H,1,:两样本均数不相等,H,0,:两总体均数无显著差异 H,1,:两总体均数有显著差异,H,0,:两样本均数无显著差异 H,1,:两样本均数有显著差异,假设检验时应注意的问题,假设检验时应注意的问题,4.正确理解差别有无显著性的统计意义,写好统计结论,过去习惯:,P0.05,两样本均数无显著差异,P0.05,两样本均数有显著差异,P0.05,两样本均数的差异无统计学意义(P0.05),P0.05,两样本均数的差异有统计学意义(P0.05),P0.01,两样本均数的差异有统计学意义(P0.01),最好给出具体的P值,如P 0.0345,注意:,“两样本均数的差异”,而不是“两总体均数的差异”,从,两样本均数的差异有统计学意义(P 0.0345),可,推断出两总体均数有差异,其结论错误的可能性为3.45%,假设检验时应注意的问题,两类误差,第一类误差常是可控制的,=0.05,P0.05。,第二类误差常未知。但也可根据样本数据计算得到。,1-又称为检验的效能(Power of Test),H,0,不成立时拒绝H,0,的概率。,检验效能(Power of Test),影响效能的四要素,(1)客观上两种药物效应差异越大,效能,越大。,(2)个体间标准差越小,效能越大。,(3)样本量越大,效能越大。,(4)第类误差的概率越大,效能越,大。,同时降低两类误差的唯一办法是加大样本。,检验效能(Power of Test),例:一项关于降血压药的临床试验分设两组随机样本,各含15例。一组服用常规药,另一组服用新药。如果新药的降压效果至少比常规药平均高出0.8kPa方可考虑在临床推广;据以往经验,不论常规药还是这种新药,个体降压值的标准差约为1kPa。经0.05水平的两组均数比较的统计检验,两组平均降压效果的差异尚无统计学意义,此事如何理解?,检验效能(Power of Test),经计算:0.2912,1-0.7088,可见,如果新药的降压,效果比常规药高出0.8kPa,只有70.88%的机会被此检验认可,;如果比常规药高出的数值还不如0.8kPa,则被埋没的机会更,大,必须加大样本量。如取0.01,则得n59,即两组各,含59例时,如果新药的降压效果比常规药高出0.8kPa,有,99%的机会可检验出差异有统计学意义。,如取0.10,则得n41,如取,0.20,则得n25,检验效能(Power of Test),例 一项关于维生素C预防感冒作用的研究随机抽取两组正常人各30名,一组服用维生素C,另一组服用安慰剂,欲比较一定时期内发生感冒的频率。结果,安慰剂组有6人发生感冒,维生素C组有3人发生感冒,经0.05水平的检验,差异无统计学意义,此事如何理解?,经计算:0.7071,1-0.2929,检验效能(Power of Test),可见,此项研究的效能只有29.29%。换言之,若维,生素C 能使发生感冒的机会减为10%,此项研究只有,29.29%的机会发现这一差异性,约70%的机会给出,阴性的结果。,如取0.01,则得n461,此项研究需要每组各461名受试者。每组各30例是远远不够的。,单侧检验和双侧检验,双侧检验(two-tailed test)H,0,:,1,=,2,H,1,:,1,2,单侧检验(one-tailed test)H,0,:,1,=,2,H,1,:,1,2,(或H,1,:,1,2,),单侧检验和双侧检验,单侧检验和双侧检验,单侧检验如果误认为是双侧的,就不易拒绝H,0,双侧检验如误用单侧就较易拒绝H,0,必须根据实际问题本身决定使用单侧还是双侧。通常进行的都为双侧检验;进行单侧检验时必须特别说明,要有充分的理由(另一侧为不可能),并且在实验设计阶段就要预先规定好。,研究联系,分类鉴别研究,检测研究,第二节 一些基本概念,资料的类型,数值变量计量资料,分类变量-二分类变量,计数资料,无序多分类变量,有序多分类变量等级资料,自由度,(degree of freedom),泛指事物在N维空间中能自由活动的维数。,在数学上自由度是指能自由取值的变量个数。,自由度,(degree of freedom),第三节 几种主要的分布,二项分布,(binomial distribution),二项分布常用于描述二分类变量的分布。,二项分布主要用于率的统计推断,如总体率的估计,,样本率与总体率的比较,两样本率的比较,还可用于,两分类变量的统计分析,如logistic回归等。,正态分布,(normal distribution),正态分布特征:呈钟形,以均数为中心,左右对称。,正态分布(normal distribution),均数:位置参数,增大,曲线向右移动。,标准差:形状参数,增大,数据分散,曲线,低平;减小,数据集中,曲线高尖。,记为 N(,2,),标准正态分布:u,N(0,1),正态曲线下面积分布规律:,(1.96)(1.96)占95%,双侧尾,部各占2.5%。,(2.58)(2.58)占99%,双侧尾,部各占0.5%。,正态分布(normal distribution),正态分布的重要性,1.正态分布是很多统计方法的理论基础,很多统 计方法要求样本来自正态分布的总体。,2.某些分布,如二项分布等的极限为正态分布,当样本量较大时可按正态近似的方法来处理。,3.不少医学资料服从正态分布或近似正态分布,有的呈偏态分布的医学资料可经过变量变换转 换为正态分布。,4.正态曲线下面积分布规律可用于医学正常值
展开阅读全文