资源描述
Click to edit Master title style,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,第四军医大学卫生统计学教研室,Sunday, September 22, 2024,第五章 计数资料的统计学推断,第一节 率的抽样误差与可信区间,第二节 率的统计学推断,一、样本率与总体率比较的,u,检验,二、两个样本率比较的,u,检验,第三节 卡方检验,一、卡方检验的基本思想,二、四格表专用公式,三、连续性校正公式,四、配对四格表资料的,2,检验,五、行,列(,R,C,)表资料的,2,检验,计数资料的统计学推断,第一节 率的抽样误差与可信区间,一、率的抽样误差与标准误,二、总体率的可信区间,一、 率的抽样误差与标准误,样本率,(,p),和总体率,(,),的差异称为率的,抽样误差,(sampling error of rate),,用,率的标准误,(,standard error of rate,),度量。,如果总体率,未知,用样本率,p,估计,标准误的计算,二、 总体率的可信区间,总体率的可信区间,(confidence interval of rate),:,根据样本率推算总体率可能所在的范围,第二节 率的统计学推断,一、样本率与总体率比较,u,检验,二、两个样本率的比较,u,检验,一、样本率与总体率比较的,u,检验,u,检验的条件:,n p,和,n,(,1- p,),均大于,5,时,二、两个独立样本率比较的,u,检验,表,5-1,两种疗法的心血管病病死率比较,疗法,死亡,生存,合计,病死率,(%),盐酸苯乙双胍,26 (,X,1,),178,204(,n,1,),12.75 (,p,1,),安慰剂,2 (,X,2,),62,64(,n,2,),3.13 (,p,2,),合 计,28,240,268,10.45 (,p,c,),u,检验的条件:,n,1,p,1,和,n,1,(,1- p,1,),与,n,2,p,2,和,n,2,(,1- p,2,),均,5,小 结,1,样本率也有抽样误差,率的抽样误差的大小用,p,或,S,p,来衡量。,2,率的分布服从二项分布。当,n,足够大,,和,1-,均不太小,有,n,5,和,n,(,1-,),5,时,近似正态分布。,3,总体率的可信区间是用样本率估计总体率的可能范围。当,p,分布近似正态分布时,可用正态近似法估计率的可信区间。,4,根据正态近似原理,可进行样本率与总体率以及两样本率比较的,u,检验。,率的,u,检验能解决以下问题吗?,率的反应为生与死、阳性与阴性、发生与不发生等二分类变量,如果二分类变量为非正反关系(如治疗,A,、治疗,B,);反应为多分类,如何进行假设检验?,率的,u,检验要求:,n,足够大,且,n,5,和,n,(,1-,),5,。如果条件不满足,如何进行假设检验?,第三节 卡方检验,2,检验,(Chi-square test),是现代统计学的创始人之一,英国人,K . Pearson,(,1857-1936,)于,1900,年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。,本章仅限于介绍两个和多个率或构成比比较的,2,检验。,一、卡方检验的基本思想,(1),疗法,死亡,生存,合计,病死率,(%),盐酸苯乙双胍,26 (,a,),178 (,b,),204(,a,+,b,),12.75 (,p,1,),安慰剂,2 (,c,),62 (,d,),64(,c,+,d,),3.13 (,p,2,),合 计,28 (,a+c,.,),240(,b+d,.,),268(,a,+,b,+,c,+,d=n,),10.45 (,p,c,),表,5-1,两种疗法的心血管病病死率的比较,2,2,表或四格表,(fourfold table),实际频数,A,(actual frequency),(,a,、,b,、,c,、,d,),的,理论频数,T,(,theoretical frequency),(,H,0,:,1,=,2,=,):,a,的理论频数,(,a,+,b,),p,c,= (,a,+,b,)(,a+c,.,)/,n,=,n,R,n,C,/n,=21.3,b,的理论频数,(,a,+,b,)(1-,p,c,)= (,a,+,b,)(,b+d,.,)/,n, =,n,R,n,C,/n,=182.7,c,的理论频数,(,c,+,d,),p,c,= (,c,+,d,)(,a,+c,)/,n, =,n,R,n,C,/n,=6.7,d,的理论频数,(,c,+,d,)(1-,p,c,)= (,c,+,d,)(,b+d,.,)/,n, =,n,R,n,C,/n,=57.3,一、卡方检验的基本思想,(2),各种情形下,理论与实际偏离的总和即为卡方值(,chi-square value,),它服从自由度为,的卡方分布。,3.84,7.81,12.59,P,0.05,的临界值,2,分布,(,chi-square distribution,),2,检验的基本公式,上述,基本公式,由,Pearson,提出,因此软件上常称这种检验为,Peareson,卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行,列表”。,二、四格表专用公式(,1,),为了不计算理论频数,T,可由,基本公式,推导出,,直接由各格子的实际频数(,a,、,b,、,c,、,d,)计算卡方值的公式:,二、四格表专用公式(,2,),2,(1),u,2,2.1949,2,4.82,(,n40,,所有,T,5,时,),三、连续性校正公式(,1,),2,分布是一连续型分布,而行,列表资料属离散型分布,对其进行校正称为连续性校正,(correction for continuity),又称,Yates,校正(,Yates correction,)。,当,n,40,,,而,1,T,5,时,用,连续性校正,公式,当,n,40,或,T,1,时,用,Fisher,精确,检验,(Fisher exact test ),校正公式,:,三、连续性校正公式(,2,),因为,1,T,5,,且,n,40,时,所以应用连续性校正,2,检验,四、配对四格表资料的,2,检验,配对四格表资料的,2,检验也称,McNemar,检验(,McNemars,test,),H,0,:,b,,,c,来自同一个实验总体(两种剂量的毒性无差异);,H,1,:,b,,,c,来自不同的实验总体(两种剂量的毒性有差别);,=0.05,。,配对四格表资料的,2,检验公式推导,五、行,列(,R,C,)表资料的,2,检验,R,C,表的,2,检验通用公式,几种,R,C,表的检验假设,H,0,R,C,表的计算举例,R,C,表,2,检验的应用注意事项,1.,对,RC,表,若较多格子(,1/5,)的理论频数小于,5,或有一个格子的理论频数小于,1,,则易犯第一类错误。,出现某些格子中理论频数过小时怎么办?,(,1,),增大样本含量,(最好!),(,2,),删去,该格所在的行或列(丢失信息!),(,3,)根据,专业知识,将该格所在行或列与别的行或列,合并,。(丢失信息!甚至出假象),R,C,表,2,检验的应用注意事项,2.,多组比较时,若效应有强弱的等级,如,+,,,+,,,+,,最好采用后面的非参数检验方法。,2,检验只能反映其构成比有无差异,不能比较效应的平均水平。,3.,行列两种属性皆有序时,可考虑趋势检验或等级相关分析。,
展开阅读全文