资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,非参数检验,SAS,应用,蒋红卫,Email:JHWCCC21CN.COM,学习目标,了解非参检验的优缺点及应用范围;,熟息非参数检验几种基本类型和检验的基本方法;,掌握编秩基本步骤,平均秩的计算及相等秩的校正。,配对及单样本秩和检验;,两组样本比较的秩和检验;,多组样本比较的秩和检验及两两比较;,等级分组资料的非参数检验;,随机区组设计资料比较的秩和检验及两两比较。,概述,比较两个总体间的差异,我们比较熟悉的是可依据总体方差是否已知,选择使用正态,Z,检验或,t,检验法。但如果有明显的证据表明,这些参数型检验法不能使用时又该如何呢?非参数检验法对此提供了解决方案。,作为参数检验的一种推广,非参数检验有何特点?它的使用有什么样的要求?本章首先对非参数检验进行概述,接着按照和参数检验对应的原则分别介绍用于两组比较的非参数检验法、用于多组比较的非参数检验法以及等级相关检验(秩相关)。,概述,参数检验是在已知总体分布的条件下(一般要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验,有时还要求某些总体参数满足一定条件。如独立样本的检验和方差分析不仅要求总体符合正态分布,还要求各总体方差齐性。,非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一般性假设(如总体分布的位置是否相同,总体分布是否正态)进行检验。,概述,非参数检验方法简便,不依赖于总体分布的具体形式因而适用性强,但灵敏度和精确度不如参数检验。一般而言,非参数检验适用于以下三种情况:顺序类型的数据资料,这类数据的分布形态一般是未知的;虽然是连续数据,但总体分布形态未知或者非正态,这和卡方检验一样,称自由分布检验;总体分布虽然正态,数据也是连续类型,但样本容量极小,如,10,以下(虽然检验被称为小样本统计方法,但样本容量太小时,代表性毕竟很差,最好不要用要求较严格的参数检验法)。因为这些特点,加上非参数检验法一般原理和计算比较简单,因此常用于一些为正式研究进行探路的预备性研究的数据统计中。当然,由于非参数检验许多牵涉不到参数计算,对数据中的信息利用不够,因而其统计检验力相对参数检验也差得多。,单组资料的符号及符号秩和检验,单样本资料与已知总体符号秩和检验的检验步骤如下:,求差值:求样本资料中单个个体数据与总体中位数的差值。,检验假设,H0,:差值的总体中位数等于零,即,H1,:差值的总体中位数不等于零,即,编秩按差值的绝对值由小到大编秩,并按差值的正负给秩次加上正负号。编秩时,若差值为,0,,舍去不计;若差值的绝对值相等,这时取平均秩次。,求秩和,并确定统计量,T,将所排的秩次冠以原差数的符号,分别求出正、负差值秩次之和,分别以,T,+,和,T,-,表示。,单组资料的符号及符号秩和检验,编秩按差值的绝对值由小到大编秩,并按差值的正负给秩次加上正负号。编秩时,若差值为,0,,舍去不计;若差值的绝对值相等,这时取平均秩次。,求秩和,并确定统计量,T,将所排的秩次冠以原差数的符号,分别求出正、负差值秩次之和,分别以,T,+,和,T,-,表示。,单组资料的符号及符号秩和检验,在,H,0,成立时,如果当观察例数比较多,正差值的秩和与负差值的秩和理论上应相等,即使有些差别,也只能是一些随机因素造成的。换句话说,如果,H,0,成立,一份随机样本中,“,不太可能,”,出现正差值的秩和与负差值的秩和相差悬殊的情形;如果样本的正差值的秩和与负差值的秩和差别太大,我们有理由拒绝,H,0,,接受,H,1,,即认为两种处理效应不同;反之,没有理由拒绝,H,0,,还不能认为两种处理效应不同。,单组资料的符号及符号秩和检验,双侧检验时,以绝对值较小者为统计量,T,值,即,T,=min(,T,+,T,-),;单侧检验时,任取正差值的秩和或负差值的秩和为统计量,T,。记正、负差值的总个数为,n,(即,n,为差值不等于,0,的对子数),则,T,+,与,T,-,之和为,n(n+1)/2,。,确定,P,值和作出推断结论,查表法(时)查,T,界值表,若检验统计量,T,值在上、下界值范围内,其,P,值大于相应的概率水平;若,T,值在上、下界值上或范围外,则,P,值小于相应的概率水平。,单组资料的符号及符号秩和检验,正态近似法(,n,50,时)这时可利用秩和分布的正态近似法作出判断。已知,H,0,成立时,近似地有,其中,,统计量的计算公式为:,例题单样本,已知某地正常人尿氟含量的中位数为,45.30,。今在该地某厂随机抽取,12,名工人,测得尿氟含量。问该厂工人的尿氟含量是否高于当地正常人的尿氟含量?,配对设计资料的非参数检验,配对设计有两种情况:一种是同对的两个受试对象分别给予两种处理,目的是推断两种处理的效果有无差别。如取同窝别、体重相近的,2,只动物配对。临床试验疗效比较时,常将病种、病型、病情及其它影响疗效的主要因素一致的病人配成对子,以构成配对的研究样本。另一种是同一受试对象处理前后的比较,目的是推断该处理有无作用。例如观察某指标的变化,用同一组病人治疗前后作比较;用同一批动物处理前后作比较;或用同一批受试对象的不同部位、不同器官作比较等,也属于配比试验。,配对设计资料的非参数检验,配对设计资料一般采用配对,t,检验方法进行分析,但若配对数据差数的分布非正态分布,但其总体分布基本对称,则可采用符号秩检验作为配对,t,检验的替代方法。符号秩检验功效很高,在数据满足配对,t,检验的要求时,符号秩检验的功效可达配对,t,检验功效的,95%,。,配对设计资料的非参数检验,配对设计资料的检验步骤为:,求差值求各对数据 的差值 ;,检验假设,H,0,:差值的总体中位数等于零,即,H,1,:差值的总体中位数不等于零,即,编秩按差值的绝对值由小到大编秩,并按差值的正负给秩次加上正负号。编秩时,若差值为,0,,舍去不计;若差值的绝对值相等,取平均秩次。,求秩和并确定统计量,T,将所排的秩次冠以原差数的符号,分别求出正、负差值秩次之和,分别以,T,+,和,T,-,表示。,配对设计资料的非参数检验,在,H,0,成立时,如果当观察例数比较多,正差值的秩和与负差值的秩和理论上应相等,即使有些差别,也只能是一些随机因素造成的。换句话说,如果,H,0,成立,一份随机样本中,“,不太可能,“,出现正差值的秩和与负差值的秩和相差悬殊的情形;如果样本的正差值的秩和与负差值的秩和差别太大,我们有理由拒绝,H,0,,接受,H,1,,即认为两种处理效应不同;反之,没有理由拒绝,H,0,,还不能认为两种处理效应不同。,配对设计资料的非参数检验,统计量,双侧检验时,以绝对值较小者为统计量,T,值,即,T,=min(,T,+,,,T,-),;单侧检验时,任取正差值的秩和或负差值的秩和为统计量,T,。记正、负差值的总个数为,n,(即,n,为差值不等于,0,的对子数),则,T,+,与,T,-,之和为,n(n+1)/2,。,确定,P,值和作出推断结论。,例题配对设计,对,12,份血清分别用原方法(检测时间,20,分钟)和新方法(检测时间,10,分钟)测谷,-,丙转氨酶。问两法所得结果有无差别?,成组设计资料,的非参数检验,Wilcoxon,秩和检验,用于推断计量资料或等级资料的两个样本所来自的两个总体分布是否有差别。在理论上假设,H0,应为两个总体分布相同,即两个样本来自同一总体。由于秩和检验对于两个总体分布的形状差别不敏感,对于位置相同、形状不同但类似的两个总体分布,推断不出两个总体分布有差别,故对立的备择假设,H1,不能认为两个总体分布不同,而只能为两个总体分布位置不同。,不管两个总体分布的形状有无差别,秩和检验的目的是推断两个总体分布的位置是否有差别,这正是实践中所需要的,如要推断两个不同人群的某项指标值的大小是否有差别或哪个人群的大,可用其指标值分布的位置差别反映,而不关心其指标值分布的形状有无差别。,成组设计资料,的非参数检验,求检验统计量,T,值:把两样本数据混合从小到大编秩,遇数据相等者取平均秩;以样本例数小者为,n1,,其秩和(,T1,)为,T,,若样本例数相等,可取任一样本的秩和(,T1,或,T2,)为,T,。,确定,P,值,作出推断结论:当,n110,和,n2-n110,时,查,T,界值表。若,T,值在界值范围内,其,P,值大于相应概率水平;若,T,值刚好等于界值,其,P,值等于相应概率水平;若,T,值在界值范围外,其,P,值小于相应概率水平。,若,n110,或者,n2-n110,,超出界值表的范围,可用正态近似法作检验,令,n1,n2=N,,按下式计算值。,成组设计资料,非参数检验的,SAS,程序,SAS,中对于非参数分析方法功能的实现主要由,npar1way,过程来完成,,npar1way,过程属于,SAS,的,STAT,模块,对于统计学上所涉及的非参数统计方法几乎都可以通过此过程完成。,Npar1way,过程的基本语句格式如下:,PROC NPAR1WAY,;,BY,变量名,;,CLASS,变量名,;,EXACT,统计量选项,;,FREQ,变量名,;,OUTPUT,;,VAR,变量名,;,RUN;,成组设计资料,非参数检验的,SAS,程序,DATA=,数据集名:指定要进行分析的数据集;,MEDIAN,:运用中位数评分进行分析,即进行中位数检验,NOPRINT,:禁止所有的输出,用在仅需要创建输出数据集时;,ST,:运用,Siegel-Tukey,评分进行分析;,ANOVA,:对原始数据进行方差分析;,EDF,:要求计算基于经验分布的统计量;,MISSING,:指定分组变量的缺失值为一有效的分组水平;,SAVAGE,:运用,Savage,评分进行分析;,VW,:运用,Van der Waerden,评分进行分析计算;,成组设计资料,非参数检验的,SAS,程序,CORRECT=NO,:在两样本时,禁止,Wilcoxon,和,Siegel-Tukey,检验的连续性校正过程;,KLOTZ,:运用,Klotz,评分进行分析;,MOOD,:运用,Mood,评分进行分析;,SCORES=DATA,:以原始数据为评分值进行分析;,WILCOXON,:对两样本进行,Wilcoxon,秩和检验,对多样本进行,Kruskal-Wallis,检验;,exact,语句:要求,SAS,对指定的统计量(选项)进行精确概率的计算。其后的统计量选项可为以下项目,分别对应相应的统计计算方式。,成组设计资料,非参数检验的,SAS,程序,AB,,,KLOTZ,,,KS,,,MEDIAN,,,MOOD,,,SAVAGE,,,SCORES=DATA,,,ST,,,WILCOXON,,,VW,等。,运算选项为精确概率的计算过程指定一些控制项目,如选项,“,mc,”,要求以,Monte Carlo,方法计算精确概率。,output,语句:与其它过程中相应的语句大同小异,不同之处在于语句最后的选项。此处的选项绝大多数包括在表,6.1,中,指定在输出数据集中包含所指定项目所对应的统计量。,var,语句:与其它过程的也基本相同,用以指定要进行分析的变量,变量必须为数值型。若省略此语句,,SAS,将对除,by,语句、,class,语句以及,freq,语句中指定的变量之外的所有数值型变量进行分析。,例题成组设计,对,10,例肺癌病人和,12,例矽肺,0,期工人用,X,光片测量肺门横径右侧距,RD,值(,cm,。问肺癌病人的,RD,值是否高于矽肺,0,期工人的,RD,值?,例题两组等级资料,39,名吸烟工人和,40,名不吸烟工人的碳氧血红蛋白,HbCO(%),含量。问吸烟工人的,HbCO(%),含量是否高于不吸烟工人的,HbCO(%),含量?,完全随机设计资料,的非参数检验,这一部分的内容相当于参数检验中的方差分析,依据的方法是,Kruskal-Wallis,秩和检验,此方法的基本思想与,Wilcoxon,秩和检验基本相同,都是基于各
展开阅读全文