研究生统计学讲义第8讲非参数检验与Ridit分析

资源描述

第 11章非参数检验、 Ridit分析第一节非参数统计的意义前面介绍的统计分析方法，通常都要求样本来自的总体分布类型已知 (如样本来自正态分布的总体 )，在这种假设基础上，对总体参数 (如总体均数 )进行估计或检验，称为参数统计 (parametric statistics)。若不知道样本来自的总体分布类型或已知总体分布与检验所要求的条件不符，此时可用非参数统计 (nonparametric statistics)进行假设检验。非参数检验是一种与总体分布无关的统计检验方法，它不比较参数，而是比较分布的位置。常采用“符号” (sign)或 “等级” (rank)来代替数据本身进行分析。例如，秩和检验 (rank sum test)、中位数检验 (median test)等。非参数统计的优点是不受总体分布类型的限制，应用范围广，对数据的要求不象参数检验那样严格，不论定量变量和分类变量均可用非参数检验。非参数检验的不足之处是：对符合用参数统计的资料，用非参数检验 (如两样本均数比较，符合检验条件时，用秩和检验 )，一般犯第二类错误的概率比参数检验大，若要使相同，非参数检验要比参数检验需要更多的样本例数。故适合参数统计条件的资料，一般先选参数检验，若参数检验的应用条件得不到满足，才用非参数检验。用 SPSS11.5进行非参数检验，由主菜单 Analysis下拉菜单中的 Nonparametric tests菜单导出，其中列出了 8 种非参数分析方法： 1.Chi-square test（ 2检验）：用 2检验作同一样本中两个或多个构成比的比较，操作过程如例 8.14，检验变量的几个取值所占百分比和期望的比例有无统计学差异。注意：该检验和一般用的 2 检验不一样，一般的 2检验用 Analyze 中 Descriptive Statistics下拉菜单的 Crosstable完成，而不是这里。具体见 P143E8.15。 2.Binomial Test（二项分布检验）：用于检验所给的变量是否符合二项分布，变量可以是两分类的，也可以是连续性变量，按给出的分界点检验。 3.Runs Test（游程检验）：用于检验某变量值的变化是否随机，是否是围绕着某个数值（如均数、中位数、众数或自定义数值）随机波动。操作过程如 P154例 9.8、 4. 1-Sample K-S Test（即 One-Sample Kolmogorov- Smirnov Test单个样本的柯尔莫哥诺夫 -斯米尔诺夫检验）：用于分析变量是否符合某种分布，可检验 Normal（正态分布）、 Uniform（均匀分布）、 Poisson（ Poission分布）和 Exponential（指数分布）。操作过程如例 3.1(血糖）中所做的探索性分析。 5. 2 Independent-Samples Tests（两个独立样本检验）：完全随机设计的两样本均数比较的非参数检验，操作过程如例 11.3。 6. K Independent Samples（多个独立样本检验）：完全随机设计的多个样本均数比较的非参数检验，操作过程如例 11.5 7、 2 Related-Samples Tests（两相关样本检验）：配对设计两样本均数的非参数检验。操作过程如例 11.1、例 9.1。 8、 K Related Samples Test（多个相关样本检验）：配伍设计多个样本均数的非参数检验，操作如例 11.7 第二节配对设计资料的秩和检验 (Wilcoxon法 ) 所谓秩 (rank), 又称等级 , 实际上就是按数值大小顺序作 1, 2, 3, , 等级的一种编码 . 秩和检验常用于有序分类变量或不符合用参数检验的资料 . 两个或多个有序分类变量 (等级资料 )的比较 , 如临床疗效分为治愈 , 显效，好转 , 无效 ; 尿糖分为 , , , , ;针麻效果分为，，，级等 . 可以列成 2 k 表或 R C表，用 R C表的 2 检验比较差异，但 2 检验能说明各等级构成或各对比率是否相同，但不能说明对比各组疗效的优劣或针麻效果好坏等。而秩和检验与 Ridit分析则可以起作用。配对设计资料的符号秩和检验（ Wilcoxon法）不仅可用于配对比较，亦可用于样本中位数与总体中位数比较，基本思想是：若 H0成立，则配对数值的差值应服从均数 T : 标准差 T : T =n(n+1)/4， 24/)12)(1( nnnT 的对称分布 ,将配对的差值按绝对值大小编秩并标上原来差值的符号后 ,带正号、带负号的秩和在理论上是均匀的 , 即使有些差别 ,也只是随机因素造成的差别 ,应在一定范围内。如果正、负秩和相差悬殊，统计量 T 特别小或特别大，则 H0 为真的可能性很小，从 T 界值表 (附表 12)也可看出，当 n 确定以后， T 界值的下限愈小，上限愈大时， P 值愈小。因而可按小概率原理，拒绝 H0；反之，不能拒绝 H0 。随着 n增大， T 分布逐渐逼近 : 均数 :T=n(n 1)/4，方差为 : 24 )12)(1(2 nnn T的正态分布。可用 u 检验。 Wilcoxon法配对符号秩和检验对子数 n 必须大于 5。因 n 5时，可以排出差值编秩的所有组成共有 32种情况。当各配对的差值符号相同时，秩和绝对值较小者为 0，较大者为 15的 5个自然数之和 15，即 T 0 或 T 15；其它情况下 0T15；可知 n 5时， T的取值范围是 015，而 P(T 0) P(T 15) 1/32 0.03125，双侧概率为 0.03125 2 0.06250，已大于 0.05。所以当 n5时，用符号秩和检验不能得出双侧概率 P0.05，以 0.05水准不拒绝 H0，差值总体中位数与 0的差异有无统计意义，尚不能认为两法检测谷 -丙转氨酶的结果不同。 a.在 n25时，可查统计用表 11，用 T值与 T界值进行比较若 T值在上、下界范围内，则 P 值大于相应概率；若 T值为上、下界值或范围外，则 P 值小于相应概率在 n 25时，可用连续的 u检验作不连续 T分布的近似，即 : 24/)12)(1( 5.0|4/)1(| nnn nnT u 在相同差值太多时（不包括差值为 0），由于求得的 u 值偏小，要进行校正，即 )( 48 1 24 )12)(1( 5.0|4/)1(| 3 ii tt nnn nnT u ti为第 i个相同秩次的个数 SPSS11.5，建立数据文件 P147E1.sav , Analyze ， Nonparametric Tests， 2 Related Samples 解法 2:软件计算表中显示：按 y-x的正秩输出，检验统计量 Z=-1.913 ，双侧大约概率 P=0.056，故以 =0.05水准不拒绝 H0 ，接受 H1。二、单样本资料的秩和检验样本中位数与总体中位数比较的目的是推断样本是否来自某已知中位数的总体。检验方法步骤和配对比较的符号秩和检验一样，唯一不同的是用每一个样本观测值与已知总体中位数相减来计算 “ 差值 ” 。【例 9.2】已知某地正常人尿氟含量的中位数为 0.86mg/L，今在该地某厂随机抽取 12名工人，测得尿氟含量（ mg/L）为： 0.84， 0.86， 0.88， 0.94， 0.97， 1.01， 1.05， 1.09， 1.20， 1.28， 1.35， 1.83。推断该厂工人的尿氟含量是否高于当地正常人。因据经验尿氟含量不满足正态性，本例小样本资料，虽经正态性检验不拒绝 H0，还是按不满足正态性处理，采用 Wilcoxon符号秩和检验。 H0：该厂工人的尿氟含量与当地正常人相同，中位数 Md 0.86； H1：该厂工人的尿氟含量高于当地正常人， Md 0.86。 0.05。分别求 12个观测值与总体中位数 0.86之差（标明正负号），有一个差值为 0，不编秩，依差值的绝对值从小到大编秩 11个，标上原差值的正负号，统计正、负秩和分别为 1.5、 64.5，取 T 1.5。用 n 11查配对秩和检验 T界值表（附表 11）， T 1.5在单侧 T0.005/2（ 12） 5 61 的范围外， P0.05，只能以 0.05水准接受 H0，两总体分布相同，不能认为两种剂量的效果不同解法 2: 用 SPSS11.5统计软件 H0：两总体分布相同； H1：两总体分布不相同 0.05。 Test Statisticsb 表中给出了 Mann-Whitney U统计量为 15、 Wilcoxon W统计量为 43, 两法的检验统计量 Z= -0.857, 双侧近似 P值 =0.391, 确切概率 =0.445。故双侧检验接受 H0两总体分布相同 ,不能认为葛根两种剂量的效果不同。解法 3 :用 DPS 数据处理系统输入两组数据试验统计非参数检验两样本检验结果各个处理数据的秩 3g 组 12.0 2.0 1.0 5.0 6.0 7.0 10.0 5g 组 13.0 4.0 8.0 3.0 11.0 9.0 Wilcoxon检验 n1=7 n2=6 秩和 T=48.00 Txy=15 两组间差异显著检验的精确 p=0.4452214 正态近似统计量 U=0.7857 p=0.4320351 2分类资料的两样本比较例用蠲哮汤治疗热哮型支气管哮喘 67例，对照组 30例以牡荆油胶丸治疗，两组在年龄、病情等到方面具有可比性，两组的疗效见表 11-3，试作比较。 H0:两组总疗效相同 ; H1 :两组疗效不相同 ; 0.05。临控显效有效无效合计治疗组 23 27 12 5 67 对照组 4 6 9 11 30 合计 27 33 21 16 97 表 11-3 某药对两种病情支气管炎疗效的秩和检验计算表 Test Statisticsb表给出 Mann-Whitney U统计量 =531.500 、 Wilcoxon W统计量 =2809.5，两法的检验统计量 Z= - 3.844，双侧近似 P值 =0.000，故可拒绝 H0，接受 H1，认为两组的总疗效不相同，可认为蠲哮汤治疗哮型支气管哮喘的总疗效优于牡荆油胶丸。第四节完全随机设计多样本比较的秩和检验 (H检验 ) 完全随机分组资料比较 , H0为各总体分布相同 . H0成立时 , 容量分别为 ni (1ik) 的 k个样本来自同一总体 . 定量资料编秩时 , 同组相同数据取顺序秩次 , 不同组相同数据取平均秩次 . 分类资料编秩时 , 同一等级取平均秩次 . 记 N=ni ,Ti为容量为 ni样本的秩和当 ni 增大时 , Ti构成的 H 统计量近似于自由度为 k 1的卡方分布，即 )1(3 )1( 12 2 N n T NN H i i x2， df k 1 这种方法称完全随机分组秩和检验（ Kruskal Wallis法） , 在 ni 较小时 , 可查统计用表 13, 用 H值与 H界值进行比较在 ni 较大时，可用 H 统计量近似作 x2 检验，并在相同秩次太多时校正，即 )/()(1 33 NNtt H H ii C 例为比较不同批号药盒检验结果是否一致，将三个批号各四个药盒一一测定了某一标本。结果如表 11-4，试问不同批号测定结果有无差别？ H0:不同批号测定值总体分布位置同； H1:不同批号的测定值总体分布位置不同或不全相同 . 0.05。 1号 1.80 1.92 2.00 2.01 2.11 n1=5 2号 2.11 2.21 2.25 2.57 n2=4 3号 2.75 3.10 3.27 3.27 n3=4 rank 1 2 3 4 5.5 T1=15.5 rank 5.5 7 8 9 T2=29.5 rank 10 11 12.5 12.5 T3=46 n1+n2+n3=N=13 392.10143 4 46 4 5.29 5 5.15 )14(13 12 222 H H =10.449， P 值 0.05， B药和 C药比较，尚需增大样本含量才能了解是否总体分布位置不同。二、等级资料多样本比较的秩和检验【例 9.6】某医院以蛞蝓胶囊为主综合治疗（简称蛞蝓综合法）中晚期肺癌，并与中西医结合治疗及联合化疗作比较观察，其近期疗效分部分缓解，稳定，扩展三级，资料见表 9-5，比较三组的疗效。 H0：三组疗效相同； H1：三组疗效不全相同； =0.05。疗效蛞蝓综合法中西医结合联合化疗合计秩次范围平均秩次 = 蛞蝓综合法秩和 = 中西医结合秩和 = 联合化疗秩和缓解 10 9 16 35 1 35 18 180 162 288 稳定 4 10 27 41 36 76 56 224 560 1512 扩展 2 4 10 16 77 92 84.5 169 338 845 合计 n1=16 n2=23 n3=53 N=92 T 1=573 T2=1060 T3=2645 表 9-5 三种方法治疗中晚期肺癌近期疗效秩和检验计算表等级资料（单向有序 R C表） ,用 Kruskal-wallis H检验。取 0.05 H0：三种方法疗效的总体分布位置相同， H1：三种方法疗效的总体分布位置不全相同。编秩，求秩和，见表 9-5第栏。按（式 9.4）、（式 9.5）： 933 53 2 6 4 5 23 1 0 6 0 16 573 9392 12 222 H 3.4309 （ ti3ti）（ 35235） +（ 41241） +（ 16216） =115800 Hc 3.4309/1115800/（ 92392） = 4.0303 以自由度 df k-1 2查 2界值表（附表 4）， 20.1（ 2） =4.61，故 P0.10，按 =0.05水准不能拒绝 H0，不能认为三种方法的疗效不同。第五节配伍组设计多个样本比较的秩和检验 1 配伍设计多个样本比较的秩和检验这里介绍 Friedman M检验。【例 9.7】某医师按中医辨证，把肺癌病人分成五类，研究辨证分型的疗效，由于疗效又受病期的影响，所以又按病期分为、、三个配伍组（ b 3），资料见表 9-6。分析不同辨证分型肺癌病人的一年生存率是否不同。 24/51 20/29 2/7 2/8 0/1 24/50 20/35 4/15 3/8 1/2 注：表中分母为观察数，分子为一年生存数。表 9-6 肺癌病人辩证与一年生存比例病期别（区组数 b=ni=3）阳虚气阴两虚气虚阴阳两虚气滞血瘀 21/57 8/26 3/12 2/4 0/6 T 0.471（ 4） 0.690（ 5） 0.286（ 3） 0.250（ 2） 0.000（ 1） 0.480（ 3） 0.571（ 5） 0.267（ 1） 0.375（ 2） 0.500（ 4）各处理组的秩和 Ti 11 13 6 9 6 表 9-7 用小数表示各期病人的一年生存率病期（ b=ni=3）阳虚气阴两虚气虚阴阳两虚气滞血瘀 0.268（ 4） 0.308（ 3） 0.250（ 2） 0.500（ 5） 0.000（ 1） Ti 2 4 3 0 第六节游程检验第七节 Ridit分析一、意义 Ridit分析 (Ridit analysis)亦称参照单位分析，系 I.D.J.Bross于 20世纪五十年代中期所提出， Ridit一词为 relative to an identified distribution的缩写 Rid与 unit 的词尾 it组成，意为“与特定分布相对应的单位”。适用于两个或多个有序分类变量以及如抗体滴度等具有无确切数字 (如 1:320)的半定量变量比较，它不光能说明各等级构成或各对比率是否相同，又能说明对比各组的优劣。其独到之处在于将有序分类资料或等级分配的数据，经过特定的变换转化为定量数据 (连续型变量值 )，从而可按正态分布的理论来作统计推断。由于存在一种似近算法，不需作平方和的运算就能估计标准误，所以应用简便。例 9.9 某医院用中草药制剂甲治疗慢性支气管炎病人 3420例，疗效很好。今又制成一种中草药新的制剂乙，与甲制剂相比，不知乙制剂疗效如何？为此，又进行了 105例临床试验，结果如表 11-7。检验步骤如下：表 9-8两制剂对慢性支气管炎的疗效制剂无效好转显效痊愈合计甲 776 1926 685 33 3420 乙 11 55 24 15 105 1 .参照单位 R 的定义设有等级资料 : 等级 i 1 2 k 合计频数 m1 m2 m k n 频率 f1 f 2 f k Ri R1 R2 R k ii fffR 2 1 21 其中 , n=m1+m2+ mk 11 2 1 fR Ri 称为第 i 等级的参照单位或 Ridit值 212 2 1 ffR ,., 把按等级分布的计数资料变换为一组计量资料 .由数理统计可以得知 : R服从 0， 1上的均匀分布，由均匀分布的理论知： 2 1 R 12 12 R nn R R 12 1 标准误当 n 充分大时 , 近似服从 R ),( 2RRN R RRu 近似服从标准正态分布 N(0,1) 的 1 的置信区间为： R ) 12 1, 12 1( n uR n uR 若 0.05，则 296.105.0 u 的 95%的置信区间为 : R ) 3 1, 3 1( n R n R 可以证明，参照组（或标准组） 0.5，因此参照组 95% 的置信区间为： R R ) 3 15.0, 3 15.0( nn 2、应用条件 : 适用于单向有序资料 3、方法 1)取例数多的一组作为参照组（标准组） 2)一般取合并组为参照组 (平均 Ridit分析 ) 4、判断二、样本与总体比较的 Ridit分析设对比组的 R 的总体均数为设 H0：若对比组的置信区间不包含 0.5 , 则以显著水平拒绝 H0 , 认为与平均疗效 0.5 的差异有统计意义 , 若等级从“差好” , 值越大，表示效果越“好”；同时，注意到是在 0， 1上取的值 , 所以在作对比分析时可把它理解为对比组中的个体效果更好的概率。例如，若 =0.8，则该组中的个体比标准组中的个体获得较好效果的可能性为 80，即平均 100例中约有 80例获得较好效果。 R 5.0R R R R R R 返回到例 9.9 , (1) 选定标准组： (2) H0: 乙制剂治疗慢性支气管炎效果与甲制剂相同，即对比组总体 0.5； R H1: 乙制剂治疗慢性支气管炎效果与甲制剂不相同，即对比组总体 0.5。 0.05 R 等级无效好转显效痊愈合计频数 776 1926 685 33 3420 频率 0.2269 0.5631 0.2002 0.0096 R 值 0.1135 0.5085 0.8902 0.9952 3420 9952.0338902.06855085.019261135.0776 标R (3) 计算标准组各等级的 R值。 5.03 4 2 00 7 5 6.1 7 1 0 标R 可见 R值计算无误。 (4) 计算对比组的值： R 6 3 2 9.01 0 5 9 9 5 2.0158 9 0 2.0245 0 8 5.0551 1 3 5.011 对比R (5) 计算对比组总体值的可信区间。 R u/ =0.6239 2.58 / =0.5512 0.6966 R n12 10512 (6) 推断结论：如果对比组总体值的可信区间不包括 0.5，可认为对比组与标准组差别有统计学意义；反之，如果对比组总体值的可信区间包括 0.5，则不能认为对比组与标准组有差别。本例样本与总体比较的 Ridit分析，对比组总体值的 99可信区间不包括 0.5，故在 0.01的水准上拒绝 H0，接受 H1 (P0.01)。从表 11-23中可以看出，疗效越好， R值越大，本例对比组值大于标准组，可认为乙制剂治疗慢性支气管炎优于标准组 (甲制剂 )。虚线为标准组值 , 供比较用。小圆圈为对比组的值 , 小圆圈上下的两条短横线表示可信区间。可信区间与横线相交 , 表示对比组与标准组差别无统计学意义；可信区间不与横线相交 , 则表示对比组与标准组差别有统计学意义。例 9.10 观察针刺与药物治疗内分泌性突眼症的临床疗效 , 资料见表 11-9, 试比较两疗法的疗效有无差别？等级痊愈显效好转无效合计针刺 19 32 8 13 72 合计 22 38 12 42 114 药疗 3 6 4 29 42 频率 0.1929 0.3333 0.1052 0.3684 R 值 0.0965 0.3596 0.5789 0.8158 6767.042 8158.0295789.043569.060965.03 药疗R 5.0合并R (5) 推断两 R值差别有无统计意义：方法 1:可信区间重叠法 . 先分别各对比组求出总体值的 (1 )可信区间，若可信区间有重叠，则按水准认为差别无统计学意义 ; 如可信区间不重叠 , 则不能认为差异有统计学意义 . 差别无统计学意义时 , 若等级按 “ 差 ” 到 “ 好 ” 排列 , 则较大的那组效果较佳；反之，若等级按 “ 好 ” 到 “ 差 ” 排列，则较小的那组效果较佳本例 , 分别各对比组按式 (11.25)计算总体值 95 的可信区间： R R R R R n3 723 423 针刺组： 1/ =0.3969 1/ =0.3969 0.0680=0.3289 0.4649 药物组： 0.6767 1/ =0.6767 0.0891 423 =0.5876 0.7658 推断结论：本例两组的可信区间无重叠，故认为差别有统计学意义。方法 2： u 检验法。计算检验统计量为 58.29920.4 427212 4272 3969.06767.0 12 21 21 21 nn nn RR u P0.01，认为差别有统计学意义。两法结论相同。因值是判断优劣的指标，本例疗效等级由“好” 到“差”顺序排列，值较大者疗效差，故针刺法治疗内分泌性突眼症在疗效优于药物疗法。 R R 四 .多样本比较的 Ridit分析 : Ridit分析用于多组资料比较时，可用前述可信区间重叠法；也可用近似 2 法，即按式 (9.17)计算统计量 2值，其自由度 df k 1。 22 )5.0(12 ii Rn i =1,2, k . k为对比组数例 9.11 某医院在进行黄连、黄柏双黄气雾剂治疗急性呼吸道感染的课题研究中，对三种不同剂型的双黄制剂的疗效进行了比较，其结果见表 11-12，试比较三种不同剂型的疗效。 (1) H0：不同病型疗效相同； H1：不同病型疗效不同。 0.05。 (2) 以各型合并作为标准，计算标准组各等级 R 值，方法同前 (3) 以标准组各等级的 R 值为基准，按式 (11.26)计算对比组值。得： R =0.4970， 0.4841， =0.5482， 2R1R 3R (4)推断结论：方法 1：可信区间重叠法。按式 (11.25)计算各对比组总体值的可信区间。得： R 总体值 95的可信区间为 (0.4564， 0.5376)；总体值 95的可信区间为 (0.4252， 0.5430)；总体值 95的可信区间为 (0.4612， 0.6352)。 1R 2R 3R 95%可信区间重叠，故认为三种双黄连剂型治疗急性呼吸道感染的疗效相同。疗效都显著方法 2：近似 2法。计算统计量 2值： 22 )5.0(12 ii Rn 12202(0.4970 0.5)2+96(0.4841 0.5)2+44(0.5482 0.5)2=1.5397。本例为 3组 k 3，自由度 df 3 1 2， 20.05(2) 5.99 ， P 0.05，按 0.05水平不拒绝 H0，认为三种双黄剂型治疗急性呼吸道感染的疗效相同，从而表明双黄气雾剂是一种适用于急性呼吸道感染的新型中药剂型。两法结论相同。

展开阅读全文

研究生统计学讲义第8讲非参数检验与Ridit分析

最新文档