现代医学统计方法与Stata应用(第一版)

上传人:工*** 文档编号:9270908 上传时间:2020-04-04 格式:PDF 页数:108 大小:585.64KB
返回 下载 相关 举报
现代医学统计方法与Stata应用(第一版)_第1页
第1页 / 共108页
现代医学统计方法与Stata应用(第一版)_第2页
第2页 / 共108页
现代医学统计方法与Stata应用(第一版)_第3页
第3页 / 共108页
点击查看更多>>
资源描述
现代医学统计方法与 Stata 应用 1 第一章 Stata 概貌 1 1 Stata 的功能 特点和背景 Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件 由美国计 算机资源中心 Computer Resource Center 研制 从 1985至 1998的十四年时间里 已连续推出 1 1 1 2 1 3 1 4 1 5 及 2 0 2 1 3 0 3 1 4 0 5 0 6 0等多个版本 通过不断更 新和扩充 内容日趋完善 它同时具有数据管理软件 统计分析软件 绘图软件 矩阵计算软 件和程序语言的特点 又在许多方面 别具一格 Stata融汇了上述程序的优点 克服了各自的 缺点 使其功能更加强大 操作更加灵活 简单 易学易用 越来越受到人们的重视和欢迎 Stata的突出特点是只占用很少的磁盘空间 输出结果简洁 所选方法先进 内容较齐 全 制作的图形十分精美 可直接被图形处理软件或字处理软件如 WORD等直接调用 一 Stata 的数据管理能力 Stata的数据管理空间受计算机的操作系统和计算机扩展内存的影响 对 640k内存的 微机 3 1版本的 Stata可以管理 2400个记录 99个变量 并随计算机扩展内存的增加而增加 对 4 0的 WINDOWS版本 Stata可以管理 4800个记录 99个变量 对 WINDOWS 95下的 5 0版 本 可根据计算机的配置情况设置变量数和记录数 如 32M扩展内存的计算机 可处理 2千万 个数据 变量数和记录数可以互相交易 trade 即减少记录数可以增加变量数 减少变量 数可以增加记录数 可以将分组变量转换成指示变量 哑变量 将字符串变量映射成数字代码 可以对数据文件进行横向和纵向 链接 可以将行数据转为列数据 或反之 可以恢复 修改执行过的命令 可以利用数值函数或字符串函数产生新变量 可以从键盘或磁盘读入数据 二 Stata 的统计功能 Stata的统计功能很强 除了传统的统计分析方法外 还收集了近 20年发展起来的新方 法 如 Cox比例风险回归 指数与 Weibull回归 多类结果与有序结果的 logistic回归 Poisson回 归 负二项回归及广义负二项回归 随机效应模 型等 具体说 Stata具有如下统计分析能 力 数值变量资料的一般分析 参数估计 检验 单因素和多因素的方差分析 协方 差分析 交互效应模型 平衡和非平衡设计 嵌套设计 随机效应 多个均数的两两比较 缺 项数据的处理 方差齐性检验 正态性检验 变量变换等 分类资料的一般分析 参数估计 列联表分析 2检验 列联系数 确切概率 流行 10 第二章 Stata 的函数和变量 第二章 Stata 的函数和变量 2 1 Stata 的函数 Stata具有丰富的函数功能 它不仅提供了一般计算机语言和统计软件包所具有的数学函 数和字符串函数 而且还提供了很多有用的统计函数 特殊函数 以及许多独具特色的系统变 量 借助于这些函数和系统变量 用户可以得心应手地使用 Stata 充分发挥自己的聪明才 智 提高工作效率 为讲述方便 先引入指令 display display使我们的计算机行使简单的计算功能 例如 要计算 3 22 dislplay 3 2 2 7 结果是 7 有了这 个命令后 下面的讲述和练习就容易了 一 数学函数 1 abs x 绝对值函数 2 exp x 指教函数 3 log x 自然对数 4 log10 x 常用对数 5 sqrt x 平方根函数 6 sin x 正弦函数 7 cos x 余弦函数 8 atan x 反正切函数 9 lngamma x 整数 x的 函数之对数 ln x 1 10 mod x y 模数函数获得 x除以 y的余数 如 display mod 25 3 结果将是 1 二 统计函数 1 normprob df x 正态分布的下侧概率函数 2 invnorm p 正态分布的分位数 3 Binomial n k p 二项分布函数 表示 n 次试验中成功次数 k 的概率 p 为成功概率 4 invbinomial n k p 二项分布的逆函数 p 示 n 次试验中成功次数 k 的概率 本函数给出 的是每次成功的概率 当 p0 5 时 概率 p 满足 Pr x k 1 p 5 tprob df t 自由度为 df 的 t 分布双侧累积概率 Pr t t 6 invt df P 自由度为 df 的 t 分位数 invt df 1 tprob df t t 现代医学统计方法与 Stata 应用 11 7 fprob df1 df2 f 自由度为 df1 df2 的 F 分布的上侧累积概率 8 invfprob df1 df2 p F 分布的分位数 如果 fprob df1 df2 F p 则 invfprob df1 df2 p F 9 chiprob df x 自由度为 df 的 2 分布的上侧累积概率 10 nchi df L x 非中心 2 分布的上侧概率 1 df 200 0 L0时取 1 x 0时取 1 x 0时取 0 2 取整函数 int x 去掉 x的小数部分 得到整数 int x 0 5 是对 x四舍五入取整 int x sign x 2 产生与 x最近的一个整数 3 求和函数 sum x 很常用 获得包括当前记录及以前的所有记录的 x的和 缺失值 missing value 当 0处理 4 最大值函数 max x1 x2 Xn 忽略缺失值 12 第二章 Stata 的函数和变量 5 最小值函数 min x1 x2 Xn 忽略缺失值 6 分组函数 group x 将数据分成大小近 似相等的 x个子样本 分别给予组编号 1 2 x 7 浮点转换函数 float x 将 x转换成浮点表示法 Stata是用浮点形式存储数据的 因此 在将变量与具体数值进行比较时 最好先将具体数值转换成浮点形式 例如 当 x为 1 1时 表达式 x 1 1的结果可能不真 因为表达式左边的 x是浮点形式 右边的 1 1是双精度形式 二者相差 0 00000002384 而改写为 x float 1 1 后 结果就正确了 当某个数值没有有限的二 进制表达时 常常会出现这种情况 8 条件函数 cond x a b x可以是一个条件 x非 0 条件成立 时取 a x为 0 条件不成立 时取 b 9 归组函数 recode x x1 x2 xn 其结果可表达如下 x1 如果 x x1 x2 如果 x1 x x2 x3 如果 x2 x x3 recode x x1 x2 xn xn 1 如果 xn 2 xxn 1 缺失值 如果 x为缺失值 10 自动归组函数 autocode x ng xmin xmax 自动将区间 xmin xmax 分成 ng个等长的小 区间 其结果是包含 x值那个小区间的上界值 其作用与归组函数相同 2 2 Stata 的格式文件 变量和系统变量 一 文件名和文件类型 Stata的格式文件命名规则与 Dos中文件的命名规则相同 文件名以字母开头 不超过 8个 字符 不能用标点符号 及 Dos中的通配符 Stata共有六种格式文件 其默认的后缀 文件扩展 名 见表 2 1 表 2 1 Stata 的文件类型 文件扩展名 文件特性 dct ASC 数据 字典文件 raw ASC 数据文件 do 命令文件 dta Stata数据文件 log Stata结果文件 gph Stata图形文件 xp Stata的 xp 数据文件 二 变量名和变量类型 与文件名一样 Stata的变量名可以是英文字母 A Z和 a z 数字 0 9 下划线 可 现代医学统计方法与 Stata 应用 13 区分的有效长度 大于 大于等于 小于 例 6 1 0 3 2 2 析因设计 就表 6 6 资料分析三种基础液 a 中的钩端螺旋体计数 conut 有 无差别 兔血清与胎盘血清 b 的计数有无差别 两种 浓度 c 间的计数有无差别 各因素间有 无交互作 anova count a b c a b a c c b a b c Number of obs 48 R square 0 5656 Root MSE 400 421 Adj R square 0 4328 Source Partial SS df MS F Prob F Model 7514726 92 11 683156 992 4 26 0 0005 72 第六章 数值变量资料的统计分析 a 107712 792 2 53856 3958 0 34 0 7169 b 6588972 00 1 6588972 00 41 09 0 0000 c 573781 333 1 573781 333 3 58 0 0666 a b 95267 375 2 47633 6875 0 30 0 7448 a c 47553 2917 2 23776 6458 0 15 0 8627 c b 10502 0833 1 10502 0833 0 07 0 7995 a b c 90938 0417 2 45469 0208 0 28 0 7547 Residual 5772 117 00 36 160336 583 Total 13286843 9 47 282698 807 表 6 6 钩端螺旋体计数 血清种类 b 兔血清 b 1 胎盘血清 b 2 血清浓度 c 血清浓度 c 加入维生素 的基础液 a 5 c 1 8 c 2 5 c 1 8 c 2 1426 1260 604 1 108 1183 1599 1081 886 2000 1410 487 831 缓冲液 a 1 1612 2416 624 1159 684 875 867 1115 1430 2250 771 698 1165 1871 403 791 蒸馏水 a 2 2022 1962 370 559 1182 1220 1243 1283 1512 1095 1115 1142 1450 1700 416 677 自来水 a 3 1385 2372 533 534 本例分析了三种因素及其所有交互作用不同水平间的差别 结果表明 兔血清与胎盘血清 b 因素 的钩端螺旋体计数有 差别 而三种基础液 a 因素 间 两种浓度 c 因素 间的计数无差别 各因素间亦无交互作用 6 6 协方差分析 协方差分析是在扣除协变量的影响后再对 修正后的 主效应进行方差分析 是把直线回 归或多元线性回归与方差分析结合起来的一种方法 协变量一般是连续性变量 并假设协变量 与响应变量间存在线性关系 且在各处理组这种线性关系一致 用于协方差分析的命令是在 anova 命令后再加选择项 continuous 协变量名 或 category 分组变量名 anova y a b c a b b c a b c x 1 x 2 continuous x1 x2 现代医学统计方法与 Stata 应用 73 其中 y 为响应变量 a b 为分组变量 x1 x2 为协变量 加选择项 continuous x1 x2 的意思是指明 x1 x2 为连续性变量 协变量 从而 Stata 自动以 x1 x2 为协变量进行协方 差分析 在不指定连续性变量时 Stata 视所有变量为分组变量 响应变量除外 亦可 指定分组 变量 则其余变量将视为是连续的 相应的选择项应改为 categroy 如 anova y a b c a b b c a b c x 1 x 2 categroy a b c 与上述命令是等价的 当有一个协变量时 称为一元协方差分析 当有两个或多个协变量时 称为多元协方差分 析 例 6 1 1 配伍组的协方差分析 以下资料是三组小白鼠的进食量 x 与所增体重 y 由于 体重增加受进食量的影响 故在分析体重的增加时 必须扣除进食量的影响 即以进食量为协 变量 对三组的增加体重进行分析 这里 协变量为一个 use ex6 11 list x y a b 1 256 9 27 1 1 2 271 6 41 7 1 2 3 210 2 25 1 3 4 300 1 52 1 4 5 262 2 14 5 1 5 6 304 4 48 8 1 6 7 272 4 48 1 7 8 248 2 9 5 1 8 9 242 8 37 1 9 10 342 9 56 5 1 10 11 356 9 76 1 11 12 198 2 9 2 1 12 13 260 3 32 2 1 14 271 1 47 1 2 2 15 214 7 36 7 2 3 16 300 1 65 2 4 17 269 7 39 2 5 18 307 5 37 9 2 6 19 278 9 51 5 2 7 20 256 2 26 7 2 8 21 240 8 41 2 9 22 340 7 61 3 2 10 23 356 3 102 1 2 11 24 199 2 8 1 2 12 25 544 7 160 3 3 1 26 481 2 96 1 3 2 27 418 9 114 6 3 3 28 556 6 134 8 3 4 29 394 5 76 3 3 5 30 426 6 72 8 3 6 31 416 1 99 4 3 7 32 549 9 133 7 3 8 74 第六章 数值变量资料的统计分析 33 580 5 147 3 9 34 608 3 165 8 3 10 35 559 6 169 8 3 11 36 371 9 54 3 3 12 这里 a 1 2 3 表示相应的三个处理组 b 1 12 表示配伍组 x 为协变量 anova y a b x cont x Number of obs 36 R square 0 9706 Root MSE 10 2942 Adj R square 0 9511 Source Partial SS df MS F Prob F Model 73560 9936 14 5254 35669 49 58 0 0000 a 463 94765 2 231 973825 2 19 0 1369 b 3765 32692 11 342 302448 3 23 0 0101 x 6174 24838 1 6174 24838 58 26 0 0000 Residual 2225 36425 21 105 969726 Total 75786 3579 35 2165 32451 在控制了进食量 x 的影响后 三组小白鼠所增体重无差别 方差分析中 进食量 x 的 P 0 0000 说明控制进食量 x 的影响是必要的 也可用下列命令 结果是等价的 anova y a b x categroy a b 例 6 1 2 2 3 析因试验的协方差分析 分别以不同来源和成分的蛋白质喂养六组小白鼠 每组 10 只 资料见表 6 7 表 6 7 六组公鼠的食物消耗量 x 10cal 及所增体重 y g 高蛋白 a 1 低蛋白 a 2 牛肉 谷类 猪肉 牛肉 谷类 猪肉 b 1 B 2 b 3 b 1 b 2 b 3 x y x y x y x y x y x y 108 73 99 98 194 94 165 90 124 107 140 49 136 102 117 74 198 79 164 76 95 95 177 82 138 118 90 56 196 96 161 90 116 97 189 73 159 104 141 111 198 98 159 64 112 80 142 86 146 81 106 95 210 102 175 86 123 98 216 81 141 107 112 88 196 102 135 51 110 74 200 97 175 100 110 82 230 108 1 32 72 137 74 255 106 149 87 117 77 222 91 190 90 105 67 173 70 174 117 111 86 220 120 145 95 135 89 153 61 176 111 122 92 228 105 142 78 126 58 160 82 use ex 6 12 list x y a b 现代医学统计方法与 Stata 应用 75 1 108 73 1 1 2 136 102 1 1 60 160 82 2 3 anova y a b a b x cont x Number of obs 60 R s quare 0 4694 Root MSE 12 7349 Adj R square 0 4093 Source Partial SS df MS F Prob F Model 7603 55945 6 1267 25991 7 81 0 0000 a 2343 46252 1 2343 46252 14 45 0 0004 b 1673 30508 2 836 652542 5 16 0 0090 a b 933 8117 2 466 90585 2 88 0 0650 x 2990 62611 1 2990 62611 18 44 0 0001 Residual 8595 37389 53 162 176866 Total 16198 9333 59 274 558192 结果表明 在控制了食物消耗量 x 的影响后 用高蛋白与用低蛋白 a 因素 喂养小白 鼠所增体重不同 用高蛋白喂养比用低蛋白喂养体重增加多 用牛肉 谷类 猪肉 b 因素 喂养小白鼠所增体重亦不同 但尚不能认为有交互作用 如不考虑协变量的影响 结论就不同 了 请读者自行验算 也可用下列命令 结果是等价的 anova y a b x categroy a b 例 6 1 3 多元协方差分析 某地测得 30 名初生至 3 周岁儿童的身高 体重及体表面积如 表 6 8 欲比较男女体表面积是否相同 此时身高 体重为协变量 为二元协方差分析 input y x1 x2 sex sort sex by sex summ y x1 x2 sex 1 Variable Obs Mean Std Dev Min Max y 15 4099 327 1592 838 1928 4 6410 6 x1 15 75 2 18 30671 50 5 99 x2 15 8 583333 4 804821 2 25 16 sex 2 Varia ble Obs Mean Std Dev Min Max y 15 3790 76 1543 524 1632 5 6074 9 76 第六章 数值变量资料的统计分析 x1 15 73 16667 16 93229 51 94 x2 15 8 116667 4 408663 2 25 15 表 6 8 30 名儿童的身高 x1 cm 体重 x2 kg 及体表面积 y cm2 男 sex 1 女 sex 2 x1 x2 y x1 x2 y 54 0 3 00 2446 2 54 0 3 00 2117 3 50 5 2 25 1928 4 53 0 2 25 2200 2 51 0 2 50 2094 5 51 5 2 50 1 906 2 56 5 3 50 2506 7 51 0 3 00 1850 3 52 0 3 00 2121 0 51 0 3 00 1632 5 76 0 9 50 3845 9 77 0 7 50 3934 0 80 0 9 00 4380 8 77 0 10 00 4180 4 74 0 9 50 4314 2 77 0 9 50 4246 1 80 0 9 00 4078 4 74 0 9 00 3358 8 76 0 8 00 4134 5 73 0 7 50 3809 7 96 0 13 50 5830 2 91 0 12 00 5358 4 97 0 14 00 6013 6 91 0 13 00 5601 7 99 0 16 00 6410 6 94 0 15 00 6074 9 92 0 11 00 5283 3 92 0 12 00 5299 4 94 0 15 00 6101 6 91 0 12 50 5291 5 计算男婴组 女婴组及合并的体表面积与体重 身高的相关系数 by sex corr y x1 x2 sex 1 obs 15 y x1 x2 y 1 0000 x1 0 9895 1 0000 x2 0 9902 0 9809 1 0000 sex 2 obs 15 y x1 x2 y 1 0000 x1 0 9901 1 0000 x2 0 9806 0 9827 1 000 corr y x1 x2 obs 30 y x1 x2 y 1 0000 x1 0 9887 1 0000 x2 0 9842 0 9817 1 0000 由此可见 无论是男婴组还是女婴组 体表面积都与身高 体重高度相关 故应扣除两者 的影响 再比较性别间体表面积有无差别 用协方差分析 anova y sex x1 x2 cont x1 x2 Number of obs 30 R square 0 9847 现代医学统计方法与 Stata 应用 77 Root MSE 202 428 Adj R square 0 9829 Source Partial SS df MS F Prob F Model 68523073 3 3 22841024 4 557 41 0 0000 sex 139769 36 1 139769 36 3 41 0 0762 x1 938153 264 1 938153 264 22 89 0 0001 x2 368955 082 1 368955 082 9 00 0 0059 Residual 1 065399 93 26 40976 9205 Total 69588473 2 29 2399602 52 方差分析的结果表明 根据现有资料 在扣除了身高 体重的影响后 男婴女婴的体表面积之 差别无显著性 P 0 0762 该命令与下面的命令是等价的 anova y sex x1 x 2 categroy sex 结果略 6 7 正态性检验与变量变换 正态性是很多传统统计方法的应用条件之一 如 t 检验 方差分析等均要求资料服从正态 分布 如资料不服从正态分布 则需作适当的变量变换 以使资料达到或接近正态 本节介绍几种正态性检验方法和几种常见的正态化和对称化变换 一 正态性检验 用于正态性检验的命令为 sktest 变量 该命令要求资料的样本含量至少为 8 先看一个实例 例 6 1 4 某市 200 名正常成人的血铅含量 g 100g 如下 试对其进行正态性检验 3 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 10 10 10 10 10 10 10 10 10 11 11 11 11 11 12 12 12 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 13 14 14 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 16 16 16 16 16 16 17 17 17 17 17 17 17 17 17 17 17 17 18 18 18 18 18 19 19 19 19 19 19 20 20 20 20 20 20 20 20 21 21 21 21 21 22 22 22 22 22 22 23 23 23 24 24 24 24 24 24 25 25 26 26 26 26 26 27 27 28 28 29 29 30 30 31 31 31 31 32 32 32 32 32 32 33 33 36 38 38 39 40 41 41 43 47 50 53 60 首先用 summ 命令计算偏度系数和峰度系数 summ x d x Percentiles Smallest 1 4 3 78 第六章 数值变量资料的统计分析 5 5 4 10 6 4 Obs 200 25 9 4 Sum of Wgt 200 50 15 Mean 17 085 Largest Std Dev 10 33984 75 22 47 90 31 5 50 Variance 106 9123 95 38 53 Skewness 1 215245 99 51 5 60 Kurtosis 4 734997 对 x 的偏度系数和峰度系数进行假设检验 sktest x Skewness Kurtosis tests for Normality joint Variable Pr Skewness Pr Kurtosis adj chi sq 2 Pr chi sq x 0 000 0 001 34 93 0 0000 结果中给出了偏度系数检验的 P 值 Pr Skewness 峰度系数检验的 P 值 Pr Kur tosis 以 及偏度系数和峰度系数联合检验的校正 2 adj chi sq 2 及检验概率 Pr chi sq 结果表明 该资料不服从正态分布 这从资料的分布亦可判断 set tex 150 gra x bin 13 xlab 0 5 10 15 20 25 30 35 40 45 50 55 60 65 ylab 0 1 15 2 25 gap 3 图 6 1 例 6 14 资料的频数分布图 现对 x 作对数变换 计算其对数值的偏度系数和峰度系数 并对其进行假设检验 gen lnx ln x summ lnx d lnx 现代医学统计方法与 Stata 应用 79 Percentiles S mallest 1 1 386294 1 098612 5 1 609438 1 386294 10 1 791759 1 386294 Obs 200 25 2 197225 1 386 294 Sum of Wgt 200 50 2 70805 Mean 2 658423 Largest Std Dev 6167802 75 3 091043 3 850147 90 3 449862 3 912023 Variance 3804178 95 3 637586 3 970292 Skewness 1735798 99 3 941157 4 094345 Kurtosis 2 418212 sktest lnx Skewness Kurtosis tests for Normality joint Variable Pr Skewness Pr Kurtosis adj chi sq 2 Pr chi sq lnx 0 303 0 029 5 72 0 0574 结果中给出了对数值 lnx 的偏度系数检验的 P 值 峰度系数检验的 P 值 以及偏度系数和峰度 系数 联合检验的校正 2 及检验概率 结果表明 该资料经对数变换后 该资料已基本对称 但 其峰度比正态峰扁平 按 0 10 水准 对数变换后的资料仍不服从正态分布 图 6 2 例 6 14 资料对数值的频数分布图 二 Box Cox 正态性变换 所谓 Box Cox 变换是指对变量 x 作变换 80 第六章 数值变量资料的统计分析 0 ln 0 1 l lll x x y Box Cox 正态性变换就是寻找参数 使变换后的资料最接近正态分布 用于寻找 Box Cox 正态性变换的命令为 b oxcox 原变量 generat 新变量 例 6 1 5 对例 6 14 资料作 Box Cox 正态性变换 boxcox x g y note iterations performed using zero 001 Iteration Lambda Zero Variance LL 0 1 0000 73 90087 107 166828 467 43868 1 0 0491 5 98333 76 7498368 434 0551 3 2 0 1180 0 00210 76 6147889 433 87901 3 0 1180 0 00000 76 6147808 433 87900 Transform x L 1 L L 95 Conf Interval Log Likelihood 0 1180 not calculated 433 879 Test L 1 chi2 1 106 69 Pr chi2 0 0000 L 0 chi2 1 1 31 Pr chi2 0 2521 L 1 chi2 1 65 64 Pr chi2 0 0000 参数 是用迭代的方法求出的 Stata 给出了迭代的中间步骤 结果 0 1180 结果中还给出 了分别与 1 0 及 1 不作变换 时的 2 检验 表明 0 1180 的变换与 0 对数变换 无显著性 而比原资料有较大的改进 gen lnx log x sktest lnx y Skewness Kurtosis tests for Normal ity joint Variable Pr Skewness Pr Kurtosis adj chi sq 2 Pr chi sq lnx 0 303 0 029 5 72 0 0574 y 0 898 0 028 4 89 0 0869 可见 作 0 1180 的 Box Cox 变换后的偏度系数 较作对数变换 0 有所改善 而对资料的 峰度系数则两种变换相差不大 Stata 还提供了其它检验正态分布的检验方法 Shapiro Wilk 法和 Shapiro Francia 法 命 令为 swilk 和 sfrancia 三 对称性变换 现代医学统计方法与 Stata 应用 81 所谓对称性变换 即寻找变换 使资料接近对称 或偏度系数接近 0 Stata 提供了两种对 称性变换 其一是 Box Cox 对称性变换 即寻找 Box Cox 中的 使变换后资料的偏度系数接 近 0 其二是对 数对称性变换 即寻找一 k 值 作变换 kxy ln 使变换后资料 y 的偏度系数接近 0 相应的两个命令为 lnskew0 新变量 原变量 bcskew0 新变量 原变量 x 前面的正负号将根据其具体取值 由用户自己定义 例 6 1 6 对例 6 14 资料作对称性变换 lnskew0 ltx x Transform k 95 Conf Interval Skewness ln x k 2 09 0607 not calculated 0006012 结果 k 2 09 此时的偏度系数为 0 0006012 在执行完命令后 Stata 产生了一个新变量 ltx 其取值为 ln x 2 090607 bcskew0 bcx x lev 95 Transform L 95 Conf Interval Skewness x L 1 L 1349801 1275427 38839 0005503 结果 0 135 此时的偏度系数为 0 0005503 在执行完 命令后 Stata 产生了一个新变量 bcx 其取值为 x0 1349801 1 0 1349801 82 第七章 分类资料的统计分析 第七章 分类资料的统计分析 分类资料又称定性资料 或计数资料 其取值是定性的 表现为互不相容的类别或属性 按类别间的关系 又分为有序分类和无序分类 有序分类资料又称等级资料 等级资料的统计 分析将在第八章介绍 本章介绍无序分类资料的统计分析 7 1 率 构成比的比较 率与构成比的资料形式一般都是行列表形式 Stata 用于处理分类资料的命令是双向 二 维 tabulate 命令 参见第四章 tabulate var1 var2 fw 频数变量 选择项 其中 var1 var2 分别表示行变量和列变量 fw 频数变量 只在变量以频数形式存放时选用 选择项有 chi2 Pearson 2 检验 lrchi2 似然比 2 检验 gamma Goodman Kruskal 的 系数 taub Kendall 的相关系数 b V Cramer 的列联系数 V all 同时给出以上五种结果 exact Fisher 的确切概率 cell 打印每个格子的频数占总频数的百分比 column 打印每个格子的频数占相应列合计的百分比 row 打印每个格子的频数占相应行合计的百分比 nofreq 不打印频数 以上命令可同时选用 分类资料的一个特点是重复数较多 在报告结论时 一般都将数据整理成频数表 但收集 资料时都是未整理的原始形式 Stata 对这两种形式的资料都可以进行分析 所得结果相同 只 是命令稍有区别 下面以两 种数据形式 三种命令格式对四格表资料进行分析 以说明 tabulate 命令的应用 例 7 1 两个率的比较 四格表 试比较甲乙两种疗法对某病的治疗效果 表 7 1 甲乙两种疗法对某病的治疗效果 无效 有效 合计 有效率 甲法 6 4 10 p1 40 0 乙法 11 33 44 p2 75 0 合计 17 37 54 pC 68 5 1 频数形式 记 a 0 表甲法 a 1 表乙法 b 0 表无效 b 1 表有效 freq 表相应 的频数 数据结构如下 use d mydata ex 7 1 现代医学统计方法与 Stata 应用 83 list a b freq 1 0 0 6 2 0 1 4 3 1 0 11 4 1 1 33 数据是以频数的形式存放的 频数变量为 freq 相应的命令格式为 tab a b fw freq row all exact effect mathod 0 1 Total 0 6 4 10 60 00 40 00 100 00 1 11 33 44 25 00 75 00 100 00 Total 17 37 54 31 48 68 52 100 00 Pearson chi2 1 4 6273 Pr 0 031 likelihood ratio chi2 1 4 3274 Pr 0 038 Cramer s V 0 2927 gamma 0 6364 ASE 0 218 Kendall s tau b 0 2927 ASE 0 14 3 Fisher s exact 0 056 1 sided Fisher s exact 0 041 由于选用了 all 和 exact 项 结果中给出了包括 Fisher 确切概率在内的全部六种统计量 注 意 all 选择中不包括 Fisher 的确切概率 各统计量的计算见后 结论 本例样本含量较小 且 有理论频数小于 应以 Fisher 的确切概率下结论 按 0 05 水准 尚不能认为两种疗效有 差别 2 原始资料形式 分类资料在收集资料时都是未整理的原始形式 Stata 对这种资料可直接以进行分析 所得 结果相同 如例 7 1 资料用原始资料形式存放即为 drop all use d mydatat ex7 1 1 list a b 1 0 0 2 0 0 6 6 0 0 7 0 1 84 第七章 分类资料的统计分析 4 10 0 1 11 1 0 11 21 1 0 22 1 1 33 54 1 1 此时 相应的命令为 tab a b all exact row 命令中没有 fw freq 选择项 但所得结果相同 3 直接输入频数 对频数表资料还可用 tabi 命令直接输入频数 按行输入 各行数据间用 分开 因 该法较之上两法更为简单 故推荐使用 命令格式如下 tabi 6 4 11 33 row all exact 结果相同 略 注 设有下列 R C 表表 1 2 3 j C 1 n11 n12 n13 n1j n1C n1 2 N21 n22 n23 n2j n2C n2 i ni1 ni2 ni3 nij nIC ni R nR1 nR2 nR3 nRj nRC nR n 1 n 2 n 3 n j n C n 记 nnnm jiij Q ijijjiijijji ik jl kl ik jl klij ik jl kl ik jl klij DnAnP nnD nnA 则 1 Pearson 2 ijijijjip mmnQ 现代医学统计方法与 Stata 应用 85 2 似然比 2 ln ijijijji mnnG 3 Cramer 列联系数 n11n22 n12n21 n1 n2 n 1n 2 1 2 对 2 2 表 V QP n min R 1 C 1 1 2 其 他 4 Goodman Kruskal 的 gamma P Q P Q 5 Kendall 的列联系数 b P Q wRwC 1 2 wr n2 in i 2 wc n2 j n j 2 例 7 2 多个率的比较 用免疫法观察鼻咽癌患者 a 1 头颈部其他恶性肿瘤患者 a 2 及 正常成人组 a 3 的血清 EB病毒壳抗原的免疫球蛋白 A VCA IgA 抗体的反应情况 资料如下 三组阳性率有无差别 表 7 2 三组人群中 EB 病毒 VCA IgA 抗体阳性率 分 组 阳性例数 阴性例数 合 计 阳性率 a 1 188 16 204 92 3 a 2 10 23 33 30 3 a 3 49 333 382 12 8 合 计 247 372 619 39 9 按频数形式输入原始数据 list a b pop 1 1 1 188 2 2 1 10 3 3 1 49 4 1 0 16 5 2 0 23 6 3 0 333 tab a b fw pop row chi2 lrchi2 exact b a 0 1 Total 1 1 88 16 204 92 16 7 84 100 00 2 10 23 33 30 30 69 70 100 00 86 第七章 分类资料的统计分析 3 49 333 382 12 83 87 17 100 00 Total 247 372 619 39 90 60 10 100 00 Pearson chi2 2 350 3259 Pr 0 000 likeli hood ratio chi2 2 387 3664 Pr 0 000 Fisher s exact 0 000 也可直接用以下命令 tabi 188 16 10 23 49 333 row chi2 lrchi2 exact 所得结果同上 结论 无论是卡方检验还是似然比检验 按 0 05 水准可认为三组阳性率不 同 鼻咽癌患者的反应阳性率最高 正常成人组的反应阳性率最小 如在 DOS 版本上使用 当总例数大于 170 时 即使命令中选用 exact 也不能给出 Fisher 的确切概率 3 0 以上的版本无此限制 例 7 3 多组构成比的比较 就下表资料分析三个民族的血型分布 构成比 是否相同 表 7 3 傣族 佤族 土家族居民的 ABO 血型分布 A B O AB 合计 xx 1 xx 2 xx 3 xx 4 傣 族 mz 1 112 150 205 40 507 佤 族 mz 2 200 112 135 73 520 土家族 mz 3 362 219 310 69 960 合 计 674 481 650 182 1987 tabi 112 150 205 40 200 112 135 73 362 219 310 69 nofreq row chi2 lrchi2 xx mz 1 2 3 4 Total 1 22 09 29 59 40 43 7 89 100 00 2 38 46 21 54 25 96 14 04 100 00 3 37 71 22 81 32 29 7 19 100 00 33 92 24 21 32 71 9 16 100 00 Pearson chi2 6 71 5186 Pr 0 000 likelihood ratio chi2 6 72 2521 Pr 0 000 按命令要求 结果中给出了 Pearson 的 2 检验和似然比 2 检验 结论 卡方检验与似然比检验的 值均较小 可认为三个民族的血型分布不同 其中傣族以 型为主 而佤族与土家族均以 型为多 例 7 4 计数相关 就下列资料分析人群中 ABO 血型与 MN 血型有无相关关系 表 7 4 6094 人 MN 血型与 ABO 血型的分布 ABO 血型 MN 血 型 现代医学统计方法与 Stata 应用 87 M N MN 合计 A 431 490 902 1823 B 388 410 800 1598 O 495 587 950 2032 AB 137 179 325 641 合 计 1451 1666 2977 6094 以 a 表 ABO 血型 b 表 MN 血型 c 为相应的频数 tabi 431 490 902 388 410 800 495 587 950 137 179 325 nofreq all Pearson chi2 6 8 5952 Pr 0 198 likelihood ratio chi2 6 8 6689 Pr 0 193 Cramer s V 0 0266 gamma 0 0078 A SE 0 017 Kendall s tau b 0 0053 ASE 0 011 结论 从列联系数来看 Cramer 的 V Goodman Kruskal 的 gamma 以及 Kendall 的 tb 均较 小 从 P 值来看 无论是卡方检验还是似然比检验 P 值均较大 尚不能认为两种血型间有相 关关系 7 2 流行病学表格分析 在流行病学资料分析中 经常要计算某事件的发生率 如发病率 死亡率等 率差 相对 危险度 RR 比数比 OR 及它们的可信区间等 用该软件可以非常 方便地解决此类问题 Stata 用于处理流行病简单表格资料的命令有 ir cs cc mcc 等 他们分别适用于定群研 究 病例对照研究和配比病例对照研究 详细说明请查阅帮助 help epitab 一 定群研究资料 定群研究又称队列研究 前瞻性研究 随访研究或纵向研究 在定群研究时 根据以往有 无暴露经历 研究者将研究人群分为暴露和非暴露 在一定时间内 随访观察和比较两组人群 的发病率或死亡率 对定群研究的资料 Stata 提供了 ir 和 cs 命令 ir 病例变量 暴露变量 时间变量 选择项 cs 病例变量 暴露变量 选择项 这里选择项有 level 指定可信区间的可信度 tb 以检验方法为基础 作可信区间的估计 by varname 指定分层变量 fast 不计算层内 OR 或可信区间 estandard 指定用外在权数计算标准化估计 与 by 一起用 istandard 指定用内在权数计算标准化估计 与 by 一起用 standard varname 指定按变量为权数计算标准化估计 与 by 一 起用 ird 指定计算标准化率之差 用于 estandard istandard 或 standard 选择项后 88 第七章 分类资料的统计分析 nocrude 不计算合并资料的指标 用于 by 选择项后 pool 直接加权估计 与 by 一起用 nohet 不做层间的齐性检验 ir 命令适用于发病率 发病密度或人 时资料 主要用于估计发病密度比和差 而 cs 适用 于 随访时间相同 随访资料的分母是观察对象数而不是人时数的资料 这两种类型的频数资料 都能直接用快速命令 iri 或 csi 格式如下 iri a b N1 N2 level tb csi a b c d level exact or tb woolf 例 7 5 就表 7 5 资料进行流行病学分析 表 7 5 暴露和不暴露 X 线患结核病妇女乳腺癌病例发生数和观察人年数 暴露 不暴露 合计 病例数 41 a 15 b 56 M 人年数 28 010 N1 19 017 N2 47 027 T 凡此 种含有时间变量的资料 应采用 iri 或 ir 命令分析之 iri 41 15 28010 19017 Exposed Unexposed Total Cases 41 15 56 Person time 28010 19017 47027 Incidence Rate 0014638 0007888 0011908 Pt Est 95 Conf Interval Inc rate diff 000675 0000749 0012751 Inc rate ratio 1 855759 1 005815 3 6111 92 exact Attr frac ex 4611368 0057813 7230831 exact Attr frac pop 337618 midp Pr k 41 0 0177 exact midp 2 Pr k 41 0 0355 exact 解释 RD 率差 0 000675 6 75 万 95 CI 0 749 万 12 751 万 RR 相对危险度 1 855759 95 CI 1 005815 3 611192 ARP 归因危险度百分比 0 4611368 95 CI 0 0057813 0 7230831 PARP 人群归因危险度百分比 0 337618 P 0 0177 单 侧 根据 Stata 输出的结果 暴露 X 线患结核病妇女发生乳腺癌的危险性为非暴露者的 1 86 倍 暴 露者中有 46 的乳腺癌是由暴露 X 线所致 人群中乳腺癌的 33 8 是由接触 X 线所致 注意 该命令中数据的输入顺序必须正确 依次为暴露组病例数 非暴露组病例数 暴露 现代医学统计方法与 Stata 应用 89 组观察人时数 非暴露组观察人时数 一旦数据输入顺序有误 则结果将大相径庭 请读者自 己验证 也可用 ir 命令 首先输入数据 input case exposed time case exposed time 1 41 1 28010 2 15 0 19017 3 end ir case exposed time Exposed Unexposed Total Cases 41 15 56 Person time 28010 19017 47027 Incidence Rate 0014638 0007888 0011908 Pt Est 95 Conf Interval Inc rate diff 000675 0000749 0012751 Inc rate ratio 1 855759 1 005815 3 611192 exact Attr frac ex 4611368 0057813 7230831 exact Attr frac pop 337618 midp Pr k 41 0 0177 exact midp 2 Pr k 41 0 0355 exact 结果与前完全相同 例 7 6 就表 7 6 资料计算妇女乳腺癌 RR 及 90 可信区间 表 7 6 母亲乳汁中 IgG 抗体滴度高低与 6 个月以上婴儿患呼吸道疾病的关系 高滴度 低滴度 发病 5 a 16 b 不发病 10 c 7 d 合计 15 23 最简单的 csi 命令为 c s i a b c d 请注意数据输入顺序 csi 5 16 10 7 level 90 Exposed U nexposed Total Cases 5 16 21 Noncases 10 7 17 Tota l 15 23 38 Risk 3333333 6956522 5526316 90 第七章 分类资料的统计分析 Pt Est 90 Conf Interval Risk difference 3623188 6172448 107
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!