流行病学研究中的常见偏倚.ppt

资源描述

流行病学研究中的常见偏倚及其控制上海交通大学公共卫生学院施榕偏倚 bias 指观察值与真值之间的偏离是一种随机误差以外误差的误差属系统误差 systemicerror 它是由某些较为恒定的不能准确测量的因素所造成偏倚可发生在流行病学研究的设计实施分析等各个阶段如选择对象中以志愿者代替随机样本使调查对象不能代表总体重复抽样或加大样本含量并不能使这种误差减少或消失流行病学研究中常见的偏倚主要有三大类即选择偏倚信息偏倚混杂偏倚第一节选择偏倚及控制一选择偏倚概念及类型选择偏倚 selectionbias 是由于选择研究对象的方法有问题使入选者与未入选者在某些特征上存在着系统差异从而导致研究结果偏离真实情况在各类流行病学研究中均可发生选择偏倚以病例对照研究中较为常见如入院率偏倚现患病例新病例偏倚检出症候群偏倚等 1 入院率偏倚 admissionratebias 入院率偏倚是由于各种疾病的入院率不同而致的偏倚现举例说明某研究者计划研究A病与X因素的关系 A病例取自某医院同时他以同一医院随机抽取相应人数的B病人作对照 OR 1 2检验差异无显著性说明A病与X因素无关系假设A病住院率为25 B病住院率为60 具有X因素也有一定的入院率为40 现就上述不同的入院率计算住院人数 A病无X因素住院人数 4800 0 25 1200人A病有X因素住院人数 1200 0 25 1200 300 0 4 660人B病无X因素住院人数 4800 0 6 2800人B病有X因素住院人数 1200 0 6 1200 720 0 4 912人表6 2医院为基础的病例对照研究 P 0 01 上述结果表明人群中A病与X因素本无关联而以医院病例作为样本所得观察结果则是有关联的 2 现患病例新病例偏倚 prevalence incidencebias 在病例对照研究调查时选择的病例往往是存活的现患病例无法对那些因患病已死亡的病例或轻型非典型或已痊愈的病例进行调查而队列研究中常采用新发生的病例因而病例对照研究得出的结论与队列研究的结果可能发生差异此即现患病例新病例偏倚也称为奈曼偏倚 Neymanbias 例如 Friedman等人在美国弗明汉地区对心血管系统疾病的研究中发现男性居民在队列研究中具有高胆固醇水平者患冠心病的RR值为2 40 而另一项病例对照研究中病例组与对照组却无明显差异 OR 1 16 表表6 3费明汉地区男性居民血胆固醇水平与冠心病关系进一步调查发现患冠心病病人在被诊断为该病后其后来的生活习惯或嗜好发生改变如开始戒烟多食低胆固醇食物进行体育锻炼从而使血中胆固醇水平降低因此病例对照研究的结论存在明显的差异 3 检出征候群偏倚 detectionsignalbias 检出征候群偏倚是指某因素与某疾病在病因学上虽无关系但由于该因素的存在会引起该病的临床症状或体征的出现从而使患者及早就医接受多种检查导致该人群有较高的检出率致使过高地估计该因素与该疾病的关联例如 1975年 Ziel等以病例对照研究从美国加州洛杉矶妇女中调查口服雌激素与子宫内膜癌的关系结果表明子宫内膜癌患者雌激素暴露比例明显高于对照组认为子宫内膜癌与服用雌激素密切相关表6 4更年期服用雌激素与子宫内膜癌的关系 1978年 Horwitz指出这一结论是由检出征候偏倚所致两者之间的高度关联是虚假的因为在人群中有一定量的无症状的子宫内膜癌早期病人她们若不服用雌激素子宫不致出血因而不去医院就诊而不能被发现 4 志愿者偏倚 volunteerbias 一般情况下志愿者与非志愿者在关心健康注意饮食习惯禁烟禁酒及体育锻炼等方面可能存在系统的差别因而志愿者被入选为观察对象而非志愿者落选这样的研究结果往往有选择偏倚例如一项以体育锻炼预防冠心病的研究干预组都是志愿者而将非志愿者作对照以比较该项措施的效果这样就可能会得出不正确的结论从上例可以看出选好对照组是十分不容易的它同研究者的临床知识经验及关于研究变量的特征对象选入的方法等都有关有时还需将多种对照同时观察更能说明问题 5 无应答偏倚 nonrespondentbias 无应答者是指研究对象中未按设计要求对被调查的内容予以应答者某个特定样本中的无应答者的患病情况及某些因素的暴露情况与应答者可能不同因此而产生的偏倚称为无应答偏倚此种偏倚在分析性研究和实验性研究中均可发生如Seltze等报道以函访调查人群吸烟状况时发现 85 的非吸烟者在一个月内回函应答了调查内容但在吸烟者中应答率仅占67 这样对男性吸烟的估计是明显低估的 6 失访偏倚 losstofollowupbias 失访也是无应答的一种表现只是它主要发生在队列及实验性研究中在随访研究过程中研究对象未能按计划被随访它是此类研究选择偏倚的主要原因之一失访一般有两种情况一种是由于观察期限短于原规定的观察危险期一般与所观察的暴露因素或结果无关且经过统计学处理能把他们当作截尾数据 censoreddata 处理虽观察不到他们发生某事件的概率但与留在观察组中的非失访者是相同的一般较少引起偏倚另一种失访是在随访过程中因种种原因拒绝继续留在观察组中他们的失访是主动的多半同所研究的暴露因素或结果有关若数量不大不致引起偏倚但若数量较大则有可能产生偏倚一项研究的失访率最好不超过10 或稍高否则应慎重考虑对结果的解释二选择偏倚的测量与防制一选择偏倚的测量选择偏倚在理论上可以通过总人群与实际抽样人群疾病与暴露分布情况进行测量下面以病例对照研究为例总人群与实际抽样人群中疾病与暴露因素的分布分别如表6 5和表6 6所示表6 6实际抽样人群疾病与暴露分布表6 5总人群疾病与暴露分布总人群比数比样本比数比选择概率为根据选择概率选择偏倚或若偏倚 0即 1 则不存在选择偏倚偏倚 0 即 1 则存在正向选择偏倚偏倚 0 即 1 则存在负向选择偏倚现以前述入院率偏倚为例 660 1200 0 55 1200 4800 0 25 912 1200 0 76 2880 4800 0 6 偏倚 1 0 74 二选择偏倚的防制 1 正确的研究设计首先研究者对整个研究可能会产生的各种选择偏倚有充分的了解在设计中应注意使被比较的各组有同等的概率受到调查应考虑可能出现的各种偏倚以及会在那些环节出现只有在设计时考虑周全并采取相应措施在各个环节中阻断偏倚产生的可能性才能防止或减少其发生 2 尽量采用多种对照理想的是以人群中全体病例和非病例或其有代表性的样本作为研究对象如以医院病例为研究对象宜在多个医院选择对象且最好有2个对照组其中一个对照组来自社区一般人群在队列研究中最好也应设多种对照以减少选择偏倚对结果的影响 3 严格掌握研究对象入选与排除的标准使研究对象能较好地代表其相应的总体如病例对照一般可规定病例的入选原则为新发的确诊病例以避免Neyman偏倚在实验性研究中应严格按照随机分配的原则将研究对象分组使两组除所观察因素外应具有均衡性可比性应避免将志愿者分为一组非志愿者分为另一组病情轻者分在一组病情重者分在另一组等情况的发生 4 提高研究对象的依从性在研究中应采取相应措施尽量取得研究对象的合作尽可能提高应答率减少无应答率和队列研究中的主动失访要做好组织宣传工作调查手段要简便易行对调查中的问题应采取适当的处理技巧若无应答或失访者超过10 应对无应答者或失访者进行随机抽样调查对失访者和已随访者的特征做比较分析对研究结果可能有影响有关数据与应答者进行分析比较若两者差异有显著性说明对结果有影响在结论中应加以说明并应作慎重的分析第二节信息偏倚及控制一信息偏倚的概念及类型信息偏倚 informationbias 是指在研究的实施阶段中从研究对象获取研究所需的信息时产生的系统误差其原因是由于诊断疾病测量暴露或结局的方法有问题导致被比较各组间收集的信息有差异而引入的误差各种类型的流行病学研究中均可产生信息偏倚病例对照研究中常见的信息偏倚有回忆偏倚报告偏倚调查者偏倚诱导偏倚等错误分类偏倚则在病例对照研究和队列研究中都可产生 1 回忆偏倚 recallbias 指比较组间在回忆过去的暴露或既往史时其完整性与准确性存在系统误差而引起的偏倚回忆偏倚在病例对照研究中最常见主要原因有 1 研究对象对调查的内容关心程度不同一般情况下病例组患者对调查的事件回忆认真程度高于对照人群因而导致两组对象在回忆以往事件的准确性存在差异 2 调查的事件或因素发生的频率较低未给研究对象留下深刻印象而遗忘 3 调查事件是很久以前发生的事情研究对象记忆不清 2 报告偏倚 reportingbias 被调查者有意隐瞒真实情况夸大或缩小某些信息而导致研究结果产生偏倚故亦称说谎偏倚常见于敏感问题如未成年人的吸烟史冶游史例如有些人有冶游史可能会难于陈述实情而对于一些职业危害进行调查研究对象因涉及劳保福利等原因可能会夸大某些暴露信息 3 诊断怀疑偏倚 diagnosticsuspicionbias 由于研究者事先了解研究对象对研究因素的暴露情况于是带着先入为主的倾向性怀疑其患某病或在主观上倾向出现某种阳性结果如对暴露组或实验组进行非常仔细地检查而对非暴露组或对照组则不然从而使研究结果出现偏差由此而产生诊断怀疑偏倚此类偏倚多见于队列研究和临床试验 4 暴露怀疑偏倚 exposuresuspicionbias 与上述的诊断怀疑偏倚一样研究者在收集并确定病例组的暴露比例时所具有的认真细致程度远高于对照组从而导致错误结论此即暴露怀疑偏倚这类偏倚多见于病例对照研究如采用病史记录作为分析资料因为询问病史的医生知道某些因素和某病发病有关因此对病例组患者在询问病史时特别仔细常有阳性的记录而调查对照组时则漫不经心阴性结果很多对两组对象以不同的调查方法进行调查从而产生偏倚 5 错误分类偏倚 misclassificationbias 调查中使用的方法如果偏离了金标准则将产生错误分类偏倚在度量疾病状态和暴露状态都可能发生每项诊断试验或测定仪器都有一定的灵敏度和特异度但两者都不大可能是100 于是就会出现假阳性和假阴性这就发生了错误分类即本应是病人但错将他分入了对照组而本应是非病人则将他分入病例组 1 无差异错分 nodifferentialmisclassification 当se se sp sp 时产生其实测结果往往低于真值现以下例说明表6 7是某队列研究暴露组和非暴露组病例的真实分布情况表6 7暴露组和非暴露组病例的真实分布情况 RR 2 表6 8暴露组人员错分后的分布情况现假设某诊断疾病方法的se 0 8 sp 0 9 则暴露组病例400人该方法诊断为病人400 0 8 380人另有80人漏诊但另有600 1 0 9 60人误诊故实际诊断为病人380人诊断非病人为620人表6 8 表6 9非暴露组人员错分后的分布情况非暴露组中该方法诊断病人为200 0 8 160人误诊800 1 0 9 80 实际诊断病例数为240人诊断为非病人760人表6 9 表6 10暴露组非暴露组病例的实际分布情况 RR 1 583错分偏倚 RR RR RR 1 583 2 2 0 209 2 有差异错分 differentialmisclassification 当两组测定方法的灵敏度和特异度不同则可产生有差异错分资料的实际估计值可高于真值也可低于真值即可能高估也可低估研究因素与疾病之间的联系二信息偏倚的控制 1 搞好研究方法的质量控制调查表的设计时对所有调查内容指标要规定明确客观的标准并力求量化所询问方式的调查内容每个问题的答案应标准化对调查人员要进行统一培训使其充分了解调查的目的意义统一标准统一调查技巧调查询问方式相同有相同的深度和广度对所有调查方法应规定质量控制方法及标准另外还要对研究对象做好宣传组织工作以取得研究对象的密切合作 2 资料的校正方法根据调查所得资料灵敏度特异度可对含有信息偏倚错分偏倚的资料予以校正下面介绍两组资料测定方法敏感度与特异度较近时的校正方法校正公式如下现以表6 11资料为例说明信息偏倚的校正方法 A Sp n1 c se Sp 1 B Sp n2 d se Sp 1 C n1 AD n2 B 表6 11某病例对照研究研究因素的暴露情况本病例组及对照组敏感度为0 9 特异度为0 7 代入公式计算得OR 2 1 A 0 7 100 34 0 9 0 7 1 36 0 6 60B 0 7 100 52 0 9 0 7 1 18 0 6 30C 100 60 40D 100 30 70 3 尽可能采用盲法设计在调查中采用双盲设计使调查人员和研究对象均不知晓分组情况以避免诊断怀疑偏倚暴露怀疑偏倚报告偏倚等对在调查过程仍可有可缺发生的信息偏倚如错误分类则由于比较组间资料的准确度相似即使发生错误分类属于无差异错误分类的可能性较大可应用上述校正方法作出相应估计 4 利用客观指标或客观方法收集资料在研究中应尽量采用实验室检查结果研究对象的体格检查记录或诊疗记录等客观治疗信息来源对只能通过调查询问方法收集主观资料时应尽量采用封闭式提问方式条件许可时收集资料时可包括一些无关的信息以分散被调查者的注意力减少主观因素的影响第三节混杂偏倚及控制一混杂偏倚概念混杂偏倚 confoundingbias 是在研究暴露与疾病的联系时假如有一种外界因素既是与研究疾病的危险因素有联系又在被比较各组中的分布不同那么这一因素则称为混杂变量由于混杂变量的存在造成了观察到的联系强度偏离了实际情况则称为混杂偏倚图混杂偏倚示意图混杂因素的基本特点 1 必须是研究疾病的独立危险因子 2 必须与研究因素有关 3 不是研究因素与疾病因果链上的中间变量继发关联 secondaryassociation 定义是一种纯粹由混杂偏倚产生的关联即怀疑的病因暴露 E与疾病D并不存在因果关系而是由于两者 E D 有共同的原因C E D同C存在关联从而继发产生E与D的关联第三节研究的偏倚 C D E 例如高血清胆固醇是冠心病的危险因素高血清胆固醇可产生沉积于眼睑的黄色瘤从而导致黄色瘤与冠心病的继发关联另外 E与C也可以由于相关因果方向不明而产生继发关联例如吸烟是胰腺癌的危险因素吸烟又与喝咖啡存在相关没有确定的时间先后从而造成喝咖啡与胰腺癌的继发关联第三节研究的偏倚图混杂因素成立与不成立的几种情况示意图不存在混杂偏倚的几种情况存在混杂偏倚的几种情况二混杂因素的测量进一步测量某一可疑混杂因子的混杂作用可疑通过将含有该因素时如RR OR 与扣除该因素后的估计值进行比较分析来实现研究因素与疾病的估计值为cRR或cOR 称为粗RR或粗OR 按该可疑因素调整后的估计值为aRR f 或aOR f 称作调整RR或调整OR aRR f 可用MentelHaenszel分层分析方法计算现以估计值RR说明测量方法 OR测量方法相同 1 若CRR aRR f无混杂作用 2 若CRR aRR f有混杂作用 CRR aRR为正混杂混杂偏倚的存在使研究中暴露与疾病之间存在的真实联系被夸大 CRR aRR为负混杂由于f的混杂作用使cRR低估研究因素与疾病之间的联系 3 混杂偏倚 CRR aRR aRR 若值 0 无混杂若值 0 有正混杂若值 0为负混杂对混杂因素的分析可将含有该因素时研究因素与疾病的估计值与按该因素分层后研究因素与疾病的估计值进行比较若两者不一致则有可能存在混杂偏倚现举例说明如下某队列研究调查粉尘与呼吸道疾病的关系吸烟 F 可能是混杂因素计算粗RR RR 1 按吸烟与否分层 RR 0 58 RR 3 06 分层前RR与分层RR后不一致说明吸烟很可能是一个混杂因素分析吸烟与呼吸道系统疾病是否关联 RR 1 42 表明吸烟是呼吸道系统疾病危险因素任何一个外界因素本身并不固有混杂因素的特性必须有另一暴露因素同时存在且它在暴露组与非暴露组的分布不均匀才可能成为混杂因素三混杂偏倚控制 1 研究阶段 1 限制 restriction 如果认为某个或某些因素是可能的或已知的混杂因素在设计过程中可对研究对象的选择条件进行规定但限制条件不宜太多如研究冠心病与吸烟的关系年龄与性别可能是混杂因素就规定本次调查仅限与40 50岁的男性居民 2 配比 matching 个体配比将每个指示病例选择一个或多个对照该对照与病例具有某些相同的特征如年龄性别等在各比较组有相同的分布以达到清除混杂作用的目的频数配比将使对照组在某个潜在的混杂变量的分布与指示病例组的分布相同如暴露组30 39岁为30 40 49岁为30 50 59岁为40 那么非暴露组应与暴露组有相同的年龄分布 3 随机化 randomization 一般用于实验性研究其目的之一就是将混杂因素均匀地分配在各组中 2 资料的分析阶段 1 分层分析在对研究的因素与疾病的联系进行分析时可首先按某个潜在的混杂因子进行分层如不存在研究因素与混杂因素对疾病的交互作用可用Mantel Haenszel法求出合并的ORMH及MH 1 按可能的混杂因素吸烟分层第三节研究的偏倚表8 7 表8 8 aibim1icidim0inin0ti 2 判定层间关联效应水平是否同质按是否吸烟分层后两层内的饮酒与肺癌的关联效应大小是同质同质性检验的可以应用M H方法计算综合OR 第三节研究的偏倚 3 计算综合或调整OR 并与粗OR比较 P 0 25 第三节研究的偏倚 4 结论吸烟对饮酒与肺癌的关联 cOR 3 69 有混杂作用 cOR ORMH 控制吸烟的混杂作用后饮酒与肺癌无关联 0 6509 P 0 25 注意针对ORMH的 2检验是在排除了混杂偏倚的基础上再排除随机误差而针对cOR的 2检验是建立在没有排除混杂偏倚的基础上的第三节研究的偏倚分层分析法分层前分层后 COR ad bc 的方差例如病例组为某地医院诊疗的25 49岁患心肌梗死的妇女234名对照组为该地年龄为25 49岁妇女的随机样本1742名病例组和对照组均按同一方法和标准收集三个月前避孕药的暴露情况不考虑对口服避孕药与心肌梗死的关系其粗比数比为1 86 表6 17 表6 17口服避孕药与心肌梗死的关系 5 84 OR 1 86 年龄与口服避孕药与心肌梗死的关系列于表6 18 表6 18年龄与心肌梗死与口服避孕药的关系自上表可发现年龄与心肌梗死和口服避孕药均不关联且在病例组和对照组分布不均年龄有可能为混杂因子应予调整按年龄分层口服避孕药与心肌梗死的关系列于表6 19 按Mantel Halnszel方法估计调整比数比aOR f 列于表6 20 表6 19按年龄分层心肌梗死与近期使用口服避孕药的关系表6 20M H法计ORMH MH ORMH 23 71 5 97 3 97ORMH OR OR的95 可信区间混杂偏倚表明年龄对口服避孕药与心肌梗死的关系起负向混杂作用使比数比低57 57 2 数学模型对于二项分类变量患病不患病亦可用Logistic回归模型分析仍以上例痢疾发病病因资料说明如下冷饮史X1 1阳性 2阴性用膳地点X2 1本部食堂 2西部食堂 y 3 101X1 0 325X2 P 0 05 表示控制了用膳地点冷饮史仍为危险因素表示控制冷饮史后用膳地点的作用消失了结论与分层分析一致 P 0 05 P 0 05

展开阅读全文

流行病学研究中的常见偏倚.ppt

最新文档