流行病学数据统计分析策略..课件

资源描述

流行病学数据统计分析策略.流行病学数据流行病学数据(shj)统计分析策统计分析策略略中南大学湘雅公共卫生学院中南大学湘雅公共卫生学院谭红专谭红专(hn zhun)(hn zhun) 教授教授第一页，共四十一页。2022-4-26流行病学数据统计分析策略.2主要主要(zhyo)内容内容n概述概述n专题研究的数据分析专题研究的数据分析n常规收集的流行病学数据常规收集的流行病学数据(shj)的分的分析析第二页，共四十一页。2022-4-26流行病学数据统计分析策略.3第一节第一节概述概述(i sh)n流行病学研究与流行病学数据流行病学研究与流行病学数据(shj)n流行病学数据分析的目的流行病学数据分析的目的n流行病学数据中的变量分类流行病学数据中的变量分类n流行病学数据分析的内容流行病学数据分析的内容第三页，共四十一页。2022-4-26流行病学数据统计分析策略.4一、流行病学一、流行病学(li xn bn xu)研究与流行病学研究与流行病学(li xn bn xu)数据数据n狭义的流行病学数据流行病学数据（epidemiological data）指任何来自针对明确研究目的而开展特定流行病学研究所收集的资料。n广义的流行病学数据还包括出于其他目的和用途而收集的、可以用来定量地探索疾病健康或医疗卫生服务其他问题(wnt)的资料。n即一切可为流行病学所用的数据。目前的目前的临床大数据是个宝库。临床大数据是个宝库。第四页，共四十一页。2022-4-26流行病学数据统计分析策略.5二、流行病学二、流行病学(li xn bn xu)数据分析数据分析的目的的目的n流行病学数据分析是针对明确研究问题、具有明确目针对明确研究问题、具有明确目的的、采用特定方法对流行病学数据进行统计整理、统计描述、统计推断和总结。n流行病学研究的问题涉及疾病(jbng)分布、病因与危险因素、诊断、预防和治疗效果评价等。n数据分析的根本是正确地回答有意义的问题，而不是统计学数字游戏。第五页，共四十一页。2022-4-26流行病学数据统计分析策略.6流行病学数据分析的目的流行病学数据分析的目的n估计有关统计学指标，如相对危险度；n估计该统计学指标的可信区间；n控制可能的混杂因素；n分析(fnx)剂量反应关系；n分析可能的效应修饰因子；n分析可能存在的偏倚。第六页，共四十一页。2022-4-26流行病学数据统计分析策略.7三、流行病学数据中的变量三、流行病学数据中的变量(binling)分类分类 n典型的流行病学研究中变量可根据其用途分为五类：n暴露变量：因，自变量，可以有多个n结局变量：果，因变量，是数据分析的核心(hxn)n混杂因素：需要控制n效应修饰因素：需要描述n其他变量：第七页，共四十一页。2022-4-26流行病学数据统计分析策略.8按统计学分类按统计学分类(fn li)n定性：二分类和多分类（无序多分类）n定量：在多数流行病学研究中被转化为分类变量n半定量（分级，有序多分类）n同一个研究中，因变量和自变量的关系应该是固定的、不能互换。但在不同(b tn)的研究中，一个变量在这个研究中可能是果，在另一个研究中也可能是因。例如，高血压可能是遗传的结果，血压也可能是心脑血管事件的原因。第八页，共四十一页。2022-4-26流行病学数据统计分析策略.9四、流行病学四、流行病学(li xn bn xu)数据分析数据分析的内容的内容 n描述研究对象的数量变动；n变量分类和数据整理；n描述和比较组间基线资料；n估计结局事件发生频率；n估计效应大小及其可信区间；n识别和控制混杂(hnz)；n识别和测量效应修饰作用；n识别和测量剂量反应关系；n其他分析。第九页，共四十一页。2022-4-26流行病学数据统计分析策略.10第二节第二节流行病学流行病学(li xn bn xu)专题研究的专题研究的数据分析数据分析一、描述研究对象的数量变动一、描述研究对象的数量变动数据分析的第一步须对研究对象数量数据分析的第一步须对研究对象数量随时间的变动进行随时间的变动进行(jnxng)描述，这是判断选描述，这是判断选择偏倚是否存在及其大小的主要依据；对择偏倚是否存在及其大小的主要依据；对选样、抽样和筛选都应交代原则和方法；选样、抽样和筛选都应交代原则和方法；对退出和失访都应记录数量和原因对退出和失访都应记录数量和原因。第十页，共四十一页。2022-4-26流行病学数据统计分析策略.11第十一页，共四十一页。2022-4-26流行病学数据统计分析策略.12二、流行病学变量的分类与数据二、流行病学变量的分类与数据(shj)转换转换n转换目的：习惯、专业考量、模型限制n转换类型：定量转定性或分级，定性转定量n转换常用原则：借鉴既往同类研究的分级方法；按照通用(tngyng)的分级标准，如年龄可按国际通用(tngyng)的婴儿、幼儿、青少年、青年、中年、老年的年龄切点来分级；把研究人群分成每组人数均等的35组等。第十二页，共四十一页。2022-4-26流行病学数据统计分析策略.13三、描述三、描述(mio sh)基线资料基线资料n基线资料就是有关研究对象代表性和混杂(hnz)因素的信息资料。n基线资料描述的基本目的：一是交待研究对象的特征，提供其代表人群的信息，据此判断结果的外推人群和外推性；二是评估暴露组和非暴露组之间混杂因素的可比性，检查存在混杂的可能性。n描述基线资料时，通常在总体描述基础上，对暴露组和非暴露组还要分别进行描述。第十三页，共四十一页。2022-4-26流行病学数据统计分析策略.14四、结局事件四、结局事件(shjin)发生的频率发生的频率n一般要求用率表示，如发病率。发病率由三个因素决定：观察时间、可能发病的总人数和实际发病人数。n一般情况(qngkung)下，发病率的分子是在一定时间内发病的总人数。n分母则因研究设计不同而异。当发病率较低，且每个人的观察时间长短基本一致，可用研究开始时该组人数作分母计算发病率，叫做累积发病率（cumulative incidence）。当结局事件发生率较高（如晚期癌症治疗试验中的死亡）或每个人的观察时间相差较大时，这时可用人时数（如人年数，person-years）做分母计算发病率，称作人时发病率（person-time incidence rate或发病密度（incidence density），第十四页，共四十一页。2022-4-26流行病学数据统计分析策略.15五、估计五、估计(gj)效应值效应值n效应就是暴露或治疗对结局作用或影响的大小(dxio)，多用暴露组与非暴露组或治疗组与对照组间发病率的差别来表达。第十五页，共四十一页。2022-4-26流行病学数据统计分析策略.16第十六页，共四十一页。2022-4-26流行病学数据统计分析策略.17六、估计六、估计(gj)效应可信区间效应可信区间n由于随机误差，各效应指标的点估计不能代表效应的真实值，可信区间（Confidence Interval，CI）可用来表达由随机误差引起的效应估计值的不确定性。实践中一般采用95%可信区间，可以将其理解为真实效应值有95%的可能在这个(zh ge)区间之内。若效应指标的点估计值为X，标准误为SE，该效应指标的95可信区间：95CI X1.96SE，其中，（X1.96SE）为其下限，（X1.96SE）为其上限。第十七页，共四十一页。2022-4-26流行病学数据统计分析策略.18七、识别和控制七、识别和控制(kngzh)混杂混杂n混杂是由于同一个研究里暴露对某疾病的作用与其他病因的作用交织在一起导致暴露效应估计上的误差。n混杂必须同时具备三个条件：其一，是疾病确定的病因或危险因素；其二，不是暴露和疾病间的中间因素；其三，可疑的混杂因素在暴露组和非暴露组的分布不均衡(jnhng)。如性别可能就是吸烟与肺癌关系中的一个混杂因素。第十八页，共四十一页。2022-4-26流行病学数据统计分析策略.19n混杂(hnz)的控制就是控制混杂(hnz)的第三个条件，办法有：n设计阶段有三种方法：限制、匹配和随机分组；n数据分析阶段也有三种方法：直接标化法、分层分析和多元回归分析。第十九页，共四十一页。2022-4-26流行病学数据统计分析策略.20八、交互作用八、交互作用n交互作用不同于混杂。混杂是粗效应(xioyng)值估计时的一种偏倚，需要控制和消除；交互作用是效应(xioyng)大小随第三因素暴露强度或剂量变化而变化的现象。 n区别交互作用和混杂的方法是一致性检验。如果层间差异无显著性（P0.05），说明不存在交互作用，这时可按混杂处理，可以用一个加权平均效应值来表达，如果平均效应值与粗效应值一致，说明无混杂。第二十页，共四十一页。2022-4-26流行病学数据统计分析策略.21交互作用模型及其相对性交互作用模型及其相对性决策决策(juc)应基于相加模型应基于相加模型第二十一页，共四十一页。2022-4-26流行病学数据统计分析策略.22九、识别和测量剂量九、识别和测量剂量(jling)反应关系反应关系n识别和测量剂量反应关系的分析方法主要(zhyo)有分层分析和回归分析。第二十二页，共四十一页。2022-4-26流行病学数据统计分析策略.23第三节第三节常规收集常规收集(shuj)的的流行病学数据的分析流行病学数据的分析常规数据分析的特殊性有三点：常规数据分析的特殊性有三点：n第一，对研究问题的设定和对分析结果真实性的评估；n第二，由于没有预先设定研究问题，可研究的问题取决于资料内容和性质；n第三，设计(shj)框架不清楚或不完善，存在多种偏倚，结果真实性较差或不确定。n本节将以医院的病人资料为例，说明常规数据分析的目的、方法、步骤和注意事项。第二十三页，共四十一页。2022-4-26流行病学数据统计分析策略.24一、常规数据一、常规数据(shj)的特征的特征（一）数据的时间框架和分类（一）数据的时间框架和分类n时间框架指数据的时间特征，主要分为随访数据（队列数据）和非随访数据（现况数据）。n现况数据主要探索病人现况、服务状况和诊断准确性，偶尔用于初步探索病因、疗效(lioxio)和不良反应。队列数据可用于大多队列数据可用于大多数临床问题的探索数临床问题的探索。第二十四页，共四十一页。2022-4-26流行病学数据统计分析策略.25（二）变量（二）变量(binling)的特征和分类的特征和分类n按照临床特征可将常规数据中的变量分为治疗措施、诊断结果、病因/危险因素(yn s)、预后因素(yn s)、结局、服务相关因素(yn s)（如药价、医疗保险等）。n变量决定可能的研究问题变量决定可能的研究问题。例如，数据中无治疗信息，则无法研究疗效和副作用；无诊断结果，则无从研究诊断准确性。无结局信息，则不能研究疗效、预后因素、危险因素。第二十五页，共四十一页。2022-4-26流行病学数据统计分析策略.26二、形成研究二、形成研究(ynji)问题问题n根据数据的变量特征，可以初步形成可研究问题(wnt)的范围。n欲进行诊断准确性研究，数据库里必须有检查结果和疾病诊断信息。n研究副作用，基线资料中必须有治疗信息，随访资料中须有副作用的信息。n评估疗效，基线资料中须有治疗的信息，随访资料中须有结局信息。n研究危险因素，基线资料中须有可疑病因的信息，随访资料中须有有关疾病的信息。n对研究者最大的挑战不是如何进行分析，而是如何形成研究问题？第二十六页，共四十一页。2022-4-26流行病学数据统计分析策略.27三、常规数据三、常规数据“研究研究(ynji)设计设计”的缺陷的缺陷第二十七页，共四十一页。2022-4-26流行病学数据统计分析策略.28n研究设计最重要的三个因素是时间、人群和变量。研究设计最重要的三个因素是时间、人群和变量。时间因素包括时点还是时间段，如何定义起始时间、时间走向、变量间的时间关系(gun x)；人群因素包括人群特征，选择过程，及比较组的形成；变量因素包括测量指标、何时测量、测量的准确性。 n通过比较常规数据收集的“设计框架”和最佳研究设计，可以发现常规数据的设计缺陷，判断可能引起的偏倚。在时间、人群和变量特征上与最佳在时间、人群和变量特征上与最佳设计的差异，就是常规数据的缺陷所在，设计的差异，就是常规数据的缺陷所在，也是偏倚可能出现的地方。n主要缺陷是非随机主要缺陷是非随机,失访或变量缺失。失访或变量缺失。第二十八页，共四十一页。2022-4-26流行病学数据统计分析策略.29四、估计相应四、估计相应(xingyng)的指标的指标n根据(gnj)研究目的以及最佳研究设计，就能够确定需要估计的指标。n现况研究中，只需要估计有关变量的均数和百分数；n评估治疗效果时，主要估计治疗对结局作用的大小；n评估诊断的准确性，主要估计灵敏度和特异度；n研究副作用，主要估计治疗对不良结局的作用大小值。第二十九页，共四十一页。2022-4-26流行病学数据统计分析策略.30常规常规(chnggu)数据分析的具体步骤数据分析的具体步骤n分析数据的时间框架和变量的特征；n提出可探索的问题，确定最终研究的问题；n与最佳研究设计比较，检查数据的“研究设计”缺陷；n估计必要(byo)的指标及其可信区间与其它必要(byo)的分析；n分析数据中可能存在的其他偏倚，例如选择偏倚、信息偏倚和混杂偏倚；n综合设计缺陷、偏倚和结果，对研究问题做出结论。第三十页，共四十一页。2022-4-26流行病学数据统计分析策略.31五、评估五、评估(pn )数据中的偏倚数据中的偏倚分析常规数据时，针对偏倚需考虑以下问题：分析常规数据时，针对偏倚需考虑以下问题：n设计框架中，是否具有病因（或治疗）、结局和混杂因素的信息(xnx)，结局的测量是否发生在病因或治疗发生后的一段时间内；n是否存在选择偏倚：数据代表性及失访率等；n是否存在信息偏倚；n是否存在混杂偏倚：有关混杂因素的基线信息是否完整。第三十一页，共四十一页。2022-4-26流行病学数据统计分析策略.32（一）评估（一）评估(pn )数据中的选择偏倚数据中的选择偏倚n很多数据的代表性很差或总体不明。 n病人还经过了检验检查的选择。 n最严重的选择偏倚是选择性随访和失访。大多数病人缺乏结局(jij)资料可能是我国医院常规数据中最大的问题之一。第三十二页，共四十一页。2022-4-26流行病学数据统计分析策略.33（二）评估数据（二）评估数据(shj)中的信息偏倚中的信息偏倚 n数据的准确性和可靠性取决于医疗机构水平的高低；n另一个常见问题是数据质量不一致，原因包括同一个医院不同(b tn)时期使用的检查仪器、试剂、方法和标准不同(b tn)，检验员的水平不同(b tn)； n随访时间不足也可能造成测量误差。第三十三页，共四十一页。2022-4-26流行病学数据统计分析策略.34（三）评估数据中的混杂（三）评估数据中的混杂(hnz)偏倚偏倚n由于利用常规资料的研究多属于探索性研究，并不确定哪些因素是混杂因素；n即使混杂因素已知，常规数据中常缺乏混杂因素的信息，导致(dozh)无法控制混杂因素；n即使收集了混杂因素的数据，可能信息质量不好，致使混杂的控制不彻底。第三十四页，共四十一页。2022-4-26流行病学数据统计分析策略.35六、常规资料六、常规资料(zlio)的利用的利用n诊断方法准确性的评估n急性病住院病人的转归和预后n围产期和新生儿问题的研究n急诊问题的研究n罕见疾病的病因和转归研究n疾病危险因素初探n药物毒副作用的研究n某类病人特征(tzhng)的观察n有关服务和用药的研究。第三十五页，共四十一页。2022-4-26流行病学数据统计分析策略.36n由于常规数据的局限性，其分析目的主要目的主要是发现新问题，提出新假设，是发现新问题，提出新假设，很少用来验证(ynzhng)和确定研究假设，不适用于已得到广泛研究的、存在高质量证据的、基本定论的问题。第三十六页，共四十一页。2022-4-26流行病学数据统计分析策略.37提高使用效果提高使用效果(xiogu)的措施的措施n利用部分常规(chnggu)数据，再依据研究问题收集少量新数据，可以扩展常规(chnggu)数据的研究用途，尤其在诊断准确性研究、病因和副作用的病例对照研究、罕见病的转归和预后研究领域。n扩大数据来源。例如，一个科室或医院的病人可能代表性差、失访率高；如果汇总一个大城市所有医院的数据，将会大大增加代表性，降低失访率；电子病历使跨医院和地区临床数据的合并成为可能。n同时利用多个不同性质的常规数据。例如，死亡作为观察结局时，可以同时利用一个地区或全国的死亡登记资料。第三十七页，共四十一页。2022-4-26流行病学数据统计分析策略.38n针对研究的问题，尽可能对病人重要的、容易准确测量的结局（如死亡(swng)、脑卒中）进行随访。由于移动电话、互联网、电子病历的出现，对重要结局的随访已经变得更加容易和可行。n适当地针对几个重要的疾病扩大资料收集的内容，尤其是常见的混杂因素，如年龄、性别、职业、疾病分级或严重程度等，加强测量和数据收集的质量控制。n当同一变量的检查方法不一致时，可以用一个小样本量对不同方法进行比较，并利用这个比较的结果对数据进行统一的调整。第三十八页，共四十一页。2022-4-26流行病学数据统计分析策略.39七、临床研究结果七、临床研究结果(ji gu)的解释的解释n观察指标的意义：缓解症状还是(hi shi)减少死亡；n效应的大小及其可信区间；n结果的真实性；n结果的外推性第三十九页，共四十一页。2022-4-26流行病学数据统计分析策略.40谢谢谢谢(xi xie)！第四十页，共四十一页。流行病学数据统计分析策略.内容(nirng)总结流行病学数据统计分析策略。数据分析的根本是正确地回答有意义的问题，而不是统计学数字游戏。同一个研究中，因变量和自变量的关系应该是固定的、不能互换。数据分析的第一步须对研究对象数量随时间的变动进行描述，这是判断选择偏倚是否存在及其大小的主要依据。转换类型：定量转定性或分级，定性转定量。发病率由三个因素决定：观察时间、可能发病的总人数和实际(shj)发病人数。一般情况下，发病率的分子是在一定时间内发病的总人数。谢谢第四十一页，共四十一页。

展开阅读全文

流行病学数据统计分析策略..课件

最新文档