流行病学数据统计分析策略讲义课件

资源描述

流行病学数据统计分析策略流行病学数据统计分析策略中南大学湘雅公共卫生学院中南大学湘雅公共卫生学院谭红专谭红专教授教授流行病学数据统计分析策略中南大学湘雅公共卫生学院2024/7/62主要内容主要内容n概述概述n专题研究的数据分析专题研究的数据分析n常规收集的流行病学数据的分析常规收集的流行病学数据的分析 2023/7/302主要内容概述2024/7/63第一节第一节概述概述n流行病学研究与流行病学数据流行病学研究与流行病学数据n流行病学数据分析的目的流行病学数据分析的目的n流行病学数据中的变量分类流行病学数据中的变量分类n流行病学数据分析的内容流行病学数据分析的内容2023/7/303第一节概述流行病学研究与流行病学数据2024/7/64一、流行病学研究与流行病学数据一、流行病学研究与流行病学数据n狭义的流行病学数据流行病学数据（epidemiological data）指任何来自针对明确研究目的而开展特定流行病学研究所收集的资料。n广义的流行病学数据还包括出于其他目的和用途而收集的、可以用来定量地探索疾病健康或医疗卫生服务其他问题的资料。n即一切可为流行病学所用的数据。目前目前的临床大数据是个宝库。的临床大数据是个宝库。2023/7/304一、流行病学研究与流行病学数据狭义的流行2024/7/65二、流行病学数据分析的目的二、流行病学数据分析的目的n流行病学数据分析是针对明确研究问题、具有针对明确研究问题、具有明确目的明确目的、采用特定方法对流行病学数据进行统计整理、统计描述、统计推断和总结。n流行病学研究的问题涉及疾病分布、病因与危险因素、诊断、预防和治疗效果评价等。n数据分析的根本是正确地回答有意义的问题，而不是统计学数字游戏。2023/7/305二、流行病学数据分析的目的流行病学数据分2024/7/66流行病学数据分析的目的流行病学数据分析的目的n估计有关统计学指标，如相对危险度；n估计该统计学指标的可信区间；n控制可能的混杂因素；n分析剂量反应关系；n分析可能的效应修饰因子；n分析可能存在的偏倚。2023/7/306流行病学数据分析的目的2024/7/67三、流行病学数据中的变量分类三、流行病学数据中的变量分类 n典型的流行病学研究中变量可根据其用途分为五类：n暴露变量：因，自变量，可以有多个n结局变量：果，因变量，是数据分析的核心n混杂因素：需要控制n效应修饰因素：需要描述n其他变量：2023/7/307三、流行病学数据中的变量分类典型的流行2024/7/68按统计学分类按统计学分类n定性：二分类和多分类（无序多分类）n定量：在多数流行病学研究中被转化为分类变量n半定量（分级，有序多分类）n同一个研究中，因变量和自变量的关系应该是固定的、不能互换。但在不同的研究中，一个变量在这个研究中可能是果，在另一个研究中也可能是因。例如，高血压可能是遗传的结果，血压也可能是心脑血管事件的原因。2023/7/308按统计学分类定性：二分类和多分类（无序多2024/7/69四、流行病学数据分析的内容四、流行病学数据分析的内容 n描述研究对象的数量变动；n变量分类和数据整理；n描述和比较组间基线资料；n估计结局事件发生频率；n估计效应大小及其可信区间；n识别和控制混杂；n识别和测量效应修饰作用；n识别和测量剂量反应关系；n其他分析。2023/7/309四、流行病学数据分析的内容描述研究对象2024/7/610第二节第二节流行病学专题研究的数据分析流行病学专题研究的数据分析一、描述研究对象的数量变动一、描述研究对象的数量变动数据分析的第一步须对研究对象数量数据分析的第一步须对研究对象数量随时间的变动进行描述，这是判断选择随时间的变动进行描述，这是判断选择偏倚是否存在及其大小的主要依据；对偏倚是否存在及其大小的主要依据；对选样、抽样和筛选都应交代原则和方法；选样、抽样和筛选都应交代原则和方法；对退出和失访都应记录数量和原因对退出和失访都应记录数量和原因。2023/7/3010第二节流行病学专题研究的数据分析一2024/7/6112023/7/30112024/7/612二、流行病学变量的分类与数据转换二、流行病学变量的分类与数据转换n转换目的：习惯、专业考量、模型限制n转换类型：定量转定性或分级，定性转定量n转换常用原则：借鉴既往同类研究的分级方法；按照通用的分级标准，如年龄可按国际通用的婴儿、幼儿、青少年、青年、中年、老年的年龄切点来分级；把研究人群分成每组人数均等的35组等。2023/7/3012二、流行病学变量的分类与数据转换转换目2024/7/613三、描述基线资料三、描述基线资料n基线资料就是有关研究对象代表性和混杂因素的信息资料。n基线资料描述的基本目的：一是交待研究对象的特征，提供其代表人群的信息，据此判断结果的外推人群和外推性；二是评估暴露组和非暴露组之间混杂因素的可比性，检查存在混杂的可能性。n描述基线资料时，通常在总体描述基础上，对暴露组和非暴露组还要分别进行描述。2023/7/3013三、描述基线资料基线资料就是有关研究对2024/7/614四、结局事件发生的频率四、结局事件发生的频率n一般要求用率表示，如发病率。发病率由三个因素决定：观察时间、可能发病的总人数和实际发病人数。n一般情况下，发病率的分子是在一定时间内发病的总人数。n分母则因研究设计不同而异。当发病率较低，且每个人的观察时间长短基本一致，可用研究开始时该组人数作分母计算发病率，叫做累积发病率（cumulative incidence）。当结局事件发生率较高（如晚期癌症治疗试验中的死亡）或每个人的观察时间相差较大时，这时可用人时数（如人年数，person-years）做分母计算发病率，称作人时发病率（person-time incidence rate或发病密度（incidence density），2023/7/3014四、结局事件发生的频率一般要求用率表示2024/7/615五、估计效应值五、估计效应值n效应就是暴露或治疗对结局作用或影响的大小，多用暴露组与非暴露组或治疗组与对照组间发病率的差别来表达。2023/7/3015五、估计效应值效应就是暴露或治疗对结局2024/7/6162023/7/30162024/7/617六、估计效应可信区间六、估计效应可信区间n由于随机误差，各效应指标的点估计不能代表效应的真实值，可信区间（Confidence Interval，CI）可用来表达由随机误差引起的效应估计值的不确定性。实践中一般采用95%可信区间，可以将其理解为真实效应值有95%的可能在这个区间之内。若效应指标的点估计值为X，标准误为SE，该效应指标的95可信区间：95CI X1.96SE，其中，（X1.96SE）为其下限，（X1.96SE）为其上限。2023/7/3017六、估计效应可信区间由于随机误差，各效2024/7/618七、识别和控制混杂七、识别和控制混杂n混杂是由于同一个研究里暴露对某疾病的作用与其他病因的作用交织在一起导致暴露效应估计上的误差。n混杂必须同时具备三个条件：其一，是疾病确定的病因或危险因素；其二，不是暴露和疾病间的中间因素；其三，可疑的混杂因素在暴露组和非暴露组的分布不均衡。如性别可能就是吸烟与肺癌关系中的一个混杂因素。2023/7/3018七、识别和控制混杂混杂是由于同一个研究2024/7/619n混杂的控制就是控制混杂的第三个条件，办法有：n设计阶段有三种方法：限制、匹配和随机分组；n数据分析阶段也有三种方法：直接标化法、分层分析和多元回归分析。2023/7/3019混杂的控制就是控制混杂的第三个条件，办2024/7/620八、交互作用八、交互作用n交互作用不同于混杂。混杂是粗效应值估计时的一种偏倚，需要控制和消除；交互作用是效应大小随第三因素暴露强度或剂量变化而变化的现象。n区别交互作用和混杂的方法是一致性检验。如果层间差异无显著性（P0.05），说明不存在交互作用，这时可按混杂处理，可以用一个加权平均效应值来表达，如果平均效应值与粗效应值一致，说明无混杂。2023/7/3020八、交互作用交互作用不同于混杂。混杂是2024/7/621交互作用模型及其相对性交互作用模型及其相对性决策应基于相加模型决策应基于相加模型2023/7/3021交互作用模型及其相对性决策应基2024/7/622九、识别和测量剂量反应关系九、识别和测量剂量反应关系n识别和测量剂量反应关系的分析方法主要有分层分析和回归分析。2023/7/3022九、识别和测量剂量反应关系识别和测量剂2024/7/623第三节第三节常规收集的常规收集的流行病学数据的分析流行病学数据的分析常规数据分析的特殊性有三点：常规数据分析的特殊性有三点：n第一，对研究问题的设定和对分析结果真实性的评估；n第二，由于没有预先设定研究问题，可研究的问题取决于资料内容和性质；n第三，设计框架不清楚或不完善，存在多种偏倚，结果真实性较差或不确定。n本节将以医院的病人资料为例，说明常规数据分析的目的、方法、步骤和注意事项。2023/7/3023第三节常规收集的 2024/7/624一、常规数据的特征一、常规数据的特征（一）数据的时间框架和分类（一）数据的时间框架和分类n时间框架指数据的时间特征，主要分为随访数据（队列数据）和非随访数据（现况数据）。n现况数据主要探索病人现况、服务状况和诊断准确性，偶尔用于初步探索病因、疗效和不良反应。队列数据可用于大多队列数据可用于大多数临床问题的探索数临床问题的探索。2023/7/3024一、常规数据的特征（一）数据的时间框架2024/7/625（二）变量的特征和分类（二）变量的特征和分类n按照临床特征可将常规数据中的变量分为治疗措施、诊断结果、病因/危险因素、预后因素、结局、服务相关因素（如药价、医疗保险等）。n变量决定可能的研究问题变量决定可能的研究问题。例如，数据中无治疗信息，则无法研究疗效和副作用；无诊断结果，则无从研究诊断准确性。无结局信息，则不能研究疗效、预后因素、危险因素。2023/7/3025（二）变量的特征和分类按照临床特征可将2024/7/626二、形成研究问题二、形成研究问题n根据数据的变量特征，可以初步形成可研究问题的范围。n欲进行诊断准确性研究，数据库里必须有检查结果和疾病诊断信息。n研究副作用，基线资料中必须有治疗信息，随访资料中须有副作用的信息。n评估疗效，基线资料中须有治疗的信息，随访资料中须有结局信息。n研究危险因素，基线资料中须有可疑病因的信息，随访资料中须有有关疾病的信息。n对研究者最大的挑战不是如何进行分析，而是如何形成研究问题？2023/7/3026二、形成研究问题根据数据的变量特征，可2024/7/627三、常规数据三、常规数据“研究设计研究设计”的缺陷的缺陷2023/7/3027三、常规数据“研究设计”的缺陷2024/7/628n研究设计最重要的三个因素是时间、人群和变研究设计最重要的三个因素是时间、人群和变量。量。时间因素包括时点还是时间段，如何定义起始时间、时间走向、变量间的时间关系；人群因素包括人群特征，选择过程，及比较组的形成；变量因素包括测量指标、何时测量、测量的准确性。n通过比较常规数据收集的“设计框架”和最佳研究设计，可以发现常规数据的设计缺陷，判断可能引起的偏倚。在时间、人群和变量特征在时间、人群和变量特征上与最佳设计的差异，就是常规数据的缺陷所上与最佳设计的差异，就是常规数据的缺陷所在，在，也是偏倚可能出现的地方。n主要缺陷是非随机主要缺陷是非随机,失访或变量缺失。失访或变量缺失。2023/7/3028研究设计最重要的三个因素是时间、人群和2024/7/629四、估计相应的指标四、估计相应的指标n根据研究目的以及最佳研究设计，就能够确定需要估计的指标。n现况研究中，只需要估计有关变量的均数和百分数；n评估治疗效果时，主要估计治疗对结局作用的大小；n评估诊断的准确性，主要估计灵敏度和特异度；n研究副作用，主要估计治疗对不良结局的作用大小值。2023/7/3029四、估计相应的指标根据研究目的以及最佳2024/7/630常规数据分析的具体步骤常规数据分析的具体步骤n分析数据的时间框架和变量的特征；n提出可探索的问题，确定最终研究的问题；n与最佳研究设计比较，检查数据的“研究设计”缺陷；n估计必要的指标及其可信区间与其它必要的分析；n分析数据中可能存在的其他偏倚，例如选择偏倚、信息偏倚和混杂偏倚；n综合设计缺陷、偏倚和结果，对研究问题做出结论。2023/7/3030常规数据分析的具体步骤分析数据的时间框2024/7/631五、评估数据中的偏倚五、评估数据中的偏倚分析常规数据时，针对偏倚需考虑以下问题：分析常规数据时，针对偏倚需考虑以下问题：n设计框架中，是否具有病因（或治疗）、结局和混杂因素的信息，结局的测量是否发生在病因或治疗发生后的一段时间内；n是否存在选择偏倚：数据代表性及失访率等；n是否存在信息偏倚；n是否存在混杂偏倚：有关混杂因素的基线信息是否完整。2023/7/3031五、评估数据中的偏倚分析常规数据时，针2024/7/632（一）评估数据中的选择偏倚（一）评估数据中的选择偏倚n很多数据的代表性很差或总体不明。n病人还经过了检验检查的选择。n最严重的选择偏倚是选择性随访和失访。大多数病人缺乏结局资料可能是我国医院常规数据中最大的问题之一。2023/7/3032（一）评估数据中的选择偏倚很多数据的代2024/7/633（二）评估数据中的信息偏倚（二）评估数据中的信息偏倚 n数据的准确性和可靠性取决于医疗机构水平的高低；n另一个常见问题是数据质量不一致，原因包括同一个医院不同时期使用的检查仪器、试剂、方法和标准不同，检验员的水平不同；n随访时间不足也可能造成测量误差。2023/7/3033（二）评估数据中的信息偏倚数据的准确2024/7/634（三）评估数据中的混杂偏倚（三）评估数据中的混杂偏倚n由于利用常规资料的研究多属于探索性研究，并不确定哪些因素是混杂因素；n即使混杂因素已知，常规数据中常缺乏混杂因素的信息，导致无法控制混杂因素；n即使收集了混杂因素的数据，可能信息质量不好，致使混杂的控制不彻底。2023/7/3034（三）评估数据中的混杂偏倚由于利用常规2024/7/635六、常规资料的利用六、常规资料的利用n诊断方法准确性的评估n急性病住院病人的转归和预后n围产期和新生儿问题的研究n急诊问题的研究n罕见疾病的病因和转归研究n疾病危险因素初探n药物毒副作用的研究n某类病人特征的观察n有关服务和用药的研究。2023/7/3035六、常规资料的利用诊断方法准确性的评估2024/7/636n由于常规数据的局限性，其分析目的主目的主要是发现新问题，提出新假设，要是发现新问题，提出新假设，很少用来验证和确定研究假设，不适用于已得到广泛研究的、存在高质量证据的、基本定论的问题。2023/7/3036由于常规数据的局限性，其分析目的主要是2024/7/637提高使用效果的措施提高使用效果的措施n利用部分常规数据，再依据研究问题收集少量新数据，可以扩展常规数据的研究用途，尤其在诊断准确性研究、病因和副作用的病例对照研究、罕见病的转归和预后研究领域。n扩大数据来源。例如，一个科室或医院的病人可能代表性差、失访率高；如果汇总一个大城市所有医院的数据，将会大大增加代表性，降低失访率；电子病历使跨医院和地区临床数据的合并成为可能。n同时利用多个不同性质的常规数据。例如，死亡作为观察结局时，可以同时利用一个地区或全国的死亡登记资料。2023/7/3037提高使用效果的措施利用部分常规数据，再2024/7/638n针对研究的问题，尽可能对病人重要的、容易准确测量的结局（如死亡、脑卒中）进行随访。由于移动电话、互联网、电子病历的出现，对重要结局的随访已经变得更加容易和可行。n适当地针对几个重要的疾病扩大资料收集的内容，尤其是常见的混杂因素，如年龄、性别、职业、疾病分级或严重程度等，加强测量和数据收集的质量控制。n当同一变量的检查方法不一致时，可以用一个小样本量对不同方法进行比较，并利用这个比较的结果对数据进行统一的调整。2023/7/3038针对研究的问题，尽可能对病人重要的、容七、临床研究结果的解释七、临床研究结果的解释n观察指标的意义：缓解症状还是减少死亡；n效应的大小及其可信区间；n结果的真实性；n结果的外推性2024/7/639七、临床研究结果的解释观察指标的意义：缓解症状还是减少死亡；2024/7/640谢谢！谢谢！2023/7/3040谢谢！人有了知识，就会具备各种分析能力，明辨是非的能力。所以我们要勤恳读书，广泛阅读，古人说“书中自有黄金屋。”通过阅读科技书籍，我们能丰富知识，培养逻辑思维能力；通过阅读文学作品，我们能提高文学鉴赏水平，培养文学情趣；通过阅读报刊，我们能增长见识，扩大自己的知识面。有许多书籍还能培养我们的道德情操，给我们巨大的精神力量，鼓舞我们前进。人有了知识，就会具备各种分析能力，流行病学数据统计分析策略讲义课件

展开阅读全文

流行病学数据统计分析策略讲义课件

最新文档