流行病学常用多因素回归统计分析课件

上传人:无*** 文档编号:241556289 上传时间:2024-07-04 格式:PPTX 页数:77 大小:1.97MB
返回 下载 相关 举报
流行病学常用多因素回归统计分析课件_第1页
第1页 / 共77页
流行病学常用多因素回归统计分析课件_第2页
第2页 / 共77页
流行病学常用多因素回归统计分析课件_第3页
第3页 / 共77页
点击查看更多>>
资源描述
Epidemiology&Statistics流行病学资料的多因素回归分析郑卫军郑卫军 流行病学与卫生统计学教研室流行病学与卫生统计学教研室流行病学资料的多因素回归分析郑卫军 流行病学与卫生统计学教研1diseasediseasesourcesourcegenegeneenvironmentenvironmenthealthhealthhabithabitSESSESgendergenderageage?ExampleofcomplexityofmedicalstudyExampleofcomplexityofmedicalstudy disease source gene environm2ExampleofcomplexityinmedicalstudyExampleofcomplexityinmedicalstudyphysicalactivity eatingdrinkingsmokingsocial economic statusenduredglucosebloodpressureweightcholesteroldiabetescoronary heart diseaseenvironmentlife styleendogeneousfactorsdiseasesExample of complexity in medic3流行病学多变量分析工具回归多因素、多元线性回归多因素、多元logistic回归COX 比例风险模型主成分分析因子分析聚类判别分析路径分析结构方程模型流行病学多变量分析工具回归本章我们来交流点什么?多因素线性回归多因素logistic回归多因素COX 回归本章我们来交流点什么?多因素线性回归本讲学习目标掌握多因素回归的技巧及注意点本讲学习目标一、多因一果的回归分析方法比较研究实验因素与疗效实验组VS对照组:t检验、卡方、秩和、方差分析相关性研究相关分析回归分析一、多因一果的回归分析方法比较研究多因素问题常见情况常见于观察性研究探讨多个因素作用模式分析由于分组不均衡造成存在着混杂因素实验性研究也可以遇到。基本的处理方法:多因素回归多因素问题常见情况常见于观察性研究举例 关于胰脏癌病人生存时间的研究。该研究的终点为死亡,包括很多可能影响生存的因素举例 关于胰脏癌病人生存时间的研究。该研究的终点为死亡,包括本例目标分析影响生存的多个因素,因素间地位平等本例目标分析影响生存的多个因素,因素间地位平等举例 关于胰脏癌病人生存时间的研究。该研究的终点为死亡,探讨术中放疗对生存的影响举例 关于胰脏癌病人生存时间的研究。该研究的终点为死亡,探讨本例目标探讨术中放疗较未放疗是否影响生存,其它为混杂因素,需要排除混杂干扰本例目标探讨术中放疗较未放疗是否影响生存,其它为混杂因素,需COXCOX回归分析结果回归分析结果COX回归分析结果多因素回归多因素线性回归:因变量定量资料多因素logistic回归:因变量是分类资料(常见二分类)多因素Poisson回归:因变量是泊松分布资料多因素COX比例风险模型:因变量是时间生存资料多因素回归的自变量:可以是定量,也可以是分类资料多因素回归多因素线性回归:因变量定量资料不同方法的应用场合病例对照研究?队列研究?实验性研究?不同方法的应用场合病例对照研究?不同方法的应用场合线性回归 队列/实验性研究Logistic回归 病例对照/队列/实验性研究Poisson回归 队列COX模型 队列/实验性研究不同方法的应用场合线性回归思考:什么样的设计?采用什么样的方法?思考:什么样的设计?采用什么样的方法?例1 某研究者跟踪随访已发病冠心病病人,研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca复发是否有关。例1 某研究者希望研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca发病是否有关。思考:什么样的设计?采用什么样的方法?例1 某研究者跟踪随横截面研究可以做多因素回归吗?横截面调查的数据疾病:心血管病、高血压相关因素:性别、年龄、红肉日均摄入量、吸烟、饮酒、高血糖、血管弹性指数横截面研究可以做多因素回归吗?横截面调查的数据横截面研究可以做多因素回归吗?横截面调查的数据疾病:心血管病、高血压相关因素:性别、年龄、红肉日均摄入量、吸烟、饮酒、高血糖、血管弹性指数哪些因素可以做呢?横截面研究可以做多因素回归吗?横截面调查的数据横截面研究可以做多因素回归吗?横截面调查的数据疾病:心血管病、高血压相关因素:性别、年龄、红肉日均摄入量、吸烟、饮酒、高血糖、血管弹性指数固有的因素,理论上和结局时间逻辑明确的因素可以开展多因素回归分析横截面研究可以做多因素回归吗?横截面调查的数据多因素回归的注意点样本量回归方程中,因素的筛选多重共线性问题多因素回归的注意点样本量样本量线性回归:纳入回归模型变量数的5-10倍Logistic回归:阳性数纳入模型变量数的5-10倍,总样本量至少乘以2样本量过少,则导致抽样误差增加,回归模型拟合效果变差样本量线性回归:纳入回归模型变量数的5-10倍因素筛选1.常见方法单因素加多因素方法 即单因素回归P值0.05,0.1,0.2的纳入模型分析。此举是为了减少变量个数,提高拟合效果最优子集方程法(逐步回归法)向前法向后法逐步法单因素加多因素逐步回归法因素筛选1.常见方法24(1)前进法(2)后退法(3)逐步法自变量从无到有、从少到多自变量从无到有、从少到多 先将全部自变量放入方程,然后逐步剔除先将全部自变量放入方程,然后逐步剔除 双向筛选:引入有意义的变量(前进法),剔除无意义双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)变量(后退法)最优方程筛选24(1)前进法(2)后退法(3)逐步法自变量从25逐步回归分析的基本思想-拟合效果线性回归 保证纳入因素后,模型的R2值最大Logistic等回归方法 AIC值、SC 值或-2 log likelihood值越小好25逐步回归分析的基本思想-拟合效果线性回归26因素筛选注意事项如果有变量的引入导致具有关键作用的因子其统计学意义发生改变(从无到有,或从有到无),必须发现原因!是否由于样本量过少,变量过多导致是否存在多重共线性是否属于混杂因素是否属于中间变量:回归模型不能同时纳入影响因素及其中间变量26因素筛选注意事项如果有变量的引入导致具有关键作用的因子其27多重共线性是指在进行多因素回归分析时,自变量间存在较强的线较强的线性相关关系。性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归岭回归、主成分回归主成分回归等回归分析方法以避免共线性指标对结果的影响。多重共线性问题27多重共线性问题28多重共线性多重共线性的表现的表现在实际应用中主要表现为:在实际应用中主要表现为:(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;(2)偏回归系数估计值的方差很大;(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释 出现以上情况,提示存在出现以上情况,提示存在多重共线性多重共线性问题,应进行问题,应进行多重共线多重共线性性诊断。诊断。28多重共线性的表现在实际应用中主要表现为:(1)模型拟合效回归案例分析回归案例分析(logisticlogistic)某妇幼保健院采用病例对照研究探索乳腺增生的影响因素。随机抽取某年在本院就诊的200名乳腺增生患者及200名非乳腺增生患者,采用问卷调查法对各种可能的影响因素进行调查,以探索乳腺增生的危险因素。回归案例分析(logistic)回归案例分析回归案例分析回归案例分析1 1:单因素分析:单因素分析回归案例分析回归案例分析1:单因素分析回归案例分析单因素分析初步结论:由于年龄的影响在单因素分析中无统计学意义,且OR值也较为接近1,在多因素分析中不再考虑年龄因素,仅对其它4个因素进行分析。回归案例分析回归案例分析回归案例分析多因素分析结果:回归案例分析回归案例分析多因素分析结果:回归案例分析多因素分析小结:为什么rs变得无统计学意义了?相关分析结果显示,妊娠次数与流产次数具有较强的相关性(r=0.55,P=25与初产年龄=25与初产年龄25岁的人相比,其效应(参数估计值)为0.2717+1.4587=1.7304。回归案例分析回归案例分析交互项的进一步解释:回归案例分析本例结论:流产次数多是乳腺增生的危险因素,初产年龄和是否母乳喂养的交互作用对乳腺增生的影响也有统计学意义。初产年龄25且非母乳喂养的人,其乳腺增生的危险明显增高。而单纯初产年龄25的人,或单纯非母乳喂养的人,发生乳腺增生的危险并不高。这提示可针对不同人群开展不同的干预措施。回归案例分析回归案例分析本例结论:回归案例分析当混杂混入流行病学匹配分层多因素回归多因素回归匹配多因素回归倾向得分多因素回归倾向得分当混杂混入流行病学匹配回归中的混杂因素混杂因素的识别:(1)该因素对结局有影响,可利用单因素回归或2检验来验证。(2)该因素在分析因素中的分布不均衡,可用2检验验证一下。(3)从专业角度来判断,即该因素不能是分析因素与结局关系的一个中间环节。也就是说,不能是分析因素引起该因素,通过该因素再引起结局。这一点主要根据专业知识来确定。如果同时满足这三个条件,基本可以断定是混杂因素。如果有一条不满足,该因素就不是混杂因素。回归中的混杂因素混杂因素的识别:回归中的混杂因素回归中的混杂因素例2:分析性别、吸烟对幽门螺杆菌(HP)的影响,判断吸烟是否是混杂因素性别性别吸烟吸烟状况状况HP阴性阴性HP阳性阳性男男不不吸烟吸烟146343吸烟吸烟64178女女不不吸烟吸烟211吸烟吸烟110530回归中的混杂因素例2:分析性别、吸烟对幽门螺杆菌(HP)的影 回归中的混杂因素(1)判断吸烟是否对)判断吸烟是否对Hp有影响:单因素有影响:单因素logistic回归回归提示:吸烟对Hp的发生有一定影响,吸烟发生的危险更高一些 回归中的混杂因素(1)判断吸烟是否对Hp有影响:回归中的混杂因素(2)判断吸烟在不同性别中分布是否不同:卡方检验)判断吸烟在不同性别中分布是否不同:卡方检验提示:吸烟在性别中分布不同,男性中比例更高回归中的混杂因素(2)判断吸烟在不同性别中分布是否不同:卡方回归中的混杂因素未校正吸烟因素,性别分析结果未校正吸烟因素,性别分析结果校正吸烟因素后,性别分析结果校正吸烟因素后,性别分析结果回归中的混杂因素未校正吸烟因素,性别分析结果校正吸烟因素后,回归中的混杂因素不吸烟的人之中,性别的分析结果不吸烟的人之中,性别的分析结果吸烟的人之中,性别的分析结果吸烟的人之中,性别的分析结果回归中的混杂因素不吸烟的人之中,性别的分析结果吸烟的人之中,胰岛素治疗的胰岛素治疗的2 2型糖尿病患者中胰岛素和胰岛素类似型糖尿病患者中胰岛素和胰岛素类似物的剂量与癌症之间的关系物的剂量与癌症之间的关系混杂因素分析案例胰岛素治疗的2型糖尿病患者中胰岛素和胰岛素类似物的剂量与癌症研究方法及设计l本研究克服了以往相关研究的不足1-4 -巢式病例对照研究 -多因素 logistic回归分析 -纳入每种胰岛素平均日用剂量作为变量l入选标准 -2型糖尿病;入选前5年未用过胰岛素;无恶性肿瘤史l患者平均随访75.9月,在此期间患者暴露于甘精胰岛素、地特胰岛素、赖脯胰岛素、门冬胰岛素、人胰岛素(基础、餐时)研究方法及设计本研究克服了以往相关研究的不足1-4 流行病学常用多因素回归统计分析课件预先计划的比较在肿瘤组和对照组之间比较使用各种胰岛素的人数所占比例使用各种胰岛素的平均日剂量(Mean daily dose,MDD)使用各种胰岛素的平均日剂量MDD 0.3 IU/kg 的人数所占比例Mannucci et al.Diabetes Care.2010 Jun 14.Epub ahead of print预先计划的比较在肿瘤组和对照组之间比较Mannucci et50肿瘤风险与胰岛素日用剂量的关联性病例组甘精胰岛素平均日用剂量较对照组高病例组甘精胰岛素平均日用剂量较对照组高 (0.24 vs 0.16 IU/kg/day,p=0.0360.24 vs 0.16 IU/kg/day,p=0.036)人胰岛素与其他胰岛素类似物肿瘤发生与平均日用剂量无关人胰岛素与其他胰岛素类似物肿瘤发生与平均日用剂量无关 Mannucci et al.Diabetes Care.2010 Jun 14.Epub ahead of print肿瘤风险与胰岛素日用剂量的关联性病例组甘精胰岛素平均日用剂量肿瘤风险与胰岛素日用剂量的关联性每种胰岛素“平均日剂量0.3IU/day*kg”:“大剂量”经Chalrson同病指数、二甲双胍暴露、总胰岛素平均日剂量校正后纳入所有新发肿瘤病例及对照纳入所有新发肿瘤病例及对照除外随访中首除外随访中首12月内新发肿瘤病例及其对照月内新发肿瘤病例及其对照 Mannucci et al.Diabetes Care.2010 Jun 14.Epub ahead of print肿瘤风险与胰岛素日用剂量的关联性每种胰岛素“平均日剂量0.结论结论使用每种胰岛素的人数比例,肿瘤组和对照组之间差异无统计学意义。校正混杂因素之后,高平均日剂量(0.3 IU/kg)的甘精胰岛素与肿瘤风险有联系,其它胰岛素无此现象。当评价胰岛素及其类似物与肿瘤风险的可能联系时,必须考虑剂量。结论使用每种胰岛素的人数比例,肿瘤组和对照组之间差异无统计学多因素回归匹配常见logistic回归非条件logistic:非匹配条件logistic回归:匹配多因素回归匹配常见logistic回归条件logistic回归:1:1匹配,可以通过SPSS软件COX回归模块实施1:n匹配,则无法采用SPSS软件,而要SAS或者其它软件实施条件logistic回归:1:1匹配,可以通过SPSS软件C倾向的分法是Rosenbaum和Rubin(1984)年首次提出的,其主要目的是均衡各对比组间各个特征变量的可比性。倾向得分:是指在一定协变量条件下,一个观察对象可能接受某种处理(或暴露)因素的可能性。倾向的分值相同的两个个体,其协变量的分布也趋于一致,即具有相同的接受处理/对照的概率。倾向的分主要用来降低选择偏倚。多因素倾向得分多因素倾向得分倾向得分应用方法倾向得分倾向得分是协变量的一个综合指标,可以校正已测量的混杂因素。可以作为协变量进行多调整可以作为匹配的因素开展或不开展多因素调整也可以用于分层。倾向得分应用方法倾向得分是协变量的一个综合指标,可以校正已测 不同胰岛素促泌剂与二甲双胍在有或无心肌梗不同胰岛素促泌剂与二甲双胍在有或无心肌梗 塞史二型糖尿病患者中死亡率和心血管风险塞史二型糖尿病患者中死亡率和心血管风险 的比较的比较:丹麦研究丹麦研究多因素倾向得分 不同胰岛素促泌剂与二甲双胍在有或无心肌梗 数据来源数据来源:丹麦国家注册登记研究丹麦国家注册登记研究所有丹麦居民各有一个唯一、永久的注册号,与国内各种注册相连接.“丹麦国家处方注册”,记录了1995年来所有的处方.“全国患者注册”,1978年以来,所有的住院患者出院时记录了主要诊断(以及必要时,次要诊断).“全国死因注册”,记录死因信息。数据来源:丹麦国家注册登记研究所有丹麦居民各有一个唯一、永研究人群丹麦居民年龄大于20岁,在1997年至2006年之间应用胰岛素促泌剂或者二甲双胍单药治疗者 总人数为107,806;随访时间:中位数3.3年 (最长9年)剔除了接受胰岛素单一治疗的8183例和多个药物联合治疗的3434例。入组人群分为有或无心肌梗死病史研究期间允许更改治疗药物 77%的患者在研究期间仅使用了一种药物治疗MI,myocardial infarction研究人群丹麦居民年龄大于20岁,在1997年至2006年之间60研究设计研究目的:研究目的:评估与二甲双胍相比,常用的胰估与二甲双胍相比,常用的胰岛素促泌素促泌剂(包括瑞格列奈)的死亡率和心血管(包括瑞格列奈)的死亡率和心血管风险。大型、回大型、回顾性、非随机分性、非随机分组的的观察性研究。察性研究。对居住在丹麦、接受居住在丹麦、接受单一口服降糖一口服降糖药治治疗的的T2DM患者患者的的临床注册床注册资料料进行行统计分析。分析。Slide No 61Date研究设计研究目的:评估与二甲双胍相比,常用的胰岛素促泌剂(包61无心梗史患者的各组基线数据无心梗史患者的各组基线数据二甲双胍二甲双胍格列美脲格列美脲格列格列齐特齐特格列本格列本脲脲格列格列吡嗪吡嗪甲苯甲苯磺磺丁脲丁脲瑞格瑞格列奈列奈N(%)43,340(54.3)36,313(37.0)5,926(6.0)12,495(12.7)6,965(6.1)5,335(5.4)2,513(2.6)年龄(年)52.5 14.060.9 13.360.0 13.263.2 13.763.013.564.413.557.912.6男性(%)50.955.356.554.454.153.856.0治疗时间(年)1.76 1.582.11 1.752.10 1.752.35 2.082.35 2.082.36 2.131.97 1.76各各组基基线水平不均衡水平不均衡,不具可比性不具可比性.无心梗史患者的各组基线数据二甲双胍格列美脲格列格列本脲格列甲62既往心梗史患者的各组基线数据既往心梗史患者的各组基线数据二甲双胍二甲双胍格列美脲格列美脲格列格列齐特齐特格列格列本脲本脲格列格列吡嗪吡嗪甲苯甲苯磺磺丁脲丁脲瑞格列瑞格列奈奈N(%)2,906(30.2)3,894(43.3)517(6.9)1168(12.2)660(7.3)501(5.6)186(2.1)年龄(年)65.8 10.770.9 11.070.5 10.970.9 11.070.5 10.471.2 11.468.2 10.3男性(%)73.170.369.370.069.764.970.4治疗时间(年)1.67 1.481.98 1.601.96 1.782.28 1.962.19 1.902.12 1.982.04 1.76各各组基基线水平不均衡水平不均衡,不具可比性不具可比性.既往心梗史患者的各组基线数据二甲双胍格列美脲格列格列格列甲苯63 统计学方法统计学方法:倾向匹配:倾向匹配 统计学方法:倾向匹配倾向得分计算倾向得分计算倾向得分计算65倾向性匹配倾向性匹配 (propensity-matching)(propensity-matching)3.3.每一个个体都有一个每一个个体都有一个 倾向性得分倾向性得分,与该个体出现在与该个体出现在两组之中的概率两组之中的概率P P和和1-1-P P有关。有关。4.4.根据促泌剂组中某患者根据促泌剂组中某患者 倾向性得分倾向性得分,到服用二甲双到服用二甲双胍的人群中找一个胍的人群中找一个“对象对象”,两者两者“倾向性得分倾向性得分“最接最接近近,若最接近的候选者很多若最接近的候选者很多,可随机抽取一位。可随机抽取一位。5.5.事先规定得分相差多少算事先规定得分相差多少算 接近接近;若二甲双胍的人群;若二甲双胍的人群中没有得分中没有得分“接近接近”的对象的对象,促泌剂组中的该成员就找促泌剂组中的该成员就找不到不到 对象对象。倾向性匹配(propensity-matching)3.流行病学常用多因素回归统计分析课件基线水平的均衡性有所改善。基线水平的均衡性有所改善。倾向性匹配后,各向性匹配后,各组人数人数基线水平的均衡性有所改善。倾向性匹配后,各组人数流行病学常用多因素回归统计分析课件Epidemiology&Statistics二甲双胍二甲双胍格列美脲格列美脲格列齐特格列齐特格列苯脲格列苯脲格列吡嗪格列吡嗪甲苯磺丁脲甲苯磺丁脲瑞格列奈瑞格列奈1.7结果:结果:无无心梗患者各组心梗患者各组总死亡率总死亡率1.7结果:无心梗患者各组总死亡率70Epidemiology&Statistics1.7结果:既往心梗患者各组结果:既往心梗患者各组总死亡率总死亡率二甲双胍二甲双胍格列美脲格列美脲格列齐特格列齐特格列苯脲格列苯脲格列吡嗪格列吡嗪甲苯磺丁脲甲苯磺丁脲瑞格列奈瑞格列奈1.7结果:既往心梗患者各组总死亡率71结论结论结论72结论结论结论其它要点:实验性研究的多因素方法严谨的实验性研究,RCT,分组均衡,基线资料经统计学比较,无统计学差异,混杂偏倚小实验因素和疗效之间的关系,t、卡方、秩和、K-M分析即可一些情况下,可能会存在:1.研究者设计、采集信息不严谨2.样本量不多3.失访导致分组不均衡,需要采用线性回归开展处理其它要点:实验性研究的多因素方法严谨的实验性研究,RCT,分其他要点:非独立性的数据无论是实验性研究、还是观察性研究,数据非独立性是导致结果失真的重要因素样本不是完全随机抽取,而是整群性多中心临床试验整群随机抽样研究数据存在着聚集性,个体观察值Y,存在关联性(不是X)其他要点:非独立性的数据无论是实验性研究、还是观察性研究,数对于流行病学家来说,是个挑战对于统计学家来说,是个机遇重复测量方差分析广义估计方程广义混合线性模型随机效益模型多水平模型。其他要点:非独立性的数据对于流行病学家来说,是个挑战其他要点:非独立性的数据总结:流行病学的分析方法首先,统计描述其次,初步的分析:t、F、卡方、秩和、相关再次,单因素回归,掌握混杂因素的信息开展各式多因素回归总结:流行病学的分析方法首先,统计描述
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!