医学统计学第九章综合案例分析-课件

资源描述

Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,医学统计学,求本远志,主讲人：,浙江中医药大学流行病与卫生统计学教研室,医学统计学求本远志主讲人：浙江中医药大学流行病与卫生统计学,1,医学统计学（九）,综合案例分析,求本远志,主讲人：,浙江中医药大学流行病与卫生统计学教研室,医学统计学（九）综合案例分析求本远志主讲人：浙江中医药大学,2,第44讲,回归方法综合性分析,求本远志,第44讲求本远志,3,低出生体重的案例,Hosmer,和,Lemeshow,于,1989,年研究了低出生体重婴儿,的影响因素，结果变量为是否娩出低出生体重儿，考虑,的自变量有产妇妊娠前体重、产妇年龄、种族、是否饮,酒、早产次数、是否患高血压等，其中,饮酒,是重点关注,的变量。（数据文件见：,logistic_step.sav,。）,低出生体重的案例 Hosmer 和Lemeshow于198,4,一桌佳肴如何烹制,数据的描述，整理：,单因素的回归分析：,多因素的回归分析：,全纳入、人工筛选、逐步回归,多重共线性的诊断,哑变量的不同设置与结果比较,关键因子单因素和多因素的结果比较,构建最终多因素回归模型,结果整理汇报,一桌佳肴如何烹制数据的描述，整理：多因素的回归分析：,5,数据整理,纠错、寻找异常值、缺失值处理、数据转换,早产次数可以分为,0,次、,=1,次；,孕妇年龄可以分为,=3,次,转换后的新变量不一定用得上，得需考虑并进行,准备,数据整理纠错、寻找异常值、缺失值处理、数据转换早产次数可,6,单因素统计分析结果（,7,）,-,规范表格,单因素统计分析结果（7）-规范表格,7,单因素统计分析结果,（,7,）,-,规范表格,单因素统计分析结果（7） -规范表格,8,多因素回归结果变量筛选,饮酒、高血压、应激事件、体重,均可纳入,随访次数和种族,以哑变量的形式纳入,年龄、早产次数,暂时以定量资料形式纳入,多因素回归结果变量筛选饮酒、高血压、应激事件、体重均可纳入,9,多因素回归的尝试（,1,）,饮酒、应,激和随访,无统计学,意义,多因素回归的尝试（1）饮酒、应意义,10,多因素回归的尝试（,2,）,年龄变成年,龄分组后，,感觉不理,想，还是定,量年龄更佳,多因素回归的尝试（2）年龄变成年想，还是定,11,多因素回归的尝试（,3,）,早产数变成分,组，结果不是,很好，推荐定,量资料,多因素回归的尝试（3）早产数变成分量资料,12,多因素回归的尝试（,4,）,-,逐步回归法,逐步回归法结果不太理想,多因素回归的尝试（4）-逐步回归法逐步回归法结果不太理想,13,逐步回归法结果不理想，什么原因,多重共线性,饮酒、种族、年龄全无统计学意义！,逐步回归法结果不理想，什么原因多重共线性饮酒、种族、年龄,14,逐步回归法结果不理想,可能存在多重共线性,从单因素到多因素，饮酒、种族、年龄变得无统,计学意义！,我们需要审视各个变量的关系,逐步回归法结果不理想可能存在多重共线性从单因素到多因素，,15,接下来，关注每一个变量的单因素和多因素分析结,果的差别,这个变量不经任何转换，分析结果,这个变量定量转定性，分析结果的差别,这个变量与其他变量的交互、关联性,最终决定这个变量究竟是否要纳入多因素回归模型，以,什么形式纳入。,接下来，关注每一个变量的单因素和多因素分析结果的差别这个,16,比如我们重点关注“饮酒”因素的意义,到底什么原因导致的单因素因素有统计学意,义，而多因素无统计学意义。,可以对饮酒和其他因素做一个关联性分析。,比如我们重点关注“饮酒”因素的意义到底什么原因导致的单因素,17,饮酒和其他变量的卡方和秩和分析,饮酒和种族,的卡方检验,饮酒和其他变量的卡方和秩和分析饮酒和种族,18,接着我们开展饮酒、早产次数、种族的回归分析,接着我们开展饮酒、早产次数、种族的回归分析,19,早,产导致的结果改变，有没有可能是交互造成,？,先选中两个变量，,再,点击,a*b,按,钮,早产导致的结果改变，有没有可能是交互造成,20,有些场合下，由于交互效应的存在，单因素有统,计学意义，但多因素时主效应变得无统计学意义。,本例无交互效应,早,产导致的结果改变，有没有可能是交互造成,？,有些场合下，由于交互效应的存在，单因素有统本例无交互效应早,21,对饮酒变量的研究的总结,“种族”对饮酒的统计学意义没有更根本性的改变（实际,上,P,值反而变小，相关原因见第,47,讲）,“早产数”数对“饮酒”的改变是根本性的。,实际上，,“饮酒”和,“早产数”的关系是母子变量关系,（第,41,讲）,，正是因为母子变量的关系，导致“饮酒”的,因果效应消失。,本研究非常关心饮酒在是否对最终早产有影响，最终纳入,“饮酒”变量，舍弃“早产数”这个变量。,对饮酒变量的研究的总结 “种族”对饮酒的统计学意义没有更根,22,我们策略是剔除母变量早产次数,我们策略是剔除母变量早产次数,23,逐步回归法和全因子模型的结果差不多,逐步回归法和全因子模型的结果差不多,24,关于“饮酒”变量研究总结,很多情况下，单因素到多因素的改变是因为,多重共线性，包括母子变量,自变量数量增加,纳入混杂因素,存在交互效应,除了饮酒，也需要审视其他重要的变量，适时挑选必,要变量进入模型。,不能简单粗暴地用逐步回归法，要专业性进行选择。,这四种情,况都需要,认真考虑,关于“饮酒”变量研究总结多重共线性，包括母子变量除了饮,25,最终多因素结果出炉（,8,）,规范表格,最终多因素结果出炉（8）规范表格,26,作为一个严肃的统计学模型，回归分析有着自己严格的适用条,件，在拟合时需要不断进行这些适用条件的判断。但是，许多,使用者往往忽视了这一点，只是把模型做完就好了。这不仅浪,费信息，更有可能得出错误的结论。这里给出一个比较合适的,回归分析操作步骤，供大家参考。,建立一个“完美”的多重线性回归模型是一个需要反复进行的,过程，不能指望一蹴而就。,特别是结果不理想的情况下，,要对数据进行反复转换分析。,本讲总结：建模不易, 作为一个严肃的统计学模型，回归分析有着自己严格的适用条件,27,建模不易，反复修炼,观察性研究回归方法总结,建模不易，反复修炼观察性研究回归方法总结,28,第,44,讲,回归综合分析,本讲结束，谢谢观看,第44讲回归综合分析本讲结束，谢谢观看,29,回归分析总体分析过程（重点掌握）,1.,首先进行数据的整理。定量转定性，等级转二分类,2.,选择合适的回归方法,:,直线、,logistic,、,COX,。,3.,单因素的分析。各种因素都开展单因素回归，了解下自变量和因变量的关系。,如年龄、年龄分组，都要进行分析了解。,4.,选择合适的变量进入多因素模型，包括两种手段,第一，,P,值小于,0.2,（,0.1,或,0.5),以及重要的变量进入模型,第二，选择合适的变量全部进入模型,注意：年龄，年龄分组这两个不能同时进入模型；第一种方法还是第二种方法主,要看数据库变量数，如果本身变量数不多的情况，可以选择第二种,5.,同时选择逐步回归法和全变量纳入法分别进行统计分析,回归分析总体分析过程（重点掌握）第一，P值小于0.2（,30,回归分析总体分析过程（重点掌握）,6.,观察结果,第一，哪些因素单因素有统计学，多因素则没有,第二，逐步回归和全变量模型的差别大不大,第三，有没有出现单因素有很多统计学意义，多因素都变得没有统,计学意义。,第四，如果出现与预期结果不一致，特别是重要研究变量单因素有,统计学意义，多因素没有，怀疑有没有多重共线性的可能性,第五，如果出现与预期结果不一致，特别是重要研究变量单因素有,统计学意义，多因素没有，则怀疑有没有存在着混杂因素的可能性,第六，也可能纳入模型的变量太多（样本量太少）,回归分析总体分析过程（重点掌握） 6. 观察结果第一，哪,31,回归分析总体分析过程（重点掌握）,7.,处理,第一，开展共线性的诊断，通过散点图，相关性分析，共线性诊断，判断关键变量与,其他变量的共线性问题,第二，开展混杂因素分析，分析看看存在着混在的可能性，记住：混杂因素是需要放,在模型中，不删除,第三，如果不是混杂因素，又存在着较强共线性，则剔除某一两个不重要的变量，再,进行统计分析。,第四，之后再进行逐步回归法和全变量纳入法进行分析，看看结果的情况。如果逐步,回归法结果可以接受，那么优先选择逐步回归法,第五，不同但相似变量分别进入模型，如年龄、年龄分组。,回归分析总体分析过程（重点掌握） 7. 处理第一，开展共,32,回归分析总体分析过程（重点掌握）,8.,总结,反复构建多因素回归模型，每次纳入不同组合的自变量，考虑各种纳入,变量的方法。,减少多重共线性对重要指标的影响,认真考虑分组不均衡导致的可能混杂偏倚的情况,回归分析总体分析过程（重点掌握） 8.总结反复构建多因,33,练习,数据pancer.sav是关于胰脏癌病人生存时间的,研究。该研究的终点为死亡，探讨生存的影响因素,变量名,caseno,time,censor,age,trt,sex,bui,ch,p,stage,变量说明,患者编号,生存时间（月）,删失,手术时的年龄,处理组别（有无手术中放疗）,性别,占位处,胰胆管浸润程度,有无腹膜转移,TNM,分类,变量类型,连续,2,分类,连续,2,分类,2,分类,2,分类,有序多分类,2,分类,2,分类,分类变量的编码,0：死亡、1：删失,0：无术中放疗、1：有术中放疗,0：男、1：女,0：胰脏头部、1：头部以外,1：ch0、2：ch1、3：ch2、4：ch3,0：无、1：有,3：期、4：期,练习数据pancer.sav是关于胰脏癌病人生存时间的变,34,练习问题,1.,将年龄按照45岁以下，45-60岁，60岁以上进行分组,2.,将年龄分组进行哑变量或不进行哑变量进行分析比较,3.,开展逐步回归和全变量回归分析，比较不同,练习问题1. 将年龄按照45岁以下，45-60岁，60岁,35,其他回归案例分析（,logistic,）,某妇幼保健院采用病例对照研究探索乳腺增生的影响因素。随机,抽取某年在本院就诊的,200,名乳腺增生患者及,200,名非乳腺增生患,者，采用问卷调查法对各种可能的影响因素进行调查，以探索乳,腺增生的危险因素,。,其他回归案例分析（logistic）某妇幼保健院采用病例,36,主要变量,表,8.2,各因素的变量名及编码表,因素,乳腺增生,年龄,初产年龄,妊娠次数,流产次数,是否母乳喂养,变量名,Y,Age,Chage,Rs,Lc,Mr,编码,1=是；0=否,0=,30；1=,30,0=,25；1=,25,1=,1,次；2=,2,次；3=,3,次及以上,0=,0,次；1=,1,次；2=,2,次及以上,0=,是；1=,否,主要变量因素变量名编码,37,由于年龄的影响在单因素分析中无统计学意义，且,OR,值也较为接近,1,，在多因素分析中不再考虑年龄因,素，仅对其它,4,个因素进行分析。,单因素分析结果,由于年龄的影响在单因素分析中无统计学意义，且单因素分析结果,38,医学统计学第九章综合案例分析-课件,39,多因素分析结果,多因素分析结果,40,多因素分析结果分析,多因素分析小结：,为什么,rs,变得无统计学意义了？,相关分析结果显示，妊娠次数与流产次数具有较强的相关,性（,r,=0.55,，,P=25,与初产年,龄,=25,与初产,年龄,25,岁的人相比，其效应（参数估计值）为,0.2717+1.4587=1.7304,。,交互效应解释交互项的进一步解释：对于母乳喂养的人（m,45,回归案例结论,本例结论：,流产次数多是乳腺增生的危险因素，初产年龄和是否母乳,喂养的交互作用对乳腺增生的影响也有统计学意义。,初产年龄,25,且非母乳喂养的人，其乳腺增生的危险明显,增高。,而单纯初产年龄,25,的人，或单纯非母乳喂养的人，发生,乳腺增生的危险并不高。,这提示可针对不同人群开展不同的干预措施。,回归案例结论本例结论：流产次数多是乳腺增生的危险因素,46,第50讲,总结：医学统计学策略与方法,求本远志,第50讲总结：医学统计学策略与方法求本远志,47,最终终终终总结,医学统计学主要功能,-,研究变量之间的相关性,最基本的方法：探讨有没有关系,t,检验、,F,检验、卡方检验、秩和检验、,K-M,分析,进阶的方法：探讨关系的有无及大小,直线相关分析、秩相关分析,高级的方法：关系的有无，作用的大小,线性回归、,logistic,回归、,COX,模型,更更高级的方法：处理非独立性的数据（重复测量、聚集性数据、多中心临床研究）,广义估计方程、广义线性混合模型、随机效应模型、多水平模型,最终终终终总结医学统计学主要功能-研究变量之间的相,48,寻求真理的道路很宽，但令人迷惑,从准备分析的开始，我们面临着一条通向罗,马的康庄大道,但路上岔路很多、很复杂，我们会很迷惑,寻求真理的道路很宽，但令人迷惑从准备分析的开始，我们面临着,49,统计学本是无源之水,统计学本身不能给我们带来真相。,统计学技术需要结合医学研究方法进行分析,结合医学研究方法来探讨什么是真、什么是因,一路过去，需克服重重困难，方可取得真经,统计学本是无源之水统计学本身不能给我们带来真相。统计学技,50,观察到的关联,排除机遇关联（随机误差）,有统计学关联,排除虚假关联（选择、测量偏倚）,排除非因果关联（混杂偏倚）,真实因果关联,继发关联,从医学统计学关,联到因果关系,观察到的关联排除机遇关联（随机误差）有统计学关联排除虚假关联,51,克服真理道路上的困难,实验性研究，我们面临的统计学困难较少，但研究实施的,困难顶破了天,观察性研究，统计分析的困难又是常人无法克服的,我们要学会克服混杂偏倚的困难，克服数据非独立的困难，,克服数据缺失的困难，克服大数据的困难,克服真理道路上的困难实验性研究，我们面临的统计学困难较少,52,要学会和侦探一般进行统计分析,任何的数据表象，背后总有一套可行的技术来处理，有些在书上，有,些在网络，有些在视频上，要学会拿起技术来发现真相。,要认真认真地考虑哪一种统计策略可以真正的让我们看到本质,简单的统计不行，我们来个回归,简单的回归不行，我们来个混合模型,简单的分层分析无法处理混杂，我们用倾向得分，我们还有其他更复,杂的偏倚控制办法。,要学会和侦探一般进行统计分析任何的数据表象，背后总有一套,53,本课程的分析方法汇总,简单的正态分布及分类资料的比较,偏态分布资料的比较、等级资料的比较,相关分析及回归分析方法,不同类型资料转换及分析方法,多因素的方差分析方法,重复测量资料的分析方法,交互效应分析,混杂偏倚的处理,定量与定性资料趋势性检验,回归的哑变量设置、多重共线性、变量筛,选方法,非独立性资料、缺失资料的回归方法,随机效应模型的应用,分层分析、条件,logistic,回归分析,倾向得分的应用,本课程的分析方法汇总偏态分布资料的比较、等级资料的比,54,没有完美的课程，但可成为优秀的助手,无论是实验性研究、观察性研究，本课程都提供了医学,研究主要的统计分析策略,但各种统计分析方法又是有局限性的，因为时间的关系，,也因为软件的关系，我们的方法又是基础性的，更复杂,的方法需要进一步寻找材料学习。,但有课程在，有一天，你会变得异常强大。,没有完美的课程，但可成为优秀的助手无论是实验性研究、观察,55,SPSS,软件是傻瓜式的，但足够用,优秀软件很多,SAS,、,Stata,、,R,语言,优秀的学生可以深钻挖掘复杂方法的复杂软件技,术,SPSS,也越来越完善，对于大多数研究人员而言，,SPSS,足够精彩,SPSS软件是傻瓜式的，但足够用优秀软件很多SAS、Sta,56,最终，你会统计设计了吗？,最终，你会统计设计了吗？,57,统计方法设计案例,论证某复方中药提取物对大鼠肝损伤的修复作用,，以,AGF,指标作为疗效评价指标（正常组较高，肝损伤后,AGF,指标下降）。研究者将大鼠分为三组：正常对照,组、肝损伤模型组空白组、肝损伤模型复方中药组。,分别在治疗前、治疗后进行测量，获得相应的数据。,统计方法设计案例论证某复方中药提取物对大鼠肝损伤的修复作,58,1.,本题,AGF,资料为定量资料，则统计描述,”,正态,分,布则用均数标准差，,偏态,分布则用中位数,(,四分,位数间距,),描述,”,统计方法设计案例,1.本题AGF资料为定量资料，则统计描述”正态分统计方法设计,59,2.,本例,3,组比较,，将比较治疗前、治疗后的,AGF,，正,态分布时,方差分析，,偏态分布用,多本秩和检验，,同时采用,多重比较,的方法,Bonfferoni,方法进行,两,两比较,统计方法设计案例,2. 本例3组比较，将比较治疗前、治疗后的AGF，正态分布时,60,3.,AGF,资料前后比较数据，差值正态用,配,对,t,检验,检验，偏态采用,配对秩和,方法,统计方法设计案例,3. AGF资料前后比较数据，差值正态用配对t检验检验，偏,61,4.,研究进一步采用,协方差分析,，排除治疗,前,AGF,对结果的影响,（本步骤与步骤,3,结,果重复，但可以进一步丰富研究结果）,。,统计方法设计案例,4. 研究进一步采用协方差分析，排除治疗果重复，但可以进一,62,5.,检验水准,=0.05(,P,0.05,被认为有统计学意义,),；所,有统计分析在,SPSS,22.0,中完成。,统计方法设计案例,5. 检验水准=0.05(P0.05被认为有统计学意义,63,

展开阅读全文

医学统计学第九章综合案例分析-课件

最新文档