流行病学数据的分析处理方法

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,山东大学公共卫生学院,流行病学数据的分析处理方法,山东大学公共卫生学院,School of Public Health,Shandong University,流行病与卫生统计学研究所,1,流行病学数据分析前的准备工作,一、原始数据的检查,在数据分析前需要对原始的流行病学调查研究数据进行一次,审查,，发现可能存在的错误、遗漏的研究变量取值和其他问题，并,采取相应的措施进行处理,。,若在调查表中发现有,缺失的数据,，可以通过电话再次询问研究对象、查阅有关的记录、应用储存的血液标本重新检测或再次取样等措施进行补充。,若发现,逻辑错误,，也要及时改正。需要对调查问卷进行编码或者对已编码的问卷进行核查，避免重复和遗漏。,2,二、选择合适的数据管理和数据分析软件,常用的数据管理软件,Microsoft FoxPro,、,Microsoft Access,、,Microsoft Excel,这些数据管理软件也具有简单的数据分析功能，,Excel,的数据分析功能更强，不仅可实现描述性统计，还可以做,t,检验、方差分析、相关回归分析等,常用的数据分析软件,SAS,（,Statistical Analysis System,）,和,SPSS,（,Statistical Package for Social Science,）,，它们均具有很强的数据分析和数据管理的功能,3,三、数据的计算机录入,(,编号、定义变量名、变量数量化）,编号：给,每一个,调查表或调查对象,一个,编号以识别录入的数据与调查表或调查对象的对应关系,（唯一性）,使用阿拉伯数字,1,、,2,、,3,等给每份调查表按照顺序编号，这样有利于以后对输入的数据进行检查、核对与修改错误。,可以给编号以时间、地区、单位、调查对象编号等，如：,200501,（济南）,02,（历下）,0001,（调查对象）,4,定义变量名称：,命名：可以应用中文、拼音、也可以应用英文，但以使用拼音或英文为好，这样可以方便输入。,注意：,变量名应简短、易懂易记：如对性别、年龄、身高、体重可以使用,gender,age,height,和,weight,进行命名。对名称较长的变量，可以使用,简写,，如,wt,表示,weight,、,ht,表示,height,。,标记或说明：有些数据管理和分析软件可变量进行标记或说明，避免时间长久了而忘记数据库中的变量名字，如对上述,Wt,可标记为“,weight”,。,5,变量数量化,如果调查表的设计是,编码式,的，则此步骤可省略，,直接,将变量取值编码的结果输入计算机。,若,不是编码式,的调查结果，则需要对变量的取值结果进行,编码,(,数量化）,。,6,常见变量的类型,1,、字符型,(character type),：,输入字符如中文或英文,2,、数值型,(numerical type),：,以数值的形式输入,3,、日期型,(data type),：,按照规定的格式输入日期数值,4,、逻辑性（,logical type,）,:,7,变量数量化时应注意：,（,1,）除日期型变量外,尽量使用数值型变量,（,2,）某些数值变量,(numerical variable),可,直接输入变量的取值,，如研究对象的身高、体重、血压水平等。,（,3,）,分类变量,(categorical variable),及有序变量,(ordinal variable),则可将其取值进行,量化,，然后再输入计算机,8,如：分类变量,种族,白人,1,黑人,2,西班牙裔人,3,亚太裔,4,其它种族,5,注意：,分类变量在进行多因素分析时，,必须转换成哑变量,（,dummy variable,），不能直接将前述的取值,1,、,2,、,3,、,4,、,5,放入方程中进行分析。,9,有序变量的数量化顺序合理，则可以直接进行分析,如：教育程度,文盲：,0,小学：,1,中学：,2,高中及中专：,3,大学：,4,硕士及以上：,5,10,四、数据的检查与核对,（一）检查数据库结构,数据库样本数（观测数）、变量数、变量名称及定义等。,（二）检查各变量的取值情况,查看变量取值范围，有无逻辑错误：,如性别,应有两个取值，若有,2,个以上的取值，说明存在错误。,对数据变量要检查其最小值,(minimum),、最大值,(maximum),、均数,(mean),、中位数,(median),，并查看是否有异常取值,(outlier),，如极小值及极大值。,异常值若影响显著时应删除,11,五、数据的整理,（一）数据分组,分类变量：,按其原有的分类进行分组，若有必要，可将性质相近或差别不大的类别进行合并。如教育程度。,数值变量：,按照,实际的生理、病理或临床意义分组,，如体重指数：低体重、正常体重、超重和肥胖,12,按使用的,方便程度和专业上惯用,的方法分组，如年龄在某一个合适的范围内每,5,岁或,10,岁分成一组。,按,分位数分组,，即首先找出四分位数（,quartile,）或五分位数（,quintile,）的界值，然后应用这些界值将研究对象平均分成,4,组（每组,25%,的研究对象）或,5,组（每组,20%,的研究对象）。,13,（,二）数据的转换,1,、非正态数据的变量转换,原理：,正态分布,参数检验,(parametric test),非正态数据,非参数检验,(non-parametric test),（不是对原始数据检验）如：秩和检验（是对原始数据的秩次检验）,检验：正态性检验、方差齐性检验,方法：对数变换；平方根变换；倒数变换,14,2,、分类变量转换成哑变量,原理：,分类变量是,二分类尺度及顺序尺度,，则可直接应用其原有的数量化数值。,名义尺度,因为各类别间没有顺序关系，在进行不同分析（包括多元分析、,logistic,回归、,Cox,回归等）时，不能使用原始的计算机录入数值，必经进行变量转换,。,即将该变量转换成（水平数,-1,）个哑变量,，,再将这些新转换的变量放入多因素模型中。,15,方法：,例如：将种族原始取值转换成哑变量（新变量）,表,1.,分类变量转换成哑变量的方法,新变量,.,种族原始取值,(x,1,)x,1-1,x,1-2,x,1-3,x,1-4,白人,1 0 0 0 0,黑人,2 1 0 0 0,亚太裔,3 0 1 0 0,西班牙裔人,4 0 0 1 0,其它种族,5 0 0 0 1,新变量以白人为参照，,X1,1,表示黑人与白人比较，依此类推,16,六、确定拟分析的因变量和应变量,因（自）变量,(independent variable),：,是指影响疾病的发生或健康状况的分布的变量，是原因变量、已知变量、,x,变量。,应变量,(dependent variable),：,是指随因变量的变化而发生变化的变量，是结果变量、预测变量、,y,变量。,应变量是在自变量作用下产生反应的变量,17,意义,有助于选择拟研究的变量：,对调查表的设计具有指导作用,可以指导数据分析方法的选择,：,因变量是分类变量：,采用,2,检验，,logistic,回归分析等。,因变量是数值变量：,采用,t,检验、方差分析，协方差分析、多元回归等。,有助于模型的建立,：应变量（,y,）放在模型的左侧，因变量（,x,）放在模型的右侧。,18,例,1.,欲评价不同治疗方法（口服药物、注射胰岛素及膳食控制）对糖尿病人的治疗效果（血糖水平），分析时要求调整病人的性别、年龄和病程的影响,。,血糖水平（应变量,y,）,=,治疗方法（因变量,x)+,其它协变量,（,covariate,，性别、年龄和病程）,例,2.,欲分析脂蛋白（,a,）与冠心病发生的关系。,冠心病,(,应变量,y)=,脂蛋白,(a)(,因变量,x),19,七、缺失数据（,missing data,）的处理,缺失数据：是指其测量结果缺失。,产生的原因：,问卷调查：遗漏出生日期和年龄，调查结束后又无法补救,实验室检测：血脂或血糖因为血清量不足或研究对象拒绝采血而致,过去处理：仅用无缺失的数据进行分析,损失样本量,缺失数据“合理”赋值,人为赋值不一定合理,20,现在处理,数据分析处理件软处理：,SAS,自动分析处理,如一个数据库中有性别和年龄等变量，性别有,10,个缺失数据，年龄有,3,个缺失数据：,分析性别时不包括性别缺失的,10,个个体,分析年龄时不包括缺失年龄的,3,个个体,当分析中（如多因素分析）共同使用了性别和年龄时，分析的实际样本数量是性别和年龄这两个变量均不含缺失数据的样本,21,流行病学数据分析方法的选择,一、流行病学数据的分析程序,数值变量,正态性检验,正态数据转换非正态,参数检验非参数检验,图,1.,数值变量的分析程序,22,单因素分析,2,检验,分类变量,分层分析,多因素分析,logistic,回归分析,Cox,回归分析,其它分析方法,图,2.,分类,变量的分析程序,23,二、根据研究设计类型选择,（一）成组比较的设计,两组比较：,t,检验或,2,检验,多组比较：方差分析、行,列表,2,检验,病例对照研究：按其分析方法分析,分级的病列对照研究：按其分析方法分析,（二）配对（自身实验前后）设计,配比的,t,检验、,2,检验,配对的病例对照研究方法进行数据,24,（三）重复测量的设计,在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果，在接种后的,2,周、,4,周、,6,周和,8,周测定抗体滴度：,重复测量的方差分析方法,（四）多因素设计,自变量是数值变量：多元回归分析方法、协方差分析方法,自变量分类变量：,logistic,回归分析方法、判别分析方法、聚类分析方法,25,三、根据变量的类型选择,因变量,应变量,(y),(x),数值变量,分类变量,有序变量,数值变量,相关分析，多元回归分析,t,检验,方差分析，协方差分析，多元回归分析,相关分析，多元回归分析,分类变量,t,检验,方差分析，,logistic,回归分析,判别分析，聚类分析,2,检验，,logistic,回归分析,2,检验,有序变量,方差分析，,logistic,回归分析,判别分析，聚类分析,2,检验，,logistic,回归分析,相关分析，,2,检验,生存时间,生存分析,表,2.,不同变量类型的数据分析方法选择,26,表,3.,不同研究设计和数据类型的数据分析方法选择,研究设计类型,变量类型,两组比较,两组以上比较,实验前后比较,重复测量,两变量间的联系,数值变量,t,检验,方差分析,配对,t,检验,重复测量的方差分析,线性回归,Pearson,相关系数,分类变量,2,检验,2,检验,配对,2,检验,列联表相关系数,有序变量,Mann-Whitney,秩和检验,Kruskal,-Wallis,分析,（成组设计多个样本比较的秩和检验）,Wilcoxon,符号秩和检验（配对设计差值的符号检验）,Spearman,相关系数,生存时间,生存分析,27,不同流行病学研究类型的数据分析方法,一、描述性研究,（一）现况研究,分布描述：患病率、危险因素流行率、数值变量分布,探讨因素：相关回归分析、,2,检验、,t,检验、方差分析、多因素分析、人群归因危险度,（二）生态学研究,同现况研究,（三）筛检,筛检试验的真实性和可靠性,人群中疾病、健康状况、危险因素筛选结果分析方法：同现况研究,28,（一）病例对照研究,病例对照研究数据,成组设计配比设计,粗,OR,分级,OR,剂量反应分层,OR,分级,OR,剂量反应,(,趋势,2,检验,)(,趋势,2,检验,),分层,OR,混杂与效应修饰分析,混杂与效应修饰分析,图,3.,病例对照研究数据的分析程序,二、分析性研究的数据分析方法,29,（,二）队列研究,队列研究数据,人时、发病密度,/,累积发病率,粗,RR,、,AR,、,AR%,、,PAR,及,PAR%,分层,RR,、,AR,、,AR%,、,PAR,、,PAR%,分级,

展开阅读全文

流行病学数据的分析处理方法

最新文档