缺失值多重插补原理及软件实现-ppt课件

上传人:风*** 文档编号:241568350 上传时间:2024-07-05 格式:PPTX 页数:66 大小:6.68MB
返回 下载 相关 举报
缺失值多重插补原理及软件实现-ppt课件_第1页
第1页 / 共66页
缺失值多重插补原理及软件实现-ppt课件_第2页
第2页 / 共66页
缺失值多重插补原理及软件实现-ppt课件_第3页
第3页 / 共66页
点击查看更多>>
资源描述
缺失值多重插缺失值多重插补原理及软件实现补原理及软件实现 缺失值多重插补原理及软件实现101缺失值多重插补的基础知识缺失值多重插补的基础知识02缺失值多重插补缺失值多重插补的软件操作的软件操作目目 录录CONTENTS04缺失值多重缺失值多重插补的插补的SCISCI论文写作要点论文写作要点03缺失值多重缺失值多重插补的注意事项插补的注意事项01缺失值多重插补的基础知识02缺失值多重插补的软件操作目 2缺失值多重插补的基础知识PART 01缺失值多重插补的基础知识PART 013前言前言临床研究面临的情况非常复杂,资料收集困难重重。在临床研究中,即使质量控制很好,也会出现或多或少的资料记录不完整,即数据缺失。在人口学资料、暴露或干预测量指标、结局指标等各方面的数据中,都会遇到缺失数据,有些关键数据的缺失会导致整条病例资料不可使用。前言临床研究面临的情况非常复杂,资料收集困难重重。在临数据缺失的类型数据缺失的类型缺失数缺失数据类型据类型MCARMCAR项目一完全随机缺失完全随机缺失(MCAR)(MCAR):是指数据是否缺失与存在:是指数据是否缺失与存在缺失的变量无关,与其他变量也无关,就是一个偶缺失的变量无关,与其他变量也无关,就是一个偶然发生的随机事件。然发生的随机事件。随机缺失随机缺失(MAR)(MAR):是相对更为常见的一类缺失形式,:是相对更为常见的一类缺失形式,此时缺失数据可能和其他变量相关,但与存在缺失此时缺失数据可能和其他变量相关,但与存在缺失的变量本身无关。的变量本身无关。非随机缺失非随机缺失(MNAR)(MNAR):是指数据的缺失与否只与存:是指数据的缺失与否只与存在缺失的变量本身有关。在缺失的变量本身有关。MARMARMANRMANR数据缺失的类型缺失数据类型MCAR项目一完全随机缺失(MCA缺失数据处理的几种不靠谱方法缺失数据处理的几种不靠谱方法删除数据删除数据学术造假学术造假闭口不提闭口不提缺失数据处理的几种不靠谱方法删除数据学术造假闭口不提缺失数据处理的神技:多重插补缺失数据处理的神技:多重插补学术造假学术造假闭口不提闭口不提 多重插补法由Rubin在1978年提出的一种缺失数据估算方法,它能够减少由缺失数据带来的不确定性,增加了估计的效率。多重填充法适用于MCAR 和MAR数据缺失的机制,并且要求数据满足多元正态分布。缺失数据处理的神技:多重插补学术造假闭口不提 多重插缺失数据处理的缺失数据处理的神技:多重插神技:多重插补补删除数据删除数据学术造假学术造假闭口不提闭口不提多重插补的思路把来自于各个数据集把来自于各个数据集的统计的统计结果进结果进行综合,行综合,得到总体参数的估计值。得到总体参数的估计值。用标准的统计分析过程对多次替换用标准的统计分析过程对多次替换后产生的后产生的若干若干个数据集个数据集进行分析。进行分析。多重多重插补插补技术技术用一系列可能的值来用一系列可能的值来替替换每换每一个缺失值,一个缺失值,以反映被替换的缺以反映被替换的缺失数据的失数据的不确定性。不确定性。缺失数据处理的神技:多重插补删除数据学术造假闭口不提多重插补多重插补多重插补SCISCI论文发表情况论文发表情况删除数据删除数据学术造假学术造假闭口不提闭口不提多重插补,是缺失值处理中应用最为普遍和成熟的方法之一,已经在众多的SCI文章中使用,以“multiple imputation”Title/Abstract为检索式在pumbed数据库的标题和摘要字段进行检索后发现:截止到2017年6月15日,有1842篇文章中用到此方法。多重插补SCI论文发表情况删除数据学术造假闭口不提多重插多重插补多重插补SCISCI论文发表情况论文发表情况删除数据删除数据学术造假学术造假闭口不提闭口不提各年发表的多重插补相关论文分布情况如下图所示:多重插补SCI论文发表情况删除数据学术造假闭口不提各年发表的缺失值多重插补的软件操作PART 02缺失值多重插补的软件操作PART 0211实例介绍实例介绍前列腺癌细胞是否扩散到邻近的淋巴结,是选择治疗方案的重要依据。为了了解淋巴组织中有无癌转移,通常的做法是对病人实施腹术探查,并在显微镜下检查淋巴组织。为了不手术而又能弄清淋巴结的转移情况,Brown教授在术前检查了53例前列腺癌的患者,分别记录了年龄(AGE)、酸性磷酸酯酶(ACID),射线(X_RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤位置(STAGE),以及手术探查结果变量(NODES)。X XY Y射线淋巴结转移实例介绍前列腺癌细胞是否扩散到邻近的淋巴结,是选择治疗方实例介绍实例介绍年龄(AGE)、酸性磷酸酯酶(ACID)为连续性变量,射线(X_RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤位置(STAGE)为分类变量。按0,1赋值,其值1表示阳性或较严重情况,0表示阴性或较轻情况,还有手术探查结果变量NODES,1表示有淋巴结转移,0表示无淋巴结转移。实例介绍年龄(AGE)、酸性磷酸酯酶(ACID)为连续性变实例介绍实例介绍原始研究的EXCEL表格中没有缺失值的完整数据,将其另存为“文本文件(制表符分隔)”并命名为:P,放在一个同样名为的新建文件夹中。实例介绍原始研究的EXCEL表格中没有缺失值的完整数据,实例介绍实例介绍将原始的完整EXCEL表格文件,随便删除一些变量数据(研究编号(o)、射线(X_RAY)、手术探查结果变量NODES不删除)。实例介绍将原始的完整EXCEL表格文件,随便删除一些变量实例介绍实例介绍将其另存为“文本文件(制表符分隔)”并命名为:Pqueshi,放在一个同样名为queshi的新建文件夹中。实例介绍将其另存为“文本文件(制表符分隔)”并命名为:P软件准备软件准备 采用的软件是易侕统计软件,该软件由美国&solutions公司研究的一套全新设计的数据分析软件。该软件后台程序以软件为平台,受国际认可。于2013年底面向中国科研人员开发了中文版本。软件准备 采用的软件是易侕统计软件,该软件由美国软件准备软件准备下面介绍软件的下载、安装和登陆方法。百度“易侕统计”进入第一条网页软件准备下面介绍软件的下载、安装和登陆方法。百度“易侕统计软件准备软件准备登陆网站下载“易侕统计”到电脑上并安装软件准备登陆网站下载“易侕统计”到电脑上并安装软件准备软件准备进入软件登陆界面,点击右上角“注册新账号”,只要填写一个电子邮箱即可免费使用本软件一个月软件准备进入软件登陆界面,点击右上角“注册新账号”,只要填软件准备软件准备 该软件不同到传统的SPSS软件、SAS软件,可以在网上找到所谓的破解版,而是采用于在线登陆方式访问,下载并安装软件后,每次登陆时都需要在联网的情况下输入用户名和密码才能访问。软件准备 该软件不同到传统的SPSS软件、SAS软件,可软件操作步骤软件操作步骤研究方法导入导入原始原始数据数据统计统计缺失缺失情况情况估算估算缺失缺失数据数据检查检查插补插补效果效果合并合并多套多套结果结果多重插补的软件操作:多重插补的软件操作:仅需五个步骤仅需五个步骤软件操作步骤研究导入原始数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果首先导入数据。打开“易侕软件”,点击菜单“分析项目”“创建新项目”,读入刚刚保存的文本文件(制表符分隔)Paqueshi.txt,再点击下方“读取数据文件”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果数据导入成功研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果接下来,统计一下数据集中的变量缺失情况。点击菜单“数据操作”“变量取值(缺失)组合”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果 进入“变量取值(缺失)组合”界面后,在将缺失变量(下图右方蓝色部分)用鼠标拖入“选择变量”框中,其他设置不变,再点击下方的“查看结果”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果软件显示出该数据集的数据缺失情况:每个变量缺失的情况;多个变量缺失组合情况。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果接下来,我们来使用“多重插补”补全缺失数据。点击菜单“数据操作”“多重插补缺失生成新数据”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果 进入“多重插补缺失生成新数据”界面后,在将缺失变量(下图右方蓝色部分)用鼠标拖入“选择变量”框中,填写生成两组新数据,同时勾选输出数据包括原始数据,再点击保存和查看结果。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果软件自动运行大约一段时间后(视数据的多少而定)。将显示结果研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果在软件左侧“多重插补缺失生成新数据”分支树里的Paqueshi_2_tbl1.txt处单击右键,选择图中第一个Paqueshi_2_tbl1.mi.xls”中表格再单击,在弹出的对话框中选择“是”,软件将会自动打开EXCEL表格。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果打开EXCEL表格后,软件生成的3套数据,第一套是原始缺失数据,第二套和第三套是插补的新数据,并新生成了一个变量”mi.iter”研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果接下来,我们来看一下多重插补的效果如何,点击菜单“数据操作”“更新源数据文件”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果接照下图的顺序导入新生成的缺失数据集研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果相比之前的数据集,多了”MI.ITER”变量,为数据的分组变量研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果在软件的“数据分析”菜单下选择“研究人群描述”模块。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果接照下图的顺序进行设置。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果下图展示的是三套数据的单因素分析表,三组数据各缺失变量比较无统计学差异,表明插补后的数据和原始缺失数据基本一致。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果接下来进入最后一步,合并这两套数据分析的结果。点击菜单“数据操作”“全自动流行病学分析”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果按左侧的提示进行设置研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果将数据集变量“MI.ITER”的取值范围设置为=0,表示当前分析只限定在原始缺失数据中进行,如果是1,则限定为第一套新数据,如果是2则限定为第2套新数据。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果又回到了“全自动流行病学分析”模块,点击“查看结果”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果全自动流行病学分析展示的是SCI论文中要呈现的四个表:研究人群特征表;单因素分析表;分层分析表;多元回归分析表。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果下图的多元回归分析结果是SCI论文的核心结果,通过对原始缺失原始缺失数据的分析数据的分析显示:所有调整与不调整协变量的回归分析结果,均显示射线是淋巴结转移的危险因素,但只有不调整协变量的回归分析结果的值小于0.05,其他两个结果值均在临界值附近。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果接下来我们来分析第一套新数据的结果,点击左侧“全自动流行病学分析”进行适当修改后,点“查看结果”在弹出的“保存为一个新的图表”对话框中选择“是”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果对第一套新数据的分析第一套新数据的分析结果显示:所有调整与不调整协变量的回归分析结果,均显示射线是淋巴结转移的危险因素,而且值均小于0.05。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果接下来我们来分析第二套新数据的结果,点击左侧“全自动流行病学分析”进行适当修改后,点“查看结果”在弹出的“保存为一个新的图表”对话框中选择“是”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果对第二套新数据的分析第二套新数据的分析结果显示:所有调整与不调整协变量的回归分析结果,均显示射线是淋巴结转移的危险因素,而且值均小于0.05。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果接下来,我们开展合并,第一套和第二套新数据的回归分析结果:点击菜单“工具”“统计工具”“合并多套数据的回归系数”。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果将2套多元回归分析的结果,填到右边的表格中,再点击开始计算。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果合并2套新数据的回归分析结果的OR及95%CI为:7.3568(1.493936.2284),值为0.014研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果 最后,我们再看一看没有任何数据缺失的原始完整数据集”PA”的多元回归分析OR及95%CI为:7.52(1.4937.98),值为0.0113。研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补研究方法研究方法合并多套结果合并多套结果导入数据导入数据统计缺失情况统计缺失情况估算缺失数据估算缺失数据检查插补效果检查插补效果研究方法合并多套结果导入数据统计缺失情况估算缺失数据检查插补缺失值多重插补的注意事项PART 03缺失值多重插补的注意事项PART 0355多重插补的禁忌与注意事项多重插补的禁忌与注意事项多重插补其核心还是在于一个“补”字,通过多重插补,研究者可以在一定程度上满足自己的研究需要。但需要注意的是,一定不能将“多重插补”这个神技滥用。多重插补的禁忌与注意事项多重插补其核心还是在于一个“补”多重插补的禁忌与注意事项多重插补的禁忌与注意事项首先一点:不建议插补缺失较多的数据,当数据缺失在15%60%时,可以使用不同的方法进行插补,当数据缺失超过60%时,如果通过多重插补想要获得新数据,其实质上已经是两套完全不同的数据了,因此会导致数据失真,这样的数据取得的分析结果自然也是伪科学的。多重插补的禁忌与注意事项首先一点:不建议插补缺失较多的数多重插补的禁忌与注意事项多重插补的禁忌与注意事项其二:不建议用插补生成额外数据,本来只有50个样本,想通过插补扩大样本量是不行的。道理很简单,额外的数据换句话讲就是无中生有咯,其本质等同于捏造数据,这是坚决禁止的学术造假行为。多重插补的禁忌与注意事项其二:不建议用插补生成额外数据,多重插补的禁忌与注意事项多重插补的禁忌与注意事项多重插补的禁忌与注意事项缺失值多重插补的SCI论文写作要点PART 04缺失值多重插补的SCI论文写作要点PART 0460缺失值多重插补缺失值多重插补SCISCI论文写作要点论文写作要点接下来,我们以一篇发表在柳叶刀子刊:柳叶刀糖尿病内分泌杂志(IF=19.74)的文章为例,讲解缺失值多重插补的论文报告要点。缺失值多重插补SCI论文写作要点接下来,我们以一篇发表在关于材料和方法部分的写作关于材料和方法部分的写作在写missing data处理的方法时,几个关键词要写:用的是多重插补法(multiple imputation)原理是链式方程(chained equation)计算是由MICE library within the S-Plus 2000 Guide to Statistics Volumes 1 and 2(MathSoft,Seattle,WA,USA)或者易侕软件。关于材料和方法部分的写作在写missing data处理的方关于结果部分的写作关于结果部分的写作1、在写文章的时候,应该报道每个变量中,有多少数据缺失。如果可能,还要讲出这些数据缺失的理由。关于结果部分的写作1、在写文章的时候,应该报道每个变量中,有关于结果部分的写作关于结果部分的写作在这个研究里,9509个病人中,只有5056个病人的数据是全的。缺了4000多个数据,占总样本量的47%。如果说我们按照complete-case来做,把缺失的数据全部删掉,那么这篇文章只有5056个病人,虽然样本量依然很大,但是比起原计划的9000多个还是损失了很多。关于结果部分的写作在这个研究里,9509个病人中,只有505参考文献1.易侕统计:零成本突破SCI2.Farrar D,Fairley L,Santorelli G,et al.Association between hyperglycaemia and adverse perinatal outcomes in south Asian and white British women:analysis of data from the Born in Bradford cohortJ.Lancet Diabetes&Endocrinology,2015,3(10):795.3.宇传华.SPSS与统计分析M.电子工业出版社,2014.参考文献1.易侕统计:零成本突破SCI65THANKSTHANKSTHANKS66
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!