医学大数据分析策略与数据挖掘课件

上传人:风*** 文档编号:242580729 上传时间:2024-08-28 格式:PPT 页数:41 大小:6.65MB
返回 下载 相关 举报
医学大数据分析策略与数据挖掘课件_第1页
第1页 / 共41页
医学大数据分析策略与数据挖掘课件_第2页
第2页 / 共41页
医学大数据分析策略与数据挖掘课件_第3页
第3页 / 共41页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学大数据分析策略与数据挖掘,1,医学大数据分析策略与数据挖掘1,提纲,中心概况,医学大数据及其分析策略,1,中心概况,2,数据挖掘软件及其实现方法,3,数据挖掘方法简介及其应用,2,提纲中心概况医学大数据及其分析策略1中心概况2数据挖掘软件及,医学大数据及其分析策略,3,医学大数据及其分析策略3,大数据(,Big Data,),数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。,4,大数据(Big Data)4,模拟式存量,数字式存量,2000,年以前大部分数据是,analog data,(模拟式数据),以书、报纸、录像带等存储。特点:,数据量较小。,2000,年以后,digital data,(数字式数据)大大增加,以,CD,、,DVD,、硬盘等存储。特点:,数据量巨大。,2000,年,Source: Researchers at the University of Southern California took four years - 1986, 1993, 2000 and 2007 - and extrapolated numbers from roughly 1,100 sources of information.,Credit: Todd Lindeman and Brian Vastag/ The Washington Post,大数据时代的来临,5,模拟式存量数字式存量2000年以前大部分数据是analog,医学大数据的应用意义,生物标志物识别,利用大数据,识别有关疾病发生、预后或治疗效果的生物标志物,组学研究,基因组学,表观组学,蛋白组学,代谢组学,糖基组学,等,环境因素,个体行为与各组学关联,6,医学大数据的应用意义生物标志物识别利用大数据识别有关疾病发生,公共卫生监测:,传染病监测、,慢性非传染性疾病及相关危险因素监测、,健康相关监测,群体性预防。,医学大数据的应用意义,7,公共卫生监测:传染病监测、医学大数据的应用意义7,健康管理,:,通过可穿戴设备对个体体征数据的实时、连续监测,提供,个体化,疾病预防和治疗方案,医疗协同和临床决策支持:,通过建立专用数据库,调用患者的基因数据、病历信息等大量医学参考数据,辅助疾病的诊断与治疗,实现,个体化,诊治原则,医学大数据的应用意义,8,健康管理:通过可穿戴设备对个体体征数据的实时、连续监测提供个,可视化信息:,数据与,信息图像、,多媒体,信息可视化,更清晰有效地传达与沟通大数据包含的,生物医学,信息,。,医学大数据的应用意义,9,可视化信息: 数据与信息图像、多媒体信息可视化,更清晰,在生物医学研究领域,大数据,:,环境气象学数据,医学影像数据,基因、蛋白等组学数据,大型临床资料,复杂的生物和环境因素研究,生物医学大数据的只要特点:,高维,10,在生物医学研究领域,大数据:生物医学大数据的只要特点:高维1,过 去,假设驱动,,收集数据,分析寻找答案,数据大多是,结构化,的,可以分析,现 在,数据驱动,,挖掘寻找问题,数据多是,非结构化,的,难以分析。,科学问题处理方式,11,过 去假设驱动,收集数据,分析寻找答案现 在数据驱动,挖,条,件,正态性,线性、齐性,独立性,足够大的样本量,变量的20倍,.,方,法,多元线性回归分析,Logistic,回归分析,Cox,回归分析,聚类分析,判别分析,主成分分析,因子分析,广义线性模型,.,传统的多元统计方法难以处理和分析医学大数据,高维、非线性、非高斯等数据,采用数据挖掘方法,可以提供更高的预测精度。,常用的医学多元统计学应用受到制约,12,条 正态性方 多元线性回归分析传统的多元统计方法难以,数据挖掘方法简介及其应用,13,数据挖掘方法简介及其应用13,数据挖掘概念,数据挖掘:,是在从大量的数据中提取隐含的、事先未知的,但又是潜在有用的信息和知识的过程。,14,大数据源,定义研究问题,模型应用,建立模型,模型评估,数据准备,提取数据,14,数据挖掘概念 数据挖掘:是在从大量的数据中提取隐含的、,数据挖掘方法概述,数据挖掘,属性筛选,关联分析,分类预测,回归预测,聚类分析,随机森林,神经网络分类,决策树,分布估计聚类,期望最大化,EM,K,均值聚类,层次聚类,支持向量机回归,回归组合模型,广义线性回归,神经网络回归,LASSO,分类回归树,支持向量机,高维数据降维,属性关联分析,购物篮分析,朴素贝叶斯,15,数据挖掘方法概述数据挖掘属性筛选关联分析分类预测回归预测聚类,肺结节良恶性的判定是,CT,图像诊断肺癌中的一个难点和关键点。在实际的临床中,肺癌被确诊时,80%,以上已属中晚期。,数据挖掘方法应用实例,16,肺结节良恶性的判定是CT图像诊断肺癌中的一个难点和关,矢状位,冠状位,轴状位,矢状位图像库,冠状位图像库,轴状位图像库,三正交位成像,应用实例,17,矢状位冠状位轴状位矢状位图像库三正交位成像应用实例17,01,基本信息,年龄、性别等,轴位纹理,冠状位纹理,矢状位纹理,02,既往史,肿瘤病史,粉尘接触史,遗传病史,吸烟史等,淋巴结是否肿大,边缘是否光滑,是否分叶,结节位置,有无空泡征等,数据集合,03,影像学,检查,CT,图像,纹理,04,高维大数据库,(变量约,1000,,样本,336,例),18,01基本信息轴位纹理02 既往史肿瘤病史 淋巴结是否肿大数据,数据,挖掘主要分类预测方法,基于肺结节纹理,鉴别诊断肺癌,最近邻分类,决策树,神经网络,Gradient,boosting,随机森林,支持向量机,Lasso,回归,19,19,数据挖掘主要分类预测方法基于肺结节纹理最近邻分类决策树神,各纹理产生,30,,,40,,,50,,,60,个子代(即纹理分别为,420,,,560,,,700,,,840,个)。每个纹理子代分布为正态分布,均值和标准差与轴位,CT,图像均值相近;,设定每个纹理内部子代之间的相关系数为,r=0.1,,,0.2,,,0.3,,,0.4;,分别产生,2,组数据,设定两组各个变量均值之间的差值为,d(0.01-0.1),。,Monte Carlo,模拟分析结果,20,20,各纹理产生30,40,50,60个子代(即纹理分别为420,,Monte Carlo,模拟分析结果,纹理相关系数为,0.1,时,,840,个纹理值各预测模型拟合结果,纹理相关系数为,0.2,时,,840,个纹理值各预测模型拟合结果,21,21,Monte Carlo模拟分析结果纹理相关系数为0.1时,8,支持向量机,支持向量机(,Support Vector Machine, SVM,)是美国Vapnik 教授于1963年提出的。,在解决小样本、非线性和高维模式识别问题中表现出许多优势,并在一定程度上克服了“维数灾难”和“过学习”等问题。在模式识别、回归分析、函数估计、时间序列预测等领域,都得到了长足的发展。,Vapnik,22,支持向量机 支持向量机(Support Vector,最优分类(超平)面,SVM的机理是寻找一个满足分类要求的最优分类超平面 ,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化。,23,最优分类(超平)面 SVM的机理是寻找一个满足分类要求,广义最优分类面,-,24,广义最优分类面-24,当线性不可分时,SVM的主要思想是将输人向量映射到一个高维的特征向量空间,并在该特征空间中构造最优分类面。,代替输入向量,x,,,则可以得到最优分类函数为:,25,当线性不可分时,SVM的主要思想是将输人向量映射到一个高维的,Gaussian,核函数:,Polynom,核函数,Vanilladot,线性核函数,双曲切线核函数,Laplacian,核函数,Bessel,核函数,核 函 数,SVM,中不同的内积核函数将形成不同的算法。,26,Gaussian 核函数:核 函 数SVM中不同的内积核函数,预测模型不同判别方法结果,投票法:,选取多数类结果(例如:,2,个或者,2,个以上预测模型结果为恶性)作为最后病例的预测结果;,并联法:,只要有一个预测模型结果判断为恶性,此病人最终判断为恶性结果,否则为良性;,串联法:,只有,3,个预测模型同时判断为恶性,此病人最终判断为恶性结果,否则为良性;,综合法:,合并轴状位、冠状位、矢状位数据集,建立一个预测模型,其结果作为最终结果。,27,预测模型不同判别方法结果投票法:选取多数类结果(例如:2个或,病例基本信息分析结果,良性,恶性,统计值,P,值,性别,N(Missing),84(0),252(0),0(,卡方检验,),1.0000,女性,n(%),50(59.52),150(59.52),男性,n(%),34(40.48),102(40.48),年龄,N(Missing),84(0),252(0),3.45(,秩和检验,),0.0006,Mean(Std),54.10(13.57),59.90(12.68),Median(Q1Q3),57(46.563),61(5369.5),MinMax,2180,2583,良恶性病例人口学特征分析,28,病例基本信息分析结果良性恶性统计值P值性别N(Missin,不同评价方法支持向量机预测模型结果,29,不同评价方法支持向量机预测模型结果29,利用病例人口学特征、环境遗传信息和结节形态学信息等综合性信息,建立支持向量机预测模型。,基于人口学、环境遗传和结节形态学信息建立预测模型结果,30,利用病例人口学特征、环境遗传信息和结节形态学信息等,结论:,基于三正交位,CT,图像,结合多方面信息,采用大数据支持向量机分类分类预测方法,可以有效提高肺癌诊断正确率,辅助放射科医生进行辅助诊断肺癌。,31,结论:31,数据挖掘软件及其实现方法,32,数据挖掘软件及其实现方法32,Your text,R,是统计领域广泛使用的诞生于,1980,年左右的,S,语言的一个分支,。,R,是一个有着统计分析功能及强大作图功能的软件系统,是由奥克兰大学统计学系的,Ross Ihaka,和,Robert Gentleman,共同创立。,在,R,的官方网址上,选择网站镜像,http:/cran.r-project.org/,mirrors.html,2,R,软件,3,1,33,Your textR是统计领域广泛使用的诞生于1980年左右,R,软件,R,编辑器:,编辑程序,选择运行,R,Console,:,运行过程,提示错误等,http:/www.r-project.org/,34,R软件 R编辑器:R Console:http:/www.,支持向量机,R,语言实现,library(kernlab) /,加载,支持向量机程序包,/,setwd(“D:ku”) /,设置当前数据库路径,/,datayuce=read.csv(“a.csv”,header=T)/,导入预测集数据,/,dataxunlian=read.csv(“b.csv”,header=T) )/,导入训练集数据,/,svmModel - ksvm(as.matrix(dataxunlian1:5),as.factor(dataxunlian$x),type=“C-svc”,kernel=“rbfdot”,C=10,cross=4) )/,核函数选择,/,pre=predict(svmModel,datayuce1:5),write.csv(data.frame(pre,class=datayuce$x, zu=datayuce$no),file=result.csv) )/,输出结果到,result.csv /,table(pre,class=datayuce$x) /,结果整理,/,35,支持向量机R语言实现library(kernlab) /加载,支持向量机,36,支持向量机36,WEKA,(,Waikato Environment for Knowledge Analysis,),WEKA,作为一个公开的数据挖掘工作平台,用于非商业目的的研究行为,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。,37,WEKA(Waikato Environment for K,38,STATA,该软件是美国,Computer Resource Center,研制的统计软件,目前的,12,、,13,版本就可以实现数据挖掘。,SAS for windows,:国际权威的统计软件,有专门的数据挖掘模块,。,SPSS for Windows,:该软件是一个统计专用软件,界面很友好。在,19.0,之前的版本需要加专门的,Clementine,模块;,19.0,之后版本因有,modeler,,可直接做。,38,38STATA该软件是美国Computer Resource,基于大数据进行数据挖掘,采用大型服务器可以提高运行速度。,39,基于大数据进行数据挖掘,采用大型服务器可以提高运行速,40,40,谢谢大家!,41,谢谢大家!41,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!