数据挖掘在中医药中应用ppt课件

上传人:txadgkn****dgknqu... 文档编号:242508774 上传时间:2024-08-26 格式:PPT 页数:126 大小:2.36MB
返回 下载 相关 举报
数据挖掘在中医药中应用ppt课件_第1页
第1页 / 共126页
数据挖掘在中医药中应用ppt课件_第2页
第2页 / 共126页
数据挖掘在中医药中应用ppt课件_第3页
第3页 / 共126页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,数据挖掘在中医药中应用,*,China Academy of Chinese Medical Sciences,数据挖掘,在中医药研究中的应用,数据挖掘在中医药中应用,2024/8/26,1,China Academy of Chinese Medi,数据挖掘的相关概念,数据挖掘在中医药领域中的应用,内容,课,容,内,程,数据挖掘在中医药中应用,2,数据挖掘的相关概念数据挖掘在中医药领域中的应用内容课容内程数,产生,数据挖掘的产生,数据挖掘在中医药中应用,3,产生数据挖掘的产生数据挖掘在中医药中应用3,什么激发了数据挖掘?,“数据爆炸”但“知识贫乏”,信息社会迅猛发展,sz-,数据激增,-,发现隐藏信息,-,利用数据,-,获取知识,-,为我所用,数据挖掘在中医药中应用,4,什么激发了数据挖掘?信息社会迅猛发展sz-数据激增-发现隐藏,大型数据库,涌现,数据库技术,发展,用户不满足,于数据库的,查询功能,统计学,机器学习,模式,识别,信息科学,数据库,可视化,数据,挖掘,数据挖掘的出现是数据库技术发展的必然,数据挖掘在中医药中应用,5,大型数据库数据库技术用户不满足统计学机器学习模式信息科学数据,借用,挖掘金矿的名称,数据,知识,数,据,挖,掘,希望利用数据挖掘技术解决“数据丰富”与,“知识贫乏”之间的矛盾,数据挖掘在中医药中应用,6,借用挖掘金矿的名称数据知识数希望利用数据挖掘技术解决“数据丰,数据挖掘的历史,1989,年,11,届国际人工智能研讨会,首次提出了基于数据挖掘的知识发现,由美国人工智能协会主办的知识发现国际研讨会已经召开了,8,次,规模由原来的专题讨论会发展到国际学术大会,国内:,1993,年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,,数据挖掘在中医药中应用,2024/8/26,7,数据挖掘的历史1989年 11届国际人工智能研讨会数据挖,2010,年国家自然基金资助数据挖掘研究,66,项目数据挖掘项目,西医:,基于多模式序列超声图像识别系统诊断乳腺癌的方法学研究,田家玮,哈尔滨医科大学,中医:,应用数据挖掘技术研究中医药治疗再生障碍性贫血的组方规律,向阳,中国人民解放军第,210,医院,基于智能计算的中医方剂基础治法模型的构建,任廷革,北京中医药大学,基于数据挖掘的针灸法效应特异性基本规律及特点的研究,贾春生,河北医科大学,中药新药有效核心处方发现的随机对照忙发设计方法研究,何丽云,中国中医科学院中医临床基础医学研究所,数据挖掘在中医药中应用,2024/8/26,8,2010年国家自然基金资助数据挖掘研究66项目数据挖掘项目数,数据挖掘的概念,数据挖掘,:Data Mining.,数据中发现有效的、新颖的、潜在有用的,并且最终可以被读懂的,模式,的过程,模式,即,pattern,。其实就是解决某一类问题的方法论。即把解决某类问题的方法总结归纳到理论高度,那就是模式。,例如:,比如:孙子说“至死地而后生”是战争模式,三十六计“走为上”、“空城计”也是战争模式。,数据挖掘在中医药中应用,2024/8/26,9,数据挖掘的概念数据挖掘:Data Mining.数据挖掘在中,数据挖掘与其他概念,数据挖掘和知识发现(,KDD KNOWLEDGE DISCOVERY IN DATABASE,),有人认为是一样的只是不同领域称呼不同,数据挖掘是知识发现的过程的一部分,数据挖掘与数据分析,数据挖掘是一个动态过程,能够比数据分析更智能地使用数据仓库,数据挖掘与统计学,统计学推断是假设驱动的,即形成假设并在数据上验证它。而数据挖掘是发现驱动的,即自动地从数据中提取模式和假定,数据挖掘在中医药中应用,2024/8/26,10,数据挖掘与其他概念数据挖掘和知识发现(KDD KNOWLED,数据挖掘的数量常常很巨大,面临的常常是大型数据库,而且常常为其他目的而收集好的数据。,发现隐含的知识,数据挖掘工作者不愿把先验知识预先嵌入算法,是在没有前提假设的情况下,从事信息的挖掘与知识的提取。,数据挖掘的特点,数据挖掘在中医药中应用,2024/8/26,11,数据挖掘的数量常常很巨大数据挖掘的特点数据挖掘在中医药中应用,关联分析,分类,聚类分析,介绍上述功能的一些具体计算方法。,数据挖掘的基本功能,数据挖掘在中医药中应用,2024/8/26,12,关联分析数据挖掘的基本功能数据挖掘在中医药中应用2023/9,关联分析,association analysis,关联分析是发现关联规则。,两个或两个以上变量的取值之间存在某种规律性,就称为关联。,关联分析的挖掘过程就是发现大量数据中项集之间有趣的关联或相关联系。,数据挖掘在中医药中应用,13,关联分析association analysis数据挖,请,NCR,公司构建数据仓库,记录销售数据,每一位顾客哪一天在哪一家连锁店购买了哪些商品,啤酒与尿布,数据挖掘在中医药中应用,2024/8/26,14,请NCR公司构建数据仓库记录销售数据啤酒与尿布数据挖掘在中医,购物篮分析:,即分析哪些商品最有希望被顾客一起购买。,数据挖掘在中医药中应用,2024/8/26,15,购物篮分析:数据挖掘在中医药中应用2023/9/215,每逢周末与尿布一起购买最多的商品是,啤酒!,原因:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。,数据挖掘在中医药中应用,16,每逢周末与尿布一起购买最多的商品是啤酒!原因:美国的太太,举例:,沃尔玛:通过关联分析这一数据挖掘方法,发现“啤酒”及“尿布”两件物品总是一起被购买。,此结果蕴含着巨大的商业价值:,两件,商品,间隔,最远,两件,商品,放在,一起,啤酒,尿布,数据挖掘在中医药中应用,17,举例:两件两件啤酒尿布数据挖掘在中医药中应用17,如何完成?,通过支持度和置信度高低来衡量关联的强度。,什么是支持度?如何计算?,什么是置信度?如何计算?,数据挖掘在中医药中应用,18,如何完成?通过支持度和置信度高低来衡量关联的强度。数据挖掘在,沃尔玛超市为范例,顾客买东西很多,有很多购买收据记录。,收据,1,:啤酒、面包、方便面、盐、,收据,2,:陈皮、可乐、米、面包、盐,收据,3,:面包 、被子、枕头、,收据,4,: 椅子、笔记本,收据,5,:可乐、椅子、枕头、面包,收据,6,:面包、笔记本,数据挖掘在中医药中应用,19,沃尔玛超市为范例顾客买东西很多,有很多购买收据记录。数据挖掘,收据,1,:啤酒、面包、方便面、盐、收据,2,:陈皮、可乐、米、面包、盐收据,3,:面包 、被子、枕头、收据,4,: 椅子、笔记本收据,5,:可乐、椅子、枕头、面包收据,6,:面包、笔记本,支持度()计算公式,A,商品和,B,商品共同出现在一个收据次数,总次数,2,SUPPORT,(面包、枕头),=33.33%,6,数据挖掘在中医药中应用,20,收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面,收据,1,:啤酒、面包、方便面、盐、收据,2,:陈皮、可乐、米、面包、盐收据,3,:面包 、被子、枕头、收据,4,: 椅子、笔记本收据,5,:可乐、椅子、枕头、面包收据,6,:面包、笔记本,置信度(,confidence,:,A,B,),A,商品和,B,商品共同出现在一个收据次数,A,商品出现次数,2,SUPPORT,(枕头面包),=40%,5,数据挖掘在中医药中应用,21,收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面,置信度(,congfidence,:,BA,),A,商品和,B,商品共同出现在一个收据次数,B,商品出现次数,收据,1,:啤酒、面包、方便面、盐、收据,2,:陈皮、可乐、米、面包、盐收据,3,:面包 、被子、枕头、收据,4,: 椅子、笔记本收据,5,:可乐、椅子、枕头、面包收据,6,:面包、笔记本,2,SUPPORT,(面包枕头),=100%,2,数据挖掘在中医药中应用,2024/8/26,22,置信度(congfidence:BA)收据1:啤酒、面包,频繁子集筛选,-,获得挖掘结果,置信度,支持度,商品,1,,商品,2,90%,80%,商品,1,,商品,3,70%,40%,商品,4,,商品,5,80%,89%,商品,6,,商品,8,40%,50%,商品,7,,商品,9,30%,20%,.,有,意,义,无,意,义,数据挖掘在中医药中应用,23,频繁子集筛选-获得挖掘结果置信度支持度商品1,商,关联分析特点,可以从大量数据中发现有趣的关联,数据挖掘在中医药中应用,2024/8/26,24,关联分析特点可以从大量数据中发现有趣的关联数据挖掘在中医药中,聚类分析,clustering,将异质总体分成为同质性的类别,根据数据自动产生各个类别,例如:作者群的自动聚类。,数据挖掘在中医药中应用,2024/8/26,25,聚类分析clustering数据挖掘在中医药中应用2023/,聚类如何实现:从复杂数据中提取简单的分组结构,根据采集的与性别相关特征信息:衣着,头发等,数据挖掘在中医药中应用,26,聚类如何实现:从复杂数据中提取简单的分组结构根据采集的与性别,自动聚成若干类,2024/8/26,数据挖掘在中医药中应用,2024/8/26,27,自动聚成若干类2023/9/2数据挖掘在中医药中应用2023,相似度,聚类,是把最相似的数据聚结在一起形成类别。,通常最常用的计算方式就是“欧式距离”,欧式距离表示多维空间的几何距离:例如:,A,人物像,B,人物像,裙子,1,0,头发,4,1,衣着鲜艳,1,0,数据挖掘在中医药中应用,2024/8/26,28,相似度聚类,是把最相似的数据聚结在一起形成类别。A人物像B人,欧式距离计算,裙子,x,头发,x,衣着鲜艳,z,A,人物像,B,人物像,裙子,1,0,头发,4,1,衣着鲜艳,1,0,欧式距离,数据挖掘在中医药中应用,2024/8/26,29,欧式距离计算裙子x头发x衣着鲜艳zA人物像B人物像裙子10头,欧式距离计算-完成相似度度量,公式:,DISTANCE(A,B)=,=,=3.31,注意的是最相近的值(一样)一定是,0,A,人物像,B,人物像,裙子,1,0,头发,4,1,衣着鲜艳,1,0,数据挖掘在中医药中应用,2024/8/26,30,欧式距离计算-完成相似度度量公式:A人物像B人物像裙子,计算相似度后如何聚类?,2024/8/26,数据挖掘在中医药中应用,2024/8/26,31,计算相似度后如何聚类?2023/9/2数据挖掘在中医药中应用,计算相似度后如何聚类?(自下而上的层次聚类法),有了具体相似度量后,每两个对象之间都形成一个相似度值。,4,*,4,的,矩阵,0,1,0,11,2,0,5,3,4,0,先把最相近的聚类到一起,变成一簇和其他对象再进行相似度计算,在,数学,上,矩阵是指纵横排列的二维数据表格。,matrix,数据挖掘在中医药中应用,2024/8/26,32,计算相似度后如何聚类?(自下而上的层次聚类法)有了具体相似,两个合并在一起的簇怎么和其他对象比较?3*3的矩阵,有很多计算方法:介绍单连接:,D,(,c1,,,c2,),=Mind,(,o,,,O,),D(,,,)= Mind,( ,,),d( , )=2,0,?,0,?,4,0,0,1,0,11,2,0,5,3,4,0,2,11,数据挖掘在中医药中应用,2024/8/26,33,两个合并在一起的簇怎么和其他对象比较?3*3的矩阵有很多计算,有很多规定定义这种计算。,单连接,取最近值,完全连接,取最远值,。,0,2,0,3,4,0,数据挖掘在中医药中应用,2024/8/26,34,有很多规定定义这种计算。020340数据挖掘在中医药中应用2,聚类完成,0,3,0,数据挖掘在中医药中应用,2024/8/26,35,聚类完成030数据挖掘在中医药中应用2023/9/235,聚类分析特点,是物以类聚的一种统计分析方法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类。,在中医药中应用:,一组某病人,利用聚类,聚集成几类,推断出该病常见证型有哪些?,数据挖掘在中医药中应用,2024/8/26,36,聚类分析特点是物以类聚的一种统计分析方法。用于对事物类别的面,分类,Classification,即为按照分析对象的属性分门别类加以定义,建立类别。,例如:银行贷款用户:,分为高风险、中风险、低风险三类用户。,如有申请贷款者,根据所填写信息,利用数据挖掘方法,划分其是三类用户中那一类。,数据挖掘在中医药中应用,2024/8/26,37,分类Classification数据挖掘在中医药中应用202,主要介绍关于分类的两种方法,贝叶斯模型,决策树,数据挖掘在中医药中应用,2024/8/26,38,主要介绍关于分类的两种方法贝叶斯模型数据挖掘在中医药中应用2,贝叶斯模型,14,天打网球情况。,14,天不同天气情况下打网球的情况,分类目的:根据新的一天天气,决定是否打网球,天气,温度,湿度,有风,yes,No,yes,No,yes,no,yes,no,晴,2,3,热,2,2,高,3,4,否,6,2,多云,4,0,温暖,4,2,正常,6,1,是,3,3,雨,3,2,凉爽,3,1,打网球,YES,NO,9,5,实例:根据以往打网球的情况,看看根据新一天的天气情况,能否打网球?,数据挖掘在中医药中应用,2024/8/26,39,贝叶斯模型14天打网球情况。天气温度湿度有风yesNoyes,目的:,给出新一天的气候:看看是否打网球?,贝叶斯模型利用概率的方式计算,:,就是在天气(晴),=YES ,气温(凉爽),=YES ,湿度(高),=YES ,有风,=YES,的条件下:,打网球是否为,YES?,天气,气温,湿度,有风,晴,凉爽,高,是,数据挖掘在中医药中应用,2024/8/26,40,目的:天气气温湿度有风晴凉爽高是数据挖掘在中医药中应用202,计算过程,转换,14,天打网球情况为概率表,14,天不同天气情况下打网球的情况,天气,温度,湿度,有风,打网球,yes,No,yes,No,yes,no,yes,no,yes,No,晴,2,3,热,2,2,高,3,4,否,6,2,9,5,多云,4,0,温暖,4,2,正常,6,1,是,3,3,雨,3,2,凉爽,3,1,天气,温度,湿度,有风,打网球,yes,No,yes,No,yes,no,yes,no,yes,No,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,多云,4/9,0,温暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/5,凉爽,3/9,1/5,数据挖掘在中医药中应用,2024/8/26,41,计算过程转换14天打网球情况为概率表14天不同天气情况下打网,天气,温度,湿度,有风,打网球,yes,No,yes,No,yes,no,yes,no,yes,No,晴,2/9,3/5,热,2/9,2/5,高,3/9,4/5,否,6/9,2/5,9/14,5/14,多云,4/9,0,温暖,4/9,2/5,正常,6/9,1/5,是,3/9,3/5,雨,3/9,2/5,凉爽,3/9,1/5,YES,的概率(红色),=2/9*3/9*3/9*3/9*9/14=0.0053,NO,的概率(绿色),=3/5*1/5*4/5*3/5*5/14=0.0206,YES+NO=1,经过归一化处理,YES=20.5%,,,NO=79.5%,数据挖掘在中医药中应用,2024/8/26,42,天气温度湿度有风打网球yesNoyesNoyesnoyesn,贝叶斯模型特点,所有条件变量对于分类均是有用的,先验知识的正确和丰富和后验知识的丰富和正确,能直接影响分类的准确性,在中医药医学中范例,应用于专家系统诊断。,根据症状,推断出诊断。,数据挖掘在中医药中应用,2024/8/26,43,贝叶斯模型特点所有条件变量对于分类均是有用的数据挖掘在中医药,决策树,决策树,(decision tree),每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树,例:根据表格情况形成分类树,性别,年龄,血压,药物,1,男,20,正常,A,2,女,73,正常,B,3,男,37,高,A,4,男,33,低,B,5,女,48,高,A,药物,B,血压,年龄,药物,A,药物,B,药物,A,高,正常,低,40,40,数据挖掘在中医药中应用,2024/8/26,44,决策树决策树(decision tree) 每个决策或事件都,如何解读决策树信息,如果血压高,则采用药物,A,如果血压低,则采用药物,B,如果血压正常并且年龄小于等于,40,,则采用药物,A,,否则采用药物,B.,药物,B,血压,年龄,药物,A,药物,B,药物,A,高,正常,低,40,40,数据挖掘在中医药中应用,2024/8/26,45,如何解读决策树信息如果血压高,则采用药物A药物B血压年龄药物,产生疑问如何计算,节点如何划分?,为什么先血压,后年龄?,分裂变量的界限,为什么以,40,岁为界限?,药物,B,血压,年龄,药物,A,药物,B,药物,A,高,正常,低,40,40,数据挖掘在中医药中应用,2024/8/26,46,产生疑问如何计算节点如何划分?药物B血压年龄药物A药物B药物,介绍其中一个ID3算法计算决策树,14,天打网球情况。,14,天不同天气情况下打网球的情况,分类目的:根据新的一天天气,决定是否打网球,天气,温度,湿度,有风,yes,No,yes,No,yes,no,yes,no,晴,2,3,热,2,2,高,3,4,否,6,2,多云,4,0,温暖,4,2,正常,6,1,是,3,3,雨,3,2,凉爽,3,1,打网球,YES,NO,9,5,数据挖掘在中医药中应用,2024/8/26,47,介绍其中一个ID3算法计算决策树14天打网球情况。天气温度湿,14天具体打网球情况:,序号,天气,气温,湿度,有风,打网球,1,晴,热,高,无,NO,2,晴,热,高,有,NO,3,多云,热,高,无,YES,4,雨,温暖,高,无,YES,5,雨,凉爽,正常,无,YES,6,雨,凉爽,正常,有,NO,7,多云,凉爽,正常,有,YES,8,晴,温暖,高,无,NO,9,晴,凉爽,正常,无,YES,10,雨,温暖,正常,无,YES,11,晴,温暖,正常,有,YES,12,多云,温暖,高,有,YES,13,多云,热,正常,无,YES,14,雨,温暖,高,有,NO,数据挖掘在中医药中应用,48,14天具体打网球情况:序号天气气温湿度有风打网球1晴热高无N,每一个因素形成一个决策树分支,天气,yes,No,晴,2,3,多云,4,0,雨,3,2,基于天气划分决策树,天气,1,:,NO,2,:,NO,8,:,NO,9,:,YES,11,:,YES,3,:,YES,7,:,YES,12:YES,13:YES,4,:,YES,5,:,YES,6,:,NO,10,:,YES,14,:,NO,晴,多云,雨,数据挖掘在中医药中应用,2024/8/26,49,每一个因素形成一个决策树分支天气yesNo晴23多云40雨3,其他因素也形成了一个树的分支,气温,1,:,NO,2,:,NO,8,:,YES,13,:,YES,4,:,YES,8,:,NO,10,:,YES,11,:,YES,12,:,YES,14,:,NO,5,:,YES,6,:,NO,7,:,YES,9,:,YES,热,温暖,凉爽,有风,1,:,YES,3,:,NO,4,:,YES,5,:,YES,8,:,YES,9,:,NO,10,:,YES,13,:,YES,2,:,NO,6,:,NO,7,:,YES,11,:,YES,12YES,14,:,NO,false,true,湿度,1,:,NO,2,:,NO,3,:,YES,4,:,YES,8,:,NO,12,:,YES,14,:,NO,5,:,YES,6,:,NO,7,:,YES,10,:,YES,11,:,YES,13,:,YES,高,正常,数据挖掘在中医药中应用,2024/8/26,50,其他因素也形成了一个树的分支气温1:NO4:YES5:YES,如何把多个因素合并成一个大的决策树?,天气、气温、湿度、有风这四个因素谁为起点分支?在何处分支?在何处停止?,越确定的在分支,越,不确定的,在主干。否则到了树的支端无法做决定。,但如何计算它们的确定性和不确定性?,药物,B,血压,年龄,药物,A,药物,B,药物,A,高,正常,低,40,40,数据挖掘在中医药中应用,2024/8/26,51,如何把多个因素合并成一个大的决策树?天气、气温、湿度、有风这,如何把小的分支合并成一棵大的决策树?,首先介绍一下信息的一个计算方法:,信息熵的定义:无序性度量。(不确定性),对值的无序的情况做一个量化的测量 。,例:信息熵,=0,信息熵,=0,信息熵最大,当都是,yes,或都是,NO,时无序性很差,,不确定性,很弱,信息熵最小,0,当,yes,和,no,一样多时无序性很强,不确定性很强,信息熵最大,1,:,NO,2,:,NO,8,:,NO,13,:,NO,1,:,YES,2,:,YES,8,:,YES,13,:,YES,1,:,NO,2,:,NO,8,:,YES,13,:,YES,数据挖掘在中医药中应用,2024/8/26,52,如何把小的分支合并成一棵大的决策树?首先介绍一下信息的一个计,利用熵的计算方法计算决策树,越到树的主干,不确定性越大,熵越大,,越到树的分支,确定性越大,熵越小,以便决定,YES,或,NO,熵大,熵小,确定性越大,不确定性越大,Yes,和,no,越平均,Yes,和,no,越一致,数据挖掘在中医药中应用,2024/8/26,53,利用熵的计算方法计算决策树越到树的主干,不确定性越大,熵越大,信息熵的计算公式,InfoC1,,,C2=ENTROPY(P1,,,P2),=-P1*LOG,2,P1P2*LOG,2,P2,C1,C2,代表发生事件的不同数量,P1=C1/(C1+C2),发生事件的不同概率,以,YES,与,NO,为例解释:,C1,,代表发生,yes,的次数,,P1,,代表发生,YES,的概率,C2,,代表发生,NO,的次数,,P2,,代表发生,NO,的概率,函数名称,就像,SUM,一样。,数据挖掘在中医药中应用,2024/8/26,54,信息熵的计算公式InfoC1,C2=ENTROPY(P1,InfoC1,,,C2=ENTROPY(P1,,,P2) =-P1*LOG,2,P1P2*LOG,2,P2C1,,代表发生,yes,的次数,,P1,,代表发生,YES,的概率,C2,,代表发生,NO,的次数,,P2,,代表发生,NO,的概率,例如:在一个节点上,yes,是,2,,,no,是,3,P1=2/5 P2=3/5,Info,(,2,3)=-2/5*LOG,2,(2/5)-3/5*LOG,2,(3/5),=(-0.4)*(-1.32)+(-0.6)*(-0.74),=0.971,位,天气,1,:,NO,2,:,NO,8,:,NO,9,:,YES,11,:,YES,晴,比特,又叫,Bit,,是计量单位,数据挖掘在中医药中应用,2024/8/26,55,InfoC1,C2=ENTROPY(P1,P2),以天气为例进行信息熵计算,天气,yes,No,晴,2,3,多云,4,0,雨,3,2,合计,9,5,Info,(晴),=Info,(,2,3,),=0.971,位,Info(,多云,)= Info,(,4,0,),= 0.0,位,Info(,雨,)=Info,(,3,2,),=0.971,位,还是不能确定谁是主干:,观点就是天气、气温、湿度、有风,谁建立了分支之后,信息的不确定性消除得越多,就当做主干。,也就是看看以谁当主干,很快就达到了分支,很快信息就变得确定了。,数据挖掘在中医药中应用,2024/8/26,56,以天气为例进行信息熵计算天气yesNo晴23多云40雨32合,计算天气下面建立分支后不确定性,Gain(,天气,)=,info,(天气合计),-info,(晴,多云,雨),=info,(,9,5,),-info(2,3,4,0,3,2),= info,(,9,5,),-,(,info(2,3+ info(4,0+ info(3,2,),=0.247,天气,yes,No,晴,2,3,多云,4,0,雨,3,2,合计,9,5,不确定性消除的值有一个名词表示:信息增益,gain,平均信息值,数据挖掘在中医药中应用,2024/8/26,57,计算天气下面建立分支后不确定性Gain(天气)=天气yesN,同理计算出其他三个因素下面建立分支后,信息不确定性消除了多少,Gain(天气)=0.247位,Gain(气温)=0.029位,Gain(湿度)=0.152位,Gain(有风)=0.048位,选择不确定性消除最大的作为第一级主分支,数据挖掘在中医药中应用,2024/8/26,58,同理计算出其他三个因素下面建立分支后,信息不确定性消除了多少,天气已经作为第一个主干了,那么下面该接着谁作为下一级主干?,1,:,NO,2,:,NO,8,:,NO,9,:,YES,11,:,YES,3,:,YES,7,:,YES,12:YES,13:YES,4,:,YES,5,:,YES,6,:,NO,10,:,YES,14,:,NO,气温?湿度?有风?,直接做决定,需要参考其他因素,需要参考其他因素,数据挖掘在中医药中应用,2024/8/26,59,天气已经作为第一个主干了,那么下面该接着谁作为下一级主干?1,14天具体打网球情况:,序号,天气,气温,湿度,有风,打网球,1,晴,热,高,无,NO,2,晴,热,高,有,NO,3,多云,热,高,无,YES,4,雨,温暖,高,无,YES,5,雨,凉爽,正常,无,YES,6,雨,凉爽,正常,有,NO,7,多云,凉爽,正常,有,YES,8,晴,温暖,高,无,NO,9,晴,凉爽,正常,无,YES,10,雨,温暖,正常,无,YES,11,晴,温暖,正常,有,YES,12,多云,温暖,高,有,YES,13,多云,热,正常,无,YES,14,雨,温暖,高,有,NO,数据挖掘在中医药中应用,60,14天具体打网球情况:序号天气气温湿度有风打网球1晴热高无N,以天气晴下面建立分支为例:以信息完全确定作为分支的结束,2024/8/26,61,1,:,NO,2,:,NO,8,:,NO,9,:,YES,11,:,YES,气温,1,:,no,2,:,no,8,:,no,9,:,yes,11:yes,热,温暖,凉爽,序号,天气,气温,打网球,1,晴,热,NO,2,晴,热,NO,8,晴,温暖,NO,9,晴,凉爽,YES,11,晴,温暖,YES,数据挖掘在中医药中应用,2024/8/26,61,以天气晴下面建立分支为例:以信息完全确定作为分支的结束202,以天气晴下面建立分支为例:以信息完全确定作为分支的结束,62,湿度,1:no,2:no,8:no,9:yes,11:yes,序号,天气,湿度,打网球,1,晴,高,NO,2,晴,高,NO,8,晴,高,NO,9,晴,正常,YES,11,晴,正常,YES,高,正常,数据挖掘在中医药中应用,62,以天气晴下面建立分支为例:以信息完全确定作为分支的结束62湿,序号,天气,有风,打网球,1,晴,无,NO,2,晴,有,NO,8,晴,无,NO,9,晴,无,YES,11,晴,有,YES,有风,1:no,8:no,9:yes,2:no,11:yes,无,有,数据挖掘在中医药中应用,2024/8/26,63,序号天气有风打网球1晴无NO2晴有NO8晴无NO9晴无YES,以天气晴下面建立分支为例:以信息完全确定作为分支的结束,2024/8/26,64,1,:,NO,2,:,NO,8,:,NO,9,:,YES,11,:,YES,气温,湿度,有风,1,:,no,2,:,no,8,:,no,9,:,yes,11:yes,1:no,2:no,8:no,9:yes,11:yes,1:no,8:no,9:yes,2:no,11:yes,数据挖掘在中医药中应用,2024/8/26,64,以天气晴下面建立分支为例:以信息完全确定作为分支的结束202,1,:,NO,2,:,NO,8,:,NO,9,:,YES,11,:,YES,3,:,YES,7,:,YES,12:YES,13:YES,4,:,YES,5,:,YES,6,:,NO,10,:,YES,14,:,NO,1,:,no,2,:,no,8,:,no,9,:,yes,11,:,yes,4,:,yes,5,:,yes,10,:,yes,6,:,no,14,:,no,最终的决策树,数据挖掘在中医药中应用,2024/8/26,65,1:NO3:YES4:YES1:no9:yes4:yes6:,结果人性化,数据挖掘在中医药中应用,2024/8/26,66,结果人性化数据挖掘在中医药中应用2023/9/266,决策树的特点,决策树一般都是自上而下的来生成的。,可以完成分类任务,而且因为是树状结构,比较容易被使用者理解。,数据挖掘在中医药中应用,2024/8/26,67,决策树的特点决策树一般都是自上而下的来生成的。数据挖掘在中医,第一步骤,选择,第三步骤,挖掘,第二步骤,处理,第四步骤,分析,数据挖掘步骤,目标数据,预处理及变换,变换后的数据,数据挖掘算法,解释,/,评估,68,清理筛选,知识,数据挖掘在中医药中应用,2024/8/26,68,第一步骤第三步骤第二步骤第四步骤数据挖掘步骤目标数据预处理及,第一步骤:选择,收集数据,就是进行原始需要被挖掘的数据采集。,例如:做肺癌处方的数据挖掘,要采集肺癌处方的信息,或原有的患者信息中导出,形成数据子集。,原始数据的采集非常费时费力,通常在费用中占相当大的比重。,可以采用较小规模的数据对问题的可行性进行初步研究。,数据挖掘在中医药中应用,2024/8/26,69,第一步骤:选择收集数据数据挖掘在中医药中应用2023/9/2,第二步骤:处理,数据预处理部分,把数据转换成比较容易被数据挖掘的格式及内容。,内容处理:年龄,六十岁,60,有个还分组:老年、青年、等,格式处理:年龄,出生日期,1950,年转成,61,。,数据挖掘在中医药中应用,2024/8/26,70,第二步骤:处理数据预处理部分,把数据转换成比较容易被数据挖掘,第三步骤:挖掘,运用工具和算法,进行挖掘,完成分类、关联、聚类、估计、预测等功能,发现数据中的规律。,例如:,关联分析中常用,apriori,算法,,算法就是一种计算方法,,例如:计算一个班上有多少人:可以用加法或乘法。,加法和乘法就是算法。,数据挖掘在中医药中应用,2024/8/26,71,第三步骤:挖掘运用工具和算法,进行挖掘,完成分类、关联、聚类,第四步骤 分析,例如:预测信用卡欺诈行为。,通过算法分析信用卡用户的购买习惯,根据结果认识客户的模式,并分辨出偏离模式的信息卡盗用行为。,数据挖掘在中医药中应用,2024/8/26,72,第四步骤 分析数据挖掘在中医药中应用2023/9/272,概念,数据挖掘在中医药领域中应用,数据挖掘在中医药中应用,73,概念数据挖掘在中医药领域中应用数据挖掘在中医药中应用73,二、关联分析在中医领域应用情况,中医领域及计算机领域均有深入研究,中医,计算机,中国中医科学院,南京中医药大学,湖南中医药大学,福建中医学院,北京中医药大学,浙江大学计算机科学与技术学院,厦门大学,山西医科大学,山东师范大学,南京理工大学,南方医科大学,江苏大学,河南大学,合肥工业大学,哈尔滨工程大学,广东工业大学,东北大学,北京交通大学,北京工业大学,数据挖掘在中医药中应用,74,二、关联分析在中医领域应用情况中医领域及计算机领域均有深入,近,3,年的学位论文,中医症状病机实体识别及其关系挖掘研究,绝经综合征中医药临床疗效评价方法的数据挖掘研究,中医诊疗中挖掘算法的方法研究,基于智能算法的医学数据挖掘,特征权重优化方法研究及其应用,中医医案数据挖掘技术研究,基于数据挖掘技术的证素辨证方法研究,中医小儿肺炎疗效评价系统的设计与实现,基于数据挖掘对急性冠脉综合征辨证论治规律的探索性研究,中医小儿肺炎辩证标准数据挖掘系统中的数据预处理技术,基于数据挖掘的周仲瑛教授治疗系统性红斑狼疮病案回顾性研究,中医临床诊疗垂直搜索系统研究,基于数据挖掘的中医脏腑辨证系统研究,中医活血化瘀方数据库及其数据挖掘,基于数据挖掘的中医方剂分析技术研究,中医妇科常见病医案数据挖掘方法研究,基于粒计算与完全图的关联规则算法研究,中药归经,(,肺经,),理论和肺系方剂配伍规律的解析及在海洋中药研发中的应用,基于聚类和,BP,网络集成的中医耳穴智能诊断仪研究,应用信息技术探索我国高等中医药院校学术及科研发展趋势,基于分类关联规则的仲景方挖掘研究,田从豁教授治疗痹证、瘾疹、不寐的经验挖掘分析,基于贝叶斯网络的中医医案数据挖掘,特征选择在中医数据挖掘中的应用研究,基于,SVM,与关联规则中医舌象数据挖掘技术初步研究,数据挖掘中分类分析的策略研究及其生物医学应用,基于,HMM,的中医临床疗效评价分析研究,数据挖掘在中医若干问题研究中的应用,关联规则挖掘在中医辨证诊断中的应用研究,数据挖掘模型的创建及其在中医药文献中的应用研究,关联规则算法研究及其在中医药数据挖掘中的应用,数据挖掘及其在中医药领域中的应用,关联分析在中医数据挖掘中的应用研究,脾虚证诊断信息数据挖掘的初步探讨,恶性肿瘤与脾虚证相关性数据挖掘的初步探讨,明清中医疫病发病、症状与用药相关性数据挖掘研究,多路异质聚类在中医临床数据中的应用及其研究,名老中医经验传承中的数据挖掘技术研究,粗糙集合属性约简方法研究与实现,面向中医胃病诊疗的数据挖掘技术,SVM,算法研究及其在中医脏腑辨证中的应用,慢性胃炎中医诊疗中的数据挖掘研究,DartSpora,数据挖掘平台的构建,吕仁和教授治疗糖尿病学术思想及其传承方法的研究,可扩展智能推理及其在中医舌诊中的应用,绝经综合征中医证治规律的数据挖掘模型与系统架构设计,数据挖掘在中医药中应用,75,近3年的学位论文中医症状病机实体识别及其关系挖掘研究绝经综合,原始数据规范不足,挖掘领域局限性,结果评价不充分,存在问题,数据挖掘在中医药中应用,76,原始数据规范不足 存在问题数据挖掘在中医药中应用76,研究目的:,丰富妇科的临床用药理论,探索:,中药与中药之间,症状与症状之间,证型与证型之间,中药与症状之间,中药与证型之间,症状与证型之间,三、数据挖掘在中医妇科医案中的应用,关系,数据挖掘在中医药中应用,77,研究目的:三、数据挖掘在中医妇科医案中的应用关系数据挖掘,收集,符合,要求的,医案,第一步,数据,采集,第二步,数据,预处理,第三步,数据,挖掘,第四步,结果评价分析,把收集,的妇科,医案,数据,统一,把统一,好的,数据,进行,数据,挖掘,把挖掘,结果,作一个,综合,分析,研 究 流 程,数据挖掘在中医药中应用,78,收集第一步第二步第三步第四步把收集把统一把挖掘研 究,医 案 采 集,病种,选择,医家,选择,医案,时间,医案,内容,第一步:数据采集,数据挖掘在中医药中应用,79,医 案 采 集病种医家医案医案第一步:,参考,94,中医药行业标准:,确定妇科常见疾病共有,14,个,通过检索中医药信息研究所的中国中医药期刊文献数据库检出这些疾病的期刊文章发表情况,病种选择,数据挖掘在中医药中应用,80,参考94中医药行业标准:病种选择数据挖掘在中医药中应用80,病 种 选 择,数据挖掘在中医药中应用,81,病 种 选 择数据挖掘在中医药中应用81,选择了前个发表文献数最多的病种,,在医案实际记录中,有的病名很模糊,故医案中信息诊断参考了国家中医药管理局,1994,年颁布了,中华人民共和国中医药行业标准,-,中医病症诊断疗效标准,数据挖掘在中医药中应用,82,选择了前个发表文献数最多的病种,数据挖掘在中医药中应用82,医 案 总 况,病种,选择,医家,选择,医案,时间,医案,内容,痛,经,崩,漏,不,孕,闭,经,经验,丰富的,医师,医案,出版,时间,1972,2005,医案,就诊,时间,1951,2003,中,医,诊,断,中,药,处,方,证,型,症,状,数据挖掘在中医药中应用,83,医 案 总 况病种医家医案医案痛崩不闭经验医,采集医案情况,处方,症状,证候原文采集,涉及医案共,2138,例,崩漏,664,例,闭经,408,例,不孕,631,例,痛经,435,例,期刊中医案,848,例,专著中医案,1290,例,涉及医家,476,位,数据挖掘在中医药中应用,84,采集医案情况处方,症状,证候原文采集数据挖掘在中医药中应用8,数据采集内容,围绕数据挖掘目的:寻找证,-,症,-,药关系。,采集,4,种疾病医案中证,-,症,-,药信息,崩漏,闭经,不孕,痛经,证型,症状,处方中药组成,数据挖掘在中医药中应用,85,数据采集内容围绕数据挖掘目的:寻找证-症-药关系。崩漏证型症,确定一些纳入排出标准,例如:,在本课题收录的医案中,治疗方法都是单纯的中草药内服治疗。凡含有中成药、针灸治疗、外用治疗、西药治疗、手术治疗的医案均被排除在外。,这里特别要说明的是中成药治疗不予收录。,辨证必须含有病性和病位内容。一些医案的辨证部分只含有病位如“肝脾为病”或只含有病性“虚”或“实” 不予收录。,症状除主症之外必须有两个以上症状描述,,数据挖掘在中医药中应用,86,确定一些纳入排出标准例如:数据挖掘在中医药中应用86,采集医案样例,1,陈某,43,岁,1976,,,12,,,14,月经过多来则如崩,已十余年,血色鲜红,夹有大血块无腹痛头面洪热,此次经期将临,舌胖,苔薄白,脉沉细,气血两亏,冲任损伤,党参,12g,黄芪,12g,白术,9g,生贯众,30g,花蕊石,30g,益母草,9g,升麻,6g,槐花,12g,生甘草,4.5g,炙甘草,4.5g,侧柏叶,30g,山药,15,川断,12g,钩藤,12g,崩漏,沈仲理,近现代二十五位中医名家妇科经验,242,页,症状,证型,中药名称都,需要规范处理,数据挖掘在中医药中应用,87,采集医案样例1陈某43岁1976,12,14月经过多来则如崩,预处理内容,总则,尽量贴近临床,尽量忠于原意,不失或少失原意。,中药,证型,症状,数 据 预 处 理,数据挖掘在中医药中应用,88,预处理内容总则中药证型症状 数 据 预 处 理数据挖,中 药 部 分,预 处 理,名称预处理,冬术,白术,正异名的处理,中药正异名标准表,正名是唯一的,异名是唯一的,紫背金盘草,白毛夏枯草,翻背白草,管仲,天水蚁草,地膏药,毛大丁草根,白叶不翻,鹿茸草,秋牡丹根根,委陵菜,翻白草,白牛胆,正 异,正 异,正 异,正 异,野丈人,胡王使者,白头公,中华本草,中的正异名循环现象,建表方式,白头翁,数据挖掘在中医药中应用,89,中 药 部 分 预 处 理名称预处理冬术白术正异,医案中原文,规范后,木蔓头,木馒头,青篙,青蒿,肉从蓉,肉苁蓉,桑葚,桑椹,错别字,省略字,医案原文中名称,规范后名称,龙牡,龙骨,牡蛎,赤白芍,赤芍,白芍,藿荷梗,藿梗,荷梗,苍白术,苍术,白术,数据挖掘在中医药中应用,90,医案中原文规范后木蔓头木馒头青篙青蒿肉从蓉肉苁蓉桑葚,净制、切制对于药物性味归经改变很小,就是凡见中药名称中含有“片”、“末”、“粉”、“鲜”、“嫩”、“净”等净制、切制方法的标志用词,予以去除。,例如:医案处方中见“佛手片”,直接去除“片”字,被规范成“佛手”。,炮制预处理,净制、切制,数据挖掘在中医药中应用,91,净制、切制对于药物性味归经改变很小,就是凡见中药名称中含有,净制、切制、炮炙三种炮制方法中的炮炙法,对中药的性味归经等有很大影响,中药这部分的炮炙方法给予保留,在中药炮制参考书籍中,每味药的炮制内容中有这样一个栏目,处方应付,,用以指导药剂师处理临床医师的处方,36,。,例如:,大黄的,处方应付,:处方中写大黄、川军、生军均付生大黄。写酒大黄、酒军付酒炒大黄,写熟大黄、制大黄付熟大黄,其余各随方付给。,参考上述的中药,处方应付,,熟大黄、制大黄都合并为熟大黄。,炮炙,数据挖掘在中医药中应用,92,净制、切制、炮炙三种炮制方法中的炮炙法,对中药的性味归经等有,编号,规范后名称,频数,原始中药名称,101400,白茅根,药典,15,白茅根,药典,茅根,别册,生白茅根,切,101600,白术,药典,642,白术,药典,土白术,别册,冬术,别册,土炒白术,切,炒白术,切,土白术,切,漂白术,切,晒白术,切,101601,白术,(焦),8,焦白术,焦冬术,101602,白术,(生),18,生白术,101603,白术,(炭),2,白术炭,101604,白术,(煨),1,煨白术,101605,白术,(制),1,制白术,中 药 规 范 表 (部分),数据挖掘在中医药中应用,93,编号规范后名称频数原始中药名称101400白茅根药典15,从结构上规范,把证型名称规范成统一结构的主谓词组,主语部分是病位,谓语部分是病性。,结构,主谓, ,血瘀,证 型 部 分 预 处 理,数据挖掘在中医药中应用,94,从结构上规范,把证型名称规范成统一结构的主谓词组,主语部分是,复合证型,涉及两个脏器的尽量拆分,例如肝肾阴虚,可以拆分成肝阴虚,+,肾阴虚,如果难以拆分的,如肝脾不和,则保留原状。,内容,复合证型,冲任,冲任失调的辨证几乎出现在所有医案中,成为一个非常强的干扰项,故把冲任失调的辨证去除,数据挖掘在中医药中应用,95,复合证型,涉及两个脏器的尽量拆分,例如肝肾阴虚,可以拆分成肝,对规范后的证型的选词,一方面参考了,中国中医药学主题词表,、,中医诊断学,、,中华人民共和国中医药行业标准中医病证诊断疗效标准,等专业书籍;另一方面把需要规范成同一证型的用词作了频数统计,选用了一个使用频次最高的词作为规范后证型。,选词,频次高,数据挖掘在中医药中应用,96,对规范后的证型的选词,一方面参考了中国中医药学主题词表、,证 型 标注 表(部分),编号,规范后证型词,频次,证型词原文(后缀数字为医案中出现的频次),300905,血瘀,591,血瘀,349,瘀血,85,血淤,19,血滞,30,血行不畅,15,血凝,12,气血瘀滞,10,气血运行不畅,10,血行瘀滞,6,气血郁滞,5,气血阻滞,5,气血壅滞,5,血涩,4,血结,4,气血涩滞,3,炼血成瘀,3,气血凝滞,3,血阻,3,干血,2,气血不畅,2,气血瘀阻,2,血行不通,2,血结成瘀化热,1,血行瘀阻,1,血行受阻,1,痰血互结,1,气血奎滞,1,血滞不畅,1,血分有寒夹瘀,1,寒凝血泣着而成瘀,1,气碍血行,1,血不得行,1,血运不畅,1,血有郁热,1,数据挖掘在中医药中应用,97,证 型 标注 表(部分)编号规范后证型词频次证型词原文(后缀,结构,主谓, ,腹痛,副词,选词,频次高,症 状 部 分 预 处 理,稍,略,微,结构,副词,选词,频次高,略,微,数据挖掘在中医药中应用,98,结构主谓副词选词频次高症 状 部 分 预 处 理稍略微结构,症状描述详细程度不同,同一个腹痛,有的仅写腹痛,有的写腹刺痛,有的写小腹痛,有的写小腹刺痛,用词上深浅各不相同。,需要对症状进行特殊处理,才能粗细概念均保留。,数据挖掘在中医药中应用,99,症状描述详细程度不同同一个腹痛,有的仅写腹痛,有的写腹刺痛,,症 状 部 分 用 词 拆 分,下腹微刺痛,医案原文,拆分,下腹微刺痛,下腹,微刺痛,下,刺,微,腹,微刺,痛,规范后,腹痛,下腹痛,腹刺痛,刺痛,下腹刺痛,规范后,数据挖掘在中医药中应用,100,症 状 部 分 用 词 拆 分下腹微刺痛医案原文拆分下腹微刺,症 状 标 注 表(部分),编号,规范后症状,频次,医案中原文症状用词及使用频次,201105,体瘦,289,体瘦,93,消瘦,42,形体消瘦,34,形瘦,33,形体瘦弱,28,形体削瘦,5,形体较瘦,5,面黄肌瘦,4,体质瘦弱,3,赢瘦,3,形体瘦小,3,身体瘦弱,3,瘦弱,3,体质消瘦,2,身体嬴瘦,2,形体不丰,2,形体偏瘦,2,身体较瘦,2,形体瘦削,2,嬴瘦,2,形嬴,1,形体枯瘦,1,形体消索,1,形体渐瘦,1,形体日嬴,1,身瘦,1,肌肉消削,1,数据挖掘在中医药中应用,101,症 状 标 注 表(部分)编号规范后症状频次医案中原文症状用,591,个医案涉及食欲差,但不同表达方式有,84,种,编号,症状,(,频次,),编号,症状,(,频次,),编号,症状,(,频次,),编号,症状,(,频次,),1,纳差,103,22,纳欠,3,43,食纳减,1,64,食纳甚差,1,2,纳呆,93,23,不欲食,3,44,饮食差,1,65,食少乏味,1,3,纳少,77,24,胃纳差,3,45,不欲饮食,1,66,食欲不旺,1,4,食欲不振,51,25,饮食少,3,46,谷纳少馨,1,67,食欲极差,1,5,食少,30,26,纳食不佳,3,47,眠食欠佳,1,68,食欲较差,1,6,不思饮食,21,27,饮食不思,3,48,纳呆乏味,1,69,胃不思纳,1,7,纳减,19,28,少食,2,49,纳谷不旺,1,70,胃不欲纳,1,8,纳谷不馨,19,29,纳食差,2,50,纳谷不振,1,71,胃呆少纳,1,9,纳欠佳,15,30,纳差食少,2,51,纳谷欠馨,1,72,胃纳
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!