资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Epidemiology,Epidemiology,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学科研数据挖掘,流行病学与卫生统计学系,陈大方,联系方式:公卫楼,520,房间,电话:,82802644(O),邮箱:,医学科研数据挖掘,尿布 和 啤酒,发生在沃尔玛的故事,数据挖掘应用案例之一,尿布 和 啤酒数据挖掘应用案例之一,关联规则挖掘,关联规则挖掘过程主要包含两个阶段,第一阶段从原始资料集合中,找出所有高频项目组。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。,第二阶段是从高频项目组产生关联规则,即找出最小支持度和最小置信度的关联规则。,ID,项集,1,面包、尿布、牛奶、鸡蛋,2,面包、尿布、啤酒、鸡蛋,3,牛奶、尿布、啤酒、可乐,4,面包、牛奶、尿布、啤酒,5,面包、牛奶、尿布、可乐,6,面包、尿布、啤酒、可乐,在所有的交易纪录资料中,至少有,5%,的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。,在所有包含尿布的交易纪录资料中,至少有,70%,的交易会同时购买啤酒。,关联规则挖掘关联规则挖掘过程主要包含两个阶段,第一阶段从原,课程内容安排,数据挖掘概述,(,1,),数据挖掘方法,(,3,),数据挖掘实例,(,2,),文章思路分析,(,1,),课程内容安排,数据挖掘,概述,数据挖掘产生背景,数据挖掘应用领域,数据挖掘的定义和特点,数据挖掘基本过程,数据挖掘任务,数据挖掘方法,数据挖掘所发现的知识分类,数据挖掘在医学领域的应用,数据挖掘未来研究热点,数据挖掘概述,一、数据挖掘产生背景,在,1989,年,8,月举行的第一届,Knowledge Discovery in Database(KDD),国际学术会议上提出。,现实需求,许多领域搜集积累了大量的数据,数据背后隐藏了许多具有决策意义的信息,为更好的利用这些数据,需要对其进行更高层次的分析。,基础技术条件,(1),计算机技术和网络时代(强大的多处理器计算机)。,(2),超大规模数据库的出现(海量数据搜集)。,(3),数据挖掘算法,。,一、数据挖掘产生背景,二、数据挖掘应用领域,Banking(,金融方面,),13%(1),Bioinformatics/Biotech(,生物信息,),10%(2),Direct Marketing/Fundraising(,直销市场,),10%(2),eCommerce/Web(,电子商务,),5%,Entertainment/News(,零售业,/,市场营销,),1%,Fraud Detection(,过程控制,/,质量监督,),9%(3),Insurance(,保险,),8%(4),Investment/Stocks(,投资,),3%,Manufacturing(,制造行业,),2%,Medical/Pharma(,医药,),6%(5),Retail(,零售,),6%(5),Scientific data(,科学数据,),9%(3),Security(,军事方面安全,),2%,Supply Chain Analysis(,物流,),1%,Telecommunications(,远程通信,),8%(4),Travel(,运输,),2%,Other(,其它,),5%,二、数据挖掘应用领域Banking(金融方面)13%(1),三、数据挖掘的定义和特点,定义,从大量的、不完全的、有噪声的、模糊的、随机的、实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,它是在没有明确假设的前提下去挖掘信息、发现知识。,没有假设,盲目,特点,是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程。,数据挖掘的过程是一个,“,发现,”,的过程,而不是,“,发明,”,的过程。,。,三、数据挖掘的定义和特点,四、数据挖掘基本过程,四、数据挖掘基本过程,数据的选择:,搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。,数据的预处理:,研究数据的质量,为进一步分析作准备。并确定将要进行的挖掘操作的类型。,数据的转换:,将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。,数据挖掘:,对所得到的经过转换的数据进行挖掘。,结果分析:,解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定。,知识的同化:,将分析所得到的知识集成到业务信息系统的组织结构中去。,数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从,为什么要预处理数据?,存在不完整的、含噪声的和不一致的数据。预处理数据,可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能,。,不完整数据,的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可用的。其他数据没有包含在内只是因为输入时认为是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其他记录不一致的数据可能已经删除。此外,记录历史或修改的数据可能被忽略。缺失的数据,特别是某些属性上缺少值的元组可能需要推导出来。,数据含噪声,(具有不正确的属性值)可能有多种原因。收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。,不一致的数据,可能是由命名约定或所用的数据代码不一致,或输入字段(如日期)的格式不一致而导致的。,为什么要预处理数据?,数据的预处理主要包括数据描述、数据清理、数据集成和变换、数据归约 四个步骤。,数据描述:对于获得数据的总体印象至关重要。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。度量数据的中心趋势和度量数据的离散程度。,数据清理:是指填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。,数据集成:是指合并来自多个数据存储的数据和可能需要转换成适于挖掘的形式。,数据归约:,数据归约技术可以用来得到数据集的归约表示,它接近于保持数据的完整性,但数据量比原数据小得多。与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘更有效,并产生相同或几乎相同的分析结果,。,数据的预处理主要包括数据描述、数据清理、数据集成和变换、数,医学科研数据挖掘概述解析课件,五、数据挖掘,任务,数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。,关联分析,(association analysis),关联规则挖掘是由,rakesh apwal,等人首先提出。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。,五、数据挖掘任务 数据挖掘的任务主要是关,聚类分析,(clustering),聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。,分类,(classification),分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。,聚类分析(clustering),预测,(predication),预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。,时间序列模式,(time-series pattern),时间序列模式是指从研究系统的指标特征数据中统计出的某种经常发生的时间序列。挖掘的目的是才时间序列数据库中找出频繁出现的子序列。时间序列周期分析是指对周期模式的挖掘,即在时序数据库中找出重复出现的模式。,偏差分析,(deviation),在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。,预测(predication),关联分析法,决策树,人工神经网络,遗传算法,聚类分析,序列模式分析,六、挖掘方法,关联分析法六、挖掘方法,关联分析法,从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能够将一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。,关联分析法,人工神经网络(,Artificial neural network,ANN,),神经元网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集 中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明,因为其无法解释结果是如何产生的以及在推理过程中所用的规则。神经元网络适合结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。,人工神经网络(Artificial neural netwo,决策树(,Decision Tree,DT,),根据训练数据、集中数据的不同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适合对记录分类或结果的预测,尤其适合于当目标是生成易理解、可翻译成,SQL,或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是,CART(,回归决策树,),方法。,决策树(Decision Tree,DT),遗传算法(,Genetic algorithm,GA,),其基本观点是适者生存原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。,遗传算法(Genetic algorithm,GA),聚集分析(,Cluster analysis,,,CA,),聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。此外聚类分析可以作为其他算法,(,如特征和分类等,),的预处理步骤,之后这些算法再在生成的簇上进行处理。与分类不同,在开始聚集之前不知道要把数据分成几组,也不知道怎么分,(,依照哪几个变量,),。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集得到的分群对某个业务来说可能并不好,这时就需要删除或增加变量以影响分群的方式,经过几次反复之后才能最终得到一个理想的结果。聚类方法主要有两类,:,统计方法和神经网络方法。,聚集分析(Cluster analysis,CA),序列模式分析,序列模式分析和关联分析相似,但侧重点在于分析数据间的前后序列关系。序列模式分析描述的问题是,:,在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要由用户输入最小置信度和最小支持度。,序列模式分析,七、数据挖掘所发现的知识分类,数据挖掘将数据转化为
展开阅读全文