DM1序论.ppt - 上海

上传人:痛*** 文档编号:244128346 上传时间:2024-10-02 格式:PPT 页数:70 大小:1.22MB
返回 下载 相关 举报
DM1序论.ppt - 上海_第1页
第1页 / 共70页
DM1序论.ppt - 上海_第2页
第2页 / 共70页
DM1序论.ppt - 上海_第3页
第3页 / 共70页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Data Mining,By Yao Li-xiu: 34204010,lxyao,Outline:,Introduction,Data Preprocessing,Concept Description,Association Rules,Classification and Regression,Clustering,Chapter 1,Introduction,AI,、,ML,、,PR,、,DM,Function &Applicaton,定义,1,人工智能是一种使计算机能够,思维,,使机器具有智力的激动人心的新尝试。,定义,2,人工智能是那些与人的,思维,、决策、问题求解和学习等有关活动的自动化。,定义,3,人工智能是用计算模型研究,智力行为,。,定义,4,人工智能是研究那些使,理解、推理和行为,成为可能的计算。,人工智能的定义,定义,5,人工智能是一种能够,执行,需要人的智能的创造性机器的技术。,定义,6,人工智能研究如何使计算机,做事,让人过得更好。,定义,7,人工智能是一门通过计算过程力图理解和模仿智能行为的学科。,定义,8,人工智能是计算机科学中与智能行为的自动化有关的一个分支。,其中,定义,1,和定义,2,涉及,拟人思维,;定义,3,和定义,4,与,理性思维,有关;定义,5,和定义,6,涉及,拟人行为,;定义,7,和定义,8,与,拟人理性行为,有关。,人工智能的定义,Russell & Norvig,的定义,Systems that think like humans,Systems that think rationally,Systems that act like humans,Systems that act rationally,人工智能是计算机科学的一个分支,是研究使计算机表现出人类智能的学科。,它涉及逻辑学、计算机科学、脑科学、神经生理学、心理学、哲学、语言学、信息论、控制论等多个学科,是一门综合性的交叉和边缘学科。,人工智能的定义,人工智能学科的诞生经历了漫长的历史过程。历史上一些伟大的科学家和思想家对此作出了巨大的贡献,为今天的人工智能研究作了长足和充分的准备。,人工智能的诞生,亚里士多德(,Aristotle,)(公元前,384 322,),古希腊伟大的哲学家、思想家,研究人类思维规律的鼻祖,为,形式逻辑,奠定了基础,提出了,推理方法,,给出了形式逻辑的一些基本定律,创造了,三段论,法。,人工智能的诞生(,1,),由大前提和小前提推出结论。如,凡,金属,(M),都,能导电,(P),(大前提),,铜,(S),是,金属,(M),(小前提),,所以,铜,(S),能导电,(P),(结论)。,演绎,:,从普遍性结论或一般性事理推导出个别性结论的论,弗兰西斯,培根(,Francis Bacon,)(,1561,1626,),英国哲学家和自然科学家,系统提出了,归纳法,,成为和亚里士多德的演绎法相辅相成的思维法则。他强调了知识的重要作用,指出,“,知识就是力量,”,。,人工智能的诞生(,2,),归纳:,从个别性知识,引出一般性知识的推理,是由已知真的前提,引出可能真的结论,莱布尼茨(,Leibnitz,)(,1646 1716,),德国数学家和哲学家,提出了关于,数理逻辑,的思想,即把形式逻辑符号化,从而对人的思维进行运算和推理的思想。,人工智能的诞生,(,3,),-3, -2, 5, (? ), 61, 122,-3 -2 5,24,61 122,他们的差是,1,,,7,,,19,,,37,,,61,,后五数的差是,6,,,2*6,,,3*6 4*6,4,布尔(,Boole,)(,1815 1864,),英国数学家、逻辑学家。他的主要贡献是初步实现了莱布尼茨关于思维,符号,化和数学化的思想,提出了一种崭新的代数系统,布尔代数,,凡是传统逻辑能处理的问题,布尔代数都能处理。,符号逻辑,对于逻辑代数,布尔的方法是着重于外延逻辑,即类的逻辑。其中类或集合用,x,,,y,,,z,,,表示,而符号,X,,,Y,,,Z,,,则代表个体元素用,1,表示万有类,用,0,表示空类或零类他用,xy,表示两个集合的交,他称这个运算为选拔,(election),,即,x,与,y,所有共同元素的集合,人工智能的诞生(,4,),歌德尔(,Gdel,)(,1906 1978,),美籍奥地利数理逻辑学家,他研究,数理逻辑,中的一些带根本性的问题,即,不完全性定理和连续假设的相对协调性证明,,指出了把人的思维形式化和机械化的某些极限,在理论上证明了有些事情是机器做不到的。,人工智能的诞生,(,5,),图灵(,Turing,)(,1912,1954,),英国数学家。他于,1936,年提出了一种,理想计算机的数学模型(图灵机)。,现已公认,所有可计算函数都能用图灵机计算,这为电子计算机的构建提供了理论根据。,1950,年,他还提出了著名的,“,图灵实验,”,,给智能的标准提供了明确的定义:,把人和计算机分两个房间,并且相互对话,如果作为人的一方不能判断对方是人还是计算机,那这台计算机就达到了人的智能。,人工智能的诞生,(,6,),莫克利(,J.W.Mauchly,)(,1907,1980,),美国数学家,和他的学生埃克特(,J.P.Eckert,),于,1946,年研制成功了世界上,第一台通用电子数字计算机,ENIAC,。,人工智能的诞生(,7,),冯,诺依曼(,John von Neumann,)(,1903,1957),美籍匈牙利数学家,提出了以,二进制,和程序存储控制为核心的通用,电子数字计算机体系结构,原理,奠定了现代电子计算机体系结构的基础。,1946,EDVAC,。,人工智能的诞生(,8,),由五个基本部分组成:,1,)运算器,2,)控制器,3,)存储器,4,)输入装置,5,)输出装置,麦卡锡(,John McCarthy,),美国数学家、计算机科学家,“人工智能之父”。,人工智能的诞生(,9,),首次提出“人工智能”(,AI,)概念;,发明,Lisp,语言;,研究不寻常的常识推理;,发明“情景演算”。,1956,年夏,在美国的达特茅斯学院,由,McCarthy,(斯坦福大学)、,Minsky,(哈佛大学)、,Lochester,(,IBM,公司)、,Shannon,(贝尔实验室)四人共同发起,,邀请,IBM,公司的,More,、,Samuel,,,MIT,的,Selfridge,、,Solomonff,,还有,Simon,、,Newell,等人参加学术讨论班,在一起共同学习和探讨用机器模拟智能的各种问题。,在会上,经,McCarthy,提议,决定使用,“,人工智能,”,一词来概括该研究方向。这次具有历史意义的会议标志着人工智能这个学科的正式诞生。,人工智能的诞生(,10,),1956,年夏季,人类历史上第一次人工智能研讨会在美国的达特茅斯,(Dartmouth),大学举行,标志着人工智能学科的诞生。,1969,年召开了第一届国际人工智能联合会议,(International Joint Conference on AI, IJCAI),此后每两年召开一次。,1970,年,人工智能,国际杂志,(International Journal of AI),创刊。这些对开展人工智能国际学术活动和交流、促进人工智能的研究和发展起到积极作用。,人工智能的研究及应用领域,人工智能研究及应用领域很多,主要研究领域包括问题求解、机器学习、专家系统、模式识别、自动定理证明、自然语言理解等。,第,1,章人工智能概述 第,2,章确定性知识表示 第,3,章确定性推理 第,4,章搜索策略 第,5,章计算智能 第,6,章不确定性推理 第,7,章机器学 第,8,章自然语言理解 第,9,章分布智能 第,10,章新型专家系统,人工智能的研究及应用领域,1,问题求解,人工智能的第一个大成就是发展了能够求解难题的下棋,(,如国际象棋,),程序,它包含问题的表示、分解、,搜索与归约,等。,深蓝,八皇后问题,旅行者问题,人工智能的研究及应用领域,2,专家系统,一般地说,专家系统是一个智能计算机程序系统,其内部具有大量专家水平的,某个领域知识与经验,,能够利用人类专家的知识和解决问题的方法来解决该领域的问题。,发展专家系统的关键是表达和运用专家知识,即来自人类专家的并已被证明对解决有关领域内的典型问题是有用的事实和过程。,人工智能的研究及应用领域,3,模式识别,模式的本意是指一些供模仿的标准式样或标本。模式识别就是指识别出给定物体所模仿的标本。,人工智能所研究的模式识别是指用计算机代替人类或帮助人类感知模式,是对人类感知外界功能的模拟,研究的是计算机模式识别系统,也就是使一个计算机系统具有模拟人类通过感官接受外界信息、识别和理解周围环境的感知能力。,例如,识别自己所需要的工具,产品,人工智能的研究及应用领域,4,自动定理证明,自动定理证明的实质:,对前提,P,和结论,Q,,证明,P-Q,永真。,反证法,人工智能的研究及应用领域,5,机器学习,学习是人类智能的主要标志和获得知识的基本手段;要使机器象人一样拥有知识和智能,就必须使机器具有获得知识的能力。,计算机获得知识的两种途径:直接获得;学习获得(机器学习)。,学习是一个有特定目的的知识获取过程,其内部表现为新知识结构的不断建立和修改,而外部表现为性能的改善。,第,1,章引言 第,2,章概念学习和一般到特殊序 第,3,章决策树学习 第,4,章人工神经网络 第,5,章评估假设 第,6,章贝叶斯学习 第,7,章计算学习理论 第,8,章基于实例的学习 第,9,章遗传算法 第,10,章学习规则集合 第,11,章分析这习 第,12,章归纳和分析学习的结合 第,13,章增强学习,数据挖掘,机器学习和统计,数据挖掘是在人工智能(,AI,)和统计分析基础上发展起来的,这两门学科都致力于,模式发现和预测,。,数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果,如,SVM,和决策树,在足够多的数据和计算能力下,他们几乎不用人的关照自动就能完成许多有价值的功能。,数据挖掘就是,利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题,。,一、数据挖掘的概念,(What is data mining?),二、数据挖掘技术的发展(,Development,),三、功能,(What data mining can do?),四、应用(,Application,),五、,DM,的处理流程,六、,DM,的研究发展方向,七、一些流行的数据挖掘软件,数据挖掘的定义,数据挖掘的历史虽然较短,但从,20,世纪,90,年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如:,SAS,研究所(,1997,):,“,在大量相关数据基础之上进行数据探索和建立相关模型的先进方法,”,。,Bhavani,(,1999,):,“,使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程,”,。,关键词:大量,数据挖掘的定义,韩家炜,简单的说,,DM,就是从大量,数据,里挖掘或提取有用的知识。,广义的说,,DM,是一个从存储在,Data base/data warehouse,或其它介质里的大量,数据,中识别有效的、新颖的、有潜在价值的以及最终可理解的模式的非常规的过程。,技术上的定义,,,DM,就是从,大量的、不完全的、有噪声的、模糊的、随机的,实际应用,数据,中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,数据,:,Static numeric data,:,1,,,2,,,3,(Time) Series Data (,the data related to time change),Stock analysis, Bank account, Sensor data etc. Bioinformatics,Spatial Data,(the data related to spatial or geographical information, GIS),Remote Sensing, Census,Text Data (word, sentence, journal etc.),Web log mining , Machine translate,Multimedia Data (figure, image, hyper-text, sound etc.),Content-based Image Retrieval,一、数据挖掘的概念,(What is data mining?),二、数据挖掘技术的发展(,Development,),三、功能,(What data mining can do?),四、应用(,Application,),五、,DM,的处理流程,六、,DM,的研究发展方向,七、一些流行的数据挖掘软件,Major reason:,The widely availability of huge amounts of data and the imminent need for turning such data into useful information and knowledge.,数据挖掘技术是,1,、,必然:,网络之后的下一个技术热点,2,、,数据挖掘技术的动力:,数据爆炸但知识贫乏,3,、,数据挖掘技术的实现基础:,计算机技术的发展,数据挖掘技术的实现基础,对这种技术进行支持的三种基础技术:,- -,海量数据搜集,- -,强大的多处理器计算机,- -,数据挖掘算法,Friedman,列举的四个主要的技术理由:,- -,超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;,- -,先进的计算机技术,例如更快和更大的计算能力和并行体系结构;,- -,对巨量数据的快速访问;,- -,对这些数据应用精深的统计方法计算的能力。,1,、,1989,年,,USA Detroit,召开的,11th,国际人工智能联合会议的专题讨论会上,首次提出,KDD,的概念,2,、,1995,年在,Canada,蒙特利尔召开的第一届知识发现和数据挖掘国际学术会议,作为人们重新认识数据、认识存储、认识数据统计和分析的新的起点,唤来了知识发现和数据挖掘理论及应用研究的热潮。美国计算机学会(,ACM,)于当年提出了,数据挖掘,的概念,时间,会议名称,会议地址,August 20. 1989,KDD-1989 Workshop,Detroit, MI,USA,July.31-Aug.1 1994,KDD-1994 Workshop,Seattle, WA,USA,August 20-21, 1995,The first international conference on Knowledge Discovery and Data Mining (KDD-95),Montreal, Canada.,August 2-4, 1996,The Second International Conference on Knowledge Discovery and Data Mining (KDD-96),Portland, Oregon, USA,August 14-17, 1997,3,rd,International Conference on Knowledge Discovery and Data Mining (KDD-97),Newport beach, California, USA,August 1998,4,th,International Conference on Knowledge Discovery and Data Mining (KDD-98),New York, USA,。,。,。,August 12-15, 2007,13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Jose, CA,August 24-27, 2008,14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,LAS Veages,,,USA,June 28th,July 1st, 2009,15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,PARIS,July 25-28,,,2 010,16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Washington, DC,August 21-24, 2011,17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,San Diego, CA,摘自,http:/www.sigkdd.org,/,Data Mining,国际顶级会议,ACM KDD cup,KDD Cup,是由,美国计算机协会,(ACM),组织的知识发现和数据挖掘国际竞赛,;向,Data,Mining,领域的学术界和工业界开放,,其,目标是,找出最有,创新性和最有效,的,Data,Mining,方法。,在每年的,ACM SIGKDD,会议举行,之前的,三四个月,,,组织者在网站上公布比赛任务,参赛者必须在指定日期前提交结果,。,经组织者评审后,,在,SIGKDD,会议上公布比赛结果,,,并邀请优胜者作报告。竞赛题目,通常都是,当前各个学科中实际的热门数据挖掘问题,,具有,较高的挑战性,。往年的題目和,数据来源于经济,、,制药,、生物、信息等,领域。,ACM KDD cup,KDD-Cup 2011, 2010, Student performance evaluation,KDD-Cup 2009, Fast Scoring on a Large Database,KDD-Cup 2008, Breast cancer,KDD-Cup 2007, Consumer recommendations,KDD-Cup 2006, Pulmonary embolisms detection from image data,KDD-Cup 2005, Internet user search query categorization,KDD-Cup 2004, Particle physics; plus Protein homology prediction,KDD-Cup 2003, Network mining and usage log analysis,KDD-Cup 2002, BioMed document; plus Gene role classification,KDD-Cup 2001, Molecular bioactivity; plus Protein locale prediction.,KDD-Cup 2000, Online retailer website clickstream analysis,KDD-Cup 1999, Computer network intrusion detection,KDD-Cup 1998, Direct marketing for profit optimization,KDD-Cup 1997, Direct marketing for lift curve optimization,摘自,http:/www.sigkdd.org/kddcup/index.php,一、数据挖掘的概念,(What is data mining?),二、数据挖掘技术的发展(,Development,),三、功能,(What data mining can do?),四、应用(,Application,),五、,DM,的处理流程,六、,DM,的研究发展方向,七、一些流行的数据挖掘软件,1.,概念描述(类描述),一个概念常常是对一个包含大量数据的数据集合,总体情况的概述。,对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述。(最基本的功能),一般实现形式,:,数据特征化(,Data Characterization,),:,对目标类数据的一般特征或特性的汇总,其中被分析的数据称为目标数据集,e.g.1 describing the,customers who spend more than $1000 a year at some place,: male, 40,50 years,,,employed, excellent credit ratings,e.g.2 describing,milk,: white, liquid, calcium-including,e.g.3,Catching a cold,: The sniffles,,,sore throat,,,have a fever ,Both,e.g.1,数据区分(,Data Discrimination,),:,目标类与其他类之间在某些特征上做一些比较描述,e.g.2 Apple & Tomato: color, taste, ingredient ,2.,关联分析,就是从给定的数据集发现频繁出现的项集模式知识,即发现各属性之间的关联关系并用关联规则描述出来,不用很绝对的数字,只是提供一种大概的规则,多数准则,常见表现形式,:,or,Where,are attribute-value pares.,and,e.g.1,Given a relational database, a data mining system may find association rules:,3.,分类、回归,Classification /Regression:,根据一系列已知样本(训练样本),用各种算法训练产生一套能描述或区别数据的类别或概念的模型,并能够根据这个模型或函数来预测未知类别样本(测试样本)的分类结果。,e.g. Face recognition, fingerprint recognition,两者的区别可视为预报的目标不同,Classification,: 离散型的,Regression:,数量型的,连续型的,一个是类别,一个是目标值,而类别一般是依据目标值来分类的。,常见算法:,PCA,、,DT,、,ANN,、,BN,、,SVM,4.,聚类分析,unsupervised classification (analyzes data objects unknowing about the class label),根据属性标识对样本聚类,从数据集中找出相似的数据并组成不同的组。聚类的准则:聚类后,同一类之间的样本具有很强的,相似性,而非同类之间的样本具有很强的,非相似性,。,相似性的度量:一般用的是距离。之后还有人根据具体数据格式加上别的一些度量方式,如对称性。,Measurement of Similarity,1) distance,2) distance + other,other: symmetry , weight, etc.,Distance,1,、,Menkowsky Distance,2,、,Euclidean Distance,3,、,Weighted Distance,4,、,Mahalanobis Distance,5,、,Haming Distance,(For the data with Boolean variable),6,、,Geodesic Distance,测地距离,当数据集中样本分布在高维空间且满足某一特定曲面时,欧氏距离则不能反映样本间的真实距离。此时,应该将样本分布的形状信息考虑在内来衡量样本间的相似性。,测地距离的基本思想:,对于近邻样本,欧氏距离近似反映样本间沿数据分布曲面间的距离;,对于相隔较远的样本,样本间的距离为样本分布曲面上连接两样本点间的最短空间曲线的长度。,J.B.Tenenbaum, V.D. Silva, and J.C.Langford, A global geometric framework for nonlinear dimensionality reduction, Science, 2000, vol. 290: 2319-2323,5.,序列分析、趋势分析,对随时间变化的数据对象的变化规律和趋势进行建模描述,可根据前一段时间的运动预测下一个时间点的状态。解决的问题一般可以分为下面两类:,总结数据的序列或者变化趋势;(,股票,/,期货交易,网页点击顺序记录,),检测数据随时间变化的变化;,(自来水厂用水量的日、周、月、年等周期变化,),流程图,6.,离异点分析:噪声还是例外,是实际生活中的反常行为的写照。,包括:噪声,(,删除,),:,实验错误,特例,(,格外关注,建立案例库):,工业生产中的特例,离异点的检测 被广泛用于调查商业欺诈,偷税漏税等行为,一、数据挖掘的概念,(What is data mining?),二、数据挖掘技术的发展(,Development,),三、功能,(What data mining can do?),四、应用(,Application,),五、,DM,的处理流程,六、,DM,的研究发展方向,七、一些流行的数据挖掘软件,零售,/,市场营销,the earliest application field,生物,/,化工,/,医药,过程控制,/,质量监督,金融,/,证券,/,信用保险,司法,(,案例法,Case_based reasoning),web,挖掘,1. Sell/Marketing,the earliest application field,最流行的就是货篮分析(啤酒,/,尿布),主要功能:,市场定位,消费者分析,预测销售趋势,优化营销策略(根据居民消费习惯采取相应的策略),价格分析,分析库存需求,建立合理的物流供应链,2. Industry/Experiment,从各种文献、实验记录、现场记录等资料中提取有关信息,Mainly:,发现新的有用的化学成分:材料设计、药物设计,提高产品质量或产量:工艺、生产流程的改进,改进产品的性能:,VPTC,电导率的提高,汽车钢板腐蚀性能的提高,增加公司的利润:施乐复印机维修,环境保护,地方病的研究,基因组学,蛋白质组学,3. Processing control/quality supervision,通过对有缺陷和无缺陷样本的学习,提取相关规则和识别规则,如: 鉴别产品制造过程中的缺陷,管理由异常行为引起的通讯网络数据,especially,,流程工业(象钢铁生产),4. Finance/Stocking/credit insurance,预测存,/,贷款趋势,预测股票趋势,分析客户的要求、信誉,客户类型分析,客户流失报警,优化存,/,贷款利率,识别欺诈行为,对金融数据的自身发展规律进行的预测,对参与其中的可客户有用,对与客户行为有关的数据记录进行建模和预测,对经营者有用,5. web,挖掘,网络文本、图像的挖掘,用户行为分析,网站行为的决策,一、数据挖掘的概念,(What is data mining?),二、数据挖掘技术的发展(,Development,),三、功能,(What data mining can do?),四、应用(,Application,),五、,DM,的处理流程,六、,DM,的研究发展方向,七、一些流行的数据挖掘软件,1.,待发掘的目标,(,例如 提高证券交易的收入,),Target (how to get more money from stock market),2.,发掘的工具,(,例如 统计方法,),Tools,(statistic methods),4.,挖掘结果的使用,(,例如 明天我要,.),Application,(Tomorrow I will. ),3.,发掘结果的评估,(,例如 这个结果看来,),Evaluation,(this result seems to be),5.1,数据挖掘环境,5.2,数据挖掘流程图,同时考虑可靠性、繁简程度、可理解性等,数据挖掘的主要步骤:,数据准备。(问题的提出和数据的选取),数据预处理,包括:,数据填充。针对不完备信息系统。,数据清洗。清除数据噪声和与挖掘主题明显无关的数据。,数据集成。将来自多数据源中的相关数据组合到一起。,数据转换。将数据转换为易于进行数据挖掘的数据存储形式。,数据消减。缩小所挖掘数据的规模,但却不影响最终的结果。包括:数据立方、维数消减、数据压缩、数据块消减、离散化与概念层次生成等。,数据挖掘,(data mining),。算法设计与知识获取,利用智能方法挖掘数据模式或规律知识。,模式评估,(pattern evaluation),。根据一定评估标准,从挖掘结果筛选出有意义的模式知识。,知识表示,(knowledge presentation),。利用可视化和知识表达技术,向用户展示所挖掘出的相关知识,5.3,数据挖掘需要的人员,数据挖掘过程分步实现,不同的步骤需要有不同专长的人员,他们大体可以分为三类:,业务分析人员:,要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。,数据分析人员,:,精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。,数据管理人员:,精通数据管理技术,并从数据库或数据仓库中收集数据。,一、数据挖掘的概念,(What is data mining?),二、数据挖掘技术的发展(,Development,),三、功能,(What data mining can do?),四、应用(,Application,),五、,DM,的处理流程,六、,DM,的研究发展方向,七、一些流行的数据挖掘软件,除了基础理论和技术,更重要的是开发和应用,加强应用研究,开发针对不同任务的专用,DM,系统,高效率的挖掘算法(数据量大,高效,实时性),提高,DM,结果的有效性、确定性、可表达性,DM,结果的可视化(易于非领域专家,用户理解),多源,data mining,(融合),数据层、特征层、决策层,实现与现有,DB,系统或数据仓库的无缝集成,扩大,DM,的应用范围和利用率,研究技术热点,(,难点,):,样本不平衡,多类分类,高维、非线性,数据不确定性,研究领域热点:,电子商务网站的数据挖掘金融数据挖掘,生物信息(蛋白质和基因)的数据挖掘 (,Bioinformatics/genomics,),一、数据挖掘的概念,(What is data mining?),二、数据挖掘技术的发展(,Development,),三、功能,(What data mining can do?),四、应用(,Application,),五、,DM,的处理流程,六、,DM,的研究发展方向,七、一些流行的数据挖掘软件,1. SPSS,(,Statistical Package for the Social Sciences/2000,Statistical Product and Service Solutions,):,20,世纪,60,年代末由美国斯坦福大学的三位研究生研制,,1975,年在芝加哥组建,SPSS,总部。操作界面极为友好,输出结果美观漂亮,他使用,Windows,的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的,Windows,操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。,SPSS,SAS,(,Statistics Analysis System,),/,Enterprise Miner,:强大的数据管理能力、全面的统计方法、高精度的计算以及独特的多平台自适应技术 、漂亮的界面和可视化技术。 对,windows,和,unix,都支持,主要在公司里用,,。,美国北卡罗来纳州立大学两名研究生开始研制,,1976,年创立,SAS,公司,Decision Tree Classification,Clustering (Segmentation),DBMiner(/Insight/AX/SX/DX):,Intelligent Miner,:,IBM,公司,MineSet,:,SGI,公司,EPIINFO&EPIMAP (Epidemiology Information):,美国,CDC,(疾病控制中心)和,WHO,联合发布,,http:/www.cdc.gov/epiinfo/epiinfo.htm,DMOS,(,Data Mining Optimization System,),:,国内的思华数据技术有限公司与上海大学,,,mainly for industry optimization,CHISS,统计软件,:中华高智统计软件。,MSMiner,:中科院计算技术研究所,提供了一些,DM,系统和工具的性能测试报告,References,:,BOOK,:,Jiawei Han, Micheline Kamber;,Data Mining: Concepts and Techniques,2007,Morgan Kaufmann Publishers,。,杨杰,姚莉秀,数据挖掘技术及其应用,上海交通大学出版社,,2011,JOURNAL,:,Knowledge and Data Engineering,PAMI(Pattern Analysis and Machine Learning),Pattern Recognition,PR Letter,others,UCI database,:,http,:/www.ics.uci.edu/mlearn/MLSummary.html,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!