数据挖掘技术教材课件

上传人:无*** 文档编号:241431845 上传时间:2024-06-25 格式:PPT 页数:46 大小:355.50KB
返回 下载 相关 举报
数据挖掘技术教材课件_第1页
第1页 / 共46页
数据挖掘技术教材课件_第2页
第2页 / 共46页
数据挖掘技术教材课件_第3页
第3页 / 共46页
点击查看更多>>
资源描述
数据挖掘技术数据挖掘技术1综综述述1数据挖掘技术数据挖掘技术为什么要数据挖掘?为什么要数据挖掘?n数据的爆炸性增长:从数据的爆炸性增长:从TB到到PBn丰富数据的来源:商业:丰富数据的来源:商业:WEB、电子商、电子商务、交易数据、股市务、交易数据、股市.科学:遥感、生物科学:遥感、生物信息学、科学模拟,社会及每个人:新闻、信息学、科学模拟,社会及每个人:新闻、数码相机数码相机n我们被数据所淹没,但却渴望知识我们被数据所淹没,但却渴望知识“需要是发明之母”数据挖掘:海量数据的自动分析技术2数据挖掘技术数据挖掘技术数据库技术的演化数据库技术的演化60-70年代年代:网络数据库、层次数据库网络数据库、层次数据库70-80年代年代:关系数据库模型和原型系统关系数据库模型和原型系统80-90年代年代:各种高级数据模型、各类以应用为导向各种高级数据模型、各类以应用为导向的数据库。的数据库。90-今今:数据挖掘、数据仓库、多媒体数据库、数据挖掘、数据仓库、多媒体数据库、WEB3数据挖掘技术数据挖掘技术什么是数据挖掘?什么是数据挖掘?数据挖掘(从数据中发现知识)从从大量的数据大量的数据中挖掘哪些令人感兴趣中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能的、有用的、隐含的、先前未知的和可能有用的模式或知识有用的模式或知识 数据挖掘的替换词数据库中的知识挖掘(数据库中的知识挖掘(KDD)知识提炼知识提炼数据数据/模式分析模式分析数据考古数据考古数据捕捞、信息收获等等。数据捕捞、信息收获等等。4数据挖掘技术数据挖掘技术5数据挖掘技术数据挖掘技术在今天,在今天,NBA的教练有了他们的新式的教练有了他们的新式武器:决策支持下的数据分析。大约武器:决策支持下的数据分析。大约20个个NBA球队使用了球队使用了IBM公司开发的数据挖掘公司开发的数据挖掘软件来优化他们的战术组合。软件来优化他们的战术组合。该软件就因为研究了魔术队队员不同的该软件就因为研究了魔术队队员不同的布阵,在魔术队与迈阿密热队的比赛中找布阵,在魔术队与迈阿密热队的比赛中找到了获胜的机会。到了获胜的机会。(1)系统分析显示魔术队先发阵容中的两个后卫哈德系统分析显示魔术队先发阵容中的两个后卫哈德卫和伯兰在前两场中被评为卫和伯兰在前两场中被评为17分分,这意味着他俩在这意味着他俩在场上,本队输掉的分数比得到的分数多场上,本队输掉的分数比得到的分数多17分。然而,分。然而,当哈德卫与替补后卫阿姆斯创组合时,魔术队得分当哈德卫与替补后卫阿姆斯创组合时,魔术队得分为正为正14分。分。(2)在下一场中,魔术队增加了阿姆斯创的上场时间。在下一场中,魔术队增加了阿姆斯创的上场时间。此招果然见效:阿姆斯创得了此招果然见效:阿姆斯创得了21分,哈德卫得了分,哈德卫得了42分,魔术队以分,魔术队以88比比79获胜。获胜。有趣的数据挖掘有趣的数据挖掘-美国美国NBA6数据挖掘技术数据挖掘技术n零售业零售业用于识别顾客的购买模式,在顾客的统计特征用于识别顾客的购买模式,在顾客的统计特征中发现关联,预测促销活动的反应,进行市场中发现关联,预测促销活动的反应,进行市场分析。分析。啤酒和尿布的的关系,我们非常熟悉!啤酒和尿布的的关系,我们非常熟悉!如在购买面包和黄油的顾客中,有如在购买面包和黄油的顾客中,有90%90%的人同的人同时也买了牛奶时也买了牛奶”:(面包面包+黄油黄油)()(牛奶牛奶)。数据挖掘其他应用数据挖掘其他应用7数据挖掘技术数据挖掘技术n银行银行洗钱洗钱:发现可疑的货币交易行为发现可疑的货币交易行为二八定律:二八定律:意大利经济学家帕累托发现了财富和收益间的关意大利经济学家帕累托发现了财富和收益间的关系,潜心研究发现,社会上的大部分财富被少数人占有,从系,潜心研究发现,社会上的大部分财富被少数人占有,从大量具体的事实中挖掘出一个简单而让人不可思议的结论:大量具体的事实中挖掘出一个简单而让人不可思议的结论:如果社会上如果社会上20的人占有社会的人占有社会80的财富,那么可以推的财富,那么可以推测,测,10的人占有了的人占有了65的财富,而的财富,而5的人则占有了社会的人则占有了社会50的财富。的财富。数据挖掘其他应用数据挖掘其他应用8数据挖掘技术数据挖掘技术n保险保险如;如;保险客户流失性判断保险客户流失性判断数据挖掘其他应用数据挖掘其他应用收入收入5万元万元年龄年龄35岁岁不易流失不易流失易流失易流失是否事业单位是否事业单位不易流失不易流失易易 流流 失失YNYYNN9数据挖掘技术数据挖掘技术n股票预设股票预设预测一支股票的走势几乎是不可能,但是通过相预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势关分析,可以找出一支股票的走势与另一只股票走势的潜在规律,比如数据挖掘曾经得到过这个结论:的潜在规律,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌如果微软的股票下跌4%,那么,那么IBM的股票将在两周的股票将在两周内下跌内下跌5%”。n医疗医疗探求各种疾病之间的相互关系、各种疾病的发探求各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究是非常有价值对疾病的诊断、治疗和医学研究是非常有价值和发展前景的。同时,医疗数据是既有文本、和发展前景的。同时,医疗数据是既有文本、如:如:预测肝癌患者存活期预测肝癌患者存活期数据挖掘其他应用数据挖掘其他应用10数据挖掘技术数据挖掘技术n专家们通过专家们通过搜集搜集1990年到年到2002年间因肝癌死年间因肝癌死亡的亡的456名患者的各项指标,把患者血液检查名患者的各项指标,把患者血液检查结果、症状等详细信息数字化,所涉及的数据结果、症状等详细信息数字化,所涉及的数据达达77万种,然后运用数据挖掘分析其相关性。万种,然后运用数据挖掘分析其相关性。结果发现,某些数据和肝癌患者的存活期结果发现,某些数据和肝癌患者的存活期密切相关,如一种密切相关,如一种“PIVKA”蛋白质异常程度蛋白质异常程度的数值到一定标准以上,的数值到一定标准以上,90以上的肝癌患者以上的肝癌患者存活期不到一年。存活期不到一年。使用新方法不仅可较准确地预测肝癌患者的存使用新方法不仅可较准确地预测肝癌患者的存活期,而且有助于选择恰当的治疗方法,来保活期,而且有助于选择恰当的治疗方法,来保持或改善那些与存活期密切相关的数值,进而持或改善那些与存活期密切相关的数值,进而延长患者生命。延长患者生命。预测肝癌患者存活期预测肝癌患者存活期11数据挖掘技术数据挖掘技术12数据挖掘技术数据挖掘技术13数据挖掘技术数据挖掘技术14数据挖掘技术数据挖掘技术一一 前言前言数据仓库是紧跟数据仓库是紧跟internetinternet而上,成为了信息而上,成为了信息社会中获得企业竞争优势的关键。社会中获得企业竞争优势的关键。据相关咨询公司调查,全球据相关咨询公司调查,全球20002000家大公司已家大公司已有有90%90%将将internet internet 网络和数据仓库这两项技网络和数据仓库这两项技术列入了企业的未来计划。术列入了企业的未来计划。15数据挖掘技术数据挖掘技术一一 前言(前言(续)IBM IBM 公公司司所所推推崇崇的的BI BI(商商业业智智能能),其其核核心心就就是是数数据仓库据仓库。微微软软从从SQL SQL SVRVER7.0SVRVER7.0以以后后,将将数数据据仓仓库库功功能能集集成成到数据库中,并建立的到数据库中,并建立的数据仓库数据仓库联盟。联盟。ORACLE ORACLE 公公司司已已经经有有了了自自己己ORACLE ORACLE EXPRESS EXPRESS 系系列列数据仓库数据仓库产品用来提供决策支持。产品用来提供决策支持。我我国国招招商商银银行行等等、中中国国电电信信、中中国国移移动动等等都已经建立起了自己的数据仓库系统。都已经建立起了自己的数据仓库系统。16数据挖掘技术数据挖掘技术一一数据仓库概念的提出数据仓库概念的提出顾顾名名思思义义,数数据据仓仓库库就就是是数数据据的的仓仓库库,它它在在存存放放大大量量数数据据的的同同时时,又又像像仓仓库库一一样样将将大大量量的的数数据据有有效效的的管管理理起起来来。数数据据仓仓库库主主要要侧侧重重于于对对海海量量数数据据的的组组织织和和管管理理,提提供供有有效效的数据访问的手段。的数据访问的手段。17数据挖掘技术数据挖掘技术一一一一 数据仓库概念的提出(续)数据仓库概念的提出(续)数据仓库概念的提出(续)数据仓库概念的提出(续)目前在信息管理方面存在的普遍问题包括:目前在信息管理方面存在的普遍问题包括:(1)数据太多,数据太多,“信息不足信息不足”的状况的状况随着数据库技术的发展,各企业积累并存放了随着数据库技术的发展,各企业积累并存放了大量的业务数据,但真正能为企业提供辅助决策的大量的业务数据,但真正能为企业提供辅助决策的信息也太少。信息也太少。(2)异构环境的数据源异构环境的数据源由于市场竞争激烈,新产品开发周期缩短,如由于市场竞争激烈,新产品开发周期缩短,如何综合利用分散的、异构环境的数据源,及时得到何综合利用分散的、异构环境的数据源,及时得到准确的信息是使企业取得成功的关键。准确的信息是使企业取得成功的关键。18数据挖掘技术数据挖掘技术一一一一 数据仓库概念的提出(续)数据仓库概念的提出(续)数据仓库概念的提出(续)数据仓库概念的提出(续)(3)事务型处理环境不适宜事务型处理环境不适宜DSS的应用的应用事务处理和分析处理的性能特性不同事务处理和分析处理的性能特性不同事务处理:存取操作频率高而每次操作处理的时间短。事务处理:存取操作频率高而每次操作处理的时间短。分析处理;某个分析处理;某个DSSDSS应用程序可能需要连续使用几个小应用程序可能需要连续使用几个小时,从而消耗掉大量的系统资源,将具有如此不同处理性能时,从而消耗掉大量的系统资源,将具有如此不同处理性能的两种应用放在一个环境中运行,这种行为是不适当的。的两种应用放在一个环境中运行,这种行为是不适当的。数据集成的问题数据集成的问题在在DSSDSS中数据收集得越完整,得到的结果越可靠。中数据收集得越完整,得到的结果越可靠。历史数据的问题历史数据的问题 事务处理一般只需要当前的数据事务处理一般只需要当前的数据 而对于而对于DSSDSS而言,历史数据是非常重要的而言,历史数据是非常重要的19数据挖掘技术数据挖掘技术二二二二 数据仓库的概念数据仓库的概念数据仓库的概念数据仓库的概念1什么是数据仓库什么是数据仓库随着大型数据库技术的发展及实际应用随着大型数据库技术的发展及实际应用的需要,数据仓库技术(的需要,数据仓库技术(Data Data WarehouseWarehouse,DWDW)被提出来解决管理决策应用的问题。)被提出来解决管理决策应用的问题。19961996年,年,构建数据仓库构建数据仓库一书中,对数据一书中,对数据仓库做的定义为:仓库做的定义为:面向主题的、集成的、非易失的、是随时面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策。间变化的数据集合,用来支持管理决策。20数据挖掘技术数据挖掘技术22数据仓库的特点数据仓库的特点数据仓库的特点数据仓库的特点(1)数据仓库是面向主题的数据仓库是面向主题的数据仓库系统是相对数据库系统而言的,数据数据仓库系统是相对数据库系统而言的,数据库系统是事件驱动、面向应用的;数据仓库系统则库系统是事件驱动、面向应用的;数据仓库系统则是面向主题的。对于银行来说,客户是个永恒的主是面向主题的。对于银行来说,客户是个永恒的主题,要研究客户的消费行为和心理,就要对客户进题,要研究客户的消费行为和心理,就要对客户进行各种分类,以此解决哪些客户的信用好,哪些客行各种分类,以此解决哪些客户的信用好,哪些客户的风险较大,等等诸如此类的问题就是一个主题。户的风险较大,等等诸如此类的问题就是一个主题。(2)数据仓库是集成的数据仓库是集成的不同的应用程序设计者设计的程序,可能有许不同的应用程序设计者设计的程序,可能有许多方面的不同,如数据编码、命名、习惯等。因此,多方面的不同,如数据编码、命名、习惯等。因此,原始数据进入数据仓库之前,必须经过加工与集成。原始数据进入数据仓库之前,必须经过加工与集成。首先要统一原始数据中所有不一致的地方,如字段首先要统一原始数据中所有不一致的地方,如字段的同名异义、异名同义、单位不统一、字长不统一的同名异义、异名同义、单位不统一、字长不统一等,还要将原始数据结构从面向应用转换为面向主等,还要将原始数据结构从面向应用转换为面向主题。题。21数据挖掘技术数据挖掘技术22数据仓库的特点(续)数据仓库的特点(续)数据仓库的特点(续)数据仓库的特点(续)(3)数据仓库是非易失的数据仓库是非易失的由于数据仓库保存的数据是反映历史的,因此由于数据仓库保存的数据是反映历史的,因此对其操作只有两种,分别为数据载入、数据访问。对其操作只有两种,分别为数据载入、数据访问。数据仓库只有经过长时间之后,才会有老化数数据仓库只有经过长时间之后,才会有老化数据的清除等问题的出现。据的清除等问题的出现。(4)数据仓库是随时间变化的数据仓库是随时间变化的 数据仓库随时间不断地增加新的数据,不断将数据仓库随时间不断地增加新的数据,不断将当前最新的操作型数据统一集成到数据仓库中。并当前最新的操作型数据统一集成到数据仓库中。并且数据仓库内的数据一旦被载入,就不能修改。且数据仓库内的数据一旦被载入,就不能修改。一一般的操作性环境中的数据只保持般的操作性环境中的数据只保持60-9060-90天,虽然数据天,虽然数据仓库内的数据在很长的时间(仓库内的数据在很长的时间(5-105-10年)不发生变化。年)不发生变化。但是,数据仓库中必须包含反映时间的属性。但是,数据仓库中必须包含反映时间的属性。22数据挖掘技术数据挖掘技术3数据仓库系统和传统数据库系统的区别数据仓库系统和传统数据库系统的区别数据仓库和数据库是不同的概念数据仓库和数据库是不同的概念 数据仓库是一个综合的解决方案,而数数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。数据仓库需要一据库只是一个现成的产品。数据仓库需要一个功能十分强大的数据库引擎来驱动,它更个功能十分强大的数据库引擎来驱动,它更偏向于工程。数据仓库系统和传统数据库系偏向于工程。数据仓库系统和传统数据库系统相比,不同点表现在以下几方面统相比,不同点表现在以下几方面。23数据挖掘技术数据挖掘技术33数据仓库系统和传统数据库系统的区别(续)数据仓库系统和传统数据库系统的区别(续)数据仓库系统和传统数据库系统的区别(续)数据仓库系统和传统数据库系统的区别(续)对比内容数据库数据仓库数据内容数据内容当前值当前值历史的、存档的、归纳的、历史的、存档的、归纳的、计算的数据计算的数据数据目标数据目标面向业务操作程序、重复面向业务操作程序、重复处理处理面向主体域、管理决策分面向主体域、管理决策分析应用析应用数据特性数据特性动态变化、按字段更新动态变化、按字段更新静态、不能直接更新、只静态、不能直接更新、只是定时添加是定时添加数据结构数据结构高度结构化、复杂、市和高度结构化、复杂、市和操作计算操作计算简单、适合分析简单、适合分析使用频率使用频率高高中到低中到低数据访问量数据访问量每个事务只访问少量记录每个事务只访问少量记录有的事务可能要访问大量有的事务可能要访问大量记录记录对相应时间的要求对相应时间的要求以秒为单位计量以秒为单位计量以秒、分钟、甚至小时为以秒、分钟、甚至小时为计量单位计量单位24数据挖掘技术数据挖掘技术25数据挖掘技术数据挖掘技术1 1 1 1 联机分析处理技术联机分析处理技术联机分析处理技术联机分析处理技术产产生的背景生的背景生的背景生的背景六十年代,关系数据库之父六十年代,关系数据库之父E.F.Codd提出了提出了关系模型,促进了联机事务处理关系模型,促进了联机事务处理(OLTP)的发展。的发展。93年,年,Codd提出了联机分析处理(提出了联机分析处理(OLAP)的概念。的概念。他认为他认为OLTP已不能满足终端用户对数据库查已不能满足终端用户对数据库查询分析的需要,询分析的需要,SQL对大型数据库进行的简单查对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。果,而查询的结果并不能满足决策者提出的需求。因此,因此,E.F.Codd提出了联机分析处理的概念即提出了联机分析处理的概念即OLAP。26数据挖掘技术数据挖掘技术2 2 相关的概念相关的概念1相关定义相关定义定义定义1:OLAP是针对特定问题的联机数据访问和是针对特定问题的联机数据访问和分析。通过对信息分析。通过对信息(维数据维数据)的多种可能的观察形的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。理决策人员对数据进行深入地观察。定义定义2:OLAP是使分析人员、管理人员或执行人是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业能够真正为用户所理解的、并真实反映企业“维维”特性的信息进行快速、一致、交互地存取,从特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。而获得对数据的更深入了解的一类软件技术。27数据挖掘技术数据挖掘技术3 OLAP3 OLAP和和OLTPOLTP的区的区别OLAP的目标是满足决策支持或多维环境特定的的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是查询和报表需求,它的技术核心是“维维”这个概念,这个概念,因此因此OLAP也可以说是多维数据分析工具的集合。也可以说是多维数据分析工具的集合。OLTPOLAP功能日常操作决策支持DB设计面向应用的面向主题的数据最新数据细节数据是二维的分立的历史数据聚集数据是多维的集成的存取读/写,数十条记录一般只读,上百万条工作单位简单的事务复杂的查询DB100MB-GB100GB-TB28数据挖掘技术数据挖掘技术5 OLAP5 OLAP的多的多维数据分析数据分析多维分析方式迎合了人们的思维模式多维分析方式迎合了人们的思维模式多多维维数数据据分分析析是是指指对对以以多多维维形形式式组组织织起起来来的的数数据据采采取取切切片片、切切块块、旋旋转转和和钻钻取取等等各各种分析动作。种分析动作。以以求求剖剖析析数数据据,使使最最终终用用户户能能从从多多个个角角度度、多多侧侧面面地地观观察察数数据据仓仓库库中中的的数数据据,从从而而深入地了解包含在数据中的信息、内涵。深入地了解包含在数据中的信息、内涵。29数据挖掘技术数据挖掘技术5 OLAP5 OLAP的多的多维数据分析(数据分析(续)(1)切片切片在多维数组的某一维上选定一维成员的动作成为切片。在多维数组的某一维上选定一维成员的动作成为切片。在多维数组的某一维上选定一维成员的动作成为切片。在多维数组的某一维上选定一维成员的动作成为切片。(2)切块:切块:在多维数组的某一维上选定某一区间的维成员的动作。在多维数组的某一维上选定某一区间的维成员的动作。在多维数组的某一维上选定某一区间的维成员的动作。在多维数组的某一维上选定某一区间的维成员的动作。30数据挖掘技术数据挖掘技术5 OLAP5 OLAP的多的多维数据分析(数据分析(续)(3)旋转:旋转既是改变一个报告或者页面的维方向。旋转:旋转既是改变一个报告或者页面的维方向。31数据挖掘技术数据挖掘技术5 OLAP5 OLAP的多的多维数据分析(数据分析(续)(4)钻取钻取钻取处理是使用户在数据仓库的多层数据中,能够通过导钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。航信息而获得更多的细节性数据,钻取一般是指向下钻取。32数据挖掘技术数据挖掘技术6 6 6 6 具体具体具体具体实现实现-1-1-1-1数据入口关系型数据库数据转换程序数据仓库事实表,维表,度量,计算成员的定义多维数据集图型表格33数据挖掘技术数据挖掘技术6 6 具体具体实现-2-21ORACLE产品中的:产品中的:datawarehousebuilder用以完成数据的抽取、转换、装用以完成数据的抽取、转换、装载工具载工具(etl)expressolap分析工具分析工具2其它产品也有其它产品也有3通过自己的开发和设计来完成。通过自己的开发和设计来完成。34数据挖掘技术数据挖掘技术数据挖掘当前的热点数据挖掘当前的热点(1)网站的数据挖掘网站的数据挖掘(2)生物信息或基因的数据挖掘生物信息或基因的数据挖掘(3)文本的数据挖掘文本的数据挖掘35数据挖掘技术数据挖掘技术3数据挖掘的发展数据挖掘的发展进化阶段进化阶段商业问题商业问题支持技术支持技术产品特点产品特点数据搜集数据搜集(60年代年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘提供历史性的、静态的数据信息数据访问数据访问(80年代年代-90年代年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;数据仓库;决策支持决策支持(90年代末期年代末期)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库在各种层次上提供回溯的、动态的数据信息数据挖掘数据挖掘(正在流行)(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据仓库提供预测性的信息36数据挖掘技术数据挖掘技术4数据挖掘的概念数据挖掘的概念数据挖掘是从大量的、不完全的、有噪数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模新颖的、潜在有用的,以及最终可理解的模式的过程。式的过程。它是一门涉及面很广的交叉学科,包括它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。模式识别、粗糙集、模糊数学等相关技术。37数据挖掘技术数据挖掘技术5数据挖掘的功能数据挖掘的功能数据挖掘通过预测未来趋势及行为,做出前数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。瞻的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。意义的知识,主要有以下五类功能。(1)自动预测趋势和行为自动预测趋势和行为(2)关联分析关联分析(3)聚类聚类(4)概念描述概念描述(5)偏差检测偏差检测数据挖掘可粗略地理解为三部曲:数据准备、数据挖掘可粗略地理解为三部曲:数据准备、数据挖掘,结果的解释评估数据挖掘,结果的解释评估。38数据挖掘技术数据挖掘技术6数据挖掘的方法数据挖掘的方法根据数据挖掘的方法分,可粗分为:根据数据挖掘的方法分,可粗分为:统计方法统计方法机器学习方法机器学习方法神经网络方法神经网络方法数据库方法数据库方法又可以进一步的细分为如下的结构!又可以进一步的细分为如下的结构!39数据挖掘技术数据挖掘技术(1)统计方法统计方法回归分析(多元回归、自回归、罗吉斯回归等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)聚类分析(系统聚类、动态聚类等)探索性分析(主元分析法、相关分析法等)以及模糊集、粗糙集、支持向量机等。(2)机器学习机器学习归纳学习方法(决策树(ID3算法)、规则归纳等)、基于范例的推理CBR遗传算法贝叶斯信念网络等。(3)神经网络方法神经网络方法前向神经网络(BP算法等)自组织神经网络(自组织特征映射、竞争学习等)等。(4)数据库方法数据库方法基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。40数据挖掘技术数据挖掘技术(1)统计方法统计方法回归分析(多元回归、自回归、罗吉斯回归等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)聚类分析(系统聚类、动态聚类等)探索性分析(主元分析法、相关分析法等)以及模糊集、粗糙集、支持向量机等。(2)机器学习机器学习归纳学习方法(决策树(ID3算法)、规则归纳等)、基于范例的推理CBR遗传算法贝叶斯信念网络等。(3)神经网络方法神经网络方法前向神经网络(BP算法等)自组织神经网络(自组织特征映射、竞争学习等)等。(4)数据库方法数据库方法基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。41数据挖掘技术数据挖掘技术其中,其中,(X(X)表示在表示在给定定X=xX=x条件下,条件下,Y=1Y=1发生的概率。生的概率。通通过对logisticlogistic回回归方程方程进行行对数数变换来表示,来表示,Logistic回回归模型可写成下列格式:模型可写成下列格式:42数据挖掘技术数据挖掘技术7数据挖掘的流程数据挖掘的流程数据挖掘是指一个完整的过程数据挖掘是指一个完整的过程,该过程从大型数据该过程从大型数据仓库中挖掘先前未知的仓库中挖掘先前未知的,有效的有效的,可实用的信息可实用的信息,并并使用这些信息做出决策或丰富知识使用这些信息做出决策或丰富知识.数据挖掘环境可示意如下图数据挖掘环境可示意如下图:数据仓库数据挖掘工具可视化工具43数据挖掘技术数据挖掘技术名词解释名词解释1数据仓库数据仓库2聚类聚类3数据挖掘数据挖掘4人工神经网络人工神经网络5OLAP6概念描述概念描述44数据挖掘技术数据挖掘技术简答题简答题1数据仓库和传统数据库的区别和联系是什么?数据仓库和传统数据库的区别和联系是什么?2数据挖掘的主要功能是什么?数据挖掘的主要功能是什么?3简述简述OLAP在多维数据模型中的几个基本操作?在多维数据模型中的几个基本操作?4数据挖掘的步骤包括那些?数据挖掘的步骤包括那些?5数据挖掘与传统分析方法的区别是什么?数据挖掘与传统分析方法的区别是什么?6简述事务处理与分析处理的操作特点的不同?简述事务处理与分析处理的操作特点的不同?7简述数据仓库系统的体系结构?简述数据仓库系统的体系结构?8OLAP的基本特征和可构造的多维数据模型有哪些?的基本特征和可构造的多维数据模型有哪些?9如何理解数据挖掘功能中的关联分析?如何理解数据挖掘功能中的关联分析?45数据挖掘技术数据挖掘技术论述题论述题1试分析数据挖掘技术在金融领域的应用情况?试分析数据挖掘技术在金融领域的应用情况?2试分析数据挖掘技术在医疗卫生领域的应用情况?试分析数据挖掘技术在医疗卫生领域的应用情况?3谈谈你对数据挖掘技术的理解?谈谈你对数据挖掘技术的理解?46
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!