数据仓库与数据挖掘概述

上传人:沈*** 文档编号:247338781 上传时间:2024-10-18 格式:PPT 页数:58 大小:1.32MB
返回 下载 相关 举报
数据仓库与数据挖掘概述_第1页
第1页 / 共58页
数据仓库与数据挖掘概述_第2页
第2页 / 共58页
数据仓库与数据挖掘概述_第3页
第3页 / 共58页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,高性能计算,其他,数据库,统计学,人工智能,可视化,数据挖掘,数据仓库与数据挖掘是一个多学科领域,从多个学科汲取营养。这些学科包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高信能计算和数据可视化。,本课程以数据仓库与数据挖掘的基本概念和基本方法为主要内容,以方法的应用为主线,系统叙述数据仓库和数据挖掘的有关概念和基础知识,使学生尽快掌握数据仓库和数据挖掘的基本概念,基本方法和应用背景。,课程介绍,教学目的,本课程的目的主要是要求学生能对数据仓库和数据挖掘的基本方法和基本概念有整体的了解,掌握建立数据仓库的原理和方法,从理论上掌握数据仓库、,OLAP,联机分析的基本概念、原理、主要算法及应用,对数据挖掘的关联规则,分类方法,聚类方法有深入的了解,并能够在,Clementine,软件使用过程中熟练掌握这些方法。,Clementine,介绍,1999,年,SPSS,公司收购了,ISL,公司,对,Clementine,产品进行重新整合和开发,现在,Clementine,已经成为,SPSS,公司的又一亮点。作为一个数据挖掘平台,,Clementine,结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得,Clementine,在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,,Clementine,其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。,数据挖掘工具,Clementine,连蝉六年桂冠,CR,oss,I,ndustry,S,tandard,P,rocess-for,D,ata,M,ining,6,个步骤,业务理解,数据理解,数据准备,建模,模型评估,模型部署,Ease of Use:The user interface,数据抽取、转换、加载,第,1,章,数据仓库与数据挖掘概述,数据仓库(,DW,),是利用数据资源提供决策支持,。,在数据仓库中利用多维数据分析来,发现问题,,并,找出产生的原因,。能从大量历史数据中,预测未来。,数据挖掘(,DM,),是从数据中,挖掘出信息和知识,。,数据仓库、数据挖掘和联机分析处理(,OLAP,)结合起来,完成支持决策的系统,称为,决策支持系统(,DSS,)。,数据仓库、数据挖掘、联机分析处理等结合起来的技术称为,商业智能(,BI,),。商业智能是一种新的智能技术。,1.1 数据仓库的兴起,1.2 数据挖掘的兴起,1.3,数据仓库和数据挖掘的结合,1.1,数据仓库的兴起,1.1.1,从数据库到数据仓库,1.1.2,从,OLTP,到,OLAP,1.1.3,数据仓库的定义与特点,1.1.1,从数据库到数据仓库,(,1,),“,数据太多,信息不足,”,的现状,(,2,)异构环境的数据的转换和共享,(,3,)利用数据进行数据处理,转换为,利用数据支持决策,1.,数据库用于事务处理,数据库作为数据资源用于管理业务中的事务处理。它已经成为了成熟的信息基础设施。,数据库中存放的数据基本上是保存当前数据,随着业务的变化随时在更新数据库中的数据。,不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。,数据仓库(,Data Warehouse,,,DW,),面向主题的、集成的、稳定的、随时间不断变化的数据库系统,ETL,数据抽取(,Extraction,),数据转换(,Transformation,),数据加载(,Loading,),2.,数据仓库用于决策分析,数据库用于事务处理,数据仓库用于决策分析,数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据,数据仓库的数据是大量数据库的集成,对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大,(,1,)在,建立数据仓库,一书中,对数据仓库的定义为:,数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。,1.,数据仓库定义,(,2,),SAS,软件研究所观点:,数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。,2.,数据仓库特点,(,1,)数据仓库是面向主题的,主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。,例如,银行的数据仓库的主题:客户,DW,的客户数据来源:,从,银行储蓄,DB,、信用卡,DB,、贷款,DB,等三个,DB,中抽取同一客户的数据整理而成。,在,D,W,中能全面地分析客户数据,再决定是否继续给予贷款。,(,2,)数据仓库是集成的,数据进入数据仓库之前,必须经过加工与集成。,对不同的数据来源进行,统一,数据结构和编码。,统一,原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。,将原始数据结构做一个从,面向应用,到,面向主题,的大转变。,(,3,)数据仓库是稳定的,数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。,(,4,)数据仓库是随时间变化的,数据仓库内的数据时限在,5,10,年,故数据的键码包含时间项,标明数据的历史时期,这适合,DSS,进行时间趋势分析。,而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,(,5,)数据仓库的数据量很大,大型,DW,的数据是一个,TB,(,1000GB,)级数据量(一般为,10GB,级,DW,,相当于一般数据库,100MB,的,100,倍),(,6,)数据仓库软、硬件要求较高,需要一个巨大的硬件平台,需要一个并行的数据库系统,3.,数据库与数据仓库对比,从,OLTP,到,OLAP,1.,联机事物处理(,OLTP,),2.,联机分析处理(,OLAP,),3.OLTP,与,OLAP,的对比,1.,联机事物处理(,OLTP,),联机事物处理(,On Line Transaction Processing,,,OLTP,)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。,OLTP,是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。也称为,实时系统,(Real time System),。,OLTP,主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。如银行为分布在各地的,自动取款机,(ATM),完成即时取款交易;机票预定系统能每秒处理的定票事务峰值可以达到,20000,个。,OLTP,是事务处理从单机到网络环境地发展新阶段。,OLTP,的特点在于事务处理量大,应用要求多个并行处理,事务处理内容比较简单且重复率高。,大量的数据操作主要涉及的是一些增加、删除、修改、查询等操作。每次操作的数据量不大且多为当前的数据。,OLTP,处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。,OLTP,面对的是事务处理操作人员和低层管理人员。,但是,为高层领导者提供决策分析时,,OLTP,则显得力不从心。,2.,联机分析处理(,OLAP,),认为,决策分析,需要对多个关系数据库共同进行大量的综合计算才能得到结果。,在,1993,年,提出了,多维数据库和多维分析的概念,即,联机分析处理(,On Line Analytical Processing,,,OLAP,)概念。,关系数据库是二维数据(平面),多维数据库是空间立体数据。,OLAP,(,On-Line Analytical Processing,),商务智能的直接数据来源?,OLTP?,数据仓库?,多维数据集,?,什么是多维数据集?,“,多维数据集是一种结构,包含了一个或多个度量。这些度量用于所有维度的成员的每个唯一组合。”,OLAP,专门用于支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持,,,OLAP,可以应分析人员的要求快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂地形式将查询结果提供给决策制定人,OLAP,软件,以它先进地分析功能和以,多维形式,提供数据的能力,正作为一种支持企业关键商业决策的解决方案而迅速崛起。,OLAP,的基本思想是决策者从多方面和多角度以,多维的形式,来观察企业的状态和了解企业的变化。,3.OLTP,与,OLAP,的对比,OLTP,OLAP,细节性数据,综合性数据,当前数据,历史数据,经常更新,不更新,但周期性刷新,一次性处理的数据量小,一次处理的数据量大,对响应时间要求高,响应时间合理,面向应用,事务驱动,面向分析,分析驱动,1.2,数据挖掘的兴起,1.2.1,从机器学习到数据挖掘,1.2.2,数据挖掘含义,1.2.3,数据挖掘与,OLAP,的比较,1.2.4,数据挖掘与统计学,1.2.1,从机器学习到数据挖掘,学习是人类具有的智能行为,主要在于获取知识。,机器学习是研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。,机器学习是人工智能领域中的重要研究方向。,20,世纪,60,年代开始了机器学习的研究。,(1)1980,年在美国召开了第一届国际机器学习研讨会;,明确了机器学习是人工智能的重要研究方向,(2)1989,年,8,月于美国底特律市召开的第一届知识发现(,KDD,)国 际学术会议;,首次提出知识发现概念,(3)1995,年在加拿大召开了第一届知识发现和数据挖掘(,DM,)国际学术会议;,首次提出数据挖掘概念,(4),我国于,1987,年召开了第一届全国机器学习研讨会。,数据挖掘含义,知识发现(,KDD,),:从数据中发现有用知识的整个过程。,数据挖掘(,DM,),:,KDD,过程中的一个特定步骤,它用专门算,法从数据中抽取知识。,如在人类数据库中挖掘知识为:,(头发,=,黑色),(眼睛,=,黑色)亚洲人,该知识覆盖了所有亚州人的记录。,数据挖掘做什么?,预测未来发生的事情,(,分类与回归,),将人或事物按照属性聚类,关联可能一起发生的事件(购物篮),确定事件发生的序列(股票涨落),异常检测,数据挖掘,啤酒与尿布的故事:,在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售,但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。,原来,美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布。而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会还是很多的。,数据挖掘与,OLAP,的比较,1,.OLAP,的多维分析,OLAP,的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。,2.,数据挖掘,数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。,1.2.4,数据挖掘与统计学,统计学与国家政治有紧密的关系。,支配着社会现象的法则和方法是概率论。,通过对全部对象(总体)进行调查,为制定计划和决策提供依据。,统计学与数据挖掘的比较,统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。,数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。,统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。,1.3,数据仓库和数据挖掘的结合,1.3.1,数据仓库和数据挖掘的区别与联系,1.3.2,基于数据仓库的决策支持系统,数据仓库与商业智能,1.3.1,数据仓库和数据挖掘的区别与联系,1.,数据仓库与
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!