数据仓库和数据挖掘同济大学刘仲英教授

上传人:痛*** 文档编号:247374579 上传时间:2024-10-18 格式:PPT 页数:107 大小:2.11MB
返回 下载 相关 举报
数据仓库和数据挖掘同济大学刘仲英教授_第1页
第1页 / 共107页
数据仓库和数据挖掘同济大学刘仲英教授_第2页
第2页 / 共107页
数据仓库和数据挖掘同济大学刘仲英教授_第3页
第3页 / 共107页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据仓库、数据挖掘与商业智能,BI,同济大学 经济与管理学院,黄立平 教授,数据仓库,DW,和数据挖掘,DM,讲座内容简介,数据仓库和数据挖掘技术是近十年来,世界上广泛应用的信息技术之一。其主要作用是帮助企业有效地使用企业积累的大量数据;辅助管理层和决策层提高管理和决策的水平。,讲座的主要内容如下:,数据仓库概要;,数据仓库的工作原理;,联系分析处理,OLAP,;,数据挖掘概念、原由、发展;,数据挖掘的技术分类;,数据挖掘在电信行业的应用;,数据挖掘与知识管理;,数据挖掘国内应用存在的问题;,数据挖掘的未来发展。,前言,数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术。,传统的信息系统,,1990,年代兴起的互连网技术及,ERP,系统在越来越廉价的存储设备配合下,,产生了大量的数据,。,与之相辅相成的,数据分析和知识提取技术在相当长一段时间里没有大的进展,,使得存储的大量原始数据没有被充分利用,转化成指导生产的,“,知识,”,,形成,“,数据的海洋,知识的荒漠,”,这样一种奇怪的现象。,数据库技术的发展,收集和数据库创建,(20,世纪,60,年代以前,),-,原始文件处理,数据库管理系统,(20,世纪,70,年代,),-,层次、网状、关系数据库系统,-,数据建模工具:实体,-,联系,(E,R),模型等,-,索引和数据组织技术,-,查询语言,:SQL,、,用户界面,:,表单、报告等,-,查询处理和查询优化、事务并发控制等,-,联机事务处理,(OLTP),高级数据库系统,(19,80,年代中期,现在,),-,高级数据模型,:,扩充关系、面向对象、对象,-,关系,-,面向应用:空间的、时间的、多媒体的、主动的、科学的、知识库,数据仓库和数据挖掘,(19,80,年代后期,现在,),-,数据仓库和,OLAP,技术,-,数据挖掘和知识发现,基于,Web,的数据库系统,(1990,年代,现在,),-,基于,XML,的数据库系统,-Web,挖掘,数据库应用中存在的问题,“,数据丰富,,,信息贫乏,”。,存储了大量数据的数据库变成了,“,数据坟墓,”,难以再访问的数据档案;,在大型数据库中快速增长着海量数据,,理解数据的含义已经远远超出了人的能力,;,领导者的重要决策,往往,无法、及时获得信息,,因为,缺乏从海量数据中提取有价值知识的工具,;若在当前运行的操作数据库中获取信息,则影响数据库的使用和性能。,海量数据要求强有力的数据分析工具,以前的专家系统,依赖用户或某领域的专家,人工地将知识输入知识库,;这一过程常常,有偏差和错误,,并且,耗时,、,费用高;,使用数据挖掘工具进行数据分析;可以,发现重要的数据模式,,对商务决策、知识库、科学和医学研究作出了巨大贡献;,数据和信息之间的差距,要求系统地开发数据挖掘工具,,将沉寂的数据转换成宝贵的知识,。,案例,“啤酒与尿布”是一个发生在,WalMart,的关于数据挖掘的经典故事:,它告诉人们:,可以,利用手中大量似乎没有规律的数据,找出未知的规律,;,沃尔玛有,先进的卫星通讯网络,1983,年开始,用巨资建立的卫星通讯网络系统使其供货系统更趋完美;,沃尔玛有,完整的数据记录、存储和分析系统,;,如何获得客户的销售记录,?,数据挖掘由什么人来实现,?,是否每时每刻都可以进行数据挖掘,?,是否每次都能挖掘出理想的结果,?,我国在处理经济犯罪案件时,发现由于,管理的落后,以及,数据分析应用技术的落后,,不能及时发现问题,什么是数据仓库,DW(data warehouse)?,数据仓库,可以看作是一种特殊的,关系数据库,。,DW,是一个,面向主题,的、,集成,的、,不更新,的、,随时间变化,的数据集合,用于,支持管理部门的决策过程,”,。,DWS,允许,将各种应用系统集成,在一起为统一的历史数据分析提供坚实的平台,对信息处理、决策提供支持。,数据仓库的主要特征,面向主题的,(subject oriented),:,(1),所谓,主题,(宏观领域),如顾客、供应商、产品和销售组织;是在高层次上将企业,IS,中的数据综合、归类并进行分析利用的抽象。,面向主题,,是指数据仓库内的信息是按主题进行组织的,为按决策的过程提供信息。,(2),DW,关注决策者的,数据建模与分析,,而传统数据库是面向应用的,集中于组织机构的日常操作和事务处理。,(3),DW,排除对于决策无用的数据,,提供特定主题的简明视图,。,(4),传统数据库使用,OLTP,联机事务处理方式,,进行数据组织时考虑记录每一笔业务的情况;,数据仓库使用,OLAP,联机分析处理方式,,进行数据分析处理,以主题为单位组织数据,例如:供应商、商品、顾客等。,(5),面向主题,的数据组织方式要求,将数据组织成主题域,,各主题域之间有明确的界限(独立性),在某一主题内的数据应该包括分析处理所要求的一切数据(完备性)。,集成的,(integrated):,(1),构造数据仓库,是将,多个不同的数据源,,如关系数据库、一般文件和联机事务处理记录,,集成,在一起。,(2),将,多个系统的数据进行,计算和整理,保证,DW,的数据是,关于整个系统的,、,一致,的、,全局,的。,使用,数据清理和数据集成技术,,确保命名约定、编码结构、属性等的数据结构,一致性,。,保证各数据源中,数据,的,一致性,。,不更新的,(nonvolatile):,(,1,),访问数据仓库主要是两种方式:,数据的插入和查询,。,修改和删除操作很少,。,(,2,),DW,的,数据,与操作环境下的应用数据,分开存放,。因此,数据仓库不需要在操作环境下事务处理、恢复和并发控制等机制。,随时间变化的,(,time-variant):,(,1,),数据仓库,记录了从,过去某一时间到目前的各个阶段的信息,,通过这些信息,可以表明发展历程并对未来的趋势作出定量分析和预测。,(,2,),DW,的数据结构,隐式或显式地包含时间元素;其包含的大量综合数据也与时间相关,例如:月产量。,(,3,),DW,随时间变化不断增加新的数据内容,;,去掉超过时限,(例如:,5,10,年),的数据,。,DW,概念总结,:,数据仓库是一种语义上一致的数据存储体系结构;,DW,是决策支持数据模型的物理实现,并存放企业战略决策所需信息;,DW,通过将异种数据源中的数据集成在一起构造而成;,完成各种数据查询、信息分析报告和决策支持。,操作型数据库系统与数据仓库的区别,操作型数据库系统,的主要任务是,执行联机事务和查询处理,,称为联机事务处理,(,OLTP,),系统。它涵盖了一个组织的大部分日常操作,如采购、制造、库存、销售、财务、银行等事务。,DW,在数据分析和决策方面为决策者提供服务。可以用不同的格式去组织和提供数据,以便满足不同用户的形形色色需求。这种系统称为,联机分析处理,(,OLAP,),系统。,数据仓库的数据模型,数据仓库和,OLAP,通常是基于,多维数据模型,。,该模型将数据看作,数据立方体,(,data cube,),形式。,数据立方体由维和事实来定义;,以多维的形式对数据建模和观察,。,维,是关于一个组织想要记录的透视或实体。,事实,是面向某一主题的数据度量,它表示了多个,分析维之间的分析结果。,多维数据模型,通常有,星型,和,雪花型,两种形式。,数据仓库的体系结构,数据仓库的概念结构,从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库、数据集市,/,知识挖掘库以及各种管理工具和应用工具。,数据源,业务,系统,外部数据源,数据准备区,数据仓库,应用工具,管理工具,数据集市,/,知识挖掘库,应用工具,数据集市,/,知识挖掘库,数据仓库的概念结构,1.,维,维是人们观察数据的特定角度。例如:时间维是商品销售随时间推移发生的变化;地理维是商品在不同地区的销售分布情况。,2.,维的层次,某个维以下存在的对细节的多个描述方面,例如:时间维有年、季度、月、日等不同层次。,3.,维成员,维的一个取值是该维的一个成员。,4.,多维数组,一个多维数组可以表示为(维,1,,维,2,,维,3,,,维,n,变量,);例如:(地区、时间、销售渠道、销售额),5.,数据单元,多维数组的取值是,数据单元。例如:(上海,,2002,年,2,月,批发,,2188,),OLTP,和,OLAP,的主要区别,服务对象,:,OLTP,是,面向顾客,的,用于办事员、客户和信息技术专业人员的事务和查询处理。,OLAP,是,面向市场,的,用于经理、主管和信息分析人员的数据分析。,数据内容,:,OLTP,系统管理,当前数据,。这种数据太琐碎,难以用于决策。,OLAP,系统管理大量,历史数据,,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。数据易于用作中、高层的决策过程。,数据库设计,:,OLTP,系统采用,E-R,模型和面向应用的数据库设计,OLAP,系统采用星型或雪花模型和面向主题的数据库设计,视图,:,OLTP,系统主要关注一个企业或部门内部的,当前,数据,而不涉及历史数据或不同组织的数据。,OLAP,系统由于组织的变化常常跨越数据库模式的多个版本。,OLAP,系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,,OLAP,数据也存放在多个存储介质上。,访问模式,:,对,OLTP,系统的访问主要由短的原子事务组成。这种系统需要并行控制和恢复机制。,对,OLAP,系统的访问大部分是,只读,操作,(,由于大部分数据仓库存放历史数据,而不是当前数据,),,尽管许多可能是复杂的查询。,OLTP,和,OLAP,的,其他区别,:,包括数据库大小、操作的频繁程度、性能度量等。,OLTP,系统和,OLAP,系统的比较表,特 性,OLTP,OLAP,特征,操作处理 信息处理,面向,事务 分析,用户,办事员、客户、数据库专业人员 经理、主管、分析员,功能,日常操作 长期信息需求,决策支持,DB,设计,基于,E-R,,,面向应用 星型,/,雪花,面向主题,数据,当前的,确保最新 历史的,跨时间维护,汇总,原始的,高度详细 汇总的,统一的,视图,详细,一般关系 汇总的,多维的,工作单位,短的,简单事务 复杂查询,存取,读,/,写 大多为读,关注,数据输入、存储 信息输出,操作,主关键字上索引,/,散列 大量扫描,访问记录数量,数十个 数百万,用户数,数千 数百,DB,规模,100MB,到,GB 100GB,到,TB,优先,高性能,高可用性 高灵活性,端点用户自治,度量,事务吞吐量 查询吞吐量,响应时间,数据仓库为什么是分离的,?,操作型数据库存放了大量数据,为什么不直接在这种数据库上进行联机分析处理,而是另外花费时间和资源去构造一个与之分离的数据仓库?,主要原因,是提高两个系统的性能。,操作数据库,是为已知的任务和负载设计的,如使用主关键字索引,检索特定的记录和优化查询;,数据仓库,的查询通常是复杂的,涉及大量数据在汇总级的计算,可能需要特殊的数据组织、存取方法和基于多维视图的实现方法。,操作型数据库:,支持多事务的并行处理,需要加锁和日志等并行控制和恢复机制,以确保数据的一致性和完整性。,数据仓库:,对数据记录进行只读访问,以进行汇总和聚集。,如果,OLTP,和,OLAP,都在,操作型数据库上,运行,会大大降低数据库系统的吞吐量。,总之,数据仓库与操作数据库分离是由于这两种系统中数据的结构、内容和用法都不相同。,两种系统的数据结构、内容和用法都不相同,操作型数据库,一般不维护历史数据,其数据很多,但对于决策是远远不够的。,数据仓库系统,用于决策支持需要历史数据,将不同来源的数据统一,(,如聚
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!