数据仓库数据挖掘与信息管理ppt课件

上传人:钟*** 文档编号:1417066 上传时间:2019-10-18 格式:PPT 页数:37 大小:526.50KB
返回 下载 相关 举报
数据仓库数据挖掘与信息管理ppt课件_第1页
第1页 / 共37页
数据仓库数据挖掘与信息管理ppt课件_第2页
第2页 / 共37页
数据仓库数据挖掘与信息管理ppt课件_第3页
第3页 / 共37页
点击查看更多>>
资源描述
数据挖掘技术,1,前言,学习目的和方向 数据仓库-新型的信息管理手段 数据挖掘-新型的信息分析技术 基于数据仓库的数据挖掘更加有效,2,教材 数据仓库和数据挖掘 苏新宁、杨建林等编著,清华大学出版社,2006 参考书 数据挖掘:概念与技术,加韩家炜 坎伯(Kamber,M.)著 范明等译 微软公司核心技术书库 SQL Server 2000数据挖掘技术指南,美希德曼(Seidman,C.)著 刘艺 等译 数据挖掘原理, 英汉德(Hand,D.)著 张银奎等译,前言,3,参考书 数据仓库原理与实践,林宇等编著 数据仓库中的决策支持,瑞 Gray 沃森 Watson Oracle9i数据仓库分析、构建实用指南,飞思科技产品研发中心编著 数据挖掘讨论组,前言,4,主要内容,第1章 数据仓库、数据挖掘与信息管理 第2章 数据挖掘的功能、过程与方法 第3章 数据库挖掘 第4章 文本挖掘 第5章 Web挖掘 第6章 数据挖掘应用 第7章 数据挖掘软件发展分析,5,第1章 数据仓库、数据挖掘与信息管理,6,数据仓库的起源,数据库与数据仓库是信息资源管理的两种手段 企业用户信息的需求有了新的变化,传统的数据库很难胜任这方面的要求 数据仓库可以很好地满足这方面的要求,7,1.1 企业信息用户关心的新问题,一般来说,用户关心下列问题: 可访问性 即用户能否得到他所需要的信息(例,教室占用率); 及时性 即用户得到信息需要等多长时间(例,地质模拟,算最佳注水温度、矿物浓度); 格式 即用户能否用电子表格、图形、地图或其他分析工具来操纵他所得到数据、能否得到报表形式的数据; 完整性 即用户得到的数据是否可信(从不完整的数据中得出的结论可能不准确)。,8,1.1 企业信息用户关心的新问题,传统数据库技术的局限性 传统的数据库技术以数据库为中心进行从事务处理到决策分析等各种类型的数据处理工作,不适宜决策支持应用,9,1.1 企业信息用户关心的新问题,事务处理环境不适宜决策支持应用的主要原因 事务处理和分析处理的性能特性不同 数据集成问题 历史数据问题 数据综合问题,10,1.2 解决问题的关键技术-数据仓库,构建数据仓库,把分析型数据从事务处理环境中提取出来,按照决策支持处理的需要进行重新组织,建立单独的分析处理环境,11,1.2 解决问题的关键技术-数据仓库,数据仓库 Inmon把数据仓库描述为一个“面向主题的、完整的、非易失的、不同时间的、用于支持决策管理的数据集合” 通常有两种数据源的数据聚居在数据仓库中 在大多数情况下,来自于事务处理系统周期性迁移的数据被移入数据仓库 另一种数据源常常是购买过来的可以与内部数据相连通的外部数据库,如收入清单、人口统计信息等,12,1.3数据仓库的商业应用,典型应用:客户关系管理 有了数据仓库,就可以了解客户是谁,他要什么,怎样提供更好的服务给他,并以此创造更多利润 零售业 电信行业 证券行业,13,1.4 数据仓库与信息管理,数据仓库在信息管理方面的作用 信息资源管理 信息分析 信息服务 基于数据仓库为用户提供信息服务,可以使用户能够从多种视角观察数据,从而能够更深入地理解数据,从中获得决策支持信息 数据仓库提供给用户的信息或知识可以是利用从数据仓库抽取出的数据组织成的报表或绘制成的直观图形,14,1.5 信息管理新问题催生数据挖掘,人们被“淹没”在数据“海洋”之中 如何不被堆积如山的信息所淹没? 如何能够迅速地从海量信息中获取有用信息? 在这种背景下,数据挖掘(Data Mining)技术应运而生,15,1.5 信息管理新问题催生数据挖掘,数据挖掘是指从大型数据集中提取人们感兴趣的知识,这些知识是隐含的、具有一定可信度的、对用户而言是新颖的且有潜在价值的知识,提取的知识表示为概念、规则、模式等多种形式,16,1.5 信息管理新问题催生数据挖掘,下面将通过一个案例研究来介绍各个数据分析阶段中所涉及的概念 三个阶段: 报表查询 联机分析 数据挖掘,17,1.5 信息管理新问题催生数据挖掘,案例之报表查询,18,1.5 信息管理新问题催生数据挖掘,案例之报表查询,19,1.5 信息管理新问题催生数据挖掘,案例之联机分析 1. 1月份,头盔在什么地区销售最好? 2. 1月份,哪个国家的头盔销售在该畅销地区处于领先地位? 3. 在领先的国家中,哪个城市的头盔收入最高?,20,1.5 信息管理新问题催生数据挖掘,案例之数据挖掘 问题; 对购买山地车的客户来说,什么是最可能会同时购买的商品? Intelligent Miner for data该问题做出如下答案:头盔,可能性为92:手套,可能性为62:新款铃铛,可能性为23;速度计,可能性为13。 关联算法发现了产品之间的联系。根据上面的答案,它会给销售人员一个目录,列出在销售某一具体产品时所建议的前3名关联产品。例如,如果销售山地车,销售人员可建议购买头盔、手套和新款铃铛。,21,1.5 信息管理新问题催生数据挖掘,案例之数据挖掘 3个月后,公司有了如下结果: 季度的营业额上升34,收入上涨32; 每辆山地车交易的平均销售收入增加了29; 山地车与头盔一块购买成了时尚(每个销售地点的头盔成交量都上升了); 手套的销售上升15; 山地车附件上升51;,22,1.6 数据仓库与数据挖掘的关系,构建在数据仓库平台上的数据挖掘效率会更高 一般来说,数据挖掘的对象可以是普通的数据库、文件系统,也可以是数据仓库,但,数据仓库完成了知识发现过程中大部分的数据预处理工作 数据挖掘库中的内容可以是数据仓库数据的一个逻辑上的子集 数据挖掘是一个相对独立的系统,它可以独立于数据仓库系统而存在,23,1.7数据仓库与数据库长期共存,首先,企业在建立用于决策的数据仓库系统时,不能一味否定传统的数据库系统,还应该在企业内部保留数据库系统,用于日常的事务处理 其次,数据库是数据仓库的基础 第三,在技术实现方面,数据库与数据仓库差别不大,数据仓库并不是纯粹的技术科学,它强调的是数据组织的一种理念 第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去引进与实施数据仓库技术,24,在何种数据上进行数据挖掘,关系数据库 数据仓库 事务数据库 高级数据库系统和信息库 空间数据库 时间数据库和时间序列数据库 流数据 多媒体数据库 面向对象数据库和对象-关系数据库 异种数据库和历史(legacy)数据库 文本数据库和万维网(WWW) 知识库,25,空间数据库,空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。 常见的空间数据库数据类型 地理信息系统(GIS) 遥感图像数据 医学图像数据,26,时间数据库和时序数据库,时间数据库和时序数据库都存放与时间有关的数据。 时间数据库通常存放包含时间相关属性的数据。 时序数据库存放随时间变化的值序列。 对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。,27,流数据,与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。 主要应用场合 网络监控 网页点击流 股票市场 流媒体等等 与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。,28,多媒体数据库,多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。 对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。,29,面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上实现了传统数据库的功能。 对象关系数据库基于对象关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。 面向对象数据库和对象关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。,面向对象数据库/对象-关系数据库,30,异构数据库和历史(legacy)数据库,历史数据库是一系列的异构数据库系统的集合,包括不同种类的数据库系统,像关系数据库、网络数据库、文件系统等等。 有效利用历史数据库的关键在于实现不同数据库之间的数据信息资源、硬件设备资源和人力资源的合并和共享。 对于异构数据库系统,实现数据共享应当达到两点:一是实现数据库转换;二是实现数据的透明访问。 WEB SERVICE技术的出现有利于历史数据库数据的重新利用。,31,文本数据库和万维网(WWW),文本数据库存储的是对对象的文字性描述。 文本数据库的分类 无结构类型(大部分的文本资料和网页) 半结构类型(XML数据) 结构类型(图书馆数据) 万维网(WWW)可以被看成最大的文本数据库 数据挖掘内容 内容检索 WEB访问模式检索,32,知识库,针对知识库中的事实规则应用综合归纳推理机制,挖掘出深层次的更富概括性的知识,33,34,数据仓库与传统数据库的区别,35,实践项目名称,1、数据仓库软件的使用方法; 2、客户数据仓库的建立; 3、编程实现关联分析算法; 4、编程实现决策树分类算法; 5、数据挖掘应用分析。,36,课程报告,1、实验目的 2、规格说明 3、算法步骤 4、结果分析 5、实验体会 6、结束语 7、参考文献 8、程序源码,源码要求有清晰明确的注释。,37,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!