资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据仓库与数据挖掘,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据仓库与数据挖掘,*,2024/11/11,数据仓库与数据挖掘,1,第,2,章 数据仓库的数据存储与处理,2024/11/11,数据仓库与数据挖掘,2,数据仓库的数据存储与处理是数据仓库系统实施的,三个关键环节之一,,因此本章主要探讨数据的存储结构设计和数据处理技术的研究。,遥想当年我基本上是暑假,2,个月的时间在公安局进行数据的,ETL,处理,悲催的是还仅仅针对一张表而已,说起来都是泪啊。,2024/11/11,数据仓库与数据挖掘,3,2.1,数据仓库的,三层数据结构,OLAP数据库,OLTP应用,OLAP应用,什么是,ODS?,ODS,全称为,Operational Data Store,,即操作型数据存储,是“面向主题的、集成的、可变的、反映当前数据值的和详细的数据的集合,用来满足企业综合的、集成的以及操作型的处理需求”,。,ODS,是数据仓库体系结构中的一个可选部分,,ODS,具备数据仓库的部分特征和,OLTP,系统的部分特征。,2024/11/11,数据仓库与数据挖掘,4,2.1,数据仓库的三层数据结构,ODS,的出现,系统应用集成中一般对各系统中数据分为两类:,操作型数据,,,有细节化,分散化的特点;,决策型数据,有综合化,集成化的特点。,数据仓库概念的提出也把数据处理划分为了操作型处理和分析型处理两种不同类型,从而建立起了,DB-DW,的两层体系结构。,。,2024/11/11,数据仓库与数据挖掘,5,2.1,数据仓库的三层数据结构,ODS,的出现,但是有很多情况,,DB-DW,的两层体系结构并不能涵盖企业所有的数据处理要求,比如有些实时性决策问题,它要求获取数据周期不能太长,而且也需要一定程度的汇总。信息处理的多层次要求导致了一种新的数据环境,DB-DW,的中间层,ODS,(操作型数据存储)的出现。,它像,DW,一样是一种面向主题,集成的数据环境,又像操作型,DB,一样包含着全局一致的、细节的当前的数据。这样就构成了,DB-ODS-DW,的关于企业数据的三层体系结构。,。,2024/11/11,数据仓库与数据挖掘,6,2.1,数据仓库的三层数据结构,2024/11/11,数据仓库与数据挖掘,7,2.1,数据仓库的三层数据结构,2024/11/11,数据仓库与数据挖掘,8,2.1,数据仓库的三层数据结构,2024/11/11,数据仓库与数据挖掘,9,2.2,数据仓库的数据特征,状态数据与事件数据,描述对象的状态即为,状态数据,;,描述对象的发生的事件即为,事件数据,;,(,前,),状态数据,事件数据,(,后,),状态数据,2024/11/11,数据仓库与数据挖掘,10,2.2,数据仓库的数据特征,当前数据与周期数据,当前数据仅保留当前的最新数据,;,2024/11/11,数据仓库与数据挖掘,11,2.2,数据仓库的数据特征,当前数据与周期数据,周期数据则相反,一旦保存就不再改变和删除,.,2024/11/11,数据仓库与数据挖掘,12,2.2,数据仓库的数据特征,数据仓库中的元数据,在传统的数据库中,元数据是对数据库中各个对象的描述,数据库中的数据字典就是这么一种元数据,.,比如在管理、维护,SQL Server,或者是开发数据库应用程序的时候,我们经常要获取一些涉及到数据库架构的信息:,某个数据库中的表和视图的个数以及名称;,某个表或者视图中列的个数以及每一列的名称、数据类型、长度、精度、描述等;,某个表上定义的约束;,某个表上定义的索引以及主键,/,外键的信息。,2024/11/11,数据仓库与数据挖掘,13,2.2,数据仓库的数据特征,数据仓库中的元数据,系统存储过程,sp_databases,返回当前服务器上的所有数据库的基本信息。,sp_server_info,返回当前服务器的各种特性及其对应取值。,sp_sproc_columns,返回指定存储过程的的输入、输出参数的信息。,sp_statistics,返回指定的表或索引视图上的所有索引以及统计的信息。,sp_stored_procedures,返回当前数据库的存储过程列表,包含系统存储过程。,sp_tables,返回当前数据库的所有表和视图,包含系统表。,系统函数,COLUMNPROPERTY,返回有关列或过程参数的信息,如是否允许空值,是否为计算列等。,COL_LENGTH,返回指定数据库的指定属性值,如是否处于只读模式等。,DATABASEPROPERTYEX,返回指定数据库的指定选项或属性的当前设置,如数据库的状态、恢复模型等。,2024/11/11,数据仓库与数据挖掘,14,2.2,数据仓库的数据特征,数据仓库中的元数据,在数据仓库中,元数据定义了数据仓库中的对象,例如表,列,查询,业务规则以及数据仓库内部的数据转移信息等,.,管理员,:,数据仓库中包含的所有内容和过程的完整知识库及其文档,;,最终用户,:,数据仓库的信息地图,;,2024/11/11,数据仓库与数据挖掘,15,2.2,数据仓库的数据特征,数据仓库中的元数据,业务元数据,从业务角度描述了数据仓库中的数据,,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据;,技术元数据,是存储关于数据仓库系统技术细节的数据,,是用于开发和管理数据仓库使用的数据。,业务用户和技术用户借助元数据管理层提供的功能和应用,能更有效的理解和使用数据仓库数据。,2024/11/11,数据仓库与数据挖掘,16,数据,ETL,是用来实现异构数据源的数据集成,即完成数据的,抽取(,Extract,),、,转换(,Transform,),、,装载(,Load,),等数据调和工作,.,ETL,的过程就是调和数据的过程。,2.3,数据仓库的数据,ETL,过程,2024/11/11,数据仓库与数据挖掘,17,数据的,ETL,过程描述,2024/11/11,数据仓库与数据挖掘,18,数据的,ETL,过程描述,数据抽取,从源数据库中获取相关数据用于填充数据仓库的过程,;,静态抽取以及增量抽取的区别,;,Select Into,的用法,请使用,SQL,语句练习数据的静态抽取以及增量抽取。,2024/11/11,数据仓库与数据挖掘,19,数据的,ETL,过程描述,数据抽取,增量抽取的,集中实现方法:,2024/11/11,数据仓库与数据挖掘,20,数据的,ETL,过程描述,数据清洗,数据清洗的目的是为了,纠正源数据库中数据值的错误,可能存在的数据问题列举如下:,1.,错误拼写的名字和地址如小王 小 王,2.,不可能的或错误的出生日期如,2023-12-9,3.,不匹配的地址和电话区号如温州,0576,4.,缺失的数据、重复的数据、不一致的数据等等。,2024/11/11,数据仓库与数据挖掘,21,数据的,ETL,过程描述,数据转换,将数据从源数据库系统格式转换到数据仓库的数据格式,;,数据转换有可能只是简单的数据格式变化,也有可能是高度复杂的数据组合变化,;,数据转换通常和数据清洗功能是混合在一起的,.,数据转换的目的是把,源系统中的数据格式转换成目标系统的数据格式。,2024/11/11,数据仓库与数据挖掘,22,数据的,ETL,过程描述,数据转换,记录级转换功能,:,选择,连接 聚集 规范化,字段级转换功能,:,单字段,:,算法 表查找,多字段,:,映射,请使用,SQL,语句练习选择、连接、聚集等操作。,请使用,SQL,语句练习针对时间的各个项的提取操作。,2024/11/11,数据仓库与数据挖掘,23,数据的,ETL,过程描述,数据加载,把数据加载到目标数据仓库中,并且创建所需要的索引,.,刷新方式,:,定期对目标数据进行批量重写,;,更新方式,:,将源数据中的改变数据写进数据仓库,;,2024/11/11,数据仓库与数据挖掘,24,数据,ETL,过程的实施要点,E,T,L,过程是一个数据流动的过程,中间的“,T,”,(转换)是关键;,ETL,工具的选择非常重要,运用合适的工具会事半功倍;,如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值。,数据,ETL,论文,ETL实验内容-SQL Server 2005,OLTP,各表的解释,OLTP,各表的解释,OLTP,各表的解释,OLTP,各表的解释,第三次课程主要完成,SSIS,实验,
展开阅读全文