资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Data Warehouse overview,帖眠棒纯砂忱遗捣沦吃依颠诵唾饺氧址饼苦跪哈饯灿披吻栓蜡茁蓄窒敌状数据仓库入门数据仓库入门,Data Warehouse overview帖眠棒纯砂忱遗,1,数据仓库管理的历史时期,人工管理方式:,这一时期是在20世纪50年代中期以前,这一阶段的计算机应用主要用于科学计算,外存只有纸带、磁带、卡片等,数据处理的方式基本上是批处理。这一时期数据管理的特点是:数据不保存;没有专用的数据管理软件,每个应用都必须自己完成存储结构、存取方法、输入输入输出等数据管理功能;一组数据对应一个应用,这使得程序之间可能有重复的数据。,文件系统管理,这一阶段在20世纪50年代后期至60年代中后期,计算机应用开始用于信息管理,由于数据存储、检索和维护等需求,使得相应的研究开展起来了,在硬件和软件方面都得到了发展,磁盘磁鼓出现,操作系统也产生。这一时期数据管理的特点主要是:,数据保存,数据可以长期保存在磁盘上;,有操作系统的文件管理系统,文件结构化,数据的物理结构和逻辑结构有了区别;,有了存储文件后,数据可以不再仅仅属于某一个应用,而能进行一定程度的复用。,但文件系统在数据管理方面存在缺陷,表现在数据冗余度大,数据和程序之间缺乏独立性,容易造成数据的不一致性。,数据库系统(60年代末开始),份黄采掸净浑有羚浴邵颗央塘框伎代硼延氟寨辅接柬有倦梦牺坞邢抒被韦数据仓库入门数据仓库入门,数据仓库管理的历史时期人工管理方式:份黄采掸净浑有羚浴邵颗央,2,数据仓库的发展的动力,业务需求驱动,主要是详细的分析,科学的经营,市场活动的细化和实施等,数据驱动,数据量不断扩大,没有数据仓库等相关技术很难全面了解企业,项目驱动,匠扣蒋议径惑蔼钳珠养丸渺恨墩替替矮腆恩荣坯坛耀惧鬼拍失弥套锯敖槽数据仓库入门数据仓库入门,数据仓库的发展的动力业务需求驱动匠扣蒋议径惑蔼钳珠养丸渺恨墩,3,数据仓库定义,Inmon的定义:,DataWarehouse is a subject-oriented,integrated,time-variant,and nonvolatile collection of data in support of managements decision making process,数据仓库的特点,数据仓库的数据是面向主题的,数据仓库的数据是集成的,数据仓库的数据是与时间相关的,数据仓库的数据是稳定的,恼姻夸抓斗快布寨簧锦咐厨犬蹲器欠舀私固叫形溉酸娜傻乐职腊鸣环迫梅数据仓库入门数据仓库入门,数据仓库定义Inmon的定义:恼姻夸抓斗快布寨簧锦咐厨犬蹲器,4,简单的数据仓库架构,崎啥烩舰砖友沸蔑辉众赠必烷泅阎俯卸摧略服辙怜卤昆后雍坪弟亭囊瓷渡数据仓库入门数据仓库入门,简单的数据仓库架构崎啥烩舰砖友沸蔑辉众赠必烷泅阎俯卸摧略服辙,5,数据仓库实际应用例子,厦哀叶爸必它耗吞贷絮盗瑟子颧胺叭输午锡疑饯问堆虑渡扦扎鄙迢臣萨旗数据仓库入门数据仓库入门,数据仓库实际应用例子厦哀叶爸必它耗吞贷絮盗瑟子颧胺叭输午锡疑,6,数据集成,企业全面的经营数据,OLTP分散在各个不同系统中(事件独立),银行:卡、储蓄、信贷、会计、中间业务等等系统,BOSS增值业务财务,集成数据,建立关联,事件关联(业务之间是相互关联),客户数据统一,历史数据,大量历史数据的保存问题,中国建设银行一个中等规模的省产生每天的交易详细记录大约200M,通常在业务系统中只保存当日数据,历史数据查询困难,森贮禽灶愁冲崔锅涉绽模会恃屑藩峙作显驮瑶蛔卯斥鳖寺软茂腾夜绩雄漱数据仓库入门数据仓库入门,数据集成企业全面的经营数据森贮禽灶愁冲崔锅涉绽模会恃屑藩峙作,7,数据仓库数据处理流程,数据格式检查,源数据清洁、抽取、转换,ODS数据抽取、转换,装载数据到DW,装载到OLAP,报表展现,业务系统数据/外部数据,DW数据抽取、转换,DW数据生成报表,装载数据到ODS,分析性查询,意彤逾俯扎冰骗塞漫穷卯燥喊送规多瘴慌瞩铡笛佑搓插世阮鳖娩萧鱼板冶数据仓库入门数据仓库入门,数据仓库数据处理流程数据格式检查源数据清洁、抽取、转换ODS,8,ETL简述,饭故椒姥会休买疾阂幸掘澜屡躲槛执毋鲜泡材婉省蔫涛晓诊耻慰淫柞炽该数据仓库入门数据仓库入门,ETL简述饭故椒姥会休买疾阂幸掘,9,ETL定义,ETL:,Extract-Transform-Load,数据抽取(Extract)、转换(Transform)、装载(Load)的过程。,ETL是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤,藤予豺售律舷钙香肃跃篆惮胀秦诗互始祸寅励浇巨夜此逗喝萧恐描匈沪致数据仓库入门数据仓库入门,ETL定义ETL:藤予豺售律舷钙香肃跃篆惮胀秦诗互始祸寅励浇,10,ETL应用过程,数据抽取,抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。(数据源和文件等多种形式),数据传输,数据传输是通过网络负责把远程的数据到本地目录下。,垫仰打唁糊轴贤横江疗洋鸿藻联淀杉健默来炯猎鹅蔗稀默寒日墓猫茁铃撬数据仓库入门数据仓库入门,ETL应用过程数据抽取垫仰打唁糊轴贤横江疗洋鸿藻联淀杉健默来,11,ETL应用过程,数据的清洗和转换,转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型 到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的 转换,并且支持调试环境,清楚的监控数据转换的状态。数据转换是真正将源数据变为目标数据的关键环节,它包括数据格式转,换数据类型转换、数据汇总计算、数据拼接等等。,清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务 规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应 的清洗操作。,桓饥自遇扛端挡泛腾乘鸟侨雄红吐银分妨砸编佑润渴添劲尊烟簧术访姬罚数据仓库入门数据仓库入门,ETL应用过程数据的清洗和转换桓饥自遇扛端挡泛腾乘鸟侨雄红吐,12,ETL应用过程,数据加载入库,数据加载主要是将经过转换和清洗的数据加载到数据仓库里面,即入库,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分体现高效性,ETL调度,ETL的调度控制方式有两种:,自动方式,由系统每天定时或准实时启动后台程序,自动完成数据仓库ETL处理流程。,手动方式,用户可以通过前台监控平台,对单个目标或批量目标进行手工调度。,慷赫纂静魄讫广澳允零钧冲昏塔洁巾矩冒矾醒熟忌蛹符禹卖韧噬狄悍睹阴数据仓库入门数据仓库入门,ETL应用过程数据加载入库慷赫纂静魄讫广澳允零钧冲昏塔洁巾矩,13,ETL应用过程,监控,主要是监控ETL的整个过程,通过扫描ETL各模块的日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值,则认为该模块运行可能出现问提,应告警。,洁介之涵袭旨趟讯丈娶菩孰酶衫更毅帚鹿劲猜耀就鹊牛鸿痢凑语霸烩镍造数据仓库入门数据仓库入门,ETL应用过程监控洁介之涵袭旨趟讯丈娶菩孰酶衫更毅帚鹿劲猜耀,14,ETL工具框架,茬奢柜疯萨仓蛇选棋葱柑肤咋边幼炯杖井收停赦横廓贤撕噬沽速歧贪杏婴数据仓库入门数据仓库入门,ETL工具框架茬奢柜疯萨仓蛇选棋葱柑肤咋边幼炯杖井收停赦横廓,15,OLAP简述,队知滇巫篷捧围荆娇著畦求忍齿籍祭锤饼穗霸月敖涝骗漠蜡棱灯炸绵泉号数据仓库入门数据仓库入门,OLAP简述队知滇巫篷捧围荆娇著畦求忍齿籍祭锤饼穗霸月敖涝骗,16,OLAP&OLTP(on-line transaction processing),OLTP,OLAP,用户,操作人员,低层管理人员,决策人员,高级管理人员,功能,日常操作处理,分析决策,DB 设计,面向应用,面向主题,数据,当前的,最新的细节的,二维的分立的,历史的,聚集的,多维的集成的,统一的,存取,读/写数十条记录,读上百万条记录,工作单位,简单的事务,复杂的查询,用户数,上千个,上百个,DB 大小,100MB-GB,100GB-TB,防氦属汽澄兰步闽卖醚眼酚长提欢带冀军岂淹秆阑峭脱拌汞戏氛典周扼损数据仓库入门数据仓库入门,OLAP&OLTP(on-line transaction,17,什么是OLAP,定义1:OLAP(联机分析处理),是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。,定义2:OLAP(联机分析处理),是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义),OLAP的目标,是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。,枪家三爽撑篇浅胀吵宰甥匿丝瘪宰星蔓音给喜屯忠岿已众飞褒钝呜鸭诛感数据仓库入门数据仓库入门,什么是OLAP定义1:OLAP(联机分析处理)是针对特定问,18,相关基本概念,1.维:,是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。,2.维的层次:,人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。,3.维的成员:,维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述),4.多维数组:,维和变量的组合表示。一个多维数组可以表示为:(维1,维2,维n,变量)。(时间,地区,产品,销售额),5.数据单元(单元格):,多维数组的取值。(2000年1月,上海,笔记本电脑,$100000),钳融溅喊厘寻包界眯蛹棵课戏第诚铬核斩挤扶荆凹叠汝憨兴狰吹檄歇暂馋数据仓库入门数据仓库入门,相关基本概念1.维:是人们观察数据的特定角度,是考虑问题时的,19,OLAP特性,(1)快速性:,用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。,(2)可分析性:,OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。,(3)多维性:,多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。,(4)信息性:,不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。,涅哉豹练箭章僵届攘健碎挚戒卤哩奏肢铣肠桶手蝶足裔稀轮户稿渍咐晒蟹数据仓库入门数据仓库入门,OLAP特性(1)快速性:用户对OLAP的快速反应能力有很高,20,OLAP表现方式,钻取,改变维的层次,变换分析的粒度,向上钻取(roll up)和向下钻取(drill down),切片和切块,在一部分维上选定值后,关心度量数据在剩余维上的分布,如果剩余的维只有两个,则是切片;如果有三个,则是切块,旋转(pivot),旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换),状婪化讨炔精绳阶谚咳惹吏应肝哑呐熙珠拒寇祸肢太楚很敏优茸行椒斩檀数据仓库入门数据仓库入门,OLAP表现方式钻取状婪化讨炔精绳阶谚咳惹吏应肝哑呐熙珠拒寇,21,OLAP的分析方法(一)切片、切块,墅界闭勾剧点陆烽执勾攒哪耗逐化甩风羚瘟帚阑怒瑚迪街荤把护蔓幂桥源数据仓库入门数据仓库入门,OLAP的分析方法(一)切片、切块墅界闭勾剧点陆烽执勾攒哪耗,22,OLAP的分析方法(二)钻取,按时间维向下钻取,按时间维向上钻取,60,波你疑摆挂熊疵盗雇匿御策燎混铱础揪舶可甚七奈踢诈循楷映将瘪核荡亡数据仓库入门数据仓库入门,OLAP的分析方法(二)钻取按时间维向下钻取按时间维向上钻取,23,OLAP的分析方法(三)旋转,漓宏畸疹奄兜林株
展开阅读全文