资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,薛奎,主题,1,/,数据仓库概述,数据仓库基本特征,数据仓库基本架构,2/,数据仓库建设,架构方式,容量平台,模型设计,3/,元数据(,MetaData,)建设,元数据,元数据在,淘,宝的应用,4/ETL,处理,ETL,概要说明,ETL,主要做什么,我们目前的,ETL,调度工具,ETL,调度发,展,。,5/,数据仓库价值挖掘与发现,数据产品,数据团队,6/,联系我们,数据仓库特征,面向主题,集成的,相对稳定,反映历史变化,数据仓库基本架构,归档区,近线区,整合区,交互区,结构化数据源,非结构化数据源,ETL,AD-HOC,数据分析,数据挖掘,数据产品,元数据(,Meta Data,),数据仓库,源数据,数据应用,主题,1,/,数据仓库概述,数据仓库基本特征,数据仓库基本架构,2/,数据仓库建设,架构方式,容量平台,模型设计,3/,元数据(,MetaData,)建设,元数据,元数据在,淘,宝的应用,4/ETL,处理,ETL,概要说明,ETL,主要做什么,我们目前的,ETL,调度工具,ETL,调度发,展,。,5/,数据仓库价值挖掘与发现,数据产品,数据团队,6/,联系我们,数据仓库架构方式,集线器架构,总线架构,总体方法,从上向下,从下向上,体系结构,先建立全企业的原子级数据仓库,然后在此基础上建立部门级应用,按照业务过程建立数据集市,通过数据总线和一致性维度达到企业级的一致性,复杂度,非常复杂,较为简单,建模方法,面向主题,数据驱动,面向过程,应用驱动,建模工具,传统的,ER,模型,维度模型,易访问性,低,高,数据集成度,企业级的数据集成,独立业务领域内的数据集成,数据变化度,源系统数据发生了较大的变化,源系统数据相对稳定,交付时间,需要很长的启动时间,可以快速部署应用,部署成本,较高的启动成本,较低的后续项目开发成本,较低的启动成本,每个后续项目的成本接近,容量平台规划,容量规划元素:计算,存储,网络,容量规划的不确定性因素:使用人数、数据量、数据需求量,容量平台的选择考虑因素:线性扩展、成本、稳定性、性能、运维,淘宝容量平台发展,传统数据仓库平台架构,DB,磁盘,Client,Client,DB,SAN/,共享磁盘,DB,DB,DB,Client,DB,磁盘,DB,磁盘,DB,磁盘,DB,磁盘,SMP,共享磁盘,完全不工享,代表:小型机,代表:,oracel RAC,代表:,Greenplum,,,Teradata,(,注:浅蓝色部分表示共享,),云计算平台设计理念,硬件错误是常态而不是异常,流式数据访问,大规模数据集,简单的一致性模型,(,写一次,不限读次数,),移动计算比移动数据更划算,异构软硬件平台间的可移植性,(,注:后续都以,HDFS,来说明云计算平台,),HDFS,平台架构,Hdfs,设计的一些要点,业务处理过程模型,数据模型,(,注:后面提到的数据模型为物理模型,),维度的处理,无变化维:如人的性别,身份证号,直接插入,缓慢变化维:如人的婚姻状态,覆盖,全历史记录保留,记录最新及上一次历史,剧烈变化维:如人的工作经历,维度属性处理,建模面临的挑战,建模中需要综合考虑的点,效率与数据粒度的矛盾,应用需求覆盖率,模型的可扩展性,生成模型的成本,是否考虑不同数据用户的需求,?,终极解决方案,-,自动化建模,数据库模型,优化模型建议,主题,1/,数据仓库概述,数据仓库基本特征,数据仓库基本架构,2,/,数据仓库建设,架构方式,容量平台,模型设计,3/,元数据(,MetaData,)建设,元数据,元数据在,淘,宝的应用,4/ETL,处理,ETL,概要说明,ETL,主要做什么,我们目前的,ETL,调度工具,ETL,调度发,展,。,5/,数据仓库价值挖掘与发现,数据产品,数据团队,6/,联系我们,元数据,元数据在淘宝中的应用,主题,1/,数据仓库概述,数据仓库基本特征,数据仓库基本架构,2,/,数据仓库建设,架构方式,容量平台,模型设计,3/,元数据(,MetaData,)建设,元数据,元数据在,淘,宝的应用,4/ETL,处理,ETL,概要说明,ETL,主要做什么,我们目前的,ETL,调度工具,ETL,调度发,展,。,5/,数据仓库价值挖掘与发现,数据产品,数据团队,6/,联系我们,ETL,概要说明,我们,80%,的资源包括人力,计算资源消耗在,ETL,上;,我们数据平台架构组开发工具,平台基本上是,ETL,平台,工具;,ETL,之于数据仓库有如循环系统于人一样重要,数据平台的健康,新陈代谢都是归功于,ETL,;,ETL,任务的好坏直接决定数据仓库的数据质量,数据产出时间以及很大程度上是否能发挥数据的价值;,ETL,主要做什么?,我们目前有哪些,ETL,工具平台,ETL,调度发展,主题,1/,数据仓库概述,数据仓库基本特征,数据仓库基本架构,2,/,数据仓库建设,架构方式,容量平台,模型设计,3/,元数据(,MetaData,)建设,元数据,元数据在,淘,宝的应用,4/ETL,处理,ETL,概要说明,ETL,主要做什么,我们目前的,ETL,调度工具,ETL,调度发,展,。,5,/,数据仓库价值挖掘与发现,数据产品,数据团队,6/,联系我们,数据产品,哪些团队在使用数据,?,
展开阅读全文