资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,iSoftStone,Information Service Corporation,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2005 iSoftStone Information Service Corporation.All rights reserved.,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,数据仓库基础知识,数据,仓,仓库,基,基本,概,概念,1.1从,传,传统,数,数据,库,库到,数,数据,仓,仓库,1.2数,据,据仓,库,库定,义,义及,基,基本,特,特性,1.3数据,仓,仓库与决策,支,支持系统,1.4数据,仓,仓库体系结,构,构,1.5数据,仓,仓库相关概,念,念,1.1,从传统数据,库,库到数据仓,库,库,随着市场竞,争,争的加剧,,信,信息系统的,用,用户已经不,满,满足于仅仅,用,用计算机去,处,处理每天所,发,发生的事务,数,数据,而是,需,需要信息,能够支持决,策,策的信息,,去,去帮助管理,决,决策。这就,需,需要一种能,够,够将日常业,务,务处理中所,收,收集到的各,种,种数据转变,为,为具有商业,价,价值信息的,技,技术,传统,数,数据库系统,无,无法承担这,一,一责任。因,为,为传统数据,库,库的处理方,式,式和决策分,析,析中的数据,需,需求不相称,。,。这些不相,称,称性主要表,现,现在决策处,理,理中的系统,响,响应问题、,决,决策数据需,求,求的问题和,决,决策数据操,作,作的问题。,1.1,从传统数据,库,库到数据仓,库,库,(,续,),传统的事务,处,处理环境不,适,适宜于,决策支持应,用,用,事务处理和,分,分析处理的,性,性能特性不,同,同,数据集成问,题,题,数据动态集,成,成问题,历史数据问,题,题,数据的综合,问,问题,操作型环境,和,和分析型环,境,境的分离,:,数据抽取,现实生活中,面,面临的问题,人们在日常,生,生活中经常,会,会遇到这样,的,的情况:,超市的经营,者,者希望将经,常,常被同时购,买,买的商品放,在,在一起,以,增,增加销售;,保险公司想,知,知道购买保,险,险的客户一,般,般具有哪些,特,特征;,医学研究人,员,员希望从已,有,有的成千上,万,万份病历中,找,找出患某种,疾,疾病的病人,的,的共同特征,,,,从而为治,愈,愈这种疾病,提,提供一些帮,助,助;,企业面临的,问,问题,经过多年的,计,计算机应用,和,和市场积累,,,,许多企业,保,保存了大量,原,原始数据和,各,各种业务数,据,据,它是,企,企业生产经,营,营活动的真,实,实记录,由于缺乏集,中,中存储和管,理,理,这些数,据,据不能为本,企,企业加以利,用,用,不能,进,进行有效的,统,统计、分析,及,及评估,无,法,法将这些数,据,据转换成企,业,业有用的信,息,息,数据爆炸问,题,题,自动的数据,收,收集工具和,成,成熟的数据,库,库技术导致,巨,巨大的数据,存,存储在文件,系,系统、数据,库,库和其它的,信,信息库中,。,。,我们会淹死,在,在数据中,但却为信息,、,、知识所饿,!,面临的挑战,如何在堆积,如,如山的企业,交,交易数据中,发,发现具有商,业,业价值的闪,光,光点?,如何使您的,企,企业或组织,在,在激烈的市,场,场竞争中保,持,持对客户的,吸,吸引力?,如何预先发,现,现和避免企,业,业运作过程,中,中不易察觉,的,的商业风险,?,?,数据仓库应,运,运而生,数据仓库的,出,出现和发展,是,是数据库和,OLTP,技术发展、,数,数据库应用,深,深化的产物,;,;,目的是把数,据,据库中的大,量,量数据转化,为,为有用信息,,,,为企业更,好,好地进行决,策,策服务。,讨论话题一,数据仓库产,生,生的源动力,是,是什么?数,据,据仓库系统,是,是数据驱动,还,还是需求驱,动,动的,?,“,我们花了20多年的时,间,间将数据放,入,入数据库,,如,如今是该将,它,它们拿出来,的,的时候了。,”,-著,名,名的数据仓,库,库专家,RalphKimball,市场需求是,技,技术发展的,源,源动力,1.2数据,仓,仓库定义及,基,基本特性,1.2.1,数,数据仓库定,义,义,1.2.2,数,数据仓库基,本,本特性,1.2.1,数,数据仓库定,义,义,数据仓库(,DataWarehouse,)是一个,面向主题的,(,(,Subject Oriented,),集成的(,Integrate,),相对稳定的,(,(,Non-Volatile,),反映历史变,化,化(,TimeVariant,),的数据集合,,,,用于支持,管,管理决策。,1.2数据,仓,仓库定义,数据仓库是,在,在企业管理,和,和决策中面,向,向主题的、,集,集成的、与,时,时间相关的,、,、不可修改,的,的数据集合,。,。,数据仓库之,父,父-,BillInmon,1.2数据,仓,仓库基本特,性,性,面向主题性,数据集成性,数据的时变,性,性,数据的非易,失,失性,面向主题性,面向主题性,表,表示了数据,仓,仓库中数据,组,组织的基本,原,原则,数据,仓,仓库中的所,有,有数据都是,围,围绕着某一,主,主题组织的,。,。,确定主题以,后,后,需要确,定,定主题应该,包,包含的数据,。,。,不同的主题,之,之间可能会,出,出现相互重,叠,叠的信息。,主题在数据,仓,仓库中可以,用,用多维数据,库,库方式进行,存,存储。,主题的划分,中,中,必须保,证,证每一个主,题,题的独立性,。,。,数据集成性,根据决策分,析,析的要求,,将,将分散于各,处,处的源数据,进,进行抽取、,筛,筛选、清理,、,、综合等工,作,作,最终集,成,成到数据仓,库,库中。,业务数据库,1,业务数据库,2,业务数据库,n,数据仓库,抽取转换清洗加载,数据的时变,性,性,数据应该随,着,着时间的推,移,移而发生变,化,化,不断地,生,生成主题的,新,新快照。,存量数据,T1,时点增量数,据,据,Tn,时点增量数,据,据,数据仓库,抽取转换清,洗,洗加载,初始主题数,据,据,T1,时点主题数,据,据,Tn,时点主题数,据,据,数据的非易,失,失性,数据的相对,稳,稳定性。,数据仓库中,的,的数据只进,行,行刷新,从,不,不进行更新,处,处理。,反映历史变,化,化。,存量数据,T1,时点增量数,据,据,Tn,时点增量数,据,据,数据仓库,抽取转换清,洗,洗加载,初始主题数,据,据,T1,时点主题数,据,据,Tn,时点主题数,据,据,时间戳锁定,数,数据,讨论话题二,数据库和数,据,据仓库有什,么,么不同?,数据库与数,据,据仓库的对,比,比,对比内容,数据库,数据仓库,数据内容,当前值,历史的、存档的、归纳的、计算的数据,数据目标,面向业务操作程序、重复处理,面向主题域、管理决策分析应用,数据特性,动态变化、按字段更新,静态、不能直接更新、只定时添加,数据结构,高度结构化、复杂、适合操作计算,简单、适合分析,使用频率,高,中到低,数据访问量,每个事务只访问少量记录,有的事务可能要访问大量记录,对响应时间的要求,以秒为单位计量,以秒、分钟、甚至小时为计量单位,1.3,数据仓库与,决,决策支持系,统,统,决策支持系,统,统的发展阶,段,段,初始阶段(,DSS,阶段),与专家系统,结,结合阶段(,IDSS,阶段),基于数据仓,库,库技术阶段,(,(,BI,阶段),基于数据仓,库,库的决策支,持,持系统,DSS,的先天不足,DSS,的先天不,足,足,决策所需,信,信息不足,,,,难以满,足,足决策支,持,持系统的,需,需要。,模型库提,供,供的分析,能,能力有限,人机接口,部,部件占整,个,个,DSS,开发工作,量,量的一半,,,,成为,DSS,实施中的,一,一个瓶颈,。,。,基于数据,仓,仓库的,DSS,基于数据,仓,仓库的,DSS,数据仓库,为,为,DSS,的发展开,辟,辟了新途,径,径,目前,DSS,的开发模,式,式(,BI,解决方案,),),以数据仓,库,库技术为,基,基础,以联机分,析,析、数据,挖,挖掘工具,为,为手段,1.4数,据,据仓库体,系,系结构,接,口,数据仓库,管理,环境,细节级数据,数据集市,1,数据集市,2,数据集市,n,ETL,逻辑 数据仓库组织与管理 数据利用,元数据,(MetaData),数据集市,x,主题数据,主题数据,主题数据,业务数据,系统,市场调查,信,信息,数据源,外部数据,OLAP,DataMining,Forecasting,应用环境,专家经验,数,数据,1.4.1数据仓,库,库的概念,结,结构,从数据仓,库,库的概念,结,结构看,,应,应该包含,:,:数据源,、,、数据准,备,备区、数,据,据仓库数,据,据库、数,据,据集市,/,知识挖掘,库,库以及各,种,种管理工,具,具和应用,工,工具。,数据集市,/,知识挖掘,库,库,业务系统,外部数据源,数据准备区,数据仓库数据库,应用工具,管理工具,应用工具,数据集市,/,知识挖掘库,1.4.2,虚拟数据,仓,仓库结构,虚拟数据,仓,仓库利用,描,描述了业,务,务系统中,数,数据位置,和,和抽取数,据,据算法的,元,元数据直,接,接从业务,系,系统中抽,取,取查询的,数,数据进行,概,概括、聚,合,合操作后,,,,将最终,结,结果提供,给,给用户。,用户,图,1.2,虚拟数据仓库结构,数据仓库查询管理服务器,业务系统数据库,1.4.3,数据集市,结,结构,数据集市,结,结构或称,为,为主题结,构,构的数据,仓,仓库是按,照,照主题进,行,行构思所,形,形成的数,据,据仓库,,没,没有一个,独,独立的数,据,据仓库。,系,系统的数,据,据不存储,在,在同一数,据,据仓库中,,,,每个主,题,题有自己,的,的物理存,储,储区。,数据仓库查询管理服务器,业务系统数据库,主题,1,主题,2,1.4.4,单一数据仓库,结,结构,将所有的主题,都,都集中到一个,大,大型数据库中,的,的体系结构。,数,数据源中数据,被,被按照同一标,准,准抽取到独立,的,的数据仓库中,,,,用户在使用,时,时再根据主题,将,将数据仓库中,的,的数据发布到,数,数据集市中。,数据仓库查询管理服务器,业务系统数据库,数据仓库,数据集市,1,数据集市,2,1.4.5分,布,布式数据仓库,结,结构,在企业各个分,公,公司具有相当,大,大的独立性时,,,,企业总部设,置,置一个全局数,据,据仓库,各个,分,分公司设置各,自,自的局部数据,仓,仓库。局部数,据,据仓库主要存,储,储各自的未经,转,转换的细节数,据,据,全局数据,仓,仓库中主要存,储,储经过转换的,综,综合数据。,站点,A,站点,B,总部,站点,C,站点,D,站点,C,站点,D,全局数据仓库,局部数据仓库,局部数据仓库,局部数据仓库,局部数据仓库,讨论话题三,数据仓库、数,据,据集市、分析,主,主题的关系是,什,什么?,在数据集市间,如,如何保证数据,的,的一致性?,1.5数据仓,库,库相关概念,BI(,商务智能,),ETL,(抽取、转换,、,、加载),META DATA,(,元数据),DATA MART(,数据集市,),SUBJECT(,主题,),DIMENSION(,维度,),商务智能,简单定义,综合企业所有,沉,沉淀下来的信,息,息,用科学的,分,分析方法,为,企,企业领导提供,科,科学决策信息,的,的过程。,完整定义,基于数据仓库,技,技术的决策支,持,持系统,(DSS),。它以数据仓库(,D
展开阅读全文