商务智能技术基础

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,演示文档,路漫漫其悠远,少壮不努力，老大徒悲伤,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,商务智能技术基础,内容提要,2.1 商务智能系统组成及技术基础,2.2 数据仓库技术,2.3 联机分析技术,2.4 数据挖掘技术,2.5 数据展现技术,2.1,商务智能系统架构,商务智能系统架构,抽取,转换,装载,OLAP,服务器,数据挖掘服务器,报表设计工具,外部数据源,业务系统数据源,元数据,元数据,数据仓库,用户,分析人员,。,数据源数据预处理数据仓库数据分析数据展现,图,1.3,商务智能系统的组成,商务智能系统架构,商务智能系统的最大好处是可以得到准确、及时的信息，帮助企业赢得竞争优势，这些功能的完成主要依靠,DW、 DM和OLAP,三大技术和,数据预处理、建立数据仓库、数据分析及数据展现,四个阶段。,数据预处理,是整合企业原始数据的第一步，包括数据抽取、转换和装载三个过程;,数据仓库,则是处理海量数据的基础;,数据分析,是体现系统智能的关键，一般采用OLAP和DM两大技术。OLAP不仅进行数据汇总/聚集，同时还提供切片、切块、下钻、上卷和旋转等数据分析功能，用户可以方便地对海量数据进行多维分析。数据挖掘则是挖掘数据背后隐藏的知识，通过关联分析、聚类和分类等方法建立分析模型，预测企业未来发展趋势和将要面临的问题。,数据展现,则主要保障系统分析结果的可视化。,数据分析平台,(,数据挖掘、报表展现和,OLAP,工具,),外部数据源,业务处理系统数据源,数据仓库,商务智能应用,元数据,商务智能框架图,二、商务智能技术简介,1. DW（数据仓库）,必要性：,实施BI首先要从企业内部和企业外部不同的数据源，如客户关系管理(CRM)、供应链管理(SCM)、企业资源规划(ERP)系统以及其他应用系统等搜集有用的数据，进行转换和合并，因此需要数据仓库和数据集市技术的支持。,概念：,数据仓库(Data Warehouse)是一种,语义,上一致的数据存储，是指从多个数据源收集的信息，以一种一致的存储方式保存所得到的数据集合。面向不同的需求，对数据进行清洗以保证数据的正确性，然后对数据进行抽取，转换成数据仓库所需形式，并实现加载到数据仓库。,数据仓库技术是基于信息系统业务发展的需要，基于数据库系统技术发展而来，并逐步独立的一系列新的应用技术。数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具。数据仓库技术也是一种达成“数据整合、知识管理”的有效手段。,二、商务智能技术简介,2. OLAP（联机分析处理）,联机分析处理(OLAP) 又称多维分析，它对数据仓库中的数据进行多维分析和展现，是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取，从而获得对数据更深入了解的一类软件技术。它的技术核心是“,维,”这个概念，因此OLAP也可以说是多维数据分析工具的集合。,进行OLAP分析的,前提是已有建好的数据仓库,，之后即可利用OLAP 复杂的查询能力、数据对比、数据抽取和报表来进行探测式数据分析了。称其为探测式数据分析，是因为用户在选择相关数据后，通过切片(按二维选择数据)、切块(按三维选择数据)、上钻(选择更高一级的数据详细信息以及数据视图)、下钻(展开同一级数据的详细信息)、旋转(获得不同视图的数据) 等操作，可以在不同的粒度上对数据进行分析尝试，得到不同形式的知识和结果。联机分析处理研究主要集中在ROLAP(基于关系数据库的OLAP) 的查询优化技术和MOLAP(基于多维数据组织的OLAP) 中减少存储空间和提高系统性能的方法等。,OLAP操作语言：通过扩展数据库的操作语言SQL，得到MSQL（Multiple SQL）。,二、商务智能技术简介,3. DM（数据挖掘）,数据挖掘是从大量的数据中，抽取出潜在的、有价值的知识（模型或规则）的过程。,与OLAP 的探测式数据分析不同，数据挖掘是按照,预定的规则,对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析，从中识别和抽取隐含的模式和有趣知识，为决策者提供决策依据。数据挖掘的任务是从数据中发现模式。模式有很多种，按功能可分为两大类：预测型( Predictive)模式和描述型(Descriptive)模式。,预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述，或者根据数据的相似性把数据分组。,二、商务智能技术简介,4. 三大核心技术之间关系,DW是前提和基础。负责统一数据规则的处理和存储。,OLAP是操作，侧重显性知识处理和分析。,DM是发现，侧重于隐,性,知识发掘和利用。,OLAP 与数据挖掘的区别和联系是：,OLAP 侧重于与用户的交互、快速的响应速度及提供数据的多维视图，而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息，尽管允许用户指导这一过程。OLAP 的分析结果可以给数据挖掘提供分析信息作为挖掘的依据，数据挖掘可以拓展OLAP 分析的深度，可以发现OLAP 所不能发现的更为复杂、细致的信息。数据挖掘的研究重点则偏向数据挖掘算法以及数据挖掘技术在新的数据类型、应用环境中使用时所出现新问题的解决上，如对各种非结构化数据的挖掘、数据挖掘语言的标准化以及可视化数据挖掘等。,2.2.1 从数据库到数据仓库2.2.2 数据仓库的定义和特点2.2.3 数据仓库体系结构2.2.4 数据仓库的设计与实施建立2.2.5 数据仓库系统的评价标准,2.2,数据仓库,（,Da,ta Warehouse,）,事务型处理,事务型处理：即操作型处理，是指对数据库的联机操作处理,OLTP,。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的，通常是对一个或一组记录的增、删、改以及简单查询等（大量、简单、重复和例行性）。,在事务型处理环境中，数据库要求能支持日常事务中的大量事务，用户对数据的存取操作频率高而每次操作处理的时间短。,2.2.1 从数据库到数据仓库,分析型处理,分析型处理：用于管理人员的决策分析，例如,DSS,、,EIS,和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。,分析型处理经常要访问大量的历史数据，支持复杂的查询。,分析型处理过程中经常用到外部数据，这部分数据不是由事务型处理系统产生的，而是来自于其他外部数据源。,事务型处理数据和分析型处理数据的区别,特性,OLTP,OLAP,特征,面向,用户,功能,DB 设计,数据,汇总,视图,工作单位,存取,关注,操作,访问记录数,用户数,DB规模,优先,度量,操作处理,事务,办事员、DBA、数据库专业人员,日常操作,基于E-R，面向应用,当前的；确保最新,原始的，高度详细,详细，一般关系,短的、简单事务,读/写,数据进入,主关键字上索引/散列,数十个,数千,100MB到GB,高性能，高可用性,事务吞吐量,信息处理,分析,知识工人,(,如经理、主管、分析员,),长期信息需求，决策支持,星形/雪花，面向主题,历史的；跨时间维护,汇总的，统一的,汇总的，多维的,复杂查询,大多为读,信息输出,大量扫描,数百万,数百,100GB到TB,高灵活性，端点用户自治,查询吞吐量，响应时间,数据库系统的局限性,数据库适于存储高度结构化的日常事务细节数据，而决策型数据多为历史性、汇总性或计算性数据，多表现为,静态数据,，不需直接更新，但可周期性刷新。,决策分析型数据是,多维性,，分析内容复杂。,在事务处理环境中，决策者可能并不关心具体的细节信息，在决策分析环境中，如果这些细节数据量太大一方面会严重影响分析效率，另一方面这些细节数据会分散决策者的注意力。,DB2,Oracle,SQL,Server,Excel,spreadsheet,XML,document,Internet,SSL,client,applications,Browsers,Data management,layer,Application,layer,Web,servers,数据库系统的局限性（续）,当事务型处理环境和分析型处理环境在同一个数据库系统中，事务型处理对数据的存取操作频率高，操作处理的时间短，而分析型处理可能需要连续运行几个小时，从而消耗大量的,系统资源,。,决策型分析数据的数据量大，这些数据有来自,企业内部,的，也有来自,企业外部,的。来自企业外部的数据又可能来自不同的数据库系统，在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据，数据库系统常常是无能为力,。,多库系统的限制,可用性：,源站点或通信网络故障将导致系统瘫痪,源站点不能通过网络在线联入多库系统。,响应速度：,全局查询多级转换和通信传输,延迟和低层效率影响响应速度。,系统性能：,总体性能取决于源站点中性能最低的系统,影响系统性能的发挥,;,系统开销：,每次查询要启动多个局部系统,通信和运行开销大。,实施数据仓库的条件,数据积累已达到一定规模,面临激烈的市场竞争,在IT方面的资金能得到保障,数据仓库的发展,自从,NCR,公司为,Wal Mart,建立了第一个数据仓库。,1996,年，加拿大的,IDC,公司调查了,62,家实现了数据仓库的欧美企业，结果表明：数据仓库为企业提供了巨大的收益。,早期的数据仓库大都采用当时流行的,客户,/,服务器,结构。近年来,分布式对象技术,飞速发展，整个数据仓库体系结构从功能上划分为若干个分布式对象，这些分布式对象不仅可以直接用于建立数据仓库，还可以在应用程序中向用户提供调用的接口。,IBM,的实验室在数据仓库方面已经进行了,10,多年的研究，并将研究成果发展成为商用产品。,其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。,2.2.2,数据仓库(Data Warehouse),的定义和特点,数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一用户接口，完成数据查询和分析。支持整个企业范围的主要业务来建立的，主要特点是，包含大量面向整个企业的综合信息及导出信息。,数据仓库是作为DSS,服务基础的分析型,DB，,用来存放大容量的只读数据，为制定决策提供所需要的信息。,数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。,以1992年W H Inmon出版Building the Data Warehouse为标志，数据仓库发展速度很快。 W H Inmon被誉为数据仓库之父。,W H Inmon对数据仓库所下的定义：,数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用以支持管理决策的过程。,面向主题,数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表，这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险，而数据仓库是按照客户、政策、保险金和索赔来组织数据。,面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述，能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系，从而适应企业各个部门的业务活动特点和企业数据的动态特征，从根本上实现数据与应用的分离。,面向主题,汽车,人寿,健康,意外伤亡,操作性环境,应用,顾客,保险单,保险费,索赔,数据仓库,主题,集成性,数据仓库中的数据是从原有分散的源数据库中提取出来的，其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致，且与不同的应用逻辑相关。为了创建一个有效的主题域，必须将这些来自不同数据源的数据集成起来，使之遵循统一的编码规则。,集成,数据库,应用,A m,f,应用,B 1,0,应用,C x,y,应用,D,男,，,女,数据仓库,m,f,编码,应用,A,管道,cm,应用,B,管道,inches,应用,C,管道,mcf,应用,D,管道,yds,管道,cm,属性度量,稳定性,数据仓库内的数据有很长的时间跨度，通常是,5-10,年。,数据仓库中的数据反映的是一段时间内历史数据的内容，是不同时点的数据库快照的集合，以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用，所涉及的数据操作主要是查询，一般情况下并不进行修改操作,.,数据仓库中的数据是不可实时更新的，仅当超过规定的存储期限，才将其从数据仓库中删除，提取新的数据经集成后输入数据仓库。,稳定性,插入,删除,插入,修改,删除,访问,修改,访问,数据的逐个记录方式处理,数据的批量载入/访问,数据库,数据仓库,时变性,时变性：许多商业分析要求对发展趋势做出预测，对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉,OLTP,数据库中变化的数据，生成数据库的快照，经集成后增加到数据仓库中去；另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据，并且还需要按规定的时间段增加综合数据。,随时间变化,数据库,数据仓库,时间期限：当前到6090天,记录更新,键码结构可能包括也可能不,包括时间元素,时间期限：510年,数据的复杂快照,键码结构包括时间元素,支持管理决策,数据仓库支持,OLAP,（联机分析处理）、数据挖掘和决策分析。,OLAP,从数据仓库中的综合数据出发，提供面向分析的多维模型，并使用多维分析的方法从多个角度、多个层次对多维数据进行分析，使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础，发现数据中的潜在模式和进行预测。因此，数据仓库的功能是支持管理层进行科学决策，而不是事务处理。,BI,系统,VS,决策盲点,某大型国有企业老总当他查看近十年企业的生产和运营数据时，手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型：一种是两年前、即,ERP,上线之前的，这是一些简单、杂乱而又枯燥的数字；另一种是有了,ERP,以后的，数据变得清楚而有条理起来，同时还有来自,ERP,、,CRM,、,SCM,以及计费业务等不同应用的数据和各种分析报告。在仔细查看这些报表之后，这位国企老总惊讶地发现，不同的系统可以得出截然相反的两种结论。例如某一产品，它的动态成本反映在,ERP,系统和,CRM,、,SCM,系统里面相差很大，如果引用,ERP,和,CRM,里面的数据，它就是一款很成功、销量很好的产品，但在,SCM,里面来看，它的采购和物流成本过高，导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。,BI,系统,VS,决策盲点,(,续,),其实从这些来自不同系统的数据基础产生不同的判断很正常，因为这些系统并不会去周密地“思考”在自己“职责”之外的事情。这样就给企业的领导提交了相当多顾此失彼的分析报告，结果就是导致了许多市场决策上的混乱和失误。,把企业的内部数据和外部数据,(,企业内部数据就是指上述通过业务系统,SCM,、,ERP,、,CRM,等收集到的数据，这些数据可能在不同的硬件、数据库、网络环境中，为不同的业务部门服务。外部数据是市场信息和外部竞争对手的信息,),。进行有效的集成，形成直观的、易于理解的信息，再进行分析和思考，为企业的各层决策及分析人员使用。,数据仓库系统的结构,2.2.3 数据仓库体系结构,源数据部分,1 生产数据：企业的各种事务型数据库,2 内部数据：用户自己的数据资料,内部数据增加了数据转换和整合过程的复杂性,3 存档数据：定期存储的旧数据,4 外部数据：是决策主要的信息来源,2.2.3 数据仓库体系结构,数据准备,1 数据抽取：,从数据仓库的角度来看，并不是业务数据库中的所有数据都是决策支持所必需的。通常，数据仓库按照分析的主题来组织数据，我们只需要提取出系统分析必需的那一部分数据。例如，某超市确定以分析客户的购买行为为主题建立数据仓库，则我们只需将同客户购买行为相关的数据提取出来，而超市服务员工的数据就没有必要放进数据仓库。,现有的数据仓库产品几乎都提供各种关系型数据接口，从关系型数据中提取数据。,2.2.3 数据仓库体系结构,数据准备,2 数据转换：,数据仓库的数据转换比事务型系统的更复杂，因为数据仓库的数据来自不同的数据源。,步骤：,（1）数据清洗,（2）数据标准化,（3）数据汇总,（1）,数据清洗（Data Cleaning）,由于企业常常为不同的应用对象建立不同的业务数据库，比如一个电信运营公司拥有计费数据库、账务数据库、客户数据库、客户投诉数据库等业务系统，这些业务系统中可能包含,重复的信息,，比如客户数据库中的部分客户基本信息也在客户投诉数据库中存在。,由于不同的数据库可能使用不同数据库公司的产品，不同的业务系统可能有不同的软件开发商提供，这使得各个业务数据库中的,数据,存在,不一致,的现象，数据库使用人员的操作失误也会造成数据的不一致。,如图2-2所示，显示了一个数据不一致的例子。,客户数据库中有一张客户基本信息表，其中记录了客户的客户号、姓名、年龄等基本信息。在客户服务数据库中有一张客户咨询信息表用于记录客户咨询问题的内容和解答。由于数据库使用人员的失误，使得在客户基本信息表中的,100,号客户“张山”，在客户咨询表中的客户姓名被错误的录入为“张三”。,客户基本信息表,客户咨询信息表,客户号：100,姓名：张山,年龄：23,客户号：100,姓名：张三,咨询问题：,图2-2 操作失误导致数据不一致,由于冗余的数据存放在不同的数据库中，如果不同数据库间的数据刷新不是实时的，则可能出现,数据不同步,的情况。如图,2-3,所示，在客户基本信息表中记录了,100,号客户“张山”的手机状态正常，如果此时张山去办理停机手续，在客户业务变更表中，张山的手机状态将被修改为“停机”，如果数据刷新不够实时，客户基本信息表中的手机服务状态将与客户业务变更表不同步。,客户基本信息表,客户业务变更表,客户号：100,姓名：张山,年龄：23,手机服务状态：正常,客户号：100,姓名：张三,业务变更：停机,图2-3 数据刷新不实时导致,数据不同步,（2）,数据,标准化,由于业务系统可能使用不同的数据库厂商的产品，比如,IBM DB2,、,Informix,、,Sybase,、,SQL Server,、,NCR,等，各种数据库产品提供的数据类型可能不同，因此需要将不同格式的数据转换成统一的数据格式。比如,图2-4,中所示的不同时间格式的差异。,（3）,数据,汇总,组合从不同数据源提取的数据；清除没有用途的源数据，将原纪录进行新的组合。,2.2.3 数据仓库体系结构,数据准备,3 数据装载：,数据仓库创建之初的数据装载；数据仓库使用过程中的数据装载。,2.2.3 数据仓库体系结构,数据存储,1 数据仓库：,提供数据存放的地方并提供数据检索支持。,数据的存储方式主要有,3,种：多维数据库、关系型数据库以及前两种存储方式的结合,。,2 数据集市,3 元数据,2,. 数据集市（Data Market）,面向企业的某个部门（主题）而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市。,区别：,数据仓库面向整个企业，而数据集市则是面向企业中的某个部门。数据仓库中存放了企业的整体信息，而数据集市只存放了某个主题需要的信息，其目的是减少数据处理量，使信息的利用更快捷、灵活。,3.元数据,数据是对事物的描述，“元数据”就是描述数据的数据，它提供了有关数据的环境。,事务型元数据：,元数据描述关于源数据的说明，包括源数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。,源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个Web页、哪个外部系统抽取而来。源数据说明源数据在数据仓库的作用、用途、数据类型和长度等。,元数据,抽取和转换,元数据：,是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动；关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。元数据反映数据仓库中的数据项是从哪个特定的数据源填充的，经过哪些转换、集成过程。,要有效的管理数据仓库，必须设计一个描述能力强、内容完善的元数据。,元数据,最终用户元数据：,是数据仓库的导航图，是最终用户可以在数据仓库中找到自己需要的信息，建立了最终用户的,多维商业模型和前端工具之间,的,映射,。,下面通过一个简单的例子说明元数据的基本内容，如图,2-5,所示,：,我们从,Customer,业务数据库的,user,表中取出,3,列（,user_id,user_name,address,）,在清洗转换过程中，将,user_name,从,char(20),转化成,varchar(50),格式，最终放进,User,维表（,User_ID,User_Name,Address,）中。在转换后，（,User_ID,User_Name,Address,）,3,列原始的存放位置、进行的清洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等等都将作为元数据的一部分,。,通常数据库将建立专用的元数据库来存放和管理元数据。,2.2.3 数据仓库体系结构,信息传递,独立的数据集市架构（Independent data mart architecture）,独立的数据集市架构有时也称为独立的数据仓库架构，应该是出现最早的架构方式，也是很常见的方式。特别是对于中小企业、中小开发公司，出于成本和见效快的考虑都会采用这种架构方式。大家对这种架构方式一定也很熟。,这种架构方式的缺点也很明显，不是企业内一致的数据，产生信息孤岛。当然如果企业就是很小，就一个系统，不用整合，一个数据集市足以的情况下采用这种方式也没什么。先期小投资，让企业看看效果，以后发展大了再考虑重新建立数据仓库。,数据仓库系统的体系,架构,数据仓库系统的体系结构,基于独立数据集市的数据仓库体系结构,2联邦式数据仓库架构（Federated data warehouse architecture）,它的出现是由于企业发展的初期建立了几个独立的数据集市架构，后来发现这样不行，数据没整合，要解决信息孤岛得想办法。推倒重建当然好，不过投入太大，以前的数据集市还想用，怎么办。于是，想出另一种办法，在各个独立的数据集市间建立一些对照表，在不推倒它们的基础上能进行一下数据交换。后来，慢慢发现，早想好整合策略，直接这样建数据仓库也可以，于是，地域联邦、功能联邦的概念也就都提出来了。,联邦架构的缺点也很明显，除非建立之初就采用类似总线架构的方法实现数据一致，否则很容易出现数据不一致，导致整合的不彻底。如果之初就考虑好的话，和总线架构的差别就不大了。当然，对于临时解决企业原有独立数据集市的数据交换问题，联邦架构还是有一定作用的。,3集中式架构（Centralized architecture）,集中式架构方式的出现，标识着数据仓库架构已经进入比较成熟的时期。,它,的架构方式是建立物理的EDW，即中心数据仓库，数据都集中的EDW中，应用和分析程序都在EDW中进行访问，数据是全企业内一致的。随着ROLAP的发展，在这种集中式架构中建立ROLAP开始比较流行，常见的 MicroStrategy公司的解决方案就是在EDW中建立ROLAP。ROLAP单独建表保存元数据，只保存维度模型的关系，不保存维度模型的数据，由MicroStrategy的应用去解析，加上应用服务器作为缓存，速度还可以。,这种方式也有一些缺点，如扩展能力差，对EDW所在的RDBMS要求太高，随着数据量和分析的逐步增长，就不得不再把数据进行分离。如果在EDW的基础上进行数据分离，为不同的应用单独建立数据集市或者挖掘仓库，集中式结构也就演变成Hub and Spoke架构方式。,4集线器和车轮辐条架构（Hub and spoke architecture或Corporate information factoryarchitecture）,企业信息工厂,应该是这种架构方式的最出色的代表。从名称我们也能大概猜个差不多，中心数据仓库 EDW从各个源系统收集数据，将数据提供给各个数据集市和挖掘仓库，功能和集线器很相似，所以称为Hub。如果大家把图画出来，可能会更形象一些，EDW 和各个源数据库及数据集市、挖掘仓库之间都连一条线，看起来就向一个车轮，这些连线就像车轮辐条，所以称为Spoke。而这种采用中心数据仓库EDW集成数据，再分散到各个数据集市使用数据的方式就形象的称为Hub and spoke architecture。,缺点,：,虽然是在集成的中心数据仓库EDW上建立数据集市，但是这些数据集市之间还是不能进行数据交换的，大家建立的方法和ETL程序都会不同，各个数据集市之间的数据不见得的是一致的。而且这种架构方式开始变得复杂。,5,总线架构（,Bus architecture,）,总线架构和,Hub and spoke architecture,的最大区别，应该是维度建模的原子层和一致性维度的建立。正因为预先建立的总线架构和一致性维度，所以这种架构可以保证在逐步建立数据集市的过程中还能保证企业数据的一致性。总线架构是数据仓库架构方式从复杂走向简单的一步，将维度建模的数据仓库原子层和数据集市合而为一，一层就把数据仓库建立好的，还能支持各种数据集市分析应用。,当然总线架构也有缺点，中心数据仓库以维度模型保存，对于特殊的非维度型分析应用会有局限性，支持的不好。,2.2.4 数据仓库的设计与实施建立,数据仓库的体系架构,与数据库应用系统的开发过程相比，有如下几方面不同：,面向的处理类型不同,；,面向的需求不同,；,系统设计的目标不同,；,两者的数据来源或系统的输入不同,；,系统设计的方法和步骤不同；,2.2.4 数据仓库的设计与实施建立,数据库应用开发过程SDLC,数据仓库的开发过程CLDS,数据仓库开发的特点：数据驱动,数据驱动,：,从已有数据出发的数据仓库设计方法称为“数据驱动”的系统设计方法。,利用以前所取得的工作成果,不再是面向应用,利用数据模型,数据模型是联系操作型数据环境的设计、数据仓库数据环境的设计、操作型数据处理应用的开发和设计以及,DSS,应用的开发与设计的纽带,规划,分析阶段,数据仓库,开发过程,设计实施,使用维护阶段阶段,数据仓库的螺旋式开发方法,数据仓库实现策略,数据仓库的数据模型,星型图模型,物理数据模型,概念模型,逻辑模型,物理模型,面向用户的需求,细化层次,更详细的,技术细节,信息包图,概念模型,由于大多数商务数据是多维的，但传统的数据模型表示三维以上的数据有一定困难。概念模型简化了这个过程并且允许用户与开发者和其他用户建立联系：,确定系统边界：决策类型、需要的信息、原始信息,确定主题域及其内容：主题域的公共键码、联系、属性组,确定维度：如时间维、销售位置维、产品维、组别维等,确定类别：相应维的详细类别,确定指标和事实：用于进行分析的数值化信息,实例,例,试画出销售分析的概念模型。,解：首先根据销售分析的实际需求，确定信息包的维度、类别和指标与事实：,（,1,）维度：包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。,（,2,）类别：确定各维的详细类别，如：日期维包括年（,10,）、季度（,40,）、月（,120,）等类别，括号中的数字分别指出各类别的数量；销售地点维包括国家（,15,）、区域（,45,）、城市（,280,）、区（,880,）、商店（,2000,）等类别，括号中的数字同样分别指出各类别的数量；类似地，可以确定销售产品、年龄组别维、性别维等的详细类别。,（,3,）度量和事实：确定用于进行分析的数值化信息，包括预测销售量、实际销售量和预测偏差等。,销售分析的概念模型,日期,销售地点,销售产品,年龄组别,性别,年,(10),国家,(15),产品类,(6),年龄组,(8),性别组,(2),季度,(40),区域,(45),产品组,(48),月,(120),城市,(280),产品,(240),区,(880),商店,(2000),度量和事实,:,预测销售量、实际销售量、预测偏差,信息包：,销售分析,维度,类别,概念模型图实例,逻辑模型,星型图：数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比，星型图模型简化了用户分析所需的关系，从支持决策的角度去定义数据实体，更适合大量复杂查询。,星形图包括了三种逻辑实体：指标、维度和详细类别,维表的本质是多维分析空间在某个角度上的投影，多个维表共同建立一个多维分析空间。,sales,数据仓库的雪花模式,星型模型例子,物理数据模型,物理数据模型：数据模型的第三层，它是星型图模型在数据仓库中的实现，如物理的存取方式、数据存储结构等。,在物理设计时，常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类，并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上，如硬盘；存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。,粒度,粒度：对数据仓库中的数据综合程度高低的一个度量，它既影响数据仓库中的数据量的多少，也影响数据仓库所能回答询问的种类。,粒度越小，综合程度越低，回答查询的种类越多；粒度越高，综合程度越高，查询的效率也越高。,在数据仓库中可将小粒度的数据存储在低速存储器上；大粒度的数据存储在高速存储器上。,维度,维度：是一个物理特性（如时间、地点、产品等），它是表达数据仓库中信息的一个基本途径，可作为标识数据的索引。通常的报表只包含有行和列两维，但在数据仓库中所存储的数据大多是用多维（三维或三维以上）视图表示的。,例如：,一个销售系统中的数据可分为时间维、产品维和地理位置维等；,一个财务系统中的数据可分为时间维、支出维和收入维等；,一个企业决策支持系统中的数据可分为成本开支维、销售收入维、利润维、股票价值维等。,聚合,在数据仓库技术中，每一维可包括多个层次，这些层次反过来可以向用户提供某一层次的数据。例如，在地理位置维中，由所有的街区组成了地区，由所有的地区组成了城市等。聚合就是指在维的不同层次内移动数据，从而构成维内不同层次的数据集，使用户不仅能够在一个维度内观察数据，而且能够在维度内的不同层次上观察数据。,聚合和汇总不同,分解与合成,分解与合成是在一个维度内进一步细分数据或将数据按照另一标准组合的过程。例如，当以地理位置维观察数据时，用户可以首先以国家（如中国）为单位观察数据，然后可以选择观察某一个地区（如华东地区）的数据，接下来可以选择观察某一个省或城市（如上海）的数据，这就是数据分解的过程。而合成则是分解的逆过程，例如用户开始以省市为观察对象，接着再以地区、国家等为观察对象，就是一个数据合成的过程。,数据仓库的数据组织,为了提高分析和决策的效率和有效性，分析型处理及其数据必须与事务型处理及其数据相分离，把分析型处理所需要的数据从事务型处理环境中提取出来，按照分析型处理的要求进行重新组织，建立单独的分析处理环境。数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。,数据仓库的数据组织结构不同于一般的数据库系统，需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。在数据仓库中，数据按照粒度从小到大可分为四个级别：早期细节级、当前细节级、轻度细节级和高度细节级。从事务型处理环境中提取的源数据经过综合后，首先进入当前细节级，并根据需要进行进一步的综合进入轻度综合级或高度综合级，老化的数据将进入早期细节级。,

展开阅读全文

商务智能技术基础

最新文档