BI技术白皮书_装配图网

资源描述

商业智能技术白皮书 1第一章、第一章、数据仓库技术数据仓库技术.1一、一、数据仓库的背景和历史数据仓库的背景和历史.1二、什么是数据仓库二、什么是数据仓库.1三、三、数据仓库的组织结构数据仓库的组织结构.23.1、数据仓库的逻辑及物理结构.23.2、数据仓库系统.2四、四、数据仓库的物理存储形式数据仓库的物理存储形式.34.1、基于关系数据库的存储形式、基于关系数据库的存储形式.34.2、多维数据库存储形式、多维数据库存储形式.44.3、虚拟存储方式、虚拟存储方式.54.4、几种存储形式的比较、几种存储形式的比较.5五、数据集市.55.1、数据集市的产生数据集市的产生.55.2、数据集市的概念数据集市的概念.55.3、数据集市的特征数据集市的特征.5六、数据抽取、转换、清洗（六、数据抽取、转换、清洗（ETL）.66.1、ETL的重要性及概念的重要性及概念.66.2 ETL阶段的问题阶段的问题.6第二章、第二章、联机分析技术联机分析技术(OLAP).8一、什么是一、什么是 OLAP.81.1 、OLAP的起源的起源.81.2 、OLAP的概念的概念.81.3、OLAP的分类的分类.8二、二、OLAP 的多维数据结构的多维数据结构.92.1、OLAP的多维数据数据概念的多维数据数据概念.92.2、OLAP的多维数据结构的多维数据结构.9三、三、OLAP 的特点的特点.11四、OLAP 的功能.11第三章、第三章、数据挖掘技术数据挖掘技术.12一、什么是数据挖掘一、什么是数据挖掘.12二、数据挖掘的步骤二、数据挖掘的步骤.13三、数据挖掘的模式三、数据挖掘的模式.13四、数据挖掘的方法四、数据挖掘的方法.14第四章、各种技术的结合第四章、各种技术的结合.16 1第一章、第一章、数据仓库技术数据仓库技术一、一、数据仓库的背景和历史数据仓库的背景和历史随着计算机技术的迅速发展,信息处理技术也得到了长足的发展。计算机系统的功能从数值计算扩展到信息管理距今已有三十多年了，从 70 年代中期的 MIS 系统发展到现代的数据仓库(Data Warehouse)技术，用辩证的眼光来看，实际上是信息管理的一种回归，是螺旋式的上升。二十多年来，大量新技术、新思路涌现出来并被用于关系数据库系统的开发和实现，使得关系数据库系统的处理能力毫不逊色于传统封闭的数据库系统, SQL 的使用更使这一切成为不可阻挡的潮流，加上近些年来计算机硬件的处理能力呈数量级的递增，关系数据库最终成为联机事务处理系统的主宰。整个 80 年代直到 90 年代初，联机事务处理一直是数据库应用的主流。然而，应用在不断地进步。当联机事务处理系统应用到一定阶段的时候，企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势，他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析，而做出有利的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争环境下，这种基于业务数据的决策分析我们把它称之为联机分析处理比以往任何时候都显得更为重要。其实，将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中，人们却发现要获得有用的信息并非如想像的那么容易：第一，所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性，并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同，同一个数据库在理论上难以做到两全；第二，业务数据往往被存放于分散的异构环境中，不易统一查询访问，而且还有大量的历史数据处于脱机状态，形同虚设；第三，业务数据的模式针对事务处理系统而设计，数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。因此有人感叹：20 年前查询不到数据是因为数据太少了，而今天查询不到数据是因为数据太多了。针对这一问题，人们设想专门为业务的统计分析建立一个数据中心，它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来。这个数据中心是一个联机的系统，它是专门为分析统计和决策支持应用服务的，通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。二、什么是数据仓库二、什么是数据仓库数据仓库的概念在 90 年代初被提出来，以 Prism Solutions 公司副总裁 W.H.Inmon 在 1990 年出版的建立数据仓库(Building the Data Warehouse)一书为标志。W. H. Inmon 对数据仓库的定义为：数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。这也就是说：数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。主题是数据仓库中数据归类的标准，每个主题对应一个客观分析领域，如客户、商店等，它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据，经集成后进入数据仓库的数据是极少更新的。数据仓库的集成特性是指在数据进入数据仓库之前，必须经过数据加工和集成，首先要统一原始数据中的矛盾之处，还要将原始数据结构做一个从面向应用向面向主题的转变。数据仓库的稳定性是指数据经加工和集成进入数据仓库后是极少或根本不修改的。数据仓库是不同时间的数据集合，它要求数据仓库中的数据保存时限能满足进行决策分析的需要。从数据组织的角度来说，数据仓库是存储数据的一种组织形式，它从传统数据库中获得原始数据，先按辅助决策的主题要求形成当前基本数据层，再按综合决策的要求形成综合数据层（又可分为轻度综合层和高度综合层）。其最根本的特点是物理地存放数据，但这些数据并不是最新的、专有的，而是来源于其它数据库。数据仓库内的数据时限为 5 年至 10 年，主要用于进行时间趋势分析。数据仓库的数据量很大，一般为 10GB 左右。它是一般数据库（100MB）数据量的 100 倍，大型数据仓库达到 TB级。三、三、数据仓库的组织结构数据仓库的组织结构3.1、数据仓库的逻辑及物理结构数据仓库作为存储数据的一种组织形式，随着时间的推移，数据仓库的时间控制机制将当前基本数据层转为历史数据层。可见数据仓库中逻辑结构数据由 3 层到 4 层数据组成，它们均由元数据（Meta Data）组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式（空间超立方体形式）和基于关系数据库组织形式（由关系型事实表和维表组成）。以下是数据仓库的技术体系结构图信息目录模块数据仓库之元数据数据管理员模块数据仓库之数据数据获取模块数据传递模块中间件模块数据访问模块设计模块管理模块外部元数据源数据外部数据3.2、数据仓库系统数据仓库系统（DWS）由源数据、仓库管理和分析工具三部分组成。如下图：源数据源数据仓库管理仓库管理分析工具分析工具源数据：数据仓库的数据来源于多个数据源，包括企业内部数据、市场调查报告及各种文档之类的外部数据。仓库管理：在确定数据仓库信息需求后，首先进行数据建模，然后确定从源数据到数据仓库的数据抽取、清理和转换过程，最后划分维数及确定数据仓库的物理存储结构。元数据是数据仓库的核心，它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信息等。仓库管理包括对数据的安全、归档、备份、维护、恢复等工作，这些工作需要利用数据库管理系统(DBMS)的功能。分析工具：用于完成实际决策问题所需的各种查询检索工具、多维数据的 OLAP 分析工具、数据开采 DM 工具等，以实现决策支持系统的各种要求。四、四、数据仓库的物理存储形式数据仓库的物理存储形式数据仓库中数据的物理存储形式分为：基于关系数据库存储形式（由关系型事实表和维表组成）、多维数据库存储形式（空间超立方体形式）和虚拟存储形式。4.1、基于关系数据库的存储形式、基于关系数据库的存储形式基于关系数据库的存储形式就是将多维数据库的多维结构划分为两类表：一类是事实表，用来存储数据和维关键字；另一类是维表，即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起，形成“星型模式”。对于层次复杂的维，为避免冗余数据占用过大的存储空间，可以使用多个表来描述，这种星型模式的扩展称为“雪花模式”。星型模式(StarSchema)存在数据冗余、多维操作速度慢的缺点。但这种方式是主流方案，大多数数据仓库集成方案都采用这种形式。如下图：星型模式星型模式雪花模式(Snowflake Schema)的优点是：通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量，增加了某些查询的复杂性。如下图：雪花模型雪花模型4.2、多维数据库存储形式、多维数据库存储形式多维数据库（MultiDimesional Database，MDDB）存储形式就是以多维的方式存储数据，以多维的方式来显示数据，即将数据存放在一个 n 维数组中，而不是像关系数据库那样以记录的形式存放。 “维”是人们观察客观世界的角度，是一种高层次的类型划分。 “维”一般包含着层次关系。多维数据在存储中将形成“超立方块（Hypercube） ”的结构。超立方结构有一种变形，即收缩超立方结构。这种结构的数据密度更大，数据的维数更少，并可加入额外的分析维。当使用多维数据库作为数据仓库的基本数据存储形式时，其最主要的特点是：大大减少了以维为基本框架的存储空间，针对多维数据组织的操作算法，极大地提高了多维分析操作的效率。 4.3、虚拟存储方式、虚拟存储方式虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门的数据仓库来存储数据，只是把指针存储于中心位置，而数据仍然在源数据库中，只是根据用户的多维需求及形成的多维视图，临时在源数据库中找出所需要的数据，完成多维分析，数据源可以被实时地组合、传输和显示，而不必进行数据移动和复制，对于数据源也无须做任何改变。它让用户既能实时地看到历史数据，同时也能实时地看到当前数据，而不是像过去那样只看到历史数据。4.4、几种存储形式的比较、几种存储形式的比较多维数据库对多维概念表达清楚，占用的存储空间较小，而且数据的综合速度高，这些方面具有关系数据库无法比拟的优势，它也存在一些缺点：一是多维数据库管理系统缺乏标准；另一个问题是多维数据库管理大规模数据库的能力不够强大。基于关系数据库的存储形式，在灵活性和处理大规模数据的能力上完全可以满足数据仓库的需要。其不足在于数据库中存放了大量的细节数据和相对较少的综合数据，需要以牺牲效率为代价动态地综合数据。虚拟存储形式虽然较简单、花费少、使用灵活，但同时它也存在一个致命的缺点，即只有当源数据库的数据组织比较规范、没有数据不完备及冗余，同时又比较接近多维数据模型时，虚拟数据仓库的多维语义层才容易定义，在实际中这种方式很难建立起有效的决策服务数据支持。由于多维数据库管理系统及虚拟数据仓库技术的相对不成熟，关系数据库系统的广泛应用，目前在数据仓库市场上基于关系数据库的存储形式占据着主流地位。五、数据集市5.1、数据集市的产生数据集市的产生数据仓库的工作范围和成本常常是巨大的。信息技术部门必须针对所有的用户并以整个企业的眼光对待任何一次决策分析。这样就形成了代价很高、时间较长的大项目。因此更紧凑集成的、拥有完整图形接口且价格更具吸引力的工具即数据集市（Data Marts）应运而生。目前，全世界对数据仓库总投资的一半以上均集中在数据集市上。 5.2、数据集市的概念数据集市的概念数据集市是一种更小、更集中的数据仓库，是为企业提供分析商业数据的一条廉价途径。它是具有特定应用的数据仓库，主要针对某个具有战略意义的应用或具体部门级的应用，它支持客户利用已有的数据获得重要的竞争优势或找到进入新市场的解决方案。 5.3、数据集市的特征数据集市的特征数据集市的特征包括：规模小；有特定的应用；面向部门；由业务部门定义、设计和开发；业务部门管理和维护；能快速实现；购买较便宜；投资快速回收；工具集的紧密集成；提供更详细的、预先存在的、数据仓库的摘要子集；可升级到完整的数据仓库。六、数据抽取、转换、清洗（六、数据抽取、转换、清洗（ETL）6.1、ETL 的重要性及概念的重要性及概念我们可以这样给 ETL 下个定义，即 ETL 是数据抽取（Extract）、转换（Transform）、清洗（Cleansing）、装载（Load）的过程。构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。它关系到数据仓库的持续发展问题，因为当数据仓库进一步发展时，如果完善、精确、可预见的数据来源得不到保障的话，就将成为阻碍数据仓库发展的最大的障碍。6.2 ETL 阶段的问题阶段的问题整个数据仓库的建设如果按照其不同性质，可奖它分为三个截然不同的部分，分别是：源数据、数据准备、以及数据呈现，而 ETL 横跨数据源和数据准备，而我们常说的的 OLAP 分析和决策支持等，都是属于数据呈现的部分。在 ETL 阶段，需要经过许多步骤，如下图所示：在 ETL 阶段，有几个重要的问题：数据的有效性检查数据的有效性检查为避免数据冗余，要认识到数据装入数据仓库之前，应该对数据进行有效性检查，这是很重要的。如果没有进行数据的有效性检查，就有可能破坏依赖于数据仓库的商务分析的完整性，帮助检查数据的有效性的最好方法是源系统专家。源系统专家包括具有技术专业知识和非技术知识的人士。清除和转换数据清除和转换数据有效性检查是决定是否符合给定标准的过程。标准是依赖于制订的，为某个站点开发和执行的标准可能在其他地方毫无意义。如果数据不在给定的界限之内，它就成为我们称作 scrubbing（清除）过程的对象。清除数据包括对那些在给定范围之外的数据采取纠正措施。数据仓库中的数据来自于多种业务数据源，这些数据源可能是在不同的硬件平台上，使用不同的操作系统，因而数据以不同的格式存在不同的数据库中。如何向数据仓库中加载这些数量大、种类多的数据，已成为建立数据仓库所面临的一个关键问题。在转换结构中，确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。同步结构应当把重点放在转换语言的标准化、数据移动平台、通信策略和支持策略方面。数据仓库与操作数据存储器之间的同步过程能够采取不同的结构。除寻找自动化转换操作的工具之外，还应估计数据转换的复杂性。大多数传统的数据存储方法缺乏标准，常常有些不规则的东西让开发员摸不着头脑。工具正在不断改进以有助于转换过程的自动化，包括复杂问题，如掩匿的数据、传统标准的缺乏及不统一的关键数据。我们可以定义数据变换的几个基本类型，每一类都有自己的特点和表现形式：简单变换简单变换顾名思义，它是数据变换中最简单的形式，这些变换一次改变一个数据属性而不考虑该属性的背景或与它相关的其他信息。包括数据类型转换，日期/时间格式的转换，字段解码。清洁和刷洗清洁和刷洗清洁和刷洗是两个可互换的术语，指的是比简单变换更复杂的一种数据变换。在这种变换中，要检查的是字段或字段组的实际内容而不仅是存储格式。一种清洁是检查数据字段中的有效值。这可以通过范围检验、枚举清单和相关检验来完成，重新格式化也是一个主要方法。集成集成要把从全然不同的数据源中得到的业务数据结合在一起，真正的困难在于将它们集成为一个紧密结合的数据模型。这是因为数据必须从多个数据源中提取出来，并结合成为一个新的实体。这些数据来源往往遵守的不是同一套业务规则，在生成新数据时，必须考虑到这一差异。聚集和概括聚集和概括大多数数据仓库都要用到数据的某种聚集和概括。这通常有助于将某一实体的实例数目减少到易于驾驭的水平，也有助于预先计算出广泛应用的概括数字，以使每个查询不必计算它们。概括是指按照一个或几个业务维将相近的数值加在一起。聚集指将不同业务元素加在一起或为一个公共总数。在数据仓库中它们是以相同的方式进行的。数据仓库中存放的最具体的数据不与业务系统中存放的细节数据一样聚集。这时，就有必要在变换业务数据的过程中加入一些数据聚集功能。这可以减少存储在数据仓库中的行数。聚集还可以去除数据仓库中的过时细节。在许多情况下，数据在一定时期内要以很具体的水平存放着，一旦数据到了某一时限，对所有这些细节的需求就大大减弱了。此时，这些非常具体的数据应该传送到离线存储器或近线存储器中，而数据的概括形式则可以存放在数据仓库中。目前可以得到的数据刷洗工具中，许多都已内置了概括功能，尤其是在时间维上进行聚集的功能。当然，不管如何做到这一点，重要的是用户能够轻松地访问元数据，了解生成总和数据所用的标准。移动数据移动数据将数据移出操作系统一般包括：在数据最终复制到数据仓库之前，将它们拷贝到一个中间位置。理想状况下，拷贝数据的过程应该在操作系统不忙时进行。确保了解自己的商务及其支持系统。如果还未完成大量的更新，就不应该移动数据。如果数据仓库中的数据来自多个相互关联的操作系统，就应该保证在这些系统同步工作时移动数据。 1第二章、第二章、联机分析技术联机分析技术(OLAP)一、什么是一、什么是 OLAP 1.1 、OLAP 的起源的起源联机分析处理(On-Line Analytical Process OLAP)的概念最早是由关系数据库之父 E.F.Codd 于 1993年提出的。当时,Codd 认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此 Codd 提出了多维数据库和多维分析的概念,即 OLAP。到 90 年代中期，数据仓库已经形成潮流。在美国，数据仓库已成为紧次于 Internet 之后的又一技术热点。随着数据仓库的发展，OLAP 也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据；而 OLAP 则侧重于数据仓库中的数据分析，并将其转换成辅助决策信息。OLAP 的一个重要特点是多维数据分析，这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。OLAP技术中比较典型的应用是对多维数据的切片和切块、钻取、旋转等，它便于使用者从不同角度提取有关数据。OLAP 技术还能够利用分析过程对数据进行深入分析和加工。例如，关键指标数据常常用代数方程进行处理，更复杂的分析则需要建立模型进行计算1.2 、OLAP 的概念的概念根据 OLAP 委员会的定义，OLAP 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。OLAP 技术是对由语义动态对象建立的、以动态微立方结构形式存储的表进行向下钻取、向上钻取、跨越钻取、切片和切块等操作。OLAP 的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”这个概念，因此 OLAP 也可以说是多维数据分析工具的集合，是数据仓库中大容量数据得以有效利用的重要保障。其基本思想是：企业的决策者应能灵活地操纵企业的数据，以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。1.3、OLAP 的分类的分类可以在两个层面上对 OLAP 进行分类，按照存储方式的不同，可将 OLAP 分成 ROLAP、MOLAP和 HOLAP；按照处理地点的不同，可将 OLAP 分成 Server OLAP 和 Client OLAP。ROLAP 基于 Codd 的 12 条准则，各个软件开发厂家见仁见智，其中一个流派，认为可以沿用关系型数据库来存储多维数据，于是，基于稀疏矩阵表示方法的星型结构（starschema）就出现了。后来又演化出雪花结构。为了与多维数据库相区别，则把基于关系型数据库的 OLAP 称为 Relational OLAP，简称 ROLAP。代表产品有 Informix Metacube、Microsoft SQL Server OLAP Services.。ROLAP 采用星型模式来组织关系数据库数据很好地解决多维分析的问题。星型模式只不过是数据库设计中数据表之间的一种关联形式，它的巧妙之处在于能够找到一个固定的算法将用户的多维查询请求转换成针对该数据模式的标准 SQL 语句，而且该语句是最优化的。星型模式的应用为关系数据库在数据仓库领域大开绿灯。是数据仓库处理大规模的数据提供了极大的伸缩性。ROLAP 的优势：没有大小限制；现有的关系数据库的技术可以沿用；可以通过 SQL 实现详细数据与概要数据的储存；现有关系型数据库已经对 OLAP 做了很多优化，包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQl 的 OLAP 扩展等大大提高了 ROALP 的速度；可以针对 SMP 或 MPP 的结构进行查询优化。ROLAP 的缺点：一般比 MDD 响应速度慢；只读、不支持有关预算的读写操作；SQL 无法完成部分计算，主要是无法完成多行的计算，无法完成维之间的计算。MOLAP 严格遵照 Codd 的定义，自行建立了多维数据库，来存放联机分析系统数据。Arbor Software,开创了多维数据存储的先河，后来的很多家公司纷纷采用多维数据存储。被人们称为MuiltDimension OLAP,简称 MOLAP，代表产品有 Hyperion(原 Arbor software) Essbase、Showcase STRATEGY 等。MOLAP 在针对小型的多维分析应用有较好的效果，但它缺少关系数据库所拥有的并行处理及大规模数据管理扩展性，因此难以承担大型数据仓库应用。MOLAP 的优势：性能好、响应速度快；专为 OLAP 所设计；支持高性能的决策支持计算；复杂的跨维计算；多用户的读写操作；行级的计算。MOLAP 的缺点：增加系统复杂度，增加系统培训与维护费用；受操作系统平台中文件大小的限制，难以达到 TB 级；需要进行预计算，可能导致数据爆炸；无法支持维的动态变化；缺乏数据模型和数据访问的标准。HOLAP 鉴于 ROLAP 和 MOLAP 都有这样那样的缺点，于是产生了 HOLAP 这种 OLAP 模型，它综合了 ROLAP 和 MOLAP 的优点。它将常用的数据存储为 MOLAP，不常用或临时的数据存储为ROLAP，这样就兼顾了 ROLAP 的伸缩性和 MOLAP 的灵活、纯粹的特点。ClientOLAP 又称 DiskOLAP 相对于 Server OLAP 而言。部分分析工具厂家建议把部分数据下载到本地，为用户提供本地的多维分析。代表产品有 Brio Designer, Business Object.ClientOLAP 提供了有别以传统 OLAP 的实时性和极大的灵活.二、二、OLAP 的多维数据结构的多维数据结构2.1、OLAP 的多维数据数据概念的多维数据数据概念多维结构是 OLAP 的核心。OLAP 展现在用户面前的是一幅幅多维视图。 1、维、维假定某某是个百货零售商，有一些因素会影响他的销售业务，如商品、时间、商店或流通渠道，更具体一点，如品牌、月份、地区等。对某一给定的商品，也许他想知道该商品在哪个商店和哪段时间的销售情况。对某一商店，也许他想知道哪个商品在哪段时间的销售情况。在某一时间，也许他想知道哪个商店哪种产品的销售情况。因此，他需要决策支持来帮助制定销售政策。这里，商店、时间和产品都是维。各个商店的集合是一维，时间的集合是一维，商品的集合是一维。维就是相同类数据的集合，也可以理解为变量。而每个商店、每段时间、每种商品都是某一维的一个成员。每个销售事实由一个特定的商店、特定的时间和特定的商品组成。维有自己固有的属性，如层次结构（对数据进行聚合分析时要用到）、排序（定义变量时要用到）、计算逻辑（是基于矩阵的算法，可有效地指定规则）。这些属性对进行决策支持是非常有用的。 2、多维性、多维性人们很容易理解一个二维表(如通常的电子表格)，对于三维立方体同样也容易理解。OLAP 通常将三维立方体的数据进行切片，显示三维的某一平面。如一个立方体有时间维、商品维、收入维，其图形很容易在屏幕上显示出来并进行切片。但是要加一维（如加入商店维），则图形很难想象，也不容易在屏幕上画出来。要突破三维的障碍，就必须理解逻辑维和物理维的差异。OLAP 的多维分析视图就是冲破了物理的三维概念，采用了旋转、嵌套、切片、钻取和高维可视化技术，在屏幕上展示多维视图的结构，使用户直观地理解、分析数据，进行决策支持。2.2、OLAP 的多维数据结构的多维数据结构数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置，数据聚合在一起，其密度很大。因此，OLAP 系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上，有许多方法可以构造多维数据。 1超立方结构超立方结构超立方结构（Hypercube）指用三维或更多的维数来描述一个对象，每个维彼此垂直。数据的测量值发生在维的交叉点上，数据空间的各个部分都有相同的维属性。这种结构可应用在多维数据库和面向关系数据库的 OLAP 系统中，其主要特点是简化终端用户的操作。超立方结构有一种变形，即收缩超立方结构。这种结构的数据密度更大，数据的维数更少，并可加入额外的分析维。 2多立方结构多立方结构在多立方结构（Multicube）中，将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子集，面向某一特定应用对维进行分割，即将超立方结构变为子立方结构。它具有很强的灵活性，提高了数据（特别是稀疏数据）的分析效率。一般来说，多立方结构灵活性较大，但超立方结构更易于理解。终端用户更容易接近超立方结构，它可以提供高水平的报告和多维视图。但具有多维分析经验的 MIS 专家更喜欢多立方结构，因为它具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法，并能减少计算量。因此，复杂的系统及预先建立的通用应用倾向于使用多立方结构，以使数据结构能更好地得到调整，满足常用的应用需求。许多产品结合了上述两种结构，它们的数据物理结构是多立方结构，但却利用超立方结构来进行计算，结合了超立方结构的简化性和多立方结构的旋转存储特性。 3 活动数据的存储活动数据的存储用户对某个应用所提取的数据称为活动数据，它的存储有以下三种形式：（1）关系数据库）关系数据库如果数据来源于关系数据库，则活动数据被存储在关系数据库中。在大部分情况下，数据以星型结构或雪花结构进行存储。如下图：（2）多维数据库）多维数据库在这种情况下，活动数据被存储在服务器上的多维数据库中，包括来自关系数据库和终端用户的数据。通常，数据库存储在硬盘上，但为了获得更高的性能，某些产品允许多维数据结构存储在 RAM上。有些数据被提前计算，计算结果以数组形式进行存储。如下图：（3）基于客户的文件）基于客户的文件在这种情况下，可以提取相对少的数据放在客户机的文件上。这些数据可预先建立，如 Web 文件。与服务器上的多维数据库一样，活动数据可放在磁盘或 RAM 上。这三种存储形式有不同的性能，其中关系数据库的处理速度大大低于其他两种。 4OLAP 数据的处理方式数据的处理方式 OLAP 有三种数据处理方法。事实上，多维数据计算不需要在数据存储位置上进行。（1）关系数据库）关系数据库即使活动的 OLAP 数据存储在关系数据库中，采用在关系数据库上完成复杂的多维计算也不是较好的选择。因为 SQL 的单语句并不具备完成多维计算的能力，要获得哪怕是最普通的多维计算功能也需要多重 SQL。在许多情况下，一些 OLAP 工具用 SQL 做一些计算，然后将计算结果作为多维引擎输入。多维引擎在客户机或中层服务器上做大部分的计算工作，这样就可以利用 RAM 来存储数据，提高响应速度。（2）多维服务引擎）多维服务引擎大部分 OLAP 应用在多维服务引擎上完成多维计算，并且具有良好的性能。因为这种方式可以同时优化引擎和数据库，而服务器上充分的内存为有效地计算大量数组提供了保证。（3）客户机）客户机在客户机上进行计算，要求用户具备性能良好的 PC 机，以此完成部分或大部分的多维计算。对于日益增多的瘦型客户机，OLAP 产品将把基于客户机的处理移到新的 Web 应用服务器上三、三、OLAP 的特点的特点3.1 快速性快速性用户对 OLAP 的快速反应能力有很高的要求。系统应能在 5 秒内对用户的大部分分析要求做出反应。如果终端用户在 30 秒内没有得到系统响应就会变得不耐烦，因而可能失去分析主线索，影响分析质量。对于大量的数据分析要达到这个速度并不容，因此就更需要一些技术上的支持，如专门的数据存储格式、大量的事先运算、特别的硬件设计等。 3.2 可分析性可分析性 OLAP 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编程，但并不意味着系统已定义好了所有的应用。用户无需编程就可以定义新的专门计算，将其作为分析的一部分，并以用户理想的方式给出报告。用户可以在 OLAP 平台上进行数据分析，也可以连接到其他外部分析工具上，如时间序列分析工具、成本分配工具、意外报警、数据开采等。 3.3 多维性多维性多维性是 OLAP 的关键属性。系统必须提供对数据分析的多维视图和分析，包括对层次维和多重层次维的完全支持。事实上，多维分析是分析企业数据最有效的方法，是 OLAP 的灵魂。 3.43.4 信息性信息性不论数据量有多大，也不管数据存储在何处，OLAP 系统应能及时获得信息，并且管理大容量信息。这里有许多因素需要考虑，如数据的可复制性、可利用的磁盘空间、OLAP 产品的性能及与数据仓库的结合度等。四、OLAP 的功能4.1、对数据的多维分析对数据的多维分析多维观察是实际业务模型固有的要求，OLAP 应用能够从一种自然的、合乎人的思维心理的角度来灵活地观察、访问多维数据，为对事情的分析处理提供良好的基础。产生多维数据报表的主要技术就是“旋转”、 “切块”、 “切片”、 “上钻”和“下钻”等。旋转（Pivoting）：即将表格的横、纵坐标交换(x，y)(y，x)，通过旋转可以得到不同视角的数据。切片和切块（Slice and Dice）：主要根据维的限定做投影、选择等数据库操作从而获取数据。上钻和下钻（Roll up or Drill down）：钻取是用户获得详细数据的手段。它一般能回答为什么的问题。一层一层的钻取使我们能快速而准确的定位到问题所在。钻取的深度与维所划分的层次相对应。4.2、复杂的计算能力、复杂的计算能力对分析过程来说，常需要对数据进行深入的加工，把数据简单陈列给管理人员是不够的。OLAP系统能够提供丰富多样、功能强大的计算工具，但同时方法又简单明了，并且是非过程(non-procedural)的，从而可以及时完成系统的改变访问到即时信息。4.3、时间智能、时间智能对任何分析应用程序来说，时间都是不可缺少的一个因素。时间只有一维，因为它只能从前往后延伸。OLAP 系统能够很好的理解时间的这种序列特性。由于 OLAP 系统中对时间的智能管理，从而使得不同年份的同期比较和同一年份的期间比较等，成为很容易定义的事情。第三章、第三章、数据挖掘技术数据挖掘技术一、什么是数据挖掘一、什么是数据挖掘1.1、数据挖掘的历史、数据挖掘的历史近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对人们被数据淹没,人们却饥饿于知识的挑战。另一方面计算机技术的另一领域人工智能自 1956年诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段，目前的研究热点是机器学习。机器学习是用计算机模拟人类学习的一门科学，比较成熟的算法有神经网络、遗传算法等。用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后的知识，这两者的结合促成了数据库中的知识发现(KDD：Knowledge Discovery in Databases)的产生，因此，数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。数据挖掘又称从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持。KDD一词首次出现在 1989 年 8 月举行的第 11 届国际联合人工智能学术会议上。随后在 1991 年、1993 年和1994 年都举行 KDD 专题讨论会，汇集来自各个领域的研究人员和应用开发者，集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。随着参与人员的不断增多，KDD 国际会议发展成为年会。1998 年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论，并且有 30 多家软件公司展示了他们的数据挖掘软件产品，不少软件已在北美、欧洲等国得到应用。2.2 数据挖掘的概念数据挖掘的概念从 1989 年到现在，KDD 的定义随着人们研究的不断深入也在不断完善，目前比较公认的定义是Fayyad 等给出的：KDD 是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。从定义可以看出，数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。一般来说在科研领域中称为 KDD，而在工程领域则称为数据挖掘。二、数据挖掘的步骤二、数据挖掘的步骤KDD 包括以下步骤： 2.1、数据准备数据准备 KDD 的处理对象是大量的数据，这些数据一般存储在数据库系统中，是长期积累的结果。但往往不适合直接在这些数据上面进行知识挖掘，需要做数据准备工作，一般包括数据的选择(选择相关的数据）、净化（消除噪音、冗余数据）、推测（推算缺失数据）、转换（离散值数据与连续值数据之间的相互转换，数据值的分组分类，数据项之间的计算组合等）、数据缩减（减少数据量）。如果 KDD的对象是数据仓库，那么这些工作往往在生成数据仓库时已经准备妥当。数据准备是 KDD 的第一个步骤，也是比较重要的一个步骤。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。 2.2、数据挖掘、数据挖掘数据挖掘是 KDD 最关键的步骤，也是技术难点所在。研究 KDD 的人员中大部分都在研究数据挖掘技术，采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据 KDD 的目标，选取相应算法的参数，分析数据，得到可能形成知识的模式模型。 2.3、评估、解释模式模型、评估、解释模式模型上面得到的模式模型，有可能是没有实际意义或没有实用价值的，也有可能是其不能准确反映数据的真实意义，甚至在某些情况下是与事实相反的，因此需要评估，确定哪些是有效的、有用的模式。评估可以根据用户多年的经验，有些模式也可以直接用数据来检验其准确性。这个步骤还包括把模式以易于理解的方式呈现给用户。 2.4、巩固知识、巩固知识用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注意对知识做一致性检查，解决与以前得到的知识互相冲突、矛盾的地方，使知识得到巩固。 2.5、运用知识、运用知识发现知识是为了运用，如何使知识能被运用也是 KDD 的步骤之一。运用知识有两种方法：一种是只需看知识本身所描述的关系或结果，就可以对决策提供支持；另一种是要求对新的数据运用知识，由此可能产生新的问题，而需要对知识做进一步的优化三、三、数据挖掘的数据挖掘的模式模式数据挖掘的任务是从数据中发现模式。模式是一个用语言 L 来表示的一个表达式 E，它可用来描述数据集 F 中数据的特性，E 所描述的数据是集合 F 的一个子集 FE。E 作为一个模式要求它比列举数据子集 FE 中所有元素的描述方法简单。例如， “如果成绩在 81 90 之间，则成绩优良”可称为一个模式，而“如果成绩为 81、82、83、84、85、86、87、88、89 或 90，则成绩优良”就不能称之为一个模式。模式有很多种，按功能可分有两大类：预测型（Predictive）模式和描述型（Descriptive）模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。例如，根据各种动物的资料，可以建立这样的模式：凡是胎生的动物都是哺乳类动物。当有新的动物资料时，就可以根据这个模式判别此动物是否是哺乳动物。描述型模式是对数据中存在的规则做一种描述，或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。例如，在地球上，70 的表面被水覆盖，30 是土地。在实际应用中，往往根据模式的实际作用细分为以下 6 种： 1、分类模式、分类模式分类模式是一个分类函数（分类器），能够把数据集中的数据项映射到某个给定的类上。分类模式往往表现为一棵分类树，根据数据的值从树根开始搜索，沿着数据满足的分支往上走，走到树叶就能确定类别。 2、回归模式、回归模式回归模式的函数定义与分类模式相似，它们的差别在于分类模式的预测值是离散的，回归模式的预测值是连续的。如给出某种动物的特征，可以用分类模式判定这种动物是哺乳动物还是鸟类；给出某个人的教育情况、工作经验，可以用回归模式判定这个人的年工资在哪个范围内，是在 6000 元以下，还是在 6000 元到 1 万元之间，还是在 1 万元以上。 3、时间序列模式、时间序列模式时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质，像一些周期性的时间定义如星期、月、季节、年等，不同的日子如节假日可能造成的影响，日期本身的计算方法，还有一些需要特殊考虑的地方如时间前后的相关性（过去的事情对将来有多大的影响力）等。只有充分考虑时间因素，利用现有数据随时间变化的一系列的值，才能更好地预测将来的值。 4、聚类模式、聚类模式聚类模式把数据划分到不同的组中，组之间的差别尽可能大，组内的差别尽可能小。与分类模式不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪一（几）个数据项来定义组。一般来说，业务知识丰富的人应该可以理解这些组的含义，如果产生的模式无法理解或不可用，则该模式可能是无意义的，需要回到上阶段重新组织数据。 5、关联模式、关联模式关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则：“在无力偿还贷款的人当中，60的人的月收入在 3000 元以下。 ” 6、序列模式、序列模式序列模式与关联模式相仿，而把数据之间的关联性与时间联系起来。为了发现序列模式，不仅需要知道事件是否发生，而且需要确定事件发生的时间。例如，在购买彩电的人们当中，60的人会在3 个月内购买影碟机四、数据挖掘的方法四、数据挖掘的方法4.1、多层次数据汇总归纳、多层次数据汇总归纳数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合归纳成高概念层次信息的数据挖掘技术被称为数据汇总(Data Generalization) 。概念汇总将数据库中的相关数据由低概念层抽象到高概念层,主要有数据立方体和面向属性两种方法。 1、数据立方体(多维数据库)方法的主要思想是将那些经常查询、代价高昂的运算,如Count、Sum、Average、Max、Min 等汇总函数具体化,并存储在一个多维数据库中,为决策支持、知识发现及其它应用服务。 2、面向属性的抽取方法用一种类 SQL 数据采掘查询语言表达查询要求,收集相关数据,并利用属性删除、概念层次树、门槛控制、数量传播及集合函数等技术进行数据汇总。汇总数据用汇总关系表示,可以将数据转化为不同类型的知识,或将其映射成不同的表,并从中抽取特征、判别式、分类等相关规则。面向属性抽取的概念层次树是指某属性所具有的从具体概念值到某概念类的层次关系树。概念层次可由相关领域专家根据属性的领域知识提供,按特定属性的概念层次从一般到具体排序。树的根结点是用ANY 表示最一般的概念,叶结点是最具体的概念即属性的具体值,例如属性 City 的概念层次树如图 4 所示。概念层次为归纳分析提供有用信息,将概念组织为不同层次,从而在高概念层次上用简单、确切的公式表示规则。 Cai Cencone 利用属性值的概念层次关系,提出了面向属性的树提升算法,并得到一阶谓词逻辑表示的规则。面向属性的树提升方法主要是对目标类所有元组的属性值由低到高提升,使原来若干属性值不同的元组成为相同元组,进行合并,直到全部元组不超过最大规则数,再将其转化为一阶谓词逻辑表示的规则。与面向元组的归纳方法相比,面向属性的归纳方法搜索空间减少,运行效率显著提高 ;对冗余元组的测试在概括属性的所有值后进行,提高了测试效率;最坏时间复杂性为 O(N logP),N 为元组个数,P 为最终概括关系表中的元组个数。处理过程可利用关系数据库的传统操作。此方法已在数据挖掘系统DBMINE 中采用,除关系数据库外,也可扩展到面向对象数据库。 4.2、决策树方法、决策树方法利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支;在每个分支子集中,重复建立树的下层结点和分支的过程,即可建立决策树。国际上最有影响和最早的决策树方法是由 Quiulan 研制的 ID3 方法,后人又发展了各种决策树方法,如 IBLE 方法使识别率提高了 10%。 4.3、神经网络方法、神经网络方法模拟人脑神经元方法,以 MP 模型和 HEBB 学习规则为基础,建立了三大类多种神经网络模型:前馈式网络、反馈式网络、自组织网络。 4.4、覆盖正例排斥反例方法、覆盖正例排斥反例方法利用覆盖所有正例排斥所有反例的思想来寻找规则,比较典型的有 MICHALSKI 的 AQ11 方法、洪家荣改进的 AQ15 方法和 AE5 方法。 4.5、粗集、粗集(Rough Set)方法方法在数据库中将行元素看成对象,将列元素看成属性(分为条件属性和决策属性)。等价关系 R 定义为不同对象在某个或几个属性上取值相同,满足等价关系的对象组成的集合被称为等价关系 R 的等价类。条件属性上的等价类 E 与决策属性上的等价类 Y 之间的关系分三种情况: (1)下近似:Y 包含 E。对下近似建立确定性规则。 (2)上近似:Y 和 E 的交非空。对上近似建立不确定性规则(含可信度)。 (3)无关:Y 和 E 的交为空。无关情况不存在规则。 4.6、遗传算法遗传算法模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。 4.7、公式发现、公式发现在工程和科学数据库中,对若干数据项进行一定的数学运算,求得相应的数学公式。 BACON 发现系统完成了对物理学的大量定律的重新发现。 4.8、统计分析方法、统计分析方法在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。 4.9、模糊论方法、模糊论方法利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越高,精确能力就越低,模糊性就越强。这是 Zadeh 总结出的互克性原理。 4.10、可视化技术、可视化技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。另外还有归纳逻辑程序(Inductive Logic Programming)、Bayesian 网络等方法。 4.11、归纳方法、归纳方法基于归纳方法的空间数据采掘算法必须由用户预先给定或系统自动生成概念层次树 ,发现的知识依赖于层次树结构,计算复杂性为 O(logN),N 为空间数据个数。 4.12、聚集方法、聚集方法基于聚集方法的空间数据挖掘算法包括 CLARANS、BIRCH、DBSCAN 等算法。 4.13、统计信息网格算法、统计信息网格算法(STING) 该方法是一个查询无关算法,每个节点存储数据的统计信息,可处理大量的查询。算法采用增量修改,避免数据更新造成的所有单元重新计算,而且易于并行化。 4.14、空间聚集和特征邻近关系采掘、空间聚集和特征邻近关系采掘 (1)发现集合邻近关系:给定一个点的聚集,找到聚集的 K 个最邻近特征。CRH 算法寻找集合邻近关系,它是 Circle、Isothetic Rectangle 和 Convex Hull 的首字母缩写形式。CRH 用筛选器逐步减少特征个数,直至找到 K 个最接近特征。在 SPARC-10 工作站上的实验结果表明,CRH 作为一种近似算法,得出的结果相当精确,它能在约 1 秒 CPU 时间内从 5000 个特征中找到最近的 25 个。 (2)发现集合邻近的共性:给定 N 个聚集,找到与全部或大多数聚集最接近的公共特征类,即出现在同一分类中的相似特征,例如发现所有居民区都与中学相近,而不一定是同一所中学。Gencom 算法从 N个聚集的 N 个最近 K 个特征的集合中抽取集合邻近公共特征。第四章、第四章、各种技术的结合各种技术的结合以模型库为主体的决策支持系统已经发展了十几年，它对计算机辅助决策起到了很大的推动作用。数据仓库和 OLAP 新技术为决策支持系统开辟了新途径。数据仓库与 OLAP 都是数据驱动的。这些新技术和传统的模型库对决策的支持是两种不同的形式，它们可以相互补充。在 OLAP 中加入模型库，将会极大提高 OLAP 的分析能力。 90 年代中期从人工智能、机器学习中发展起来的数据开采，是从数据库、数据仓库中挖掘有用的知识，其知识的形式有产生式规则、决策树、数据集、公式等。对知识的推理即形成智能模型，它是以定性分析方式辅助决策的。数据挖掘的方法和技术包括决策树方法、神经网络方法、覆盖正例排斥反例方法、粗集方法、概念树方法、遗传算法、公式发现、统计分析方法、模糊论方法、可视化技术。把数据仓库、OLAP、数据挖掘、模型库结合起来形成的综合决策支持系统，是更高级形式的决策支持系统。其中数据仓库能够实现对决策主题数据的存储和综合，OLAP 实现多维数据分析，数据挖掘用以挖掘数据库和数据仓库中的知识，模型库实现多个广义模型的组合辅助决策，专家系统利用知识推理进行定性分析。它们集成的综合决策支持系统，将相互补充、相互依赖，发挥各自的辅助决策优势，实现更有效的辅助决策。其结构图如下：这种新形综合决策支持系统具有如下主要特点：1、数据仓库对底层数据库中的事务级数据进行集成、转换和综合，重新组织成面向全局的数据视图，为 DSS 提供数据存储和组织的基础。2、 OLAP 从数据仓

展开阅读全文

BI技术白皮书

最新文档