数据仓库与数据挖掘项目建设方案(DOC 106页)

上传人:Za****n* 文档编号:155521663 上传时间:2022-09-23 格式:DOCX 页数:106 大小:19.14MB
返回 下载 相关 举报
数据仓库与数据挖掘项目建设方案(DOC 106页)_第1页
第1页 / 共106页
数据仓库与数据挖掘项目建设方案(DOC 106页)_第2页
第2页 / 共106页
数据仓库与数据挖掘项目建设方案(DOC 106页)_第3页
第3页 / 共106页
点击查看更多>>
资源描述
数据仓库与数据挖掘项目建设1. 数据仓库知识简介1.1软件质量控制软件质量控制的主要目的是为了获得更高的开发效率,避免返工,提高产品的市场竞争力,从而为客户提高符合质量需求的稳定可靠的软件产品,同时它也是控制方法的集合,包括软件建模、度量、评审以及其他活动。1.2用于软件控制的一般性方法如下:1. 目标问题度量法,即通过软件质量目标并持续观察这些目标是否达到软件质量控制的一种方法2. 风险管理法,即识别与控制软件开发中对成功达到质量目标危害最大的哪些因素的系统性方法3. PDCA循环。这种方法发源于日本,是指计划plan,做do,检查check,和行动action1.3信息化的需求:随着信息化的高速发展,各行各业,各组织单位积累了大量的业务数据,这些数据存在于各单位的数据库,各种报表、文档中,真可谓是数据的海洋。这些数据中蕴含着组织业务活动的大量规则,包含着组织管理决策所需要的重要知识,从这些数据中挖掘出有价值的信息,为管理决策提供支持是政府和企业事业单位共同面临的问题。解决这个问题主要依赖于亮相技术:一是对整个组织各部门生产的各种业务数据进行统一和综合,把业务数据转化为商业信息,支持决策,即数据仓库。二是发现隐藏在各种数据之中有用的知识,即数据挖掘。1.4以银行为案例的IT整体架构1.5数据仓库的定义 数据仓库系统是指面向主题的、集成的、稳定的同时又是随时间变化的大量的数据集合。在综合使用一些应用软件下,用户获得想要的信息,最终为经营管理的决策提供有力的帮助 数据仓库系统的业务特征是业务需求的范围和内容,不像业务系统那样清晰和明确:系统建设的一个主要风险是体现在软件工程质量和串接方面存在较大的过程风险:系统建设的成功标准应该由应用系统的用户数及其使用频率作为重要参考依据。1.6数据仓库的建设过程的挑战如何来控制风险、如何来保证质量呢?把质量控制作为数据仓库建设的生命线,把它贯穿于数据仓库建设整个过程的始终。那么质量控制的中心环节又是什么呢?简单而言,包括事前控制:对方案和计划进行充分的咨询和论证;事中管理:对建设开发阶段进行持续不断的过程控制;事后控制:对于建设成果通过测试、评审、验收、试运行等方式进行面向结果的管理控制。1.7数据仓库的质量控制 关于数据仓库中的质量管理问题的研究,目前有几个主要的切入点:(1) 从数据仓库的设计入手,简历适合全方位质量控制的体系结构(2) 遵从生命周期观点,全过程控制数据仓库建设质量(3) 按照数据仓库凶的工作机制和部件构成来制定质量控制标准数据仓库质量从本质上说是总体数据质量的问题。数据仓库的质量问题是一个主观的标准问题,不同层次的人员对数据仓库的质量有不同的要求,必须根据追求的目标来制定质量的测评、预测标准并加以实现,才能真正达到质量控制的目的1.8数据仓库的精确定义上世纪80年代中期,“数据仓库之父”William.H.Inmon先生在其建立数据仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的数据集合。与其他数据库应用不同的是,数据仓库更像是一种过程,是对分布在企业内部各处的业务数据整合、加工和分析的过程。而不是一种可以购买的产品。1.9数据仓库的特点1.9.1 数据仓库是面向主题的主题是一个比较抽象的概念,是一种在较高层次上将企业信息系统中的数据综合、归类后进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、统一、一致的描述,能完整及统一地描述出各个分析对象所设计的相关企业的分项数据,以及数据之间的联系1.9.2 数据仓库是集成的全面而正确的数据是进行有效分析和决策的首要前提。在某一个主题的统帅下,需要对数据进行抽取、清晰、转换和加载等集成操作。因为:(1) 数据仓库的数据不是直接从原有数据库系统复制得到,因为原有数据库系统记录的是每一项业务处理的流水账,这类数据不适合用于分析处理。在进入数据仓库之前必须经过综合计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。(2) 数据仓库每一个主题所对应的源数据在原数据库中有可能有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量。显而易见的是,对不准确,甚至不正确的数据进行分析得出的结果将不能用于知道企业领导者做出科学的决策1.9.3数据仓库是相对稳定的操作型数据库中的数据通常实时更新,数据根据需要发生变化。数据仓库的数据主要供企业领导者决策分析之用,所涉及的数据操作主要是数据查询和分析,一旦某个数据进入数据操作主要是数据查询和分析,一旦某个数据进入数据仓库之后,一般情况下将会被长期保留,也就是数据仓库中一般有大量的查询操作和分析,修改和删除操作一般不多,通常只需要定期的加载、刷新。1.9.4数据仓库是相对时间变化的由于数据仓库中的数据是为了分析用的,这使得数据仓库中的数据总是拥有时间维度。数据仓库实际上就是记录系统的各个瞬态,并将各个瞬态连续起来形成动画,从而在数据分析的时候再现系统运动的全过程。数据提取的周期决定了动画间隔的时间,数据提取的周期越短,则动画的速度越快1.10数据成熟度*商业智能包含(数据仓库和数据挖掘)1.11商业智能(仓库和挖掘)能够帮助我们做什么 增加销售额 深化客户关系 研发客户关系 提供更好的服务 提升运营效率 降低成本 制定更好的决策1.12商业智能能够回答的一些重要的问题举例1.产品分析: 哪些产品是营利性最好的? 哪些产品是营利性最差的?2.销售分析 华南地区已经开设2年以上的商店,销售趋势是怎样的? 哪些产品具有向上的销售趋势,哪些客户群体在购买这些产品?3.客户分析 盈利性排在前10%的客户的特征是什么? 盈利性最差的10%客户的特征是什么? 哪些客户在过去6个月中的购买量超过了所有客户购买量均值2个标准差? 盈利性最好的客户群居住在什么地方?1.13数据仓库的体系架构数据仓库的简单层1. 源数据层:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存在于关系型数据库系统(Relational DataBase Management System,RDBMS)中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。2. 数据导入层:主要进行数据清洗、转换、加载(Extract-Transform-Load,以下简称ETL)。把处理后符合业务逻辑规则的数据导入到数据仓库中。通过ETL调度管理、ETL日志管理、ETL出错管理来控制管理数据加载的整个过程。通过数据质量管理进行数据的检查,及时地控制管理数据的质量情况。3. 数据存储层:是整个数据仓库的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。数据集市可能是企业及数据仓库的一个组成部分。4. 数据应用层:主要分为查询、统计报表、多维分析和数据挖掘四大类应用。5. 数据展现层:主要分为三大类。有一定技术经验的业务人员进行多维分析、数据挖掘;普通业务人员进行查询、统计报表打印;管理人员进行用户管理、权限管理等。1.14数据仓库总体架构*与上一张图异曲同工1.15商业智能技术1. 数据仓库:跨功能的数据库 历史细节数据 中型到大型的数据库2. 数据集市:聚焦在选定的主题上 依赖的(数据直接来自企业数据库) 独立的stand-alone3. 多维分析 通过多个业务主题对汇总数据进行分析 以性能为导向对数据的不同层次进行钻取4. 数据挖掘:工具驱动 依赖算法识别和预测1.16数据仓库系统特征1. 满足分析或决策类的应用需求非操作型的应用2. 一套整体性的决绝方案由数据库、前端工具、系统管理平台等部分组成3. 仓库的特点(1)高质量的数据平台面向主题的、集成的、非易失的、随时间变化的数据存储业务数据的统一视图数据的一致性和完整性(2)灵活的分析和展现平台 满足分析、查询、报表等多种类型的应用需求1.17企业级数据仓库模型的规划1.18数据质量管理体系1.19 OLAP多维分析1.20 成功几个简单原则总体规划,分别实时,急用先行,沿途下蛋1.21 分步实施规划原则1. 紧迫程度主要是从业务角度来讲的,主要因素包括: 业务需求的紧迫性 业务需求的重要性 项目点可能带来的效益大小2. 难易程度主要是从技术方面考虑,影响因素包括 可行性、实现的复杂程度 周期的长度 技术的成熟度 准备工作的进度 是否有足够的数据支持 关键技术是否成熟1.22 数据仓库管理概述数据仓库的管理在不同的数据仓库建设阶段,其范围和内容是不同的。数据仓库管理以数据仓库的生命周期分为规划、开发、运行和维护三个阶段。与传统应用系统不同的是,数据仓库的开发是一个持续整个生命周期的不断演进的过程。1.23在不同的阶段,数据仓库管理的重点是不同的1. 数据仓库的规划阶段 在现有系统中的位置、与现有系统的依赖关系; 前景需求的描述; 业务需求的确立; 实施条件的审核2. 数据仓库的设计与实施阶段 项目的范围和计划的管理 系统风险管理 人员和组织结构的简历 系统架构管理 数据仓库技术的选用 关键成功因素的确立3. 数据仓库支持与完善阶段 数据一致性的维护 性能的维护 需求变更的维护 备份与恢复的维护1.24人员的组成看系统结构商业智能系统逻辑架构2. 数据仓库需求管理2.1 有哪些需求2.1.1 有哪些需求需求收集阶段的目标是搜集业务与IT需求,并且确定数据仓库主题。这包括确定并记录下列类型的需求。 功能需求:用来说明系统将做什么 非功能需求:确定将要建立的系统特性。如性能、可靠性、可用性、安全性、接口需求与设计约束等 系统开发过程的详细需求:包括使用的方法论、安装与发布需求、验证、测试与培训需求等2.1.2 需求和需求分析的内容 需求分析的先决条件包括项目计划、主题模型、项目风险分析、数据质量估计、安全系统文档、安全特征、用户概况、评价数据仓库标准、性能标准、主题、宏观信息需求、IT标准、IT结构、开发测试与生产环境及其期限、信息结构文档、宏观业务需求和基本的维模型等。 可提交的文档包括:已确认的验证后的数据异常报告、详细需求文档、测试计划、培训策略和项目计划等。2.1.3 需求分析的方法2.2 详细需求的收集需求分析的第二步是收集详细需求。采访用户是获得需求的最惯用的方法。采访需要记录,并且将采访记录整理好以后由被采访者确认以及修改补充和再确认。调查者对需要调查的内容以及相关的业务术语有所了解,有采访提纲,能够与业务用户单独交谈,如果参与的人过多会使得采访者不会坦诚招待,或发生相互攻击等情况,并应该控制每次采访的时间,这样的话可以提高效率。2.3详细需求2.3.1 对详细业务需求的确定 详细的开发需求,包括:信息传输的平台、方法、形式及标准,用户站点的硬件平台,用户方人员的计算机使用经验与知识,当前使用的软件一级接口需求: 对用户情况进行调查,并且记录使用仓库的用户数量与类型。对每类用户的类型、安全约束、位置、计算环境等均进行调查 安全性需求,包括存取需求、装载开发及转换需求 性能需求,包括容量、响应时间和刷新等需求2.3.2 基本维模型的建立 确认用户的数据仓库类型需求。是需要一个单一的数据仓库,还是需要数据仓库加上依赖型的数据集市,或者仅需要一个单一的数据集市。 确认主题和基本维。建立数据仓库与所相关的数据集市的高级主题与基本维的文档。2.3.3 对信息结构需求的收集 确定数据仓库技术体系结构,详细说明支持数据仓库的操作型系统的配置。该信息需要包括下列有关的软硬件因素:OLTP系统名称与类型、平台(包括硬件与操作系统)、网络通信协议、可用的存储空间。 计划使用的软硬件,确定与描述数据仓库中计划使用的软件与硬件结构,确定必须添加到当前配置中的软硬件。 差距分析,确定当前的IT基础结构与构建数据仓库所需的IT基础结构之间的所有不足之处。 定义设计策略,需要为下列项目定义设计策略:安全模式、ETL、数据汇总、备份与恢复过程、错误恢复程序、数据转移策略等。2.3.4 分析数据质量 评价用于构造指定主题的数据质量。找出所有的质量问题并保证质量改正过程的执行。主要的质量问题包括正确性、完整性、及时性和唯一性。 评估数据完整性并记录发现的问题,为不完整数据的所有实例建立文档并保证改正过程的执行。 描述数据存在的质量问题,为操作型系统管理员与业务过程所有者建立报告,描述数据存在的质量问题以及它们对构建数据仓库的影响。 用户确认数据库质量问题报告,用户确认数据质量报告及建议的处理方法。 确认所有的业务规则,列出当前所有影响构建数据仓库的业务规则。2.3.5 收集培训需求确认或确定相关组的成员,并确认相关的培训需求。这些组包括项目组最终用户、测试组和维护人员等。本步骤的详细内容如下:2.4需求修订有关的文档设计及策略在收集有关需求的基础之上,更新审查有关文档、计划和策略(主要包括需求文档、测试计划、测试策略和项目计划等),完善、调整和更新有关的内容。所有修改过的方案都提交用户,得到用户的同意并确认。2.5需求阶段复审和总结完成需求分析阶段的主要工作之后,要对整个阶段的工作进行复审,同用户代表进行沟通协商,决定下一步的工作,将有关的文档资料提交给用户,如果同意继续下一个阶段的工作,则将有关文档提交给下一个阶段的有关人员。2.6需求及需求管理阶段质量控制的方法1. 定义并跟踪业务需求和系统需求开发的方法和流程 需求规则2. 需求分析第一步就是要分析企业整体业务,确定大的分析主题及其自主体,这对整个数据仓库需求分析工作是非常重要的。业务分析主题的确立有一下几个原则: 从业务角度出发,而不是从技术角度出发 各主题相互独立,关联度达到最低 涵盖企业的所有业务3. 完全以业务为主导,从分析企业整体业务入手,通过自上而下的业务分析,逐步理解和摸清各项业务工作的流程、职责和分析需求,再结合现有数据情况,形成一套完善的服务于业务工作的数据仓库业务需求。4. 定义并跟踪需求管理的方法和流程 选择需求管理工具 定义需求变更管理流程 需求配置管理5. 以“质量保证建议”的形式对跟踪过程中发现的问题进行分析,并提出解决方案建议。6. 在业务需求访谈的过程中按照以下方法工作:确认该部门现有的信息系统是否已经全部在列表中,是否有新的系统没在本次信息系统梳理的范围内(该系统有业务分析相关数据产生,可以作为数据仓库数据源使用)。7. 针对信息系统,进行以下内容的调查: 确认该系统目前的运行状态 确认该系统主要的业务职能 确定该系统目前采用的数据库类型,以及数据库目前管理部门是谁 。8. 和企业项目组以及业务部门相关人员,讨论系统和系统之间的关联关系以及迭代关系等。并且另外使用文档进行描述。9. 完全以业务为主导,从分析企业整体业务入手,2.7需求及需求管理阶段质量控制 从业务角度出发引导和采集客户需求 从分析方法出发总结和归纳客户需求 明确非功能性需求 有效控制需求的范围 有效控制需求的完备性 简历可交互的需求管理平台 建立需求变更控制2.8需求规划的指导思想 明确需求规划指导思想 从规避整个项目的业务风险和技术风险的角色进行规划 分阶段成果提交、加强和业务部门的交流与反馈工作2.9确认需求规划原则2.9.1业务角度 业务方面的覆盖性 业务需求的紧迫性 业务需求亮点选择2.9.2技术角度 技术应用的全面性 非功能性需求的可测量性 需求的数据满足度 需求的明确度2.10需求的大类 查询的需求 报表的需求 统计分析的需求 多维分析的需求 数据挖掘的需求2.11需求的成果1. 需求文档(签字确认过的):简单、易懂文字、图表、页面(或者DEMO),这个非常重要,是业务人员理解需求最有效的方法之一2. 正常情况下是一本书3.数据仓库建模3.1 关于数据仓库的数据建模1. 数据仓库是一个结构复杂的数据环境。一般的,数据仓库数据模型特指基础数据层的数据模型。2. 数据仓库数据模型同样存在概念模型、逻辑模型、物理模型及语义模型等不同层次。一般的,逻辑数据模型是数据仓库数据模型的起点与核心3. 由于数据仓库工程建设的庞大性与复杂性,一般的最佳实践建议基于既有的商用逻辑数据模型通过一定的客户化工作进行数据仓库数据模型的建设。 保障数据模型的设计质量 加快数据仓库的建设历程 3.2 模型的特点 数据往往是共享的,分布的用户访问集中的数据,要求数据结构不变或相对稳定,好的数据模型设计可以保持共享数据的一致性和用户访问的有效性。 数据模型清晰地描述了系统完整的数据流程,是应用程序作用于系统的中介,通过数据模型改进系统,可以提高系统的协调性与合理性,可以产生更好的系统设计。 数据仓库的分析类型决定了模型的类型和模型的内容,因为提问、报告及多维分析需要聚集、清晰的元数据结构。例如,多维分析需要变换粒度,这一点也要在模型中体现。一个清晰的数据仓库模型可以简化前端用户的任务。3.3 模型的类型企业级数据仓库的数据模型通常有两类:实体关系模型和多维模型。实体关系模型用来存储企业集成的交易详细数据,是多维模型的数据来源和今后应用扩展的基础多维模型主要是面向多维分析应用而建立的数据模型。3.4 模型设计的目标模型设计的主要目标是:建立企业级的DDS模型,为数据仓库的实施、应用、维护、发展提供基础支持,具体的目标包括: 梳理数据,作为DDS模型设计的基础 建立企业级逻辑模型 基于逻辑模型建立物理模型 在数据库上实现物理模型(备注:DDS是直接数字式频率合成器(Direct Digital Synthesizer)的英文缩写,是一项关键的数字化技术。与传统的频率合成器相比,DDS具有低成本、低功耗、高分辨率和快速转换时间等优点,广泛使用在电信与电子仪器领域,是实现设备全数字化的一个关键技术。)3.5 模型设计的方法为了保证模型的质量,我们制定了建模方法论,对DDS模型建立的步骤和具体操作给出了说明。多维建模过程遵循以下步骤: 梳理数据建模元素(建模元素包括:事实、度量、维度) 设计和完善事实、度量和维度 多维模型设计及验证 关系型数据库和OLAP逻辑模型设计、调整、验证 物理模型设计、实施3.6 设计原则在DDS建模的具体设计过程中,主要遵循4个基本的设计原则:3.6.1 中立性原则中立性原则就是指本次DDS所建的模型是中立的,可以在全企业共享的,并不偏向特定的应用。也就是说,DDS中的数据不仅可以为当前定义的应用服务,还可以为将来需要建立的应用服务。因此,我们在DDS的设计过程中,必须要兼顾各种不同类型的应用,例如,有很多数据可以同时面向OLAP和查询。3.6.2 常用性原则常用性原则是指DDS中的数据内容以常用为原则,即只有常用的数据才被纳入DDS,对于那些非常用的数据,则由ODS直接提供数据支持。(备注:操作数据存储ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。)3.6.3 多样性原则一般来说,DDS应该是多维的,即DDS中所有数据都使用多维模型来构建。但考虑到SSE(指令集)的实际情况,如果存在一些数据需求,它们既符合常用性原则(即它们比较常用),又不适合用多维模型来构建,那么我们将直接把这些数据从ODS复制到DDS中。当然这不是一个简单的复制过程,而是需要进行一定的整理,例如删除多余的字段、统一键值等等。3.6.4 方便性原则在建模的过程中,应当遵循方便性原则,即当数据冗余可以带来查询上的方便时,可以考虑在数据中适当增加冗余字段(尤其是维度表)3.7 数据资源层数据类别1.结构化数据:ER数据;多维数据2.非结构化数据:Word文件、PDF文件、E-Mail、图形文件3.8 数据仓库(数据集市)的数据模型设计该步骤完成数据仓库或数据集市的数据模型设计1. 设计数据仓库或数据集市的概念模型按照需求分析的结果以及确立的主题建立概念模型2. 设计数据仓库或数据集市的逻辑模型根据建立的概念模型以及相应的转换规则导出逻辑模型3. 设计物理数据模型从概念模型导出物理模型,即设计数据仓库中数据库结构、索引结构、实例化视图选择策略和数据分片等3.9 设计概念模型输入方法工具参与的角色输出基本维模型文档概念建模技术多维模型设计工具DWAR,DWE概念模型文档3.10 设计逻辑模型输入方法工具参与的角色输出概念模型文档逻辑建模,物理建模技术型性模型,三范式模型DWAR,DWE逻辑的数据仓库数据模型和数据集市数据模型3.11 设计物理模型输入工具参与角色输出逻辑模型文档常用建模工具DWAR,DWE数据仓库的物理模型和数据集市的物理模型3.12 逻辑模型设计的质量控制尽管应用星型模型和雪花模型可在概念模型设计中建立数据仓库的概念模型,但是无法直接依靠概念模型作为概念模型到物理模型转换的桥梁。数据仓库的逻辑模型应该与数据仓库物理实现时所使用的数据库匹配。由于目前数据仓库一般都建立在关系数据库基础上,因此,数据仓库设计过程中所采用的逻辑模型主要是关系模型。利用关系模型不仅可以创建星型模型与雪花模型中指标实体的关系模式,而且还可创建星型模型与雪花模型维度实体和详细类别实体的关系模式。进行数据仓库的逻辑模型设计时,一般需要完成分析主题域,确定转载到数据仓库的主题,确定粒度层次划分,确定数据分割策略,关系模式的定义和记录系统定义,确定数据抽取模型等。逻辑模型的最终设计成果应该包含每个主题逻辑定义,且将相关内容记录在数据仓库的元数据中,其中包括粒度划分、数据分割各类、表划分和数据来源等。3.13 逻辑模型设计质量控制的目标逻辑数据模型是根据相应的需求分析说明书以及数据来源分析建立起企业级的数据模型,监控所建模型的准确性、完整性和可扩展性。主要评审主题域是否可以正确反映用户的决策分析需求。从用户对数据使用的要求,评审数据粒度的划分和数据分割策略是否可以满足用户决策分析的需要;评审从指标实体、维实体和详细类别实体转换而来的各种关系模式是否满足关系第三范式要求;为提高数据仓库的运行效率是否需要对这些关系模型进行反规范化处理;数据的抽取模型是否建立了数据源与数据仓库的对应关系,数据的约束条件和业务规则是否在这些模型中得到了正确的反映。3.14 逻辑模型设计质量控制的方法1. 依据数据源状态报告和需求分析说明书对逻辑模型设计过程中的关键点进行跟踪检查2. 以“检查单”的形式对跟踪检查过程中发现的问题进行分析,并提出解决方案建议。3. 评审逻辑模型设计阶段所提交的交付文档,主要包括:主题域分析报告,数据粒度划分模型,数据分割策略,指标实体,维实体与详细类别实体的关系模式和数据抽取模型。3.15 跟踪检查以下关键点 逻辑模型是否能满足业务需求 数据与需求映像关系是否有明确说明 本阶段需要对需求分析报告中列出的每一条需求逐一进行分析,得出需求在实现过程中需要用到的数据,然后将这些数据的内容根据多维模型的要求分成事实、维度、度量三大类信息并记录下来 业务逻辑单元的划分是否合理 主题和事实表的确定是否准确3.16 常用的数据模型(主题域)资产、协议、财务、营销、客户、产品、渠道、机构、交易、地域,共10个主题域3.17 FS-LDM模型框架3.17.1从金融机构举例:3.17.2跟踪检查以下关键点: 数据粒度的确定是否合理 索引的策略是否合理 对于渐变维的处理是否能最好地满足业务需求 对于维度缓慢变化的解决一般有三种方案可以使用: 覆盖历史记录,直接更新维度字段的值 在维度表中增加一条新的记录,并且有标志说明这条记录的有效使用时间区间,这样可以保留历史记录 在维表中增加一个字段,记录已更改的记录旧的取值,这样也可以保留历史纪录,但是只能保留前一个修改历史。 3.17.3 当事人主题域细节模型局部展示3.17.4协议主题域细节模型局部展示3.17.5事件主题域细节模型局部展示3.17.5产品主题域细节模型局部展示3.17.6 地域主题域细节模型局部展示3.17.7 渠道主题域细节模型局部展示3.17.7 财务主题域细节模型局部展示4. ETCL策略和前端应用4.1 ETL设计数据仓库处理过程的设计是数据仓库设计的核心。它涉及到数据仓库初始装载、更新、维护、归档、转储以及应用接口等诸多方面4.2数据ETL过程设计根据模型设计的结果,设计ETL程序1. 数据初始ETL过程设计。ETL过程实际上由三个子过程构成:数据抽取、数据转换和数据加载。根据选用的数据仓库工具将数据从数据源抽取到临时数据集中,然后根据业务规则转换和集成为数据仓库中需要的数据格式,最后将转换的结果装入数据仓库。2. 数据更新ETL过程设计。根据规划的结果选择相应的更新策略,设计数据更新程序。3. 数据ETL过程中的错误恢复过程设计。该过程负责对相应的ETL程序在执行过程中的错误进行恢复,以保证数据仓库中数据的完整性、准确性。若ETL过程出错,则数据仓库中可能已经存在部分不完整的数据,需要将这些数据删除,然后再查找错误的原因,重新执行ETL程序等。4. 登记元数据。将关于ETL过程的元数据登记到元数据中心库中,便于进行管理。5. 制定单元测试计划从速度、数据质量等方面测试ETL过程是否满足用户需求。4.3数据归档转储设计1. 设计数据归档转储过程。当数据仓库中的数据超过了预定的时限,或者很少再被使用,要将它们归档到离线存储中,或者需要将细节的数据汇总成较粗粒度级别,而后将细节数据归档2. 设计错误恢复过程。即设计怎样确定在数据归档过程中发生的错误,以及恢复或者重启的过程。3. 登记注册元数据,在元数据中心库中登记关于数据归档过程的元数据4. 创建单元测试计划,测试数据归档过程是否满足功能需要。4.4备份与恢复过程设计设计备份与恢复过程中错误恢复过程、计划4.5作业调度过程设计 设计作业调度过程,即确定数据仓库中的过程的时序,建立一个次序,并且计算出工作的环境,建立调度策略和标准文档 设计错误恢复过程,在作业调度过程中发生的错误和恢复或者重启的过程 注册元数据,在元数据中心库中登记关于作业调度过程的元数据 建立单元测试计划,以测试作业调度过程是否正确4.6设计安全访问控制机制 设计数据安全机制,根据设计说明书设计数据 设计数据安全机制,根据设计说明书设计数据仓库安全性模型 注册元数据,在中心库中登记关于数据访问控制的元数据 创建单元测试计划,以测试安全访问控制机制是否正确4.7ETL的质量控制数据仓库中的数据是以面向主题的方式组织的,而业务数据库中的数据一般是围绕着一个或几个业务处理流程来组织的,因此,将数据从业务数据库中抽取并加载到数据仓库就不是简单的复制过程,而需要十分复杂的数据处理,即数据整合。数据整合的工作大致可分为4个步骤:数据抽取(Extract)、数据清晰(Cleaning)、数据转换(Transformation)、数据加载(Loading),即ETCL。在实际的项目实施过程中,源数据有时不经过清洗就直接转换加载进入数据仓库,这样的数据整合就变成了数据抽取、数据转换和数据加载,简称ETL。通常业内将数据整合的工作通称为ETL.4.8 ETL的质量控制的目标ETL质量控制的目标是保证ETL程序完成并通过测试,数据装载进入数据仓库并通过数据验证与检查。4.9 ETL的质量控制的方法1. 依据数据源状态报告、需求分析说明书、数据仓库逻辑模型及说明文档、数据仓库物理模型及说明文档对ETL过程中的关键点进行跟踪。2. 以“检查单”的形式对跟踪检查过程中发现的问题进行分析,并提出解决方案建议。3. 评审逻辑模型设计阶段所提交的交付文档,主要包括:数据源数据的映射表,ETL系统设计说明书,ETL子系统测试报告,ETL流程设计说明书,ETL调整维护说明书,ETL故障错误恢复恢复说明书,ETL数据质量控制策略及流程,ETL回溯设计说明书,数据装载工作报告,数据装载状态报告,ETL子系统测试报告,ETL用户手册,ETL系统备份恢复,ETL程序和源代码4.10 ETL的主要任务包括 数据源及其特性定义 数据抽取、转换和加载策略设计; 构建和测试初始加载的程序和处理流程; 构建和测试日常加载的程序和处理流程。ETL的设计与实施主要包括以下几部分工作: 数据源的确认 明确本系统的数据获取来源,包括数据源的数据存储格式、数据库类型 操作系统平台、网络状况以及数据源数据的更新周期与方式等。 源数据分析4.11 OLAP与前端的质量控制数据仓库和联机分析处理是决策支持系统的有机组成部分。数据仓库从分布在公司内部各处的OLAP数据库中提取数据并对所提取的数据进行预处理,为公司决策分析提供所需的数据:OLAP则利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。4.11.1质量控制的目标 本阶段质量控制的目标为保证OLAP模型的设计、加载策略、权限设计以及前端展现设计严格满足需求分析的要求; 保证为最终用户提供共享多维信息的快速分析和及时数据库查询,确保OLAP数据模型设计合理,具有良好的扩展能力; OLAP数据加载过程正确、高效;前端展现部分严格满足用户需求并且性能优越。4.11.2 质量控制方法OLAP质量控制方法主要是对以下四个过程进行评审: OLAP设计评审 OLAP开发评审 OLAP子系统测试过程及结果评审 性能优化方案及结果评审5. 元数据管理与系统维护5.1主要工具厂商 数据库厂商:DB2,Oracle,SUbase,MYSQL,SQL ETCL工具厂商:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle OLAP工具厂商:Cognos(Powerplay)、Hyperion (Essbase)、微软(Analysis Service)以及MicroStrategy几大厂商的产品。 前端展示厂商5.2元数据管理的质量控制 元数据是描述数据的数据,是指与业务和技术过程以及企业数据使用相关的所有数据及包含的知识信息。元数据通过定义数据仓库的内容,帮助用户找到进行分析所需的相关信息。 元数据管理系统,从根本上讲,是将分散在数据仓库各个环节的、独立的元数据统一存储在元数据存储库中,并将各个元数据有机的联系在一起,因此,元数据管理系统的基本任务是实现数据信息的管理即元数据的管理。通过元数据管理,使分散的数据信息成为一个统一的整体。5.3元数据管理的质量控制目标元数据系统最终将提供对整个企业的元数据管理,实现企业级的运行环境视图。元数据管理将以数据仓库数据环境为核心,完成对相关业务元数据及技术元数据的集成及应用,提供数据路径、数据归属信息,并对业务术语、文档进行集中管理,通过变更报告、影响分析以及业务术语管理等应用,保证数据的完整性,控制数据质量,减少业务术语的歧义,建立业务人员之间、技术人员之间、以及业务人员与技术人员之间的沟通平台。5.4元数据管理的质量控制方法对元数据系统的质量控制,一般采用事前控制的方法。所谓事前控制是指在工作计划阶段或计划前,对所要开展的工作进行充分的咨询评估。通过这种分析评估对所要开展的工作进行充分的对比和论证,把相关的实施路径、关联关系、技术难点、业务范围都梳理清楚。这样在实施的时候就可以做到脉络清晰、有的放矢。5.5元数据建设目标元数据系统最终将提供对整个企业的元数据管理,实现企业级的运行环境视图。元数据管理将以数据仓库数据环境为核心,完成对相关业务元数据及技术元数据的集成及应用,提供数据路径、数据归属信息,并对业务术语、文档进行集中管理,通过变更报告、影响分析以及业务术语管理等应用,保证数据的完整性,控制数据质量,减少业务术语的歧义,建立业务人员之间、技术人员之间、以及业务人员与技术人员之间的沟通平台。(根5.3重复)5.6元数据需求情况1. 元数据是描述数据的数据,是指与业务和技术过程以及企业数据使用相关的所有数据及包含的知识信息。对本项目而言,元数据通过定义数据仓库的内容,帮助用户找到进行分析所需的相关信息。2. 元数据存储库中含有两类元数据:技术元数据和业务元数据。技术元数据是为企业技术用户和IT员工提供支持的元数据,而业务元数据是为企业业务用户提供支持的元数据。这两类元数据之间有着密切的联系,对数据管理用户来说,不仅需要业务及技术元数据的支持,而且还要通过业务与技术元数据之间的关系来提高管理质量。3. 元数据管理系统,从根本上讲,是将分散在数据仓库各个环节的、独立的元数据统一存储在元数据存储库中,并将各个元数据有机的联系在一起,因此,元数据管理系统的基本任务是实现数据信息的管理即元数据的管理。通过元数据管理,使杂乱无章的数据信息成为一个统一的整体。4. 根据元数据的内容,用户的应用需求可分为技术需求和业务需求两个部分,分别面向技术用户、业务用户以及数据管理用户。5.7元数据架构设计1. 元数据系统本身是一个完整的数据信息管理系统,因此,其体系架构的内容涵盖了从需求分析、应用设计到用户规划的整个过程,因此,元数据管理系统的建设包括以下五个步骤: 元数据需求定义 元数据管理实现 元数据应用实现 系统管理定义 系统运行维护定义2. 经过五个步骤的建设,元数据系统将包括:元数据应用模块、元数据管理模块、元数据展现模块、系统管理模块、系统运行维护模块共五大模块。5.8元数据架构设计(第九节)项目管理是一整套体系,特别是在像数据仓库建设这样的大型项目中。定位有3个:监督、审查和控制。1. 监督:指追踪项目进展情况和状态。审查:对项目的所有阶段性成果,或者里程碑式的成果,包括整个项目的技术路线、技术策略、技术方法、项目管理的方法与策略等项目有关的情况做出评估意见。2. 控制:分为事前、事中和事后三种:事前控制是尽量发现潜在的风险,提前给业主预警;事中控制则是在项目进行中发现问题后,推动问题的解决,并监控解决办法;事后控制是在发生问题后提供补救建议和措施。5.9项目整体管理的目标在数据仓库项目实施过程中切实的加强的各类风险控制和问题跟踪,切实的化解了风险、解决了问题并保证了项目整体的质量5.11项目整体管理的方法通过建立项目状态指标,对项目管理各个方面根据本数据仓库项目的实际情况定义不同的权重,以求真实的反映出各个时间点的项目状态1. 进度状态:是否按照计划执行,进度速度是否适当。2. 问题状态:问题是否严重到影响进度,问题是否持续未解决3. 风险状态:风险发生的可能性,发生后对项目造成影响的程度。4. 质量状态:质量控制的状态、整体质量状态5. 沟通状态:项目组内沟通是否疲劳,工作效率是否低下6. 环境状态:设备是否正常、软件环境是否正常、办公环境是否正常5.12项目总体管理的质量控制项目管理是一整套体系,特别是像数据仓库建设这样的大型项目。这里项目管理不再仅仅局限于项目的计划、进度、成本、质量等方面,而是结合数据仓库的特点紧密的结合数据仓库的实施过程,并在这一过程中切实的加强各类风险控制和问题跟踪,切实的化解了风险、解决了问题并保证了项目整体的质量。5.13项目总体管理的质量控制的目标项目总体管理质量控制的目标是在数据仓库周期中管理者通过一些列的管理活动,在一定的时间和预算范围内,有效地利用人力、资源、技术和工具,使数据仓库系统按照预期的计划和质量要求如期完成。5.14项目总体管理的质量控制的方法 制定项目计划。在项目启动前,制定项目整体工作计划,为项目的整体工作计划制定依据 确立相关会议制度。在项目管理的整个过程中制定相关的会议制度,针对不同层次的问题和风险实时、适度的举行会议讨论,保证项目各项工作的质量。 建立并各类管理指标,使整个项目状态和管理情况量化并使之成为项目进展质量的晴雨表和指南针。 确定项目管理的执行指标。项目的管理执行指标包括管理和执行两大部分,其中管理是指:管理能力体现项目管理方面的能力,以静态能力为主,强调对关键的活动进行了管理;执行是指:对各种计划、管理办法等的执行能力。通过项目管理执行指标可以明确的判断出项目的质量是否进行了有效的控制。5.15项目状态指标 通过建立项目状态指标,对项目管理各个方面根据本数据仓库项目的实际情况定义不同的权重,以求真是的反映出各个时间点的项目状态 数据仓库应用包含:需求、模型设计、ETL、前端应用、非结构化、Portal等 数据仓库管理包含:元数据管理、数据仓库管理、数据管理、备份与恢复等 进度状态:是否按照计划执行,进度速度是否适当 问题状态:问题是否严重到影响进度,问题是否持续未解决 风险状态:风险发生的可能性,发生后对项目造成影响的程度。 质量状态:质量控制的状态、整体质量状态 沟通状态:项目组内沟通是否疲劳,工作效率是否低下 环境状态:设备是否正常、软件环境是否正常、办公环境是否正常 通过这些指标的评定就可以得出整个项目量化的状态变化情况6 数据挖掘及其应用6.1什么是数据挖掘数据挖掘:(实际上有多重定义)是从大量数据中挖掘事先未知而又有应用价值的信息并将其用于决策过程中一个过程。6.2数据挖掘的主要特点 数据量大 发现过去未知、隐藏的信息 汲取有价值信息 使用所获得信息帮助制订重要商业决策6.3数据挖掘简单历史数据挖掘的目的是从数据库和数据仓库中提取有价值的信息并将其用于商业决策,人们普遍能接受上述的观点,但是在提取信息的方法上观点却可能明显不同。在过去的20多年里,银行、金融、证券和许多其他行业一直使用传统的统计分析的方法来有效识别潜在的客户和管理投资风险。但是,在过去的10多年里,非统计的方法已经出现并普遍成为一种衡量人们非统计的、平均行为的有效方式。这种非平均的行为提供了一个使用非统计方法的直觉上基础,这种方法已经成为数据挖掘的主要方法之一,不过统计的方法对许多数据挖掘问题仍然是非常有效。根据统计和非统计方法之间的不同把数据挖掘分为两种类型:假设驱动和发现驱动的数据挖掘。两者最大的区别在于提取信息的过程不同。6.4应用在寻找更为有效的区别能力中的若干数据源征信机构数据 行为数据 交易数据 调查数据 普查数据人口统计数据 应用数据 历史数据 通讯信息 统计机构数据6.5数据样本抽样 抽取的样本数据要足够的小,小到计算机方便处理 数据样本足够大,大到能够代表整体 高质量的数据6.6决定数据收集的因素 数据挖掘的目标 现有数据库 数据结构 现有数据源 使用更多数据的成本与效益分析6.7数据准备 派生新的属性(变量) 属性(变量)的转换 选择具有预估能力的变量6.8派生与转换1. 属性记录的最重要的方面可以概括为: 缺失值的处理 对歧义值的处理 指标性的一些变量的处理2. 缺失值经常具有预估能力并且信息需要被计算,例如利用标记物3. 数学的转换6.9属性的选择6.10在银行中可进行的数据挖掘主题范例目标模型 筛分模型 承保模型 行为模型 拖欠模型 破产模型 交叉销售模型 客户分割 损失预测模型 流失模型 收益能力分析 基于风险的价格分析欺诈探测 洗黑钱探测 新产品开发6.11在保险企业中可进行的数据挖掘主题范例目标模型 交叉销售模型 客户分割 损失预测模型 流失模型/挽留模型收益能力分析 基于风险的定价分析/制定利率 分析探测 索赔分析/索赔估算预测实际估算值 新产品开发 预算 资产负债管理6.12在证券行业中可进行的数据挖掘主题范例市场操纵的探测 内部交易的探测 关联交易账号的探测 市场趋势分析机构投资者的交易模式分析 投资者产出分析 批量交易分析 指数基金分析基金与其他金融产品的关联性分析 上市公司财务数据与股票价格关系分析海外市场与国内股票市场相关性分析 重大事件对市场的影响成员财务风险分析 成员交易风险分析 高风险上市公司分析6.13数据挖掘在税务应用框架6.14数据挖掘在税务应用6.15在电信业主要应用客户流失分析(Logistic回归或决策树)客户细分(聚类算法)重入网用户识别(消费指纹结合IMEI)交叉销售(关联规则、聚类、决策树等)客户细分6.15商业智能在零售业应用案例6.15在零售业应用主题客户分析 商品分析 销售分析 营销分析 供应商分析 门店分析 员工分析6.16任务时间分配6.17数据挖掘团队结构业务分析师、数据挖掘分析师(数据挖掘算法,数据)、IT专家、用户6.18 GBICC数据挖掘过程模型商业目标定义、数据源识别、数据手机、数据质量审核(数据合法性、合理性)、数据选择、数据转换、建模(利用工具软件)、结果评估、结果应用、模型监控7 数据挖掘算法7.1 数据挖掘功能、算法及典型应用(重要)7.2 分类 差异分析 逻辑回归/正态回归 决策树 神经网络7.2.1 基于传统统计学理论的判别分析TO classify each record as belonging to one of several well defined classes based on likelihood ratio7.2.2 逻辑回归7.2.3 正态回归7.2.4 决策树7.2.5 神经网络误区1:误区2:神经网络有很多关键点神经网络可分成两大类7.3 分类segmentation7.3.1 分类的对象7.3.2 分类目的举例7.3.3 K均值是一种基本的统计方法用户选择K的数值7.3.4 K均值的限制7.3.5 人口统计学分群挖掘7.3.6 人口统计学分群挖掘的工作7.3.7 举例说明1. 信用卡使用率的例子2.高端品牌店销售情况,把美国民众分成25类7.4 值预估7.4.1 线性回归7.4.2 非线性回归7.4.3静函数RBF预估7.5关联分析7.6 联合分析其中重要参数有:支持度(support factor),置信度(Confidence factor),提升度(Lift)7.7 时间序列分析7.8如何估算模型的效果的好的呢稳定的模型KSGains Chart(从图上看,神经网络比较好一些)7.9如何分类哪些最重要?数据准备很重要,步骤也很重要8 数据库营销和数据挖掘8.1 客户关系管理(CRM): 在合适的时间、通过合适的渠道、在合适的价格内、向合适的客户提供合适的产品8.2 5个合适代表什么? 新产品开发 渠道优化 价格确定(风险调整价格) 销售与市场 时效性*了解客户自身的喜好8.3 客户关系的核心是通过多方面的数据了解客户,以转变为以客户为中心型的企业 聚焦于每个个体客户的需求(客户级别而非账户级别) 跟踪企业与客户的互动,并把这些信息应用到商业决策中(通过数据及文本挖掘) 记录下来客户的需求和行为 市场活动旨在区分客户,而非区分产品商业智能数据仓库:数据集中和数据分析数据挖掘:利用数据挖掘算法的信息汲取过程8.4 举例:数据库营销案例-根据客户喜好理解客户需求8.4.1客户喜好可以从他们的财务活动及消费模式中识别出来8.4.2 喜好引擎把客户行为按喜好分层组织 喜好层次通常分为五级 最高一级是非常普通的喜好,像文艺、汽车、购物、金融、家政和运动等 下面各级逐渐揭示了越来越多的客户消费行为的细节 对消费行为的这种分层概括,有利于识别出其隐藏的消费喜好 这种对客户喜好的分析能够指导市场营销,使营销活动得到有效的响应和最高的收益。8.4.3 喜好引擎帮助银行把每个客户信息概括成具可操作性的客户行为定位看下面的图,逐渐细分level158.5交叉销售的关联分析8.5.1 对象8.5.2商业问题 如何加深我们与客户的关系 如何有效的提升收益 如何有效
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!