资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,4,章,CRM,与数据仓库,安徽建筑工业学院 王素凤,第,4,章,CRM,与数据仓库,4.1,数据仓库概述,4.2,客户关系管理中的数据仓库,4.3,客户关系管理数据仓库的实施,案例分析,4.1,数据仓库概述,数据仓库与,CRM,有着难以割舍的密切关系,客户关系管理的很多工作都是以数据仓库为基础展开的。从某种意义上说,数据仓库是客户关系管理的灵魂。,4.1.1,数据仓库的产生,早期的数据库主要支持联机事务处理(,OLTP,),决策支持对数据分析的需求(,OLAP,),OLTP,与,OLAP,传统数据库系统不适宜,DSS,事务处理和分析处理的性能特性不同,数据集成问题,数据动态集成问题,历史数据问题,数据的综合问题,操作繁简问题,OLTP vs OLAP,OLTP,OLAP,用户,操作人员,低层管理人员,决策人员,高级管理人员,功能,日常操作处理,分析决策,DB,设计,面向应用,面向主题,数据,最新的,细节的,二维的,分立的,历史的,聚集的,多维的,集成的,存取规模,读,/,写,数条(甚至数百条)记录,读,上百万(甚至上亿)条记录,操作频度,非常频繁(以秒计),比较稀松(以小时甚至以周计),工作单位,严格的事务,复杂的查询,用户数,数百个,-,数千万个,数个,-,数百个,DB,大小,100MB-GB,100GB-TB,(,1,)事务处理和分析处理的性能特性不同,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。,在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。,(,2,)数据集成问题,DSS,需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。,造成数据分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。,(,3,)数据动态集成问题,静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如,24,小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。,(,4,)历史数据问题,事务处理一般只需要当前数据,在数据库中一般也是存储短期数据。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。,DSS,对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。,(,5,)数据的综合问题,在事务处理系统中积累了大量的细节数据,一般而言,,DSS,并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以,限制。,(,6,)操作繁简问题,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。,有人感叹:,20,年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。,要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。,数据仓库的数据从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到。,4.1.2,数据仓库的概念和特征,目前,数据仓库一词尚没有一个统一的定义。,著名的数据仓库专家,W.H.Inmon,在其著作,Building the Data Warehouse,一书中给予如下描述:,数据仓库(,Data Warehouse,),是一个面向主题的(,Subject Oriented,)、,集成的(,Integrate,)、,相对稳定的(,Non-Volatile,)、,反映历史变化(,Time Variant,),的数据集合,用于支持管理决策。,数据仓库概念的两个层次,功能上,:,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库,;,内容和特征上,:,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改,。,数据仓库四个特点,-,面向主题,传统数据库:面向应用,抽象程度低;数据仓库:面向主题,抽象程度高;,面向主题可以独立于数据处理逻辑,适用于分析型数据环境,适用于建设企业全局数据库。,较高层次上的数据抽象,例如银行业有业务、货币、客户、机构、会计科目等主题,数据仓库四个特点,-,集成的,面向事务处理的操作型数据库,:通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的,表述方法不尽相同。,数据仓库,:数据是集成的,是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性。,数据仓库四个特点,-,相对稳定的,操作型数据库,:数据通常实时更新;,数据仓库,:数据一般被长期保留。因为数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。,数据仓库四个特点,-,相对稳定的,数据仓库四个特点,-,反映历史变化,操作型数据库主要关心当前某一个时间段内的数据;数据仓库通常包含历史信息,可以对企业的发展历程和未来趋势做出定量分析和预测。,数据时间期限:操作型系统一般是,6 0,9,0,天;数据仓库通常是,5,1 0,年。,操作型数据库含有“当前值”的数据,并能被更新;数据仓库中的数据仅仅是过去数据的快照。,操作型数据的,键码,结构可能包含也可能不包含时间元素,如年、月、日等;数据仓库的键码结构总是包含某时间元素。,数据仓库四个特点,-,反映历史变化,数据仓库本质,数据仓库实际上是一个,“,以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统,”,。,传统数据库系统重在“存”;数据仓库重在“取”。,数据仓库所要研究和解决的问题就是从数据库中获取信息。,4.1.3,数据仓库的内容,数据仓库的三个基本方面,数据的抽取,存储与管理,数据的表现,数据的抽取(,Extract,),数据的抽取,:将数据导入到数据仓库。,涉及技术,:互连、复制、增量、转换、调度和监控等。,数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性影响重大。,存储和管理,数据仓库的真正关键是数据的存储和管理。这决定了它有别于传统数据库,也决定了其对外部数据的表现形式。,数据的表现,数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于,Web,前端联机分析界面,而不仅仅是在网上发布数据。,4.1.4,数据仓库系统体系结构,数据源,数据源,:数据仓库系统的基础,是整个系统的数据源泉。,通常包括:,企业内部信息,即各种业务处理数据和各类文档数据和外部信息;,企业外部信息,即各类法律法规、市场信息和竞争对手的信息等等。,常见的数据源,:关系数据库系统、面向对象数据库系统、传统的桌面数据库系统、文件系统等。,数据的存储与管理,数据的存储与管理是整个数据仓库系统的核心。,针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。,数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市,,Data Mart,)。,OLAP,服务器,OLAP,服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。,具体实现可以分为:,ROLAP,、,MOLAP,和,HOLAP,。,ROLAP,基本数据和聚合数据均存放在,RDBMS,之中;,MOLAP,基本数据和聚合数据均存放于多维数据库中;,HOLAP,基本数据存放,于,RDBMS,之中,聚合数据存放于多维数据库中。,ROLAP&MOLAP,ROLAP,MOLAP,沿用现有的关系数据库的技术,专为,olap,所设计,响应速度比,molap,慢,性能好、响应速度快,数据装载速度快,数据装载速度慢,存储空间耗费小,维数无限制,需要进行预计算,可能导致数据爆炸,维数有限;无法支持维的动态变化,借用,rdbms,存储数据,没有文件大小限制,受操作统平台中文件大小的限制,难以达到,tb,级,(,只能,1020g),可以通过,sql,实现详细数据与概要数据的存储,缺乏数据模型和数据访问的标准,不支持有关预计算的读写操作,sql,无法完成部分计算,-,无法完成多行的计算,-,无法完成维之间的计算,支持高性能的决策支持计算,-,复杂的跨维计算,-,多用户的读写操作,-,行级的计算,维护困难,管理简便,前端工具,前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。,数据分析工具主要针对,OLAP,服务器,报表工具、数据挖掘工具主要针对数据仓库。,4.2,CRM,中的数据仓库,4.2.1 CRM,与数据仓库的关系,4.2.2,数据仓库的作用,4.2.3 CRM,数据仓库的系统结构,4.2.1 CRM,与数据仓库的关系,CRM,的业务整合需要数据仓库,数据清洁与集中需要数据仓库,数据分析需要数据仓库,4.2.2,数据仓库的作用,客户行为分析,重点客户发现,个性化服务,市场性能评估,客户理解,行为规律分析,组间交叉分析,4.2.3 CRM,数据仓库的系统结构,4.3,数据仓库的实施,数据仓库建立的基本框架,4.3.1,项目计划,项目计划:定义创建数据仓库的项目目标和确定项目范围,包括对项目计划的评估和流程的调整。,确定范围的主要任务:,了解方向性分析处理需求,确定信息需求,确定数据覆盖范围,4.3.2,业务需求分析,深入了解数据源,分析数据仓库系统所包含的主题域及其相互之间的关系,4.3.3,数据线,数据仓库设计:,模型设计、物理设计,数据预处理:,抽取、转换、加载,数据维护:,对元数据库的管理,4.3.4,技术线,技术选择,商业需求,当前的技术环境,计划的策略技术方向,产品选择,硬件平台,ETL,工具,OLAP,服务器,数据展现工具等,4.3.5,应用线,应用设计,设计标准的用户应用模板,包括:确定初始的模板集、设计模板的标准、设计详细模板、通过用户反馈进行改进。,应用开发,通过应用设计说明书,按照标准的软件开发流程,实现模板的设计。一般过程是:选择实现的方法,然后进行模板的实现、测试和数据验证,应用模板的维护。,4.3.6,系统运行维护,目标数据维护,元数据维护,根据元数据库定义的更新频率、更新数据项等计划任务来刷新数据仓库。,元数据的质量决定整个数据仓库的质量。,补充(一):数据仓库实施策略,“自顶向下”模式,“自底向上”模式,“平行开发”模式,“,有反馈的,自顶向下”模式,“,有反馈的,自底向上”模式,“,有反馈的,平行开发”模式,补充(二):国内企业数据仓库建设分析,国内企业数据仓库建设认识误区,如何做?,以应用驱动,由后向前规划,“想大做小”(整体设计、分步实施),三分段的设计思想,补充三:最佳实施方案,如何定义主题,主题设定后,应该分析哪些问题,如何定义这些问题,也就是模型或者计算公式是什么,当定义完公式后,数据结构应如何设计,解决了数据存储和管理后,数据仓库应用该如何展现,展现确定后,速度效率如何提高,硬件如何配置,要考虑到数据的安全、系统的安全,三星人寿保险实施,Sybase IQ,数据仓库应用案例,方案背景,解决方案,方案实施,SybaseIQ,客服代表的有趣神态,抓后脑勺型,纸上乱写型,摇鼠标型,打节拍型,
展开阅读全文