01数据仓库概述849

上传人:痛*** 文档编号:244452604 上传时间:2024-10-04 格式:PPTX 页数:48 大小:731.88KB
返回 下载 相关 举报
01数据仓库概述849_第1页
第1页 / 共48页
01数据仓库概述849_第2页
第2页 / 共48页
01数据仓库概述849_第3页
第3页 / 共48页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第一章 数据仓库概述,纲要,数据仓库技术产生的背景,数据仓库定义,数据仓库的组成部件,商务智能,2,一、数据仓库技术产生的背景,决策信息的需求与当前信息状况的不足,操作性系统与分析性系统,新的数据环境的特点,3,现有的数据库系统的侧重点,现有的数据库系统,主要用于,事务,(Transaction),处理,一笔存款(一张存款单),一笔取款(一张取款单),一笔转帐(一张转帐单),一次挂失(一张挂失单),强调,多用户并发环境,数据的一致性、完整性,4,企业信息化建设现状,在数据库技术的支持下,一大批成熟的,业务信息系统,投入运 行,为企业发展作出了巨大贡献,各类信息系统大多属于,面向事务处理的,OLTP,系统,信息系统多年运行,积累了大量的数据,数据是一种宝贵的资源,但没有充分发挥作用,管理决策层对数据分析基础平台的需求日益强烈,5,企业信息化建设提出了更高的要求,市场竞争日益激烈,创造竞争优势,需要及时、准确的做出科学决策,科学决策必须以准确、有效的数据为基础,充分利用现有数据,将它转化为信息,以客户为中心的经营管理模式,优化客户关系,原有系统往往以产品为中心,原有系统往往以,“,单据(票证),”,的处理为基础,转向,“,以客户为中心,”,强调服务,尤其是,个性化服务,个性化数据,6,现有数据库系统处理,“,分析型,”,应用,存在的问题,数据可信性,生产率,不可能把数据转换成信息,数据动态集成问题,历史数据问题,数据的综合问题:非细节数据,多种程度的综合,7,分析处理的需求,例,1,:今年销售量下降的因素,时间:销售,地区:(销售,*,顾客),顾客地址所在的地区,商品:(销售,*,订单细则),商品类别,销售部门:销售,*,员工,*,部门,部门名称,例,2,:持卡人今年的交易情况与以往相比,有怎样的变化?交易特点(存款、取款、转帐、消费)是什么?持卡人消费倾向(宾馆、大型商场、超级市场等)是什么?,要求:,多个子系统中的数据(数据集成),历史数据,汇总、综合的数据,一致的数据视图,8,分析人员典型的信息需求,覆盖企业内部信息、合作伙伴信息和市场信息,覆盖综合信息和明细信息,覆盖当前数据和历史数据,高可用性,高质量的数据(一致性、完整性),支持各种不同的分析方法,数据定义符合业务人员要求,9,分析决策人员的挑战,组织内部,横向共享信息,数据的重构,个人授权,服务和质量管理,组织之间,合作伙伴,客户驱动的解决方案,战略联盟,价值链和供应链,市场,竞争对手,市场分割,实时的市场行情,全球化,10,数据可信性,数据没有同一时间基准,例如:一个企业的两个部门向管理者呈送报表,部门,A,,于星期天傍晚抽取了分析所需的数据,结论为业绩上升,10%,部门,B,,于星期三下午抽取了分析所需的数据,结论为业绩下降,15%,算法不同,部门,A,使用的是旧帐号 部门,B,使用的是大帐号,多次抽取,扩大了上述两个问题,用抽取程序从数据库或文件中抽取数据,并存放起来,然后又在此基础上再次进行抽取,从数据进入系统到提供分析往往经过,8,、,9,次的抽取。,11,数据可信性,外部数据问题,一位分析员把,华尔街日报,的数据带进系统,另一位将,商业周刊,的数据进入系统,数据一旦进入系统,往往已失去,“,身份,”,,并且一位分析员也不知道另一位分析员所输入的数据,开始时就不是同一个公共的数据源,部门,A,最初来源于文件,XYZ,部门,B,最初来源于,数据库,ABC,12,生产率,为了生成一个企业报表:,获得源数据,定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析,可能造成进一步的混乱,把数据加工成报告,要写许多程序,每个程序必须客户化(与客户环境有关),程序会涉及公司具有的各种技术,由于定位数据困难,检索所要的数据是一件很麻烦的事,完成任务需要很长时间,定位数据,+,获得数据,+,集成报告,完成任务所需时间较长,每份报告各自需求不同,因此每份报告所需要的时间都很长。,13,从数据到信息,例如:,“,今年的帐户情况与前五年比较,”,涉及大量应用:储蓄应用、贷款、即期汇票管理、信托,而这些应用并未集成。,没有足够的历史数据:,贷款部门,拥有二年的数据,银行存折处理,拥有一年的数据,即期汇票管理只有,60,天的数据,现金交易处理具有,18,个月的数据。,数据不一致问题:同名不同义、同义不同名,例如,M/F,,,Male/Female,外部数据和非结构化数据,14,两种报表的区别,例:就一个银行而言,出纳员需要,操作型报表,,因为他需要知道当天所有交易,来确定一天结束时的现金余额;,银行行长的长期战略决策(如决定一个地区安装,ATM,机 的数目)就需要了解大量的内部和外部信息,每天的交易报表对他意义不大,他更需要,分析型报表,15,2,操作型系统,vs.,信息型系统,操作型系统,OLTP,下订单,处理呼叫,装货,开发货单,收取现金,预定座位,16,信息型系统,给我销售量最好的产品名单,告诉我出问题的地区,告诉我为什么(向下钻取),让我看看其他的数据(横向钻取),显示最大利润,当一个地区的销售低于目标值时,提醒我,将数据写入数据库,从数据库中读取战略信息,操作型系统,vs.,信息型系统,操作型系统,信息型系统,数据内容,当前值,存档的,推导出来的,总结的值,数据结构,适于事务处理,适于复杂查询,访问频率,高,中、低,访问连接类型,读取、更新、删除,读取,使用方法,可预知的、反复性的,特别查询、随机的、启发式的应用,响应时间,快,一般,用户,大量,较少数,17,操作型环境和分析型环境,不同的需求,要求将操作型环境和分析型环境,相分离,在操作型环境中支持分析应用太复杂、太困难,操作性环境不支持域(,Domain,)之间的联系,仅仅支持表之间的连接,不同的数据环境要求从数据组织(结构)和操作上进行工作,18,3,数据仓库要解决的基本问题,全局范围内统一数据视图,数据内容,数据的完整性,数据的准确性,数据的一致性,数据组织,面向分析决策,19,数据仓库的功能性定义,数据仓库是一种,信息环境,,它能够:,提供对企业综合、完整的概括,使决策者所需要的当前数据和历史数据都方便易得,无需妨碍操作型系统,也能使支持决策的处理成为可能,使企业的信息保持一致性,提供了一个灵活的、交互的战略信息来源,20,数据仓库是信息传递的一种简单概念,数据仓库的来源在于对决策信息的需求和对操作型计算环境的不满,数据仓库不,“,创造,”,新的数据,数据仓库概念简单,使用所有现存的数据,通过清洗、转换,提供有用的决策信息,21,数据仓库是一种环境,而不是产品,你不可能买到数据仓库,但你可以构建自己的数据仓库,数据仓库新型计算环境的特点,数据分析和决策支持的理想环境,不固定,灵活、交互式操作,100,用户驱动,适合,”,提问回答再提问,”,的模式,22,纲 要,数据仓库技术产生的背景,数据仓库定义,数据仓库的组成部件,商务智能,23,1,数据仓库定义,数据仓库的创始者,Bill Inmon,:,“,A Data Warehouse is a subject oriented,integrated,nonvolatile,and time variant collection of data in support of managements decisions.”,“,数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合,”,24,“,面向主题,”,的数据,在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的,在数据仓库中,数据是按主题而不是按照应用程序存储的。,数据是跨应用程序的,25,订单处理,客户贷款,顾客帐单,可接收帐款,索赔处理,储蓄帐目,销售,产品,客户,帐户,索赔,政策,操作型应用程序,数据仓库主题,面向主题的数据组织,主题,:宏观分析领域所涉及的分析对象,面向主题,的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。,采用,面向事务,进行数据组织,其特点为:,充分考虑企业的部门组织结构和业务活动,反映企业内部数据流动情况,业务处理的数据流程,与业务处理流程中的单据、票证、文档有良好的对应,数据与应用(数据的处理)有一定的对应,例:保险公司:,面向应用(操作):财产险、寿险、健康险、意外险,面向主题:客户、保单、保费、理赔(赔款)。,26,“,综合,”,的数据,数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台),数据进入数据仓库前,需要进行的标准化工作:,命名规则,编码,27,储蓄帐户,支票帐户,贷款帐户,主题帐户,来自应用程序的数据,数据仓库主题,数据特性,度量单位,数据的,“,时间特性,”,数据仓库中的每一个数据结构都包含了时间要素。,数据仓库中的数据是和时间变化相关的数据,可以对过去进行分析,与当前的信息相关,可以对未来进行预测,28,数据的,非易变性(相对稳定),操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据,非实时性更新,数据仓库中的数据是用来进行,查询和分析,的,不能在数据仓库中实时地删除数据,不能在数据仓库中修改数据,29,决策支持系统,操作型系统,OLTP,数据库,数据仓库,读取 增加 修改 删除,读取,2,数据仓库和数据集市,数据仓库和数据集市,(Data Mart),是一个混淆不清的概念。是学术界争论的话题,Bill Inmon,(,1998,):,“,今年,IT,经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市,”,,今天依然如此。,在建立数据仓库前,我们需要考虑下列这些问题:,采取自上而下还是自下而上的方法,企业范围还是部门范围,先建立数据仓库还是数据集市,数据集市是否相互独立,30,数据仓库,vs.,数据集市,数据仓库,数据集市,完整的,从企业整体考虑的,部门的,所有数据集市的集合,一个单独的商业处理过程,从阶段区域得到的数据,星型结构,通过展示的方式进行查询,适合数据连接和分析技术,基于公司数据视角的结构,基于适合部门数据视角的结构,通过实体关系模式进行组织,31,纲要,数据仓库技术产生的背景,数据仓库定义,数据仓库的组成部件,商务智能,32,数据仓库的组成部分,(Component),33,源数据部分,主要类别,生产数据:多个系统多种数据的标准化、转换、整合,内部数据:表格、文档,存档数据:旧的历史的数据,外部数据:社会的企业,社会的人,34,数据准备部分,ETL(ETCL),数据抽取,(Extract):,多源、异构数据的抽取,数据转换,(Transform):,清洗,(Clean),、标准化等过程,数据装载,(Load),35,数据存储部分,数据仓库的数据存储器是一个独立的部分,与操作型的数据库分开存储,大多数数据仓库都采用关系数据库管理系统,36,信息传递部分,多种信息传递方式,特别的报表,复杂的查询,多维分析,统计分析,主管信息系统的需求,数据挖掘,37,元数据,MetaData,描述数据的数据,数据仓库内容的一本字典,元数据是数据仓库数据本身信息的数据,元数据对于数据仓库极其重要,38,纲要,数据仓库技术产生的背景,数据仓库定义,数据仓库的组成部件,商务智能,39,2007,年三大并购案,商务智能开始发力,渐入佳景,Oracle 33,亿美金 收购,Hyperion,SAP 48,亿欧元 收购,Business Object,IBM 50,亿美金 收购,Cognos,2006,年,ID
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!