资源描述
Click to add title,Click to add text,Second level,Third level,Fourth level,Fifth level,#,商业智能,(Business Intelligence),与大数据概述,王闯舟,2013/12/16,于同济大学,背景简介,1983.9-1990.12,,同济大学电气,工,工程系,,自动控制专业,本科与硕,士,士,1991.1-1993.1,同济大学电气工,程,程系自动控制教,研,研室,1993.1-1994.7,德国,FESTO,上海办事处,1994.7-2009.7,美国,AT&T,公司、,NCR,公司、,Teradata,,在,Teradata,担任中国区副总,经,经理和,SeniorPractice Partner,,负责华北与华,东,东地区的,Professional Service,2009.7-2011.8,,东南融通系统,工,工程有限公司,,负,负责其商业智能,事,事业部的技术管,理,理工作,2011.8-,目前,文思创新,(Vanceinfo),、文思海辉,(Pactera),,负责其商业智,能,能解决方案业务,线,线,从,1996,年开始专注于商,业,业智能、数据仓,库,库领域的咨询与,项,项目实施服务,,主,主要为金融、电,信,信行业的客户提,供,供商业智能解决,方,方案,包括数据,仓,仓库基础平台、,CRM,、风险、运营管,理,理、财务管理等,领,领域,2,TOPIC,商业智能的应用示例,1,数据仓库解决方案架构,2,3,进入大数据时代,4,Q&A,3,什么是商业智能,Business Intelligence,商业智能通常被,理,理解为将企业中,现,现有的数据转化,为,为知识,帮助企,业,业做出明智的业,务,务经营决策的工,具,具。商业智能是对商业信,息,息的搜集、管理,和,和分析过程,目,的,的是使企业的各,级,级决策者获得知,识,识或洞察力(,insight,),促使他们做,出,出对企业更有利,的,的决策。,商业智能不是什,么,么新技术,它只,是,是数据仓库、,OLAP,和数据挖掘等技,术,术的综合运用。,数据仓库(,Data Warehouse,)是一个面向主题的(,SubjectOriented,)、集成的(,Integrated,)、相对稳定的(,Non-Volatile,)、反映历史变化(,Time Variant,)的数据集合,,用,用于支持管理决,策,策,(Decision Making Support)-,数据仓库之父,Bill Inmon,“,Building the Data Warehouse”,(,1991,),4,BI,应用案例:管理,驾,驾驶窗,5,BI,应用案例:客户获取,事例:争夺铁通的用户,实施者:中国电信某地,区,区公司市场部,使用应用名称:,数,数据仓库内结算,话,话单,步骤:,1,、对当月所有用,户,户的结算费用进,行,行排序,发现电,话,话号码,96368,的结算支出排名,最,最高,查询之前,各,各月份,它的排,名,名也最高,最近,一,一年每月平均结,算,算支出为,3390,元。,2,、查询,96368,的用户资料为,当地一,烟草公司客服号码。,3,、从数据仓库提,取,取其结算话单,,统,统计其与各个运,营,营商之间互通的,情,情况,发现其与,铁,铁通的用户互通,较,较多,造成结算,支,支出较大。,6,BI,应用案例:客户,获,获取,4,、针对铁通经营,的,的同样是固定电,话,话,电信的产品,完,完全可替代的特,点,点,派单给大客,户,户服务部,要求,大,大客户经理说服,烟,烟草公司把它的,分,分销商的电话全,部,部转为电信电话,。,。,5,、通过一系列综,合,合的营销手段,,成,成功把烟草公司,分,分销商转换为电,信,信用户,成效:,铁通,1842,个用户转为电信,用,用户,按门面电话的最低,ARPU 40,元,/,月计算,月创收,7.37,万,元,年累计创收,88.42,万,元,7,BI,应用案例:,数据仓库效益(国内,某,某股份制银行),实施前,实施后,营销名单获取时,间,间,4-6 Weeks,1 Day,业务及客户统计,报,报表产生速度,4-6 Weeks,1 Day,绩效分析能力,N/A,天,1,周,客户可接触率,15%,30%,一年能执行营销,活,活动数量,10,50+,活动平均反馈率,无法评估,8-30%,活动回报率,无法评估,Up to 60%,无,贷款容易有,风,风险,强大,客户单一视图能,力,力,8,BI,应用案例:,在市场营销的应用(某银行信用卡中心,),),基于数据仓库的,客,客户关系管理系,统,统,从了解客户,或,或客户细分开始,,,,在制定各种客,户,户产品渠道,的,的营销管理策略,时,时提供决策信息,支,支持,计划、执,行,行并管理各种行,销,销活动。,CRM,在银行卡管理中,提,提供新卡获取、,客,客户挽留和交叉,销,销售的功能,有,力,力推动银行卡业,务,务快速发展。,Ad-hoc query,Raw,Customer List,Ad-hoc query,Raw,Customer List,Ad-hoc query,Raw,Customer List,优化客户名单,Call Center,SMS,直邮客户获取营销邮件,依据分行及目标客户类型而有不同,数据仓库,2,。营销活动定义、名单进行去重、频率规则的限定和过滤,1,。初始客户名单通过,Brio,从数据仓库中筛选出来,并导入,TCRM,中,4,。渠道应用接触目标客户,传送促销信息,5,。数据仓库监控客户开卡事件,6,。使用,Brio,分析营销活动成功率,3,。名单和相应营销信息传送给不同的渠道系统,直邮,分行,CRM,系统的主要模块:,分析模块,沟通管理,个性化,模,模板与,规,规则,交互:,营,营销渠道整,合,合,(callcenter/SMS/Email),最优化,:,:营销,评,评估和,优,优化,CRM,投产之,后,后,已,经,经执行,了,了,170,多个营,销,销活动,,,,由于,实,实现了,目,目标客,户,户营销,,,,平均,每,每个营,销,销活动,的,的目标,客,客户从,百,百万级,降,降低到,10,万,乃,至,至,5000-1000,之间,,所,所以营,销,销成本,比,比系统,投,投产前,降,降低了,90%,以上。,投资回,报,报:,9,BI,应用案,例,例:客,户,户挽留,(,(某银行信,用,用卡中,心,心),07,年,10,月的预,测,测评分,结,结果显,示,示流失,概,概率,50,以上,的,的客户,为,为,93975,人;,在流失,概,概率,50,以上,客,客户中,,,,其中,3,的客,户,户贡献,86,利润,;,;,在挽留,客,客户的,营,营销活,动,动中,,将,将主要,的,的资金,和,和资源,用,用在,3%,高价值,客,客户上,,,,可节,省,省,97%,的营销,成,成本,,而,而得到,86%,的效果,;,;,流失概,率,率,50,60,的客,户,户贡献,度,度分布,:,:,投资回,报,报:,10,BI,应用的,背,背后,11,支持前,述,述类型,应,应用的,最,最佳实,践,践是构,建,建企业,级,级数据,仓,仓库,EDW,(数据,平,平台),,,,通过,一,一定的,数,数据模,型,型来整,合,合企业,内,内的各,种,种数据,,,,并在,此,此基础,之,之上构,建,建相关,的,的分析,型,型应用,这些应,用,用很难,在,在企业,原,原有的,OLTP,系统(,以,以交易,或,或者流,程,程为主,),)上实,现,现,如,果,果没有,数,数据仓,库,库,也,可,可以通,过,过手工,或,或者半,手,手工的,方,方式来,实,实现,,但,但非常,麻,麻烦,,很,很难重,复,复使用,BI,系统主,要,要通过,数,数据分,析,析来发,现,现数据,之,之间内,含,含的业,务,务规律,,,,其负,载,载类型,和,和负载,特,特征与,OLTP,系统有,很,很大的,差,差异,,一,一般都,需,需要建,立,立物理,独,独立的,系,系统,,并,并采用,适,适合,BI,负载环,境,境的专,门,门技术,平,平台,-,一般都,是,是以基,于,于,MPP,(,Massive Parallel Processing,)技术,的,的数据,库,库引擎,为,为基础,目前国,内,内主流,的,的,MPP,平台有,:,:,DB2, Netezza(IBMPuredata), OracleExadata,Teradata,EMC Greenplum(Pivotal), HP Vertica, SAPHANA.Microsoft,也推出,了,了它的,MPP,数据库,一,一体机,TOPIC,商业智能的应用示例,1,数据仓库解决方案架构,2,3,进入大数据时代,4,Q&A,12,数据仓,库,库解决,方,方案整,体,体框架,企业级数据,仓,仓库基,础,础平台,将,将采用,模,模块化,、,、参数,化,化的功,能,能设计,方,方式,,提,提高了,系,系统运,行,行的稳,定,定性并,有,有效的,降,降低实,施,施成本,和,和风险,。,。,13,EDW,体系架,构,构,应用体,系,系,应用主,题,题,应用模,式,式,应用方,案,案,实施规,划,划,数据体,系,系,数据架,构,构,近源层,基础层,汇总层,集市层,技术体,系,系,统一交,换,换,统一监,控,控,统一调,度,度,统一发,布,布,统一管,控,控,运维体,系,系,日常监,控,控,故障处,理,理,备份恢,复,复,系统安,全,全,组织架,构,构,管控流,程,程,管控内,容,容,管控体系,从应用,体,体系、数据体系、,技,技术体,系,系、运维,体,体系和,管,管控体,系,系五个,方,方面阐,述,述数据仓库整,体,体架构,14,应用体系,特定主,题,题的应,用,用,15,国内外,先,先进银,行,行总结,提,提炼了,一,一套数,据,据仓库,业,业务应,用,用框架,,,,包括,了,了客户,管,管理、,运,运营管,理,理、风,险,险管理,、,、财务,管,管理、监管,与,与信息,披,披露五大支柱的几百,种,种应用,为金融,机,机构的数据仓,库,库项目,建,建设和,推,推广应,用,用提供,了,了极好,的,的借鉴,。,。,客户管理,客户获取与挽留,客户细分与价值提升,交叉销售,/,向上销售,事件驱动营销,营销活动管理与优化,客户生命周期管理,风险管理,合规与信息披露,资产负债管理,金融犯罪识别,信用风险,市场风险,操作风险,财务管理,财务绩效管理,资本配置与管理,法规遵从与报表,产品捆绑与定价,财务管理流程优化,运营管理,交易渠道管理,销售渠道管理,渠道迁移与流程优化,绩效考核与报表,产品开发与定价,资源规划与管理,监管与信息披露,1104,报表,信息披露报表,15,应用体系,数据应,用,用规划,参,参考,16,跨领域,的,的应用,平,平台,客户管,理,理类应,用,用,风险管,理,理类应,用,用,运营管,理,理类应,用,用,财务管,理,理类应,用,用,监管与,信,信息披,露,露类应,用,用,零售,CRM,对公,CRM,客户营,销,销,管理系,统,统,即席查,询,询平台,数据挖,掘,掘平台,报表服,务,务平台,满足总,分,分行临,时,时数据,需,需求,支持业,务,务人员,进,进行业,务,务探索,客户聚类分析,产品购买关联,分,分析,客户流失概率,模,模型,行为评分模型,申请评分模型,财务报表,风险报表,监管报表,个人客户报表,对公客户报表,总帐报表,考评报表,产品报表,1104,监管报表,信息披露报表,新资本协议,应用群,资产负债管理,人行征信,人行反洗钱,特别关注客户,信息系统,关联方信息,查询系统,关键经营指标,分析系统,管理会计,系统,人行集中金融,统计,风险准备金,计提,客户利润贡,献度计算,贵宾服务,系统,客户积分,计算,客户经理,绩效考核,分行绩效,考核,渠道分析,中间业务分析,产品绩效分析,内部财务信息,分析,定价系统,个人客户内部,评级,境内机构网络,布局优化评估,战略性业务,指标,人行支付报表,分行分润,国家外管局,监管报表,高端客户,理财报表,技术缓存层,近源模型层,整合模型层,共性加工层,应用集市层,数,据,仓,库,仓内集市,仓内集市,仓内集市,仓内集市,仓内集市,仓内集市,仓外集市,仓外集市,仓外集市,仓外集市,仓外集市,应用,集市,示例,16,随机查询,具有,IT,和业务两方面,的,的知识和技能,,,,进行任意数,据,据探索和查询,,,,回答各种未,预,预先定义的业,务,务问题。,数据挖掘,在灵活分析的,基,基础上,对某,些,些业务问题进,行,行数据属性的,提,提炼和归纳,,如,如“评分模型,”,”、“违约模,型,型”、”细分,模,模型”等。,应用系统,支持复杂业务,逻,逻辑的应用系,统,统,包括营销,活,活动管理平台,、,、,ALM,、利润贡献度,、,、平衡计分卡,等,等。,实践表明,应,用,用系统的开发,离,离不开需求的,成,成熟和稳定,,只,只有通过大量,的,的灵活分析和,数,数据挖掘的应,用,用,才能形成,成,成熟稳定的应,用,用需求,反之,,,,应用系统在,业,业务中的大量,使,使用,又会促,进,进分析人员更,加,加深入、有效,的,的分析探索数,据,据。,数据挖掘,(Modeling),应用系统,随机查询,(Ad-hoc),固定报表,固定报表,以固定模式回,答,答简单、常规,的,的业务管理、,统,统计类问题。,应用体系,应用模式,17,数据仓库,数据挖掘的流,程,程,取样,评估与确认,模型化,、数据探索与转化,清洗数据与预处理,找出并了解业务问题,部署,到数据仓库,知识,建模前的预处理,通过样本组来建立预测模,型,型,通过对照组与行动,组,组的比较,评估模型的精准性;,通过行动组与不行,动,动组的比较,评估,执,执行环节的优,劣,劣。,18,应用体系,应用规划考虑维度,IT,部门除了考,虑,虑数据质量,、,、数据可用,性,性、投资预,算,算规模之外,,,,更重要的,是,是考虑应用,实,实施能否满,足,足业务用户,目,目前收益心,理,理预期等因,素,素,要想的,大,大(全面,,具,具体,全局,观,观)。,数据仓库建,设,设规划,要,分,分步骤进行,实,实施,起步,从,从小做起;,不同业务部,门,门对业务应,用,用的优先度,要,要求不同,,必,必须综合考,虑,虑不同部门,对,对业务应用,的,的策略价值,和,和投资回报,评,评价,形成,初,初步的规划,后,后,再经数,据,据仓库管理,委,委员会讨论,确,确定。,数据仓库建,设,设规划,通,常,常从以下三,个,个方面进行,评,评估:,实施难度:,IT,部门评估,策略价值:,决,决策层评估,投资回报:,应,应用部门评,估,估,19,IncreasingQuery andWorkloadComplexity,IncreasingDataDetail, Volume, Integration &Schema Sophistication,BI,应用模式的,类,类型与发展,Continuous Update &,Time Sensitive Queries Become Important,OPERATIONALIZING,WHAT,Is Happening?,Event Based Triggering,Takes Hold,ACTIVE WAREHOUSING,MAKING,it happen!,Continuous Update/Short Queries,Event-Based Triggering,Primarily Batch,Increase in Ad Hoc Queries,ANALYZING,WHY,did it happen?,REPORTING,WHAT,happened?,Analytical Modeling,Grows,PREDICTING,WHY,will it happen?,Batch,Ad Hoc,Analytics,IncreasingBusinessValueandImpact,20,EDW,体系架构,应用体系,应用主题,应用模式,应用方案,实施规划,数据体系,数据架构,近源层,基础层,汇总层,集市层,技术体系,统一交换,统一监控,统一调度,统一发布,统一管控,运维体系,日常监控,故障处理,备份恢复,系统安全,组织架构,管控流程,管控内容,管控体系,从应用体系,、,、数据体系、技术,体,体系、运维体系,和,和管控体系,五,五个方面阐,述,述数据仓库,规,规划。,21,数据体系,一个相对完,整,整的,BI,数据架构,应用集市层,面向应用,按需定制,共性加工层,初级的数据,加,加工,依赖对应用,的,的提炼,技术缓冲层,ETL,专用的纯技,术,术层,完全与源系,统,统结构一致,近源模型层,基本依照源,系,系统建模,尽量保持业,务,务数据原貌,整合模型层,面向整合,主题设计,提供规范和,共,共享,22,数据体系,整合模型层,定位,长期的,细,节,节的,整合,的,的数据存储,,,,为各类业,务,务需求提供,支,支持,特点,面向主题,,数,数据整合,提供规范和,共,共享,中性设计,,偏,偏范式化,,灵,灵活可扩展,细节信息,,保,保留长期历,史,史,23,数据体系,整合层模型,主,主题示例,Product &Service,Event,Agreement,Channel,Party,Asset,Finance &Risk,Region & Address,Marketing,Organization,24,建模总体原,则,则,数据整合原则,仓库建模总体原则,历史保留原则,中性原则,面向主题原则,3NF,原则,实体充分整,合,合,记录审慎整,合,合,状态历史保,留,留,关系历史保,留,留,25,Why 3NF,FurtherNormalised,Fully Normalised,5NF,4NF,3NF,2NF,1NF,(BCNF),特点,:,减少冗余,Integrity,屏蔽变化,,容,容易扩展,对数据库引,擎,擎多表连接,、,、复杂查询,的,的要求很高,业务人员不,容,容易理解与,接,接受,1NF:,第一范式(,1NF,):强调的,是,是列的原子,性,性,即列不,能,能够再分成,其,其他几列。,2NF:,除了满足,1NF,,还必须:,1,、必须有一个主键;,2,、没有包含在主键,中,中的列必须,完,完全依赖于,主,主键,而不,能,能只依赖于,主,主键的一部,分,分。,3NF:,满足,2NF,,另外非主,键,键列必须直,接,接依赖于主,键,键,不能存,在,在传递依赖,。,。即不能存,在,在:非主键,列,列,A,依赖于非主,键,键列,B,,非主键列,B,依赖于主键,的,的情况。,26,数据体系,共性加工层,定位,提供相对中,性,性,具有业,务,务意义的初,级,级加工数据,,,,支持上层,应,应用的数据,加,加工,或供,业,业务人员的,访,访问,特点,全局考虑,,提,提炼需求共,性,性,多层次设计,,,,多种数据,粒,粒度,侧重业务理,解,解,蕴含丰,富,富的业务规,则,则,27,数据体系,应用集市层,定位,提供特定应,用,用支持,特点,面向应用,形式各异,,各,各自独立,按需定制,,满,满足特定业,务,务的需求,报表集市,挖掘集市,多维分析集,市,市,28,数据体系,各数据层次,的,的定位小结,目标,以数据下载的结构为准,一般与源系统结构相同,数据可能是增量,也可能是全量,用于技术加工,短期的,细节的反应业务原貌的数据存储,直接提供基于源系统结构的简单原貌访问,为,BI,环境中适合的业务需求提供支持,长期的,细节的,整合的数据存储,为,BI,环境中适合的各类业务需求提供支持,相对中性,具业务意义的初加工数据,但不面向特定应用,作为上层应用数据加工的基础,或供业务人员直接访问,服务特定应用,原则,简单处理,关注源系统结构的变化,简单处理,不考虑整合,关注保留策略,面向全局,数据整合,中性设计,灵活扩展,提供规范和共享,提炼应用需求共性,多种数据粒度,易于理解和使用,面向具体应用,按需设计,形式,源系统模型,近源系统模型设计,根据支持应用情况可以保留短期历史,面向主题设计,偏范式化,长期保留历史,初步数据加工,分层设计,形式各异,依具体应用不同,重点,理解源结构,理解源结构,主题定义,框架设计,整合策略,实施方法,应用筛选,应用提炼,整体性,一致性,用途,不对外提供数据服务,业务原貌查询,即时报表,数据质量检查,灵活查询,整合规则检查,常规报表,灵活查询,业务规则检查,特定应用,技术缓冲层,近源模型层,整合模型层,共性加工层,应用集市层,29,企业级总体,数,数据架构,ESB,数据采集和交换平台,集成型数据区,历史,数据,访问应用,数据挖掘工具,监管报送平台,即席查询工具,数据集成平台,新核心,系统,老核心,系统,客户,系统,外围,系统,渠道,系统,外部,系统,(,外联平台,),操作型,数据区,分析型数据区,应用,服务区,应用服务器,报表工具,WEB,服务器,历史数据区,统一报表平台,管理会计系统,流动性风险,系统,市场风险系统,历史数据平台,数据挖掘平台,大数据平台,数据,交换区,实时事件处理平台,贴源模型层,(,ODS,),主题模型层,(,EDW,),应用,集,市,层,数据缓冲层,共性加工层,(GDM),国家审计署,平台,非现场审计,30,EDW,体系架构,应用体系,应用主题,应用模式,应用方案,实施规划,数据体系,数据架构,近源层,基础层,汇总层,集市层,技术体系,统一交换,统一监控,统一调度,统一发布,统一管控,运维体系,日常监控,故障处理,备份恢复,系统安全,组织架构,管控流程,管控内容,管控体系,从应用体系、数据体系、技术体系、运维体系和管,控,控体系五个方面,阐,阐述数据仓库规,划,划。,31,技术体系,统一数据交换,32,技术体系,统一调度架构,33,技术体系,统一监控架构,34,技术体系,统一信息发布,统一信息发布定,位,位,统一信息发布平,台,台定位为数据仓库体系的展现,平,平台,用于展现企业基础数据平台及所有,分,分析型应用资源,。,。分析型应用资,源,源的集成包含前,端,端界面的整合和,各,各应用后台数据,及,及权限的整合,登录,首页,公告,页面调用功能,分析型应用集成,角色管理,授权管理,系统管理,日志管理,会话管理,应用模式,固定报表,即席查询,数据挖掘,用户身份管理,统一认证,单点登录,安全审计,认证管理,统一信息,发布内容,统一入口,权限管理,应用集成,35,统一商业智能门,户,户功能架构,36,EDW,体系架构,应用体系,应用主题,应用模式,应用方案,实施规划,数据体系,数据架构,近源层,基础层,汇总层,集市层,技术体系,统一交换,统一监控,统一调度,统一发布,统一管控,运维体系,日常监控,故障处理,备份恢复,系统安全,组织架构,管控流程,管控内容,管控体系,从应用体系、数据体系、技术体系、运维体系和管,控,控体系五个方面,阐,阐述数据仓库规,划,划。,37,38,运维体系,运营维护,Title in here,Title in here,Title in here,Title in here,Title in here,Title in here,Title in here,Title in here,Title in here,日常,监控,变更,管理,问题,处理,容量,规划,备份,恢复,需求,管理,服务,水平,组织,架构,管理,工具,主管部门,技术支持部门,生产运行部门,数据支持部门,资源管理部门,资源监控,服务监控,应用监控,运行性问题,非运行性问题,变更规范,变更流程,设计原则,备份内容,备份策略,备份管理,技术缓冲层,整合模型层,共性加工层,应用集市层,制定,SLA,标准,落实标准,周期性考核,数据标准管理平,台,台,元数据管理平台,数据质量管理平,台,台,数据需求平台,项目需求,临时数据类需求,组织架构,日常监控,问题处理,变更管理,备份恢复,容量规划,服务水平,管理工具,需求管理,从现有的经验看,,数,数据仓库体系的,运,运行维护主要是,通,通过合理的组织,架,架构,制定易于,执,执行的运维管理,流,流程和规范,通,过,过完善的管理工,具,具,对系统监控,、,、问题处理、系,统,统变更等常规问,题,题进行系统化的处理,EDW,体系架构,应用体系,应用主题,应用模式,应用方案,实施规划,数据体系,数据架构,近源层,基础层,汇总层,集市层,技术体系,统一交换,统一监控,统一调度,统一发布,统一管控,运维体系,日常监控,故障处理,备份恢复,系统安全,组织架构,管控流程,管控内容,管控体系,从应用体系、数据体系、技术体系、运维体系和管,控,控体系五个方面,阐,阐述数据仓库规,划,划。,39,从数据质量相关故,障,障问题说起,40,案例,1,操作员反映银行内部对,账,账管理系统“存,款,款余额档的导入,”,”作业出错,.,故障现象,上游系统升级后,,,,由于业务需要,等,等原因对字段长,度,度进行了扩展,,导,导致上下游字段,长,长度不一致;,银行内部对账管理系,统,统的活期账务表,里,里的余额(可能,是,是活期、定期、,贷,贷款)在数据库,中,中定义为,13,位,但新核心对公中定义为,19,位(核心旧对公,是,是,13,位),,5,日中有一条数据,超,超过,13,位(,1900,多亿,,14,位),造成数据,从,从核心导入银行,内,内部对账管理系,统,统时溢出,批次,中,中断。,数据中心计划在,6,或,7,日进行数据字段,的,的扩展,目前排,查,查内部对账系统,中,中仍有部分字段,长,长度为,13,位,存在一定风,险,险。,问题分析,元数据变更问题,案例,3,管理员检查发现信贷统,计,计监测系统批次,作,作业“账户级别,统,统计中间新表”,执,执行出错。,故障现象,CMS,提供的客户风险,权,权重表存在,12,条客户编号为空,的,的记录,问题分析,空值问题,案例,2,电子银行部反映,ODS,平台电子银行报,表,表“电子银行渠,道,道替代率报表”,数,数据不正确。,故障现象,系统迁移导致的,数,数据计算口径发,生,生变化,原有计,算,算口径计算错误,问题分析,数据变更问题,,指,指标口径变化,,指,指标标准化问题,企业级数据管控,内,内容,数据管控是对企,业,业数据的综合治,理,理,通常来说,,落,落到具体层面上,可,可以分为对数据,标,标准、元数据和,数,数据质量的管理,,,,数据标准是支,持,持业务、技术和,流,流程的规范化建,设,设的标准体系;,数,数据质量是数据,对,对其期望目的的,符,符合度;元数据,是,是数据的数据,数据标准,元数据,数据质量,数据标准,元数据,数据质量,数据规范,数据形态,数据质量,数据标准向元数,据,据提供业务元数,据,据的标准定义,指导数据质量进,行,行有效的检测和,检,检查,通过元数据管理,平,平台维护数据标,准,准,向数据质量提供,元,元数据对象更好,的,的发现数据问题,通过数据质量的,具,具体操作来监控,标,标准的执行情况,检测元数据的定,义,义情况,41,42,如何做好数据管控工作,我们需,要,要从人员、流程、技术多个,方,方面下足功夫,,逐,逐步管理好,BI,数据质量问题。,通过建立相应的,数,数据管控,组织架构,,梳理完善的管,控,控,工作流程,,通过,系统工具,支撑,日常工作,使数,据,据管控治理工作,能,能够落到实处,,全,全面提升银行数,据,据运用水平和数,据,据质量。,组织和角色定义,管理办法,管理流程,制度和模版,管理流程,技术平台,流程制定,系统建设,组织架构,技术支持,技术,流程,人员,技术平台的支持,规章制度,管理办法:,数据管控管理办,法,法;,数据标准管理办,法,法;,数据质量管理办,法,法;,元数据管理办法,;,;,数据需求管理办,法,法;,监管统计管理办,法,法;,数据模型管理办,法,法;,数据交换管理办,法,法;,工作模版:,数据标准需求模,版,版;,数据标准审核映射,模,模版;,元数据变更申,请,请模版;,数据质量检核,规,规则模版;,数据需求申请,模,模版;,规章制度,管理办法说明,总则:,第一条 为规范全行数据,标,标准,符合国,家,家标准化政策,及,及监管统计规,定,定,推动数据,标,标准在业务领,域,域和技术领域,的,的应用,提高数据质量和管理效率,,落,落实监管统计,规,规定,特制定,本,本办法。,第二条 本办法所称数据,标,标准是指针对,本,本行各种重要数据制定的规范性文件,,,,以确保这些,重,重要数据在全,行,行内外共同使,用,用和交换中的,一,一致性和准确,性,性,是数据管,控,控的基础。,组织与职责:,第八条 数据管控办公室的,数,数据标准管理,工,工作由计划财,务,务部负责。信,息,息技术部、各,相,相关部门协助,配,配合数据标准,管,管理工作。,第九条 计划财务部是数据,标,标准管理的主,管,管责任部门,,设,设置数据标准,管,管理专员、数,据,据标准管理员,、,、数据标准平,台,台管理员,承,担,担以下职责,数据标准的制定:,第十二条数,据,据标准的制定,流,流程分为标准,需,需求提出、标,准,准需求审批、,标,标准制定、标,准,准审核和标准,发,发布阶段。,数据标准的应用:,第十九条数,据,据标准的应用,包,包括数据标准,的,的落地执行和,数,数据标准检核。,数据标准管理,平,平台:,第二十六条,数,数据标准在更新后,,,,计划财务部,应,应在平台上及,时,时发布数据标,准,准变更通告,附则:,第二十七条 因违反本办法产,生,生的不良后果,或,或造成损失,,视,视情节按照有,关,关规定追究相,关,关人员责任。,第二十八条 如果数据标准管理,工,工作中出现争,议,议或者分歧,,可,可向数据管控,办,办公室申请复,议,议,由数据管,控,控办公室协调,解,解决。对无法,解,解决的重大争,议,议和分歧,由,数,数据管控办公,室,室报请数据管,控,控委员会决策。,示例,43,数据,管,管控,委,委员,会,会和,办,办公,室,室,数据管控委员会,(行长、各部门负责人),数据管控办公室,(计划财务部、信息技术部),数据标准管理团队,数据质量管理团队,数据需求管理团队,元数据管理团队,对全,行,行数,据,据管,控,控工,作,作进,行,行集,中,中统,一,一领,导,导,,协,协调,相,相关,各,各职,能,能部,门,门的,运,运作,;,审议,全,全行,数,数据,管,管控,建,建设,状,状况,,,,研,究,究确,定,定全,行,行数,据,据管,控,控的,战,战略,、,、方,针,针和,政,政策,;,审定,全,全行,数,数据,管,管控,方,方案,与,与实,施,施计,划,划,,监,监督,检,检查,全,全行,数,数据,管,管控,措,措施,的,的执,行,行情,况,况;,不定,期,期审,议,议数,据,据管,控,控重,大,大变,更,更事,项,项;,针对,数,数据,检,检查,报,报告,中,中提,出,出的,严,严重,违,违规,及,及重,大,大问,题,题,,在,在全,行,行范,围,围内,协,协调,整,整改,、,、处,理,理及,处,处罚,;,;,定期,听,听取,数,数据,管,管控,办,办公,室,室对,数,数据,管,管控,工,工作,的,的汇,报,报;,审议,其,其他,需,需提,交,交委,员,员会,研,研究,的,的数,据,据管,控,控事,项,项。,沟通,和,和协,调,调,数据,管,管控,日,日常,管,管理,工,工作,;,;,制定,数据,管,管控,相,相关,工,工作,计,计划,;,;,推动,数据,管,管控,执,执行,策,策略,和,和执,行,行方,案,案,定期,向,向决,策,策委,员,员会,汇报,数据,管,管控,工,工作,情,情况,;,;,制定,并,并审,核,核,数据,平,平台,用,用户,角,角色,和,和数,据,据访,问,问权,限,限控,制,制方,案,案。,数据,管,管控,委,委员,会,会和,办,办公,室,室,是,数据,运,运营,和,和管,理,理的,组,组织,。,示例,44,数据,管,管控,总,总体,组,组织,架,架构,数据,管,管控,委,委员,会,会,数据,质,质量,管,管理,专,专员,数据,质,质量,管,管理,员,员,数据,质,质量,平,平台,管,管理,员,员,数据,标,标准,管,管理,专,专员,数据,标,标准,管,管理,员,员,数据,标,标准,平,平台,管,管理,员,员,数据,需,需求,管,管理,专,专员,数据,需,需求,管,管理,员,员,需求,平,平台,管,管理,员,员,元数,据,据管,理,理专,员,员,元数,据,据管,理,理员,元数,据,据平,台,台管,理,理员,数据,管,管控,办,办公,室,室,数据,标,标准,管,管理,团,团队,数据,质,质量,管,管理,团,团队,数据,需,需求,管,管理,团,团队,元数,据,据管,理,理团,队,队,示例,45,数据,管,管控平台,46,标准,应,应用,标准,管,管理,系,系统,_,标准,浏,浏览,八大,类,类信,息,息项,目录,树,树,产品,分,分类,映射到,PMS,中,INDV_BASC_NFO,的,EDU_LEVEL,学历,标,标准,代,代码,小类,信,信息,项,项,明细信息,项,项,标准,与,与系,统,统映,射,射,映射,到,到具,体,体字,段,段,47,数据,质,质量,检,检核,环,环节,在数,据,据仓,库,库的,各,各个,环,环节,制,制定,数,数据,质,质量,检,检查,方,方案,和,和检,查,查指,标,标,,并,并在,ETL,过程,中,中进,行,行数,据,据质,量,量检,查,查,,检,检查,结,结果,直,直接,返,返回,到,到数,据,据质,量,量管,理,理结,果,果库,,,,供,数,数据,质,质量,系,系统,进,进行,数,数据,质,质量,监,监控,和,和分析。,48,数据质量,管,管理系统,检核规则,检核结果,质量分析,检核字段,:,:,OPERATERID,记录总数,:,:,3397,问题总数,:,:,285,检核字段,:,:,COLNUMBER,检核类型,:,:非空,检核频度,规则基本,属,属性,规则扩展,属,属性,指标趋势,分,分析,非空问题,:,:,31%,长度问题,:,:,31%,一致性问,题,题:,38%,趋势分析,问题数:,3,问题数:,7,类型分析,检核对象,规则定义,报警渠道,49,TOPIC,商业智能的应用示例,1,数据仓库解决方案架构,2,3,进入大数据时代,4,Q&A,50,阿里小贷,的,的传奇,51,阿里小贷,,,,债务人无需提供,抵,抵押品或,第,第三方担,保,保仅凭自,己,己的信誉,就,就能取得,贷,贷款,并,以,以借款人,信,信用程度,作,作为还款保证,截至,2012,年,6,月,浙江,和,和重庆的,阿,阿里小贷,以,以,16,亿元的注,册,册资金累,计,计贷款,260,多亿元,,累,累计服务,企,企业,12.9,万家,单,日,日利息收,入,入,100,万元,不,良,良率为,0.9%,。单笔小,微,微信贷操,作,作成本,为,为,2.3,元,阿里,小,小贷被冠,以,以了“最,赚,赚钱的小,贷,贷公司”,的,的称号,“大数据,时,时代”,维克托,迈尔,-,舍恩伯格,(ViktorMayer-Schnberger),52,50亿,-,全球2011年手机,用,用户数,300亿,-,Facebook每月共享,出,出来的信,息,息条数,1.2万,亿,亿,GB(1.2ZB)-2011年全球数据量,40%,:全球每,年,年的数据,量,量增长率,6.8,亿,台:,2012,年全球智,能,能手机销量预测,1.8,亿,台:,2012,年中国智,能,能手机销量预测,IDC:,The3,rd,PlatformandBigData,53,数据已经成为一种新的,经济资产类别,,就像,货币和黄金,Gartner,:,2015,年大数,据,据将带,来,来,440,万,IT,岗位,Source: InformationWeek2013 Analytics,BusinessIntelligence andInformationManagement Survey,Gartner,:,2015,年大数,据,据将带,来,来,440,万,IT,岗位,Gartner,最新研,究,究数据,显,显示,,2013,年全球,IT,支出预,计,计将超,过,过,3.7,万亿美,元,元,与,2012,年,3.6,万亿美,元,元的支,出,出预计,相,相比,,增,增长,3.8%,。而大,数,数据正,在,在创造,辉,辉煌,,将,将带来,大,大量就,业,业机会,。,。,Gartner,高级副,总,总裁兼,全,全球研,究,究负责,人,人,PeterSondergaard,表示:,“,“到,2015,年,大,数,数据将,为,为全球,带,带来,440,万个,IT,岗位,,其,其中,190,万个,IT,岗位在,美,美国。,此,此外,,在,在美国,,,,每个,大,大数据,相,相关的岗位将催生,三,三个非,IT,的就业,机,机会。,在,在未来,的,的四年,里,里,信,息,息经济,将,将推动,美,美国产,生,生,600,万个就,业,业机会,。,。”,Gartner,同时也,指,指出,,分,分析师,们,们将提,醒,醒人们,注,注意,,现,现在我,们,们非常,缺,缺乏对,所,所有数,据,据以及,数,数据的,使,使用方,法,法都很,了,了解的,数,数据科,学,学家。,Gartner,预测:,2020,年大数,据,据将成,传,传统行业,Data Scientist:The SexiestJob of the21stCentury by ThomasDavenport,Gartner,预测:,2015,年大数,据,据将带,来,来,440,万,IT,岗位,Harvard Business ReviewaboutData Scientist,54,IBMAddsVeracity(Uncertainty) to 3VsofBigData,55,Oracle,sV:,价值密,度,度低,Value,单条数,据,据并无,太,太多价,值,值,但,庞,庞大的,数,数据量,蕴,蕴含巨,大,大财富,56,AvailableInformation,AnalyzedInformation,Analyze ALLAvailableInformation,TraditionalApproach,BigDataApproach,Analyze Small SubsetsofInformation,Analyze AllInformation,Leveragemore of thedata being captured,BigData,使得思,维,维模式,发,发生转,变,变,57,TraditionalApproach,BigDataApproach,CarefullyCleanseInformationBeforeAnalysis,Analyze AllInformationAsIs,A Small AmountofCarefullyCleansedInformation,AnalyzedInformation,A VeryLargeAmount of Messy Information,AnalyzedInformation,Reduceeffort required to leverage data,BigData,使得思,维,维模式,发,发生转,变,变,58,TraditionalApproach,BigDataApproach,Startwith Hypothesis,Test AgainstSelectedData,Explore ALLData,IdentifyCorrelations,?,AnalyzedInformation,Question,Data,Answer,Hypothesis,Data,Correlation,All Information,Exploration,Actionable Insight,Data leads theway, andsometimescorrelations aregood enough,BigData,使得思,维,维模式,发,发生转,变,变,59,TraditionalApproach,BigDataApproach,Analyze dataAFTERithas beenprocessed andlandedinaWarehouseorMart,Analyze data INMOTION asit is generated, inreal-time,Leverage data as itis captured,Big Data,使得思维模,式,式发生转变,60,$M,700,600,500,400,300,200,100,0,2010201120122013201420152016,InfrastructureSoftwareServices,IDC,预测中国大,数,数据技术与,服,服务市场将会从,2011,年的,7760,万美元快速增长到,2016,年的,6.16,亿美元,大数据应用,目,目前仍然还,处,处在早期发展阶段。,互,互联网公司,使,使用的更,为,为广泛,它,们,们主要基于,开,开源软件,开,开发大数据,应,应用。电信,和,和银行开始对大数据,应,应用产生浓,厚,厚的兴趣。,Hadoop/MapReduce,生态系统将会在大数据应用发展中扮演重要的角色。使用,Hadoop,技术的初创公司层出不穷。大厂商都在加强对,Hadoop,技术的支持。但未来大数据世界将会是一个多元世界,多种技术将,会,会并存,大数据相关,人,人才的欠缺,将,将会成为,影,影响大数据,市,市场发展的,一,一个重要,因,因素。,7,中国大数据,市,市场未来5,年,年将会以51.4%的,速,速度增长,61,13 Big Data Vendorsto Watch in 2013 byinformation Week,62,Hadoop ProjectsandVendor Distributions,63,Ven,d,ors,Proje,c,ts,C,loud,er,a,M,a,p,R,I,B,M,H,o,r,t,on,w,o,rk,s,EMC,Da,t,a,St,a,x,Hadoop MapReduce,Yes,Yes,Yes,Yes,Yes,Yes,HDFS,Yes,Yes, and direct mount NFS,Yes, and GPFS,Yes,Yes,No, but Cassandra,Apache Pig,Yes,Yes,Yes,Yes,Yes,Yes,Apache Hive,Yes,Yes,Yes,Yes,Yes,Yes,Apache Hbase,Yes,Yes,Yes,Yes,Yes,No, but Cassandra,Apache ZooKeeper,Yes,Yes,Yes,Yes,Yes,No,Apache Flume (Incubator),Yes,Yes,Yes,Optional,No,No,Apache Oozie (Incubator),Yes,Yes,Yes,Optional,No,No,Apache Mahout,Yes,Yes,No,Optional,Yes,No,Apache Sqoop (Incubator),Yes,Yes,No,Optional,No,No,Apache Whirr,Yes,Yes,No,No,No,No,Apache Avro,Yes,Yes,Yes,No,No,No,Hue,Yes,MapR Control System,No, but BigInsights Console,No,No,No,Cascading,No,Yes,No,No,No,No,Apache Lucene,No,No,Yes,No,No,No,Jaql,No,No,Yes,No,No,No,Apache HCatalog (Incubator),No,No,No,Yes,No,No,Apache Ambari (Incubator),No, but Cloudera Manager,No,No,Yes,No,No, but OpsCenter,Apache Cassandra,No,No,No,No,No,Yes,Vendor implementation asof Feb 2012. For Hadoopproject and vendor capabilitydetails read,Howto Choosethe RightApache Hadoop Distributio
展开阅读全文