王闯舟-商业智能与大数据概述PPT71

上传人:dfh****415 文档编号:253080642 上传时间:2024-11-28 格式:PPTX 页数:71 大小:9.99MB
返回 下载 相关 举报
王闯舟-商业智能与大数据概述PPT71_第1页
第1页 / 共71页
王闯舟-商业智能与大数据概述PPT71_第2页
第2页 / 共71页
王闯舟-商业智能与大数据概述PPT71_第3页
第3页 / 共71页
点击查看更多>>
资源描述
Click to add title,Click to add text,Second level,Third level,Fourth level,Fifth level,#,商业智能,(Business Intelligence),与大数据概述,王闯舟,2013/12/16,于同济大学,背景简介,1983.9-1990.12,,同济大学电气,工,工程系,,自动控制专业,本科与硕,士,士,1991.1-1993.1,同济大学电气工,程,程系自动控制教,研,研室,1993.1-1994.7,德国,FESTO,上海办事处,1994.7-2009.7,美国,AT&T,公司、,NCR,公司、,Teradata,,在,Teradata,担任中国区副总,经,经理和,SeniorPractice Partner,,负责华北与华,东,东地区的,Professional Service,2009.7-2011.8,,东南融通系统,工,工程有限公司,,负,负责其商业智能,事,事业部的技术管,理,理工作,2011.8-,目前,文思创新,(Vanceinfo),、文思海辉,(Pactera),,负责其商业智,能,能解决方案业务,线,线,从,1996,年开始专注于商,业,业智能、数据仓,库,库领域的咨询与,项,项目实施服务,,主,主要为金融、电,信,信行业的客户提,供,供商业智能解决,方,方案,包括数据,仓,仓库基础平台、,CRM,、风险、运营管,理,理、财务管理等,领,领域,2,TOPIC,商业智能的应用示例,1,数据仓库解决方案架构,2,3,进入大数据时代,4,Q&A,3,什么是商业智能,Business Intelligence,商业智能通常被,理,理解为将企业中,现,现有的数据转化,为,为知识,帮助企,业,业做出明智的业,务,务经营决策的工,具,具。商业智能是对商业信,息,息的搜集、管理,和,和分析过程,目,的,的是使企业的各,级,级决策者获得知,识,识或洞察力(,insight,),促使他们做,出,出对企业更有利,的,的决策。,商业智能不是什,么,么新技术,它只,是,是数据仓库、,OLAP,和数据挖掘等技,术,术的综合运用。,数据仓库(,Data Warehouse,)是一个面向主题的(,SubjectOriented,)、集成的(,Integrated,)、相对稳定的(,Non-Volatile,)、反映历史变化(,Time Variant,)的数据集合,,用,用于支持管理决,策,策,(Decision Making Support)-,数据仓库之父,Bill Inmon,“,Building the Data Warehouse”,(,1991,),4,BI,应用案例:管理,驾,驾驶窗,5,BI,应用案例:客户获取,事例:争夺铁通的用户,实施者:中国电信某地,区,区公司市场部,使用应用名称:,数,数据仓库内结算,话,话单,步骤:,1,、对当月所有用,户,户的结算费用进,行,行排序,发现电,话,话号码,96368,的结算支出排名,最,最高,查询之前,各,各月份,它的排,名,名也最高,最近,一,一年每月平均结,算,算支出为,3390,元。,2,、查询,96368,的用户资料为,当地一,烟草公司客服号码。,3,、从数据仓库提,取,取其结算话单,,统,统计其与各个运,营,营商之间互通的,情,情况,发现其与,铁,铁通的用户互通,较,较多,造成结算,支,支出较大。,6,BI,应用案例:客户,获,获取,4,、针对铁通经营,的,的同样是固定电,话,话,电信的产品,完,完全可替代的特,点,点,派单给大客,户,户服务部,要求,大,大客户经理说服,烟,烟草公司把它的,分,分销商的电话全,部,部转为电信电话,。,。,5,、通过一系列综,合,合的营销手段,,成,成功把烟草公司,分,分销商转换为电,信,信用户,成效:,铁通,1842,个用户转为电信,用,用户,按门面电话的最低,ARPU 40,元,/,月计算,月创收,7.37,万,元,年累计创收,88.42,万,元,7,BI,应用案例:,数据仓库效益(国内,某,某股份制银行),实施前,实施后,营销名单获取时,间,间,4-6 Weeks,1 Day,业务及客户统计,报,报表产生速度,4-6 Weeks,1 Day,绩效分析能力,N/A,天,1,周,客户可接触率,15%,30%,一年能执行营销,活,活动数量,10,50+,活动平均反馈率,无法评估,8-30%,活动回报率,无法评估,Up to 60%,无,贷款容易有,风,风险,强大,客户单一视图能,力,力,8,BI,应用案例:,在市场营销的应用(某银行信用卡中心,),),基于数据仓库的,客,客户关系管理系,统,统,从了解客户,或,或客户细分开始,,,,在制定各种客,户,户产品渠道,的,的营销管理策略,时,时提供决策信息,支,支持,计划、执,行,行并管理各种行,销,销活动。,CRM,在银行卡管理中,提,提供新卡获取、,客,客户挽留和交叉,销,销售的功能,有,力,力推动银行卡业,务,务快速发展。,Ad-hoc query,Raw,Customer List,Ad-hoc query,Raw,Customer List,Ad-hoc query,Raw,Customer List,优化客户名单,Call Center,SMS,直邮客户获取营销邮件,依据分行及目标客户类型而有不同,数据仓库,2,。营销活动定义、名单进行去重、频率规则的限定和过滤,1,。初始客户名单通过,Brio,从数据仓库中筛选出来,并导入,TCRM,中,4,。渠道应用接触目标客户,传送促销信息,5,。数据仓库监控客户开卡事件,6,。使用,Brio,分析营销活动成功率,3,。名单和相应营销信息传送给不同的渠道系统,直邮,分行,CRM,系统的主要模块:,分析模块,沟通管理,个性化,模,模板与,规,规则,交互:,营,营销渠道整,合,合,(callcenter/SMS/Email),最优化,:,:营销,评,评估和,优,优化,CRM,投产之,后,后,已,经,经执行,了,了,170,多个营,销,销活动,,,,由于,实,实现了,目,目标客,户,户营销,,,,平均,每,每个营,销,销活动,的,的目标,客,客户从,百,百万级,降,降低到,10,万,乃,至,至,5000-1000,之间,,所,所以营,销,销成本,比,比系统,投,投产前,降,降低了,90%,以上。,投资回,报,报:,9,BI,应用案,例,例:客,户,户挽留,(,(某银行信,用,用卡中,心,心),07,年,10,月的预,测,测评分,结,结果显,示,示流失,概,概率,50,以上,的,的客户,为,为,93975,人;,在流失,概,概率,50,以上,客,客户中,,,,其中,3,的客,户,户贡献,86,利润,;,;,在挽留,客,客户的,营,营销活,动,动中,,将,将主要,的,的资金,和,和资源,用,用在,3%,高价值,客,客户上,,,,可节,省,省,97%,的营销,成,成本,,而,而得到,86%,的效果,;,;,流失概,率,率,50,60,的客,户,户贡献,度,度分布,:,:,投资回,报,报:,10,BI,应用的,背,背后,11,支持前,述,述类型,应,应用的,最,最佳实,践,践是构,建,建企业,级,级数据,仓,仓库,EDW,(数据,平,平台),,,,通过,一,一定的,数,数据模,型,型来整,合,合企业,内,内的各,种,种数据,,,,并在,此,此基础,之,之上构,建,建相关,的,的分析,型,型应用,这些应,用,用很难,在,在企业,原,原有的,OLTP,系统(,以,以交易,或,或者流,程,程为主,),)上实,现,现,如,果,果没有,数,数据仓,库,库,也,可,可以通,过,过手工,或,或者半,手,手工的,方,方式来,实,实现,,但,但非常,麻,麻烦,,很,很难重,复,复使用,BI,系统主,要,要通过,数,数据分,析,析来发,现,现数据,之,之间内,含,含的业,务,务规律,,,,其负,载,载类型,和,和负载,特,特征与,OLTP,系统有,很,很大的,差,差异,,一,一般都,需,需要建,立,立物理,独,独立的,系,系统,,并,并采用,适,适合,BI,负载环,境,境的专,门,门技术,平,平台,-,一般都,是,是以基,于,于,MPP,(,Massive Parallel Processing,)技术,的,的数据,库,库引擎,为,为基础,目前国,内,内主流,的,的,MPP,平台有,:,:,DB2, Netezza(IBMPuredata), OracleExadata,Teradata,EMC Greenplum(Pivotal), HP Vertica, SAPHANA.Microsoft,也推出,了,了它的,MPP,数据库,一,一体机,TOPIC,商业智能的应用示例,1,数据仓库解决方案架构,2,3,进入大数据时代,4,Q&A,12,数据仓,库,库解决,方,方案整,体,体框架,企业级数据,仓,仓库基,础,础平台,将,将采用,模,模块化,、,、参数,化,化的功,能,能设计,方,方式,,提,提高了,系,系统运,行,行的稳,定,定性并,有,有效的,降,降低实,施,施成本,和,和风险,。,。,13,EDW,体系架,构,构,应用体,系,系,应用主,题,题,应用模,式,式,应用方,案,案,实施规,划,划,数据体,系,系,数据架,构,构,近源层,基础层,汇总层,集市层,技术体,系,系,统一交,换,换,统一监,控,控,统一调,度,度,统一发,布,布,统一管,控,控,运维体,系,系,日常监,控,控,故障处,理,理,备份恢,复,复,系统安,全,全,组织架,构,构,管控流,程,程,管控内,容,容,管控体系,从应用,体,体系、数据体系、,技,技术体,系,系、运维,体,体系和,管,管控体,系,系五个,方,方面阐,述,述数据仓库整,体,体架构,14,应用体系,特定主,题,题的应,用,用,15,国内外,先,先进银,行,行总结,提,提炼了,一,一套数,据,据仓库,业,业务应,用,用框架,,,,包括,了,了客户,管,管理、,运,运营管,理,理、风,险,险管理,、,、财务,管,管理、监管,与,与信息,披,披露五大支柱的几百,种,种应用,为金融,机,机构的数据仓,库,库项目,建,建设和,推,推广应,用,用提供,了,了极好,的,的借鉴,。,。,客户管理,客户获取与挽留,客户细分与价值提升,交叉销售,/,向上销售,事件驱动营销,营销活动管理与优化,客户生命周期管理,风险管理,合规与信息披露,资产负债管理,金融犯罪识别,信用风险,市场风险,操作风险,财务管理,财务绩效管理,资本配置与管理,法规遵从与报表,产品捆绑与定价,财务管理流程优化,运营管理,交易渠道管理,销售渠道管理,渠道迁移与流程优化,绩效考核与报表,产品开发与定价,资源规划与管理,监管与信息披露,1104,报表,信息披露报表,15,应用体系,数据应,用,用规划,参,参考,16,跨领域,的,的应用,平,平台,客户管,理,理类应,用,用,风险管,理,理类应,用,用,运营管,理,理类应,用,用,财务管,理,理类应,用,用,监管与,信,信息披,露,露类应,用,用,零售,CRM,对公,CRM,客户营,销,销,管理系,统,统,即席查,询,询平台,数据挖,掘,掘平台,报表服,务,务平台,满足总,分,分行临,时,时数据,需,需求,支持业,务,务人员,进,进行业,务,务探索,客户聚类分析,产品购买关联,分,分析,客户流失概率,模,模型,行为评分模型,申请评分模型,财务报表,风险报表,监管报表,个人客户报表,对公客户报表,总帐报表,考评报表,产品报表,1104,监管报表,信息披露报表,新资本协议,应用群,资产负债管理,人行征信,人行反洗钱,特别关注客户,信息系统,关联方信息,查询系统,关键经营指标,分析系统,管理会计,系统,人行集中金融,统计,风险准备金,计提,客户利润贡,献度计算,贵宾服务,系统,客户积分,计算,客户经理,绩效考核,分行绩效,考核,渠道分析,中间业务分析,产品绩效分析,内部财务信息,分析,定价系统,个人客户内部,评级,境内机构网络,布局优化评估,战略性业务,指标,人行支付报表,分行分润,国家外管局,监管报表,高端客户,理财报表,技术缓存层,近源模型层,整合模型层,共性加工层,应用集市层,数,据,仓,库,仓内集市,仓内集市,仓内集市,仓内集市,仓内集市,仓内集市,仓外集市,仓外集市,仓外集市,仓外集市,仓外集市,应用,集市,示例,16,随机查询,具有,IT,和业务两方面,的,的知识和技能,,,,进行任意数,据,据探索和查询,,,,回答各种未,预,预先定义的业,务,务问题。,数据挖掘,在灵活分析的,基,基础上,对某,些,些业务问题进,行,行数据属性的,提,提炼和归纳,,如,如“评分模型,”,”、“违约模,型,型”、”细分,模,模型”等。,应用系统,支持复杂业务,逻,逻辑的应用系,统,统,包括营销,活,活动管理平台,、,、,ALM,、利润贡献度,、,、平衡计分卡,等,等。,实践表明,应,用,用系统的开发,离,离不开需求的,成,成熟和稳定,,只,只有通过大量,的,的灵活分析和,数,数据挖掘的应,用,用,才能形成,成,成熟稳定的应,用,用需求,反之,,,,应用系统在,业,业务中的大量,使,使用,又会促,进,进分析人员更,加,加深入、有效,的,的分析探索数,据,据。,数据挖掘,(Modeling),应用系统,随机查询,(Ad-hoc),固定报表,固定报表,以固定模式回,答,答简单、常规,的,的业务管理、,统,统计类问题。,应用体系,应用模式,17,数据仓库,数据挖掘的流,程,程,取样,评估与确认,模型化,、数据探索与转化,清洗数据与预处理,找出并了解业务问题,部署,到数据仓库,知识,建模前的预处理,通过样本组来建立预测模,型,型,通过对照组与行动,组,组的比较,评估模型的精准性;,通过行动组与不行,动,动组的比较,评估,执,执行环节的优,劣,劣。,18,应用体系,应用规划考虑维度,IT,部门除了考,虑,虑数据质量,、,、数据可用,性,性、投资预,算,算规模之外,,,,更重要的,是,是考虑应用,实,实施能否满,足,足业务用户,目,目前收益心,理,理预期等因,素,素,要想的,大,大(全面,,具,具体,全局,观,观)。,数据仓库建,设,设规划,要,分,分步骤进行,实,实施,起步,从,从小做起;,不同业务部,门,门对业务应,用,用的优先度,要,要求不同,,必,必须综合考,虑,虑不同部门,对,对业务应用,的,的策略价值,和,和投资回报,评,评价,形成,初,初步的规划,后,后,再经数,据,据仓库管理,委,委员会讨论,确,确定。,数据仓库建,设,设规划,通,常,常从以下三,个,个方面进行,评,评估:,实施难度:,IT,部门评估,策略价值:,决,决策层评估,投资回报:,应,应用部门评,估,估,19,IncreasingQuery andWorkloadComplexity,IncreasingDataDetail, Volume, Integration &Schema Sophistication,BI,应用模式的,类,类型与发展,Continuous Update &,Time Sensitive Queries Become Important,OPERATIONALIZING,WHAT,Is Happening?,Event Based Triggering,Takes Hold,ACTIVE WAREHOUSING,MAKING,it happen!,Continuous Update/Short Queries,Event-Based Triggering,Primarily Batch,Increase in Ad Hoc Queries,ANALYZING,WHY,did it happen?,REPORTING,WHAT,happened?,Analytical Modeling,Grows,PREDICTING,WHY,will it happen?,Batch,Ad Hoc,Analytics,IncreasingBusinessValueandImpact,20,EDW,体系架构,应用体系,应用主题,应用模式,应用方案,实施规划,数据体系,数据架构,近源层,基础层,汇总层,集市层,技术体系,统一交换,统一监控,统一调度,统一发布,统一管控,运维体系,日常监控,故障处理,备份恢复,系统安全,组织架构,管控流程,管控内容,管控体系,从应用体系,、,、数据体系、技术,体,体系、运维体系,和,和管控体系,五,五个方面阐,述,述数据仓库,规,规划。,21,数据体系,一个相对完,整,整的,BI,数据架构,应用集市层,面向应用,按需定制,共性加工层,初级的数据,加,加工,依赖对应用,的,的提炼,技术缓冲层,ETL,专用的纯技,术,术层,完全与源系,统,统结构一致,近源模型层,基本依照源,系,系统建模,尽量保持业,务,务数据原貌,整合模型层,面向整合,主题设计,提供规范和,共,共享,22,数据体系,整合模型层,定位,长期的,细,节,节的,整合,的,的数据存储,,,,为各类业,务,务需求提供,支,支持,特点,面向主题,,数,数据整合,提供规范和,共,共享,中性设计,,偏,偏范式化,,灵,灵活可扩展,细节信息,,保,保留长期历,史,史,23,数据体系,整合层模型,主,主题示例,Product &Service,Event,Agreement,Channel,Party,Asset,Finance &Risk,Region & Address,Marketing,Organization,24,建模总体原,则,则,数据整合原则,仓库建模总体原则,历史保留原则,中性原则,面向主题原则,3NF,原则,实体充分整,合,合,记录审慎整,合,合,状态历史保,留,留,关系历史保,留,留,25,Why 3NF,FurtherNormalised,Fully Normalised,5NF,4NF,3NF,2NF,1NF,(BCNF),特点,:,减少冗余,Integrity,屏蔽变化,,容,容易扩展,对数据库引,擎,擎多表连接,、,、复杂查询,的,的要求很高,业务人员不,容,容易理解与,接,接受,1NF:,第一范式(,1NF,):强调的,是,是列的原子,性,性,即列不,能,能够再分成,其,其他几列。,2NF:,除了满足,1NF,,还必须:,1,、必须有一个主键;,2,、没有包含在主键,中,中的列必须,完,完全依赖于,主,主键,而不,能,能只依赖于,主,主键的一部,分,分。,3NF:,满足,2NF,,另外非主,键,键列必须直,接,接依赖于主,键,键,不能存,在,在传递依赖,。,。即不能存,在,在:非主键,列,列,A,依赖于非主,键,键列,B,,非主键列,B,依赖于主键,的,的情况。,26,数据体系,共性加工层,定位,提供相对中,性,性,具有业,务,务意义的初,级,级加工数据,,,,支持上层,应,应用的数据,加,加工,或供,业,业务人员的,访,访问,特点,全局考虑,,提,提炼需求共,性,性,多层次设计,,,,多种数据,粒,粒度,侧重业务理,解,解,蕴含丰,富,富的业务规,则,则,27,数据体系,应用集市层,定位,提供特定应,用,用支持,特点,面向应用,形式各异,,各,各自独立,按需定制,,满,满足特定业,务,务的需求,报表集市,挖掘集市,多维分析集,市,市,28,数据体系,各数据层次,的,的定位小结,目标,以数据下载的结构为准,一般与源系统结构相同,数据可能是增量,也可能是全量,用于技术加工,短期的,细节的反应业务原貌的数据存储,直接提供基于源系统结构的简单原貌访问,为,BI,环境中适合的业务需求提供支持,长期的,细节的,整合的数据存储,为,BI,环境中适合的各类业务需求提供支持,相对中性,具业务意义的初加工数据,但不面向特定应用,作为上层应用数据加工的基础,或供业务人员直接访问,服务特定应用,原则,简单处理,关注源系统结构的变化,简单处理,不考虑整合,关注保留策略,面向全局,数据整合,中性设计,灵活扩展,提供规范和共享,提炼应用需求共性,多种数据粒度,易于理解和使用,面向具体应用,按需设计,形式,源系统模型,近源系统模型设计,根据支持应用情况可以保留短期历史,面向主题设计,偏范式化,长期保留历史,初步数据加工,分层设计,形式各异,依具体应用不同,重点,理解源结构,理解源结构,主题定义,框架设计,整合策略,实施方法,应用筛选,应用提炼,整体性,一致性,用途,不对外提供数据服务,业务原貌查询,即时报表,数据质量检查,灵活查询,整合规则检查,常规报表,灵活查询,业务规则检查,特定应用,技术缓冲层,近源模型层,整合模型层,共性加工层,应用集市层,29,企业级总体,数,数据架构,ESB,数据采集和交换平台,集成型数据区,历史,数据,访问应用,数据挖掘工具,监管报送平台,即席查询工具,数据集成平台,新核心,系统,老核心,系统,客户,系统,外围,系统,渠道,系统,外部,系统,(,外联平台,),操作型,数据区,分析型数据区,应用,服务区,应用服务器,报表工具,WEB,服务器,历史数据区,统一报表平台,管理会计系统,流动性风险,系统,市场风险系统,历史数据平台,数据挖掘平台,大数据平台,数据,交换区,实时事件处理平台,贴源模型层,(,ODS,),主题模型层,(,EDW,),应用,集,市,层,数据缓冲层,共性加工层,(GDM),国家审计署,平台,非现场审计,30,EDW,体系架构,应用体系,应用主题,应用模式,应用方案,实施规划,数据体系,数据架构,近源层,基础层,汇总层,集市层,技术体系,统一交换,统一监控,统一调度,统一发布,统一管控,运维体系,日常监控,故障处理,备份恢复,系统安全,组织架构,管控流程,管控内容,管控体系,从应用体系、数据体系、技术体系、运维体系和管,控,控体系五个方面,阐,阐述数据仓库规,划,划。,31,技术体系,统一数据交换,32,技术体系,统一调度架构,33,技术体系,统一监控架构,34,技术体系,统一信息发布,统一信息发布定,位,位,统一信息发布平,台,台定位为数据仓库体系的展现,平,平台,用于展现企业基础数据平台及所有,分,分析型应用资源,。,。分析型应用资,源,源的集成包含前,端,端界面的整合和,各,各应用后台数据,及,及权限的整合,登录,首页,公告,页面调用功能,分析型应用集成,角色管理,授权管理,系统管理,日志管理,会话管理,应用模式,固定报表,即席查询,数据挖掘,用户身份管理,统一认证,单点登录,安全审计,认证管理,统一信息,发布内容,统一入口,权限管理,应用集成,35,统一商业智能门,户,户功能架构,36,EDW,体系架构,应用体系,应用主题,应用模式,应用方案,实施规划,数据体系,数据架构,近源层,基础层,汇总层,集市层,技术体系,统一交换,统一监控,统一调度,统一发布,统一管控,运维体系,日常监控,故障处理,备份恢复,系统安全,组织架构,管控流程,管控内容,管控体系,从应用体系、数据体系、技术体系、运维体系和管,控,控体系五个方面,阐,阐述数据仓库规,划,划。,37,38,运维体系,运营维护,Title in here,Title in here,Title in here,Title in here,Title in here,Title in here,Title in here,Title in here,Title in here,日常,监控,变更,管理,问题,处理,容量,规划,备份,恢复,需求,管理,服务,水平,组织,架构,管理,工具,主管部门,技术支持部门,生产运行部门,数据支持部门,资源管理部门,资源监控,服务监控,应用监控,运行性问题,非运行性问题,变更规范,变更流程,设计原则,备份内容,备份策略,备份管理,技术缓冲层,整合模型层,共性加工层,应用集市层,制定,SLA,标准,落实标准,周期性考核,数据标准管理平,台,台,元数据管理平台,数据质量管理平,台,台,数据需求平台,项目需求,临时数据类需求,组织架构,日常监控,问题处理,变更管理,备份恢复,容量规划,服务水平,管理工具,需求管理,从现有的经验看,,数,数据仓库体系的,运,运行维护主要是,通,通过合理的组织,架,架构,制定易于,执,执行的运维管理,流,流程和规范,通,过,过完善的管理工,具,具,对系统监控,、,、问题处理、系,统,统变更等常规问,题,题进行系统化的处理,EDW,体系架构,应用体系,应用主题,应用模式,应用方案,实施规划,数据体系,数据架构,近源层,基础层,汇总层,集市层,技术体系,统一交换,统一监控,统一调度,统一发布,统一管控,运维体系,日常监控,故障处理,备份恢复,系统安全,组织架构,管控流程,管控内容,管控体系,从应用体系、数据体系、技术体系、运维体系和管,控,控体系五个方面,阐,阐述数据仓库规,划,划。,39,从数据质量相关故,障,障问题说起,40,案例,1,操作员反映银行内部对,账,账管理系统“存,款,款余额档的导入,”,”作业出错,.,故障现象,上游系统升级后,,,,由于业务需要,等,等原因对字段长,度,度进行了扩展,,导,导致上下游字段,长,长度不一致;,银行内部对账管理系,统,统的活期账务表,里,里的余额(可能,是,是活期、定期、,贷,贷款)在数据库,中,中定义为,13,位,但新核心对公中定义为,19,位(核心旧对公,是,是,13,位),,5,日中有一条数据,超,超过,13,位(,1900,多亿,,14,位),造成数据,从,从核心导入银行,内,内部对账管理系,统,统时溢出,批次,中,中断。,数据中心计划在,6,或,7,日进行数据字段,的,的扩展,目前排,查,查内部对账系统,中,中仍有部分字段,长,长度为,13,位,存在一定风,险,险。,问题分析,元数据变更问题,案例,3,管理员检查发现信贷统,计,计监测系统批次,作,作业“账户级别,统,统计中间新表”,执,执行出错。,故障现象,CMS,提供的客户风险,权,权重表存在,12,条客户编号为空,的,的记录,问题分析,空值问题,案例,2,电子银行部反映,ODS,平台电子银行报,表,表“电子银行渠,道,道替代率报表”,数,数据不正确。,故障现象,系统迁移导致的,数,数据计算口径发,生,生变化,原有计,算,算口径计算错误,问题分析,数据变更问题,,指,指标口径变化,,指,指标标准化问题,企业级数据管控,内,内容,数据管控是对企,业,业数据的综合治,理,理,通常来说,,落,落到具体层面上,可,可以分为对数据,标,标准、元数据和,数,数据质量的管理,,,,数据标准是支,持,持业务、技术和,流,流程的规范化建,设,设的标准体系;,数,数据质量是数据,对,对其期望目的的,符,符合度;元数据,是,是数据的数据,数据标准,元数据,数据质量,数据标准,元数据,数据质量,数据规范,数据形态,数据质量,数据标准向元数,据,据提供业务元数,据,据的标准定义,指导数据质量进,行,行有效的检测和,检,检查,通过元数据管理,平,平台维护数据标,准,准,向数据质量提供,元,元数据对象更好,的,的发现数据问题,通过数据质量的,具,具体操作来监控,标,标准的执行情况,检测元数据的定,义,义情况,41,42,如何做好数据管控工作,我们需,要,要从人员、流程、技术多个,方,方面下足功夫,,逐,逐步管理好,BI,数据质量问题。,通过建立相应的,数,数据管控,组织架构,,梳理完善的管,控,控,工作流程,,通过,系统工具,支撑,日常工作,使数,据,据管控治理工作,能,能够落到实处,,全,全面提升银行数,据,据运用水平和数,据,据质量。,组织和角色定义,管理办法,管理流程,制度和模版,管理流程,技术平台,流程制定,系统建设,组织架构,技术支持,技术,流程,人员,技术平台的支持,规章制度,管理办法:,数据管控管理办,法,法;,数据标准管理办,法,法;,数据质量管理办,法,法;,元数据管理办法,;,;,数据需求管理办,法,法;,监管统计管理办,法,法;,数据模型管理办,法,法;,数据交换管理办,法,法;,工作模版:,数据标准需求模,版,版;,数据标准审核映射,模,模版;,元数据变更申,请,请模版;,数据质量检核,规,规则模版;,数据需求申请,模,模版;,规章制度,管理办法说明,总则:,第一条 为规范全行数据,标,标准,符合国,家,家标准化政策,及,及监管统计规,定,定,推动数据,标,标准在业务领,域,域和技术领域,的,的应用,提高数据质量和管理效率,,落,落实监管统计,规,规定,特制定,本,本办法。,第二条 本办法所称数据,标,标准是指针对,本,本行各种重要数据制定的规范性文件,,,,以确保这些,重,重要数据在全,行,行内外共同使,用,用和交换中的,一,一致性和准确,性,性,是数据管,控,控的基础。,组织与职责:,第八条 数据管控办公室的,数,数据标准管理,工,工作由计划财,务,务部负责。信,息,息技术部、各,相,相关部门协助,配,配合数据标准,管,管理工作。,第九条 计划财务部是数据,标,标准管理的主,管,管责任部门,,设,设置数据标准,管,管理专员、数,据,据标准管理员,、,、数据标准平,台,台管理员,承,担,担以下职责,数据标准的制定:,第十二条数,据,据标准的制定,流,流程分为标准,需,需求提出、标,准,准需求审批、,标,标准制定、标,准,准审核和标准,发,发布阶段。,数据标准的应用:,第十九条数,据,据标准的应用,包,包括数据标准,的,的落地执行和,数,数据标准检核。,数据标准管理,平,平台:,第二十六条,数,数据标准在更新后,,,,计划财务部,应,应在平台上及,时,时发布数据标,准,准变更通告,附则:,第二十七条 因违反本办法产,生,生的不良后果,或,或造成损失,,视,视情节按照有,关,关规定追究相,关,关人员责任。,第二十八条 如果数据标准管理,工,工作中出现争,议,议或者分歧,,可,可向数据管控,办,办公室申请复,议,议,由数据管,控,控办公室协调,解,解决。对无法,解,解决的重大争,议,议和分歧,由,数,数据管控办公,室,室报请数据管,控,控委员会决策。,示例,43,数据,管,管控,委,委员,会,会和,办,办公,室,室,数据管控委员会,(行长、各部门负责人),数据管控办公室,(计划财务部、信息技术部),数据标准管理团队,数据质量管理团队,数据需求管理团队,元数据管理团队,对全,行,行数,据,据管,控,控工,作,作进,行,行集,中,中统,一,一领,导,导,,协,协调,相,相关,各,各职,能,能部,门,门的,运,运作,;,审议,全,全行,数,数据,管,管控,建,建设,状,状况,,,,研,究,究确,定,定全,行,行数,据,据管,控,控的,战,战略,、,、方,针,针和,政,政策,;,审定,全,全行,数,数据,管,管控,方,方案,与,与实,施,施计,划,划,,监,监督,检,检查,全,全行,数,数据,管,管控,措,措施,的,的执,行,行情,况,况;,不定,期,期审,议,议数,据,据管,控,控重,大,大变,更,更事,项,项;,针对,数,数据,检,检查,报,报告,中,中提,出,出的,严,严重,违,违规,及,及重,大,大问,题,题,,在,在全,行,行范,围,围内,协,协调,整,整改,、,、处,理,理及,处,处罚,;,;,定期,听,听取,数,数据,管,管控,办,办公,室,室对,数,数据,管,管控,工,工作,的,的汇,报,报;,审议,其,其他,需,需提,交,交委,员,员会,研,研究,的,的数,据,据管,控,控事,项,项。,沟通,和,和协,调,调,数据,管,管控,日,日常,管,管理,工,工作,;,;,制定,数据,管,管控,相,相关,工,工作,计,计划,;,;,推动,数据,管,管控,执,执行,策,策略,和,和执,行,行方,案,案,定期,向,向决,策,策委,员,员会,汇报,数据,管,管控,工,工作,情,情况,;,;,制定,并,并审,核,核,数据,平,平台,用,用户,角,角色,和,和数,据,据访,问,问权,限,限控,制,制方,案,案。,数据,管,管控,委,委员,会,会和,办,办公,室,室,是,数据,运,运营,和,和管,理,理的,组,组织,。,示例,44,数据,管,管控,总,总体,组,组织,架,架构,数据,管,管控,委,委员,会,会,数据,质,质量,管,管理,专,专员,数据,质,质量,管,管理,员,员,数据,质,质量,平,平台,管,管理,员,员,数据,标,标准,管,管理,专,专员,数据,标,标准,管,管理,员,员,数据,标,标准,平,平台,管,管理,员,员,数据,需,需求,管,管理,专,专员,数据,需,需求,管,管理,员,员,需求,平,平台,管,管理,员,员,元数,据,据管,理,理专,员,员,元数,据,据管,理,理员,元数,据,据平,台,台管,理,理员,数据,管,管控,办,办公,室,室,数据,标,标准,管,管理,团,团队,数据,质,质量,管,管理,团,团队,数据,需,需求,管,管理,团,团队,元数,据,据管,理,理团,队,队,示例,45,数据,管,管控平台,46,标准,应,应用,标准,管,管理,系,系统,_,标准,浏,浏览,八大,类,类信,息,息项,目录,树,树,产品,分,分类,映射到,PMS,中,INDV_BASC_NFO,的,EDU_LEVEL,学历,标,标准,代,代码,小类,信,信息,项,项,明细信息,项,项,标准,与,与系,统,统映,射,射,映射,到,到具,体,体字,段,段,47,数据,质,质量,检,检核,环,环节,在数,据,据仓,库,库的,各,各个,环,环节,制,制定,数,数据,质,质量,检,检查,方,方案,和,和检,查,查指,标,标,,并,并在,ETL,过程,中,中进,行,行数,据,据质,量,量检,查,查,,检,检查,结,结果,直,直接,返,返回,到,到数,据,据质,量,量管,理,理结,果,果库,,,,供,数,数据,质,质量,系,系统,进,进行,数,数据,质,质量,监,监控,和,和分析。,48,数据质量,管,管理系统,检核规则,检核结果,质量分析,检核字段,:,:,OPERATERID,记录总数,:,:,3397,问题总数,:,:,285,检核字段,:,:,COLNUMBER,检核类型,:,:非空,检核频度,规则基本,属,属性,规则扩展,属,属性,指标趋势,分,分析,非空问题,:,:,31%,长度问题,:,:,31%,一致性问,题,题:,38%,趋势分析,问题数:,3,问题数:,7,类型分析,检核对象,规则定义,报警渠道,49,TOPIC,商业智能的应用示例,1,数据仓库解决方案架构,2,3,进入大数据时代,4,Q&A,50,阿里小贷,的,的传奇,51,阿里小贷,,,,债务人无需提供,抵,抵押品或,第,第三方担,保,保仅凭自,己,己的信誉,就,就能取得,贷,贷款,并,以,以借款人,信,信用程度,作,作为还款保证,截至,2012,年,6,月,浙江,和,和重庆的,阿,阿里小贷,以,以,16,亿元的注,册,册资金累,计,计贷款,260,多亿元,,累,累计服务,企,企业,12.9,万家,单,日,日利息收,入,入,100,万元,不,良,良率为,0.9%,。单笔小,微,微信贷操,作,作成本,为,为,2.3,元,阿里,小,小贷被冠,以,以了“最,赚,赚钱的小,贷,贷公司”,的,的称号,“大数据,时,时代”,维克托,迈尔,-,舍恩伯格,(ViktorMayer-Schnberger),52,50亿,-,全球2011年手机,用,用户数,300亿,-,Facebook每月共享,出,出来的信,息,息条数,1.2万,亿,亿,GB(1.2ZB)-2011年全球数据量,40%,:全球每,年,年的数据,量,量增长率,6.8,亿,台:,2012,年全球智,能,能手机销量预测,1.8,亿,台:,2012,年中国智,能,能手机销量预测,IDC:,The3,rd,PlatformandBigData,53,数据已经成为一种新的,经济资产类别,,就像,货币和黄金,Gartner,:,2015,年大数,据,据将带,来,来,440,万,IT,岗位,Source: InformationWeek2013 Analytics,BusinessIntelligence andInformationManagement Survey,Gartner,:,2015,年大数,据,据将带,来,来,440,万,IT,岗位,Gartner,最新研,究,究数据,显,显示,,2013,年全球,IT,支出预,计,计将超,过,过,3.7,万亿美,元,元,与,2012,年,3.6,万亿美,元,元的支,出,出预计,相,相比,,增,增长,3.8%,。而大,数,数据正,在,在创造,辉,辉煌,,将,将带来,大,大量就,业,业机会,。,。,Gartner,高级副,总,总裁兼,全,全球研,究,究负责,人,人,PeterSondergaard,表示:,“,“到,2015,年,大,数,数据将,为,为全球,带,带来,440,万个,IT,岗位,,其,其中,190,万个,IT,岗位在,美,美国。,此,此外,,在,在美国,,,,每个,大,大数据,相,相关的岗位将催生,三,三个非,IT,的就业,机,机会。,在,在未来,的,的四年,里,里,信,息,息经济,将,将推动,美,美国产,生,生,600,万个就,业,业机会,。,。”,Gartner,同时也,指,指出,,分,分析师,们,们将提,醒,醒人们,注,注意,,现,现在我,们,们非常,缺,缺乏对,所,所有数,据,据以及,数,数据的,使,使用方,法,法都很,了,了解的,数,数据科,学,学家。,Gartner,预测:,2020,年大数,据,据将成,传,传统行业,Data Scientist:The SexiestJob of the21stCentury by ThomasDavenport,Gartner,预测:,2015,年大数,据,据将带,来,来,440,万,IT,岗位,Harvard Business ReviewaboutData Scientist,54,IBMAddsVeracity(Uncertainty) to 3VsofBigData,55,Oracle,sV:,价值密,度,度低,Value,单条数,据,据并无,太,太多价,值,值,但,庞,庞大的,数,数据量,蕴,蕴含巨,大,大财富,56,AvailableInformation,AnalyzedInformation,Analyze ALLAvailableInformation,TraditionalApproach,BigDataApproach,Analyze Small SubsetsofInformation,Analyze AllInformation,Leveragemore of thedata being captured,BigData,使得思,维,维模式,发,发生转,变,变,57,TraditionalApproach,BigDataApproach,CarefullyCleanseInformationBeforeAnalysis,Analyze AllInformationAsIs,A Small AmountofCarefullyCleansedInformation,AnalyzedInformation,A VeryLargeAmount of Messy Information,AnalyzedInformation,Reduceeffort required to leverage data,BigData,使得思,维,维模式,发,发生转,变,变,58,TraditionalApproach,BigDataApproach,Startwith Hypothesis,Test AgainstSelectedData,Explore ALLData,IdentifyCorrelations,?,AnalyzedInformation,Question,Data,Answer,Hypothesis,Data,Correlation,All Information,Exploration,Actionable Insight,Data leads theway, andsometimescorrelations aregood enough,BigData,使得思,维,维模式,发,发生转,变,变,59,TraditionalApproach,BigDataApproach,Analyze dataAFTERithas beenprocessed andlandedinaWarehouseorMart,Analyze data INMOTION asit is generated, inreal-time,Leverage data as itis captured,Big Data,使得思维模,式,式发生转变,60,$M,700,600,500,400,300,200,100,0,2010201120122013201420152016,InfrastructureSoftwareServices,IDC,预测中国大,数,数据技术与,服,服务市场将会从,2011,年的,7760,万美元快速增长到,2016,年的,6.16,亿美元,大数据应用,目,目前仍然还,处,处在早期发展阶段。,互,互联网公司,使,使用的更,为,为广泛,它,们,们主要基于,开,开源软件,开,开发大数据,应,应用。电信,和,和银行开始对大数据,应,应用产生浓,厚,厚的兴趣。,Hadoop/MapReduce,生态系统将会在大数据应用发展中扮演重要的角色。使用,Hadoop,技术的初创公司层出不穷。大厂商都在加强对,Hadoop,技术的支持。但未来大数据世界将会是一个多元世界,多种技术将,会,会并存,大数据相关,人,人才的欠缺,将,将会成为,影,影响大数据,市,市场发展的,一,一个重要,因,因素。,7,中国大数据,市,市场未来5,年,年将会以51.4%的,速,速度增长,61,13 Big Data Vendorsto Watch in 2013 byinformation Week,62,Hadoop ProjectsandVendor Distributions,63,Ven,d,ors,Proje,c,ts,C,loud,er,a,M,a,p,R,I,B,M,H,o,r,t,on,w,o,rk,s,EMC,Da,t,a,St,a,x,Hadoop MapReduce,Yes,Yes,Yes,Yes,Yes,Yes,HDFS,Yes,Yes, and direct mount NFS,Yes, and GPFS,Yes,Yes,No, but Cassandra,Apache Pig,Yes,Yes,Yes,Yes,Yes,Yes,Apache Hive,Yes,Yes,Yes,Yes,Yes,Yes,Apache Hbase,Yes,Yes,Yes,Yes,Yes,No, but Cassandra,Apache ZooKeeper,Yes,Yes,Yes,Yes,Yes,No,Apache Flume (Incubator),Yes,Yes,Yes,Optional,No,No,Apache Oozie (Incubator),Yes,Yes,Yes,Optional,No,No,Apache Mahout,Yes,Yes,No,Optional,Yes,No,Apache Sqoop (Incubator),Yes,Yes,No,Optional,No,No,Apache Whirr,Yes,Yes,No,No,No,No,Apache Avro,Yes,Yes,Yes,No,No,No,Hue,Yes,MapR Control System,No, but BigInsights Console,No,No,No,Cascading,No,Yes,No,No,No,No,Apache Lucene,No,No,Yes,No,No,No,Jaql,No,No,Yes,No,No,No,Apache HCatalog (Incubator),No,No,No,Yes,No,No,Apache Ambari (Incubator),No, but Cloudera Manager,No,No,Yes,No,No, but OpsCenter,Apache Cassandra,No,No,No,No,No,Yes,Vendor implementation asof Feb 2012. For Hadoopproject and vendor capabilitydetails read,Howto Choosethe RightApache Hadoop Distributio
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 幼儿教育


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!