大数据技术应用实施方案建议V

上传人:321****123 文档编号:247909569 上传时间:2024-10-21 格式:PPTX 页数:21 大小:1.18MB
返回 下载 相关 举报
大数据技术应用实施方案建议V_第1页
第1页 / 共21页
大数据技术应用实施方案建议V_第2页
第2页 / 共21页
大数据技术应用实施方案建议V_第3页
第3页 / 共21页
点击查看更多>>
资源描述
,学习,创造,超越,共享,#,大数据技术,应用实施方案建议,信息技术管理部,2013,年,6,月,1,目录,我行,新一代数据集成,平台,能力,要求,业内大数据技术,的特性及,应用研究,我,行大数据技术的应用策略,2,新一代管理分析类应用需求,3,运营与信息安全,运行日志存储与分析,安全日志存储与分析,营销支持,加强客户洞察分析,实现灵活深入的客户,细分,;,科学的客户行为及渠道经营,分析,报告与决策,全面的计划预算管理,价值导向的管理会计,;,流程化的财务会计体系,集成高效的财务运作,及时、准确的财务报告,风险管理,满足新协议合规和内部管理需要的全面风险管理,体系,市场风险、信用风险、操作风险等全面的风险计量;,风险建模,监管合规支持,全面整合的反洗钱和欺诈风险管理,;,监管合规长时间保存数据需求;,审计供数;,非结构化,数据保存,数据管控支持,数据完整、全面(广度、深度);,数据可信;,数据易用;,数据生命周期管理,应用需求,新一代管理分析类应用对于大数据处理分析技术提出了高要求,新一代数据集成平台数据特点与挑战,4,Volume,数量大,数据内容丰富(账户信息、账户明细、流水信息等),数据存储周期长(监管要求保存,20,年),PB,级的海量数据,Variety,种类多,数据类型多样,包括结构化、半结构化、非结构化数据,如交易数据、日志数据、影像视频数据等等,Velocity,速度快,近实时数据处理(即席数据分析),实时访问,(,如历史数据查询,),流式数据计算(如反欺诈),大数据时代,技术面临着,Volume,、,Variety,、,Velocity,3V,的挑战,目录,我行,新一代数据集成,平台,能力,要求,业内大数据技术,的,特性,及,应用,研究,技术特性研究,技术,应用研究,我,行大数据技术的应用策略,5,大数据技术一览图,6,大数据技术主要包含应用领域(如商务智能)、基础设施领域(结构化数据库技术、分析型数据技术等)和基础技术领域的各种相关技术。,重点调研的相关大数据存储技术,产品调研,TD Aster Data,基于商用硬件的分布式数据库技术,HADOOP,技术,对于大数据技术、产品的调研分两类进行,即关系型数据库与非关系型技术,前者以基于,X86,的,MPP,技术为代表,后者以,HADOOP,技术为代表,大数据技术特性研究结论,8,分析维度,X86 MPP,HADOOP,数据特性,仅支持结构化数据,支持非结构化、半结构化、结构化数据,扩展性,可扩展至数百节点,可扩展至数千个节点,数据可靠性,每份数据只有一个备份,每份数据可有多个备份,产品成熟度,介于传统关系型数据库与,HADOOP,之间,新技术,产品与技术均不成熟,易开发性,相对容易,与传统数据库差异较大,开发复杂,运维管理,缺少统一的运维管理工具,复杂,缺少统一的运维管理工具,人员技能要求,一般,仅需熟悉传统关系型数据库,高,需要对产品、技术及程序设计有深入理解,基于,X86,的,MPP,技术与传统分析型数据库的差异不大,但是提供了良好的扩展性,适合替代现有技术进行关系型数据的分析,HADOOP,技术支持的数据类型多,扩展性强,适合海量非结构化的数据分析,但技术不成熟,需逐步试点,目录,我行,新一代数据集成,平台,能力,要求,业内大数据技术,的,特性,及,应用,研究,技术特性研究,技术,应用研究,我,行大数据技术的应用策略,9,美国银行大数据技术应用情况,10,技术类型,产品,系统,/,机柜数,集群容量,(,PB),数据量,(,PB),应用领域,使用案例,专有一体机,Teradata,24,5,3.1,数据仓库,企业,/,集中式数据仓库,Netezza,80+,2.8,1.1,数据集市,OLAP,Exadata,10+,1,0.08,数据集市(,OLAP,和,OLTP,混合),全球人力资源部、,CRC,(客户报告中心:,22TB,)、,AMT,基于商用硬件的分布式数据库,Vertica,2,0.57,0.34,数据集市,OLAP,Hadoop,技术,Cloudera,Hadoop,若干,1.6,1.6,ETL,集团,DW,、电子商务、信用风险,数据暂存与归档,银行卡系统过期数据归档;集团数据仓库数据归档,信息安全,数据库、防火墙、应用程序等日志存储与分析,风险分析,定量风险技术,(,最大,的,Hadoop,应用,集群,,173,台机器,,1.6PB,未压缩数据,),、欺诈检测,沙箱分析,美国银行在数据集市领域大量使用,X86 MPP,技术,,HADOOP,主要用于,ETL,、,数据,归档、日志分析及风险分析等应用,美国银,行,行未来,大,大数据,技,技术应,用,用,11,产品,美国银行的最佳定位,战略性产品,IBM,Netezza,纯分析性的工作量的首选解决方案。高性能和高扩展性。费用较低,比,Exadata,或,Teradata,更容易进行管理。并发性方面的局限,使其适用于数据市场,或可能适合小型部门的数据仓库。,是,Oracle Exadata,适用于,I/O,要求极为严苛并需要,20 TB,以上的交易,/,分析混合工作量。能够处理同一系统中的多种工作量。也可视为适用于,20 TB,以上的分析数据库(目前运行的是标准,Oracle,数据库),因为它比,Netezza,更容易移植,是,Vertica (HP),作为一种新兴的主要候选方案,可替代,Netezza,和,Exadata,,为大型数据市场或部门数据仓库(,20 TB,以上)提供基于商品的列式数据库。通过创新的写优存储和读优存储以及经验证的,PB,级别,扩展架构。在美国银行进行了两项重大且成功的实施。,是,Sybase IQ (SAP),列存储的首个商业实施。稳定、成熟的产品。许可交易使部署不受任何限制。通过标准的,x86,服务器和,SAN,运行。以前不属于扩展解决方案,且在这方面仍未经过验证。计划作为,5-20 TB,数据市场的首选商品方案。,是,Teradata,行业标准,适用于大型、要求高和复杂的企业数据仓库,此类数据仓库需要复杂的工作量管理和其他高级功能。高度专有化、昂贵且不易获得支持。美国银行的使用应仅限于,W,数据仓库,以及可能需要与,W,进行极高水平集成的某些数据市场。,是,SAP HANA,最佳用途是为运行,SAP,软件的应用程序实现加速。对于一般的非,SAP,工作量,不必采用此解决方案。亦没有证据证明,,HANA,在,SAP,前端之外的市场广受欢迎。,否,ParAccel,产品的发展速度非常快。供应商声称自己在,POC,方面无人可及。创新的架构和光纤通信。这是此表中唯一一个仍归小型独立供应商所有的解决方案。需要考虑供应商的规模、稳定性和长期生存能力。尽管技术令人印象深刻,但目前没有计划将,ParAccel,作为战略性产品。,否,结构化,数,数据分,析,析领域,,,,,Netezza,、,Exadata,、,Vertica,、,Teradata,及,SybaseIQ,是美国,银,银行未,来,来的战,略,略产品,国内银,行,行同业,中国银,行,行,采用,HADOOP,实现系,统,统日志,的,的分析,中国农,业,业银行,进行历,史,史数据,的,的归档,中国银,联,联,历史数,据,据归档,12,目前中,行,行、农,行,行、银,联,联等都,已,已经开,始,始了基,于,于,HADOOP,技术的,应,应用探,索,索及规,划,划,淘宝大,数,数据技,术,术应用,情,情况,13,应用领域,批处理:,ETL,数据分析,,OLAP,大数据量分析,主要使用,Hive,点击流日志分析;,搜索排行榜和其他搜索相关的业务,机器学习,数据生命周期管理: 归档存储:,历史订单明细查询,应用规模,3000,多个节点,,36PB,数据,,20,多个事业群,,150,多用户组,,3000,多用户。,Hadoop,应用发展历程,淘宝数据服务平台架构,淘宝采,用,用,HADOOP,技术构,建,建了完,整,整的数,据,据仓库,及,及处理,分,分析平,台,台,大数据,技,技术应,用,用研究,结,结论,14,关系型,数,数据领域,非关系,型,型数据领域,Teradata,主要用,于,于数据,仓,仓库,X86MPP,技术在,数,数据集,市,市中得,到,到广泛应用,HADOOP,技术在,如,如下领,域,域得到,广,广泛应,用,用,数据归,档,档存储,ELT,半结构,化,化数据分,析,析,随着,HADOOP,技术快,速,速发展,,,,其对,关,关系型,数,数据的,处,处理支,持,持也越,来,来越强,,,,关系,型,型与非,关,关系型,数,数据的,处,处理技,术,术边界,已,已经日,渐,渐模糊,,,,后续,应,应用,HADOOP,技术可,能,能实现,统,统一的,数,数据处,理,理分析,平,平台,目录,我行新一代,数,数据集,成,成平台能力要求,业内大数据技术的,发,发展及,应,应用研,究,究,我行大,数,数据技术的,应,应用策,略,略,15,我行大,数,数据技,术,术应用,规,规划建,议,议,我行大,数,数据技,术,术应用,规,规划建,议,议,技术,应用领域建议,技术,应用领域建议,ORACLE,满足,OLTP,类应用需求,X86 MPP,在某些非关键应用领域作为,TERADATA,的替代技术,降低应用成本,;,复杂的历史数据查询,(,如:多表关联,查询条件可自由组合的查询,),Teradata,核心数据仓库应用,海量、多维度的复杂数据分析,HADOOP,技术,历史数据归档,;,简单历史数据查询,(,查询条件固定的单表查询,),;,半结构化数据分析;,RDW,区,(ORACLE Exadata),SOR,区,(,X86 MPP,),ADW &CM,区,(TERADATA),LDS,区,(X86 MPP+HADOOP),HDS-,归档区,(,HADOOP,),HDS-,访问区,(,HADOOP+X86 MPP,),Staging,区,第三阶,段,段,引入基,于,于,X86,平台的,商,商用硬,件,件的分,布,布什数,据,据库产,品,品,以,较,较合理,的,的性价,比,比,提,高,高海量,数,数据的,计,计算能,力,力,与时俱,进,进、积,极,极应用,总体规,划,划、分,步,步实施,制定计,划,划、稳,步,步推进,第二阶,段,段,第一阶,段,段,引入遵,行,行,HADOOP,技术标,准,准的,HADOOP,技术产品,,实,实现:,海量结,构,构化历,史,史数据,的,的归档,保,保存,信息安,全,全日志,的,的存储,与,与分析,扩展,HADOOP,技术的,应,应用范,围,围:,电商数,据,据分析,其他场,景,景,我行大,数,数据技,术,术应用,实,实施路,径,径建议,不断丰,富,富大数,据,据技术,上,上的应,用,用功能,形成,我,我行完,善,善的大,数,数据技,术,术应用,体,体系。,17,HADOOP,技术选,择,择方案,比,比较,18,详细见,:,:,比较项 方案,方案一:采用免费开源发行版,Cloudera Hadoop,方案二:采用商业开源发行版,(,如,Cloudera、Hortonworks),方案三:采用闭源的,HADOOP,技术产品,(,如,Intel Hadoop、IBM BigInsights、EMC Pivotal HD),是否关键指标,成熟度与稳定性,高,高,中,是,应用案例与规模,多,多,少,是,产品和服务成本,低,中,高,是,运行维护成本,高,中,中,是,行内技术储备要求,高,中,中,是,国内支持力量,弱,一般,稍强,是,服务支持响应时间,长,较长,一般,是,运行风险,高,中,中,是,厂商依赖程度,低,中,高,否,开放程度,高,高,低,否,产品按需定制的灵活度,高,中,低,否,大数据,技,技术应,用,用初步,实,实施计,划,划,19,阶段,主题,开始时间,结束时间,第一阶段,引入,X86,分布式数据库,分担,Teradata,批量数据处理压力,合理降低成本,已完成,第二阶段,HADOOP,测试案例准备与实现,2013,年,6,月,13,日,2013,年,7,月,26,日,HADOOP,产品选型测试,2013,年,7,月,29,日,2013,年,12,月,30,日,历史数据归档应用基于,HADOOP,构建,2014,年初,2014,年底,信息安全应用日志存储与分析基于,HADOOP,构建,2014,年中,2015,年中,第三阶段,电子商务大数据分析,2015,年初,2015,年底,持续应用阶段,不断丰富大数据技术上的应用功能,2016,年,-,Q&A,Questions?,20,演讲完,毕,毕,谢,谢,谢观看,!,!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!