资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,大数据成功关键,-,高效地实现大数据的移动,刘春霞,IBM,软件部资深信息整合顾问,3,InfoSphere,:维护信息供应链,信息治理,治理,质量,安全和隐私,生命周期,标准,事务和协作应用,业务分析应用,外部信息源,分析,整合,管理,多维数据集,流,大数据,主数据,内容,数据,流信息,数据仓库,内容分析,整合和清洗,Thirst for Information,可靠信息移动的速度,敏捷,用户想要快速地访问数据,几分钟内和小时级内(如自主的数据整合,),对分析的需求,两者都需要!,权威性,在一个流程框架内内的可靠信息避免信息冗余,需要敏捷和可靠的数据访问,任何数据到大数据,大数据到任何数据,大数据中心,批量数据整合(用于大数据),任何数据,ETL/ELT,ETL/ELT,ELT,加载获益,利用探索性分析方法,最佳性能,/,最小批处理窗口和实时流数据,提取获益,从多种来源提取数据:机器数据、社交数据、多结构,成熟的整合工具,更高的生产力,数据中心获益,以大数据形式产生和分析的数据,从不清除,用于完成大数据运行时,内的,工作的图形工具,将现有的企业数据引入一个探索性分析平台,将社交数据和机器数据引入一个企业数据仓库系统,自动化一个低成本数据暂存区域的工具,对数据的推送处理(不是其他方法),BigInsights,Hadoop,InfoSphere BigInsights,的,批量数据整合,集市,数据仓库,仓库,集市,DataStage,数据库,Files,Files,文件,并行,写入,DataStage,子集,并行,读取,细节和,摘要,与大数据来源交换信息,将企业信息转移到大数据来源,使它可包含在分析中,获取,Hadoop,的分析结果,并将它们应用于其他,IT,解决方案,并行性和规模,对,HDFS,的支持通过信息服务器并行引擎提供了大规模可伸缩性,作业血统与大洞察来源,/,目标步骤,使用信息服务器中的扩展性功能,大数据文件组件,使用,BDFS,作为来源,BDFS,引入了新来源选项,Namenode Cluster Host,和,Port,BDFS,可并行读取文件模式,BDFS,可使用,Readers,选项并行读取单个文件,BDFS,数据流程图,名称节点,文件请求,BDFS,数据节点,BDFS,数据,数据,PX,PX,BDFS,使用多个读取器流程并行化,HDFS,读取,InfoSphere DataStage,使用,BDFS,作为目标,BDFS,引入了新的目标选项,Namenode Cluster Host,和,Port,BDFS,通常写入单个文件,BDFS,能够并行写入多个文件,BDFS,示例,客户,情,情绪,倾,倾向,性,性分,析,析作,业,业可,以,以通,过,过分,析,析电,子,子邮,件,件在,InfoSphereBigInsights,中执,行,行。,客户,情,情绪,倾,倾向,性,性摘,要,要将,被,被更,新,新到,仓,仓库,中,中。,InfoSphereDataStage,作业,将,将挑,选,选信,息,息并,更,更新,数,数据,仓,仓库,(,(使,用,用,SCD,阶段,的,的客,户,户维,度,度),可执,行,行基,于,于分,类,类的,电,电子,邮,邮件,的,的风,险,险识,别,别。,可,可以,将,将电,子,子邮,件,件分,类,类为,高,高风,险,险和,低,低风,险,险。,分析作业输出,风险分类,12,BDFS,:可,扩,扩展,性,性和,性,性能,InformationServer,Bigdataintegration,DataStageNodes(2),Server:IntelWestmere-EX(4sockets),CPU:Intel(R)Xeon(R)CPUE7-48702.40GHz,Storage:1TB,BigInsightsNodes,Servers:x3630M3,NumberofSystems:26(5usedforthetest),CPU:Intel(R)Xeon(R)CPUX56753.07GHz,Memory:48GB,Storage:4TB,13,InformationServer,Bigdataintegration,-,读写,都,都具,有,有近,线,线性,的,的可,扩,扩展,能,能力,-,最高,可,可达,5.2TB/,小时,-DataStage,节点,翻,翻倍,,,,处,理,理效,率,率翻,倍,倍直,至,至磁,盘,盘资,源,源全,部,部占,用,用,BDFS,:可,扩,扩展,性,性和,性,性能,平衡,的,的优,化,化,从,DataStage,生成,HadoopMapReduce,作业,使用,DataStageDesign,流程,生,生成,ETL,作业,使用,BalancedOptimization,将其,编,编译,为,为在,BigInsights,上运,行,行。,将支,持,持,完全,下,下推,Hadoop,内的,所,所有,处,处理,(,(如,果,果可,能,能),混合,下,下推,内部,的,的一,些,些处,理,理和,外,外部,剩,剩余,处,处理,,,,具,体,体取,决,决于,来,来源,和,和目,标,标,15,通过,InformationServer,和,Hadoop,数据,文,文件,系,系统,(HDFS),的整合,,,,强,化,化了,IBM,在大,数,数据,的,的领,导,导地,位,位,通过,JobSequencer,对,BigInsights,和其,他,他,MapReduce,作业,进,进行,编,编程,调,调用,,,,结,合,合,DataStage,和,Hadoop,实现,端,端到,端,端工,作,作流,。,。,利用,设,设计,器,器用,户,户界,面,面和,标,标准,阶,阶段,结,结构,来,来生,成,成,MapReduce,作业,,,,为,用,用户,提,提供,处,处理,BigData,来源,的,的能,力,力,,可,可以,使,使用,Hadoop,更高,效,效地,处,处理,这,这些,来,来源,。,。,实现,InfoSphereDataStage,和,InfoSphereStreams,之间,的,的直,接,接数,据,据流,整,整合,,,,结,合,合两,个,个平,台,台的,强,强大,功,功能,和,和应,用,用范,围,围,通过,所,所有,用,用例,提,提供,丰,丰富,元,元数,据,据支,持,持。,自动,化,化的,大,大数,据,据作,业,业生,成,成,从,DataStage,调用,Oozie,工作,流,流,Oozie,是,Hadoop,中的,一,一个,工,工作,流,流计,划,划引,擎,擎,Oozie,提供,了,了一,个,个,JavaAPI,来调,用,用,Oozie,工作,流,流,调用,者,者是,Oozie,客户,端,端,DS,可充,当,当,Oozie,客户,端,端,使用,OozieAPI,,我,们,们构,建,建了,一,一个,Oozie,调用,者,者模,块,块,该模,块,块是,同,同步,的,的,成功,执,执行,工,工作,流,流时,返,返回,1,发生,错,错误,时,时返,回,回,0,作业,调,调度,程,程序,有,有一,个,个执,行,行命,令,令阶,段,段,Oozie,调用,者,者模,块,块从,执,执行,命,命令,阶,阶段,执,执行,使用,返,返回,代,代码,在,在发,生,生错,误,误时,放,放弃,作,作业,序,序列,序列,InfoSphereStreams-InformationServer,连接,器,器,1),用户,希,希望,向,向现,有,有,DataStage,作业,添,添加,Streams,分析,2),用户,希,希望,向,向现,有,有,Streams,应用,添,添加,DataStage,处理,3),从头,创,创建,一,一个,DataStage,作业,和,和,Streams,应用,。,。,这些,整,整合,可,可能,具,具有,以,以下,数,数据,流,流:,DataStage-Streams,DataStage-Streams-DataStage,Streams-DataStage,联邦,整,整合,(,(用,于,于大,数,数据,),),18,分析,和,和报,告,告工,具,具,Web,应用,建模,查询,交付,搜索,分析,可视,化,化,Vivisimo Velocity,InfoSphere Federation,Hive,(odbc),InfoSphereDatabaseFederation,可能,是,是,IBMVivisimo,等大,数,数据,联,联邦,解,解决,方,方案,的,的另,一,一个,企,企业,数,数据,来,来源,新用,户,户,以,灵活,、简,单,单的,方,方式,检,检索,数,数据,的,的能,力,力,“只,需,需一,次,次单,击,击”,只需,几,几次,单,单击,,,,便,可,可在,文,文件,/,数据,库,库与,BigInsights,之间,移,移动,数,数据,满足,需,需求,,,,以,便,便:,生成,用,用于,个,个人,开,开发,工,工作,的,的沙,盒,盒,用户,界,界面,显,显示,了,了一,些,些,策略,选项,,,,无,需,需,任,任,何,何,编,编,码,码,即,即,可,可,将,将,它,它,们,们,自,自,动,动,化,化,。,。,基,于,于,所,所,选,选,的,的,策,策,略,略,和,和,源,源,系,系,统,统,功,功,能,能,来,来利,用,用,InfoSphereDataStage,和,InfoSphereDataReplication,。,整,合,合,的,的,设,设,计,计,和,和,操,操,作,作,元,元,数,数,据,据,,,,,用,用,于,于,内,置,置,治,治,理,理,用,于,于,大,大,数,数,据,据,的,的,InfoSphereDataClick,:,敏,敏,捷,捷,和,和,可,可,控,控,的,的,整,整,合,合,DB2/ORACLE,InfoSphereDataClick,BigInsights,分,析,析,应,应,用,用,数,据,据,仓,仓,库,库,转,换,换,/,复,制,制,分,析,析,存,存,储,储,分,析,析,DS/CDC,实,时,时,整,整,合,合,(,(,用,用,于,于,大,大,数,数,据,据,),),20,InfoSphere,数据复制,应,用,用,程,程,序,序,事,务,务,日,志,志,高,速,速,双,双,向,向,数,数,据,据,对,实,实,时,时,信,信,息,息,的,的,低,低,延,延,迟,迟,捕,捕,获,获,分,析,析,极,极,大,大,规,规,模,模,的,的,移,移,动,动,信,信,息,息,每,秒,秒,TB,级,数,数,据,据,,,,,每,每,天,天,PB,级,数,数,据,据,。,。,分,析,析,各,各,种,种,信,信,息,息,分,析,析,原,原,生,生,格,格,式,式,的,的,各,各,种,种,信,信,息,息,流,音,音,频,频,、,、,视,视,频,频,、,、,空,空,间,间,等,等,信,信,息,息,非,扩,扩,散,散,性,性,的,的,记,记,录,录,捕,捕,获,获,从,事,事,务,务,数,数,据,据,库,库,日,日,志,志,中,中,读,读,取,取,数,数,据,据,,,,,将,将,数,数,据,据,分,分,发,发,给,给,任,任,何,何,目,目,标,标,包,括,括,BigDataStreams,、,ETLforWarehouses,或,BigInsights,RDBMS,消,息,息,队,队,列,列,ETL,Hadoop,系,统,统,流,系,系,统,统,仓,库,库,21,InfoSphereDataClick,实,时,时,数,数,据,据,高,高,性,性,能,能,传,传,递,递,JournalLog,Redo/ArchiveLogs,SourceEngine,AndMetadata,TargetEngine,AndMetadata,TCP/IP,Netezza,Targ
展开阅读全文