资源描述
2014/1/15,#,2014/1/15,#,大数据处理与分析相关平台简介,中国人民大学信息学院,董兆安,内容来自,CSDN,等互联网资源,大数据及其,主,主要特征,2,规模(,Volume,)、种类(,Variety,)、 速度,(,(,Velocity,),2001,年,道格,.,莱尼(,DougLaney,),V,olume,Volume,V,ariety,Volume,模态多样,V,elocity,Volume,速度极快,体量巨大,文本,视频,图片,音频,到,2020,年,数据总量达,40ZB,,,人均,5.2TB,分享的内容条目超过,25,亿个,/,天,,增加数据超过,500TB/,天,关于大数据,定,定义的误解, etc. are aspirationalqualitiesof all data, not definitionalqualitiesof big data.,3,硬件、技术,、,、数据不断,进,进化,4,传统的数据,处,处理,External,Data,Sources,Extract,Transform,Load,DataWarehouse,Integratedstorage,Dataprocessing,Users,SQL,数据分析的,需,需求也逐渐,提,提高,从海量数据,中,中快速获取,有,有价值信息,低延迟、高,性,性能、分布,式,式、可扩展,、,、容错。,6,RTAP,OLAP,OLTP,需求变化,7,Real-Time,Non-Interactive,Batch,Interactive,Online systems,RealtimeAnalytics,Complex event processing,Datapreparation,Incremental batch processing,Dashboards,Operational batch processing,Enterprise reports,Data mining,ParameterizedReports,Drilldown,Visualization,Exploration,0-5s,5s-1m,1m-1h,1h+,场景不同,-,工具不同,-,视角不同,Hortonworks,将应用需求进行,了,了如下划分:,实时应用场景,(05s),:,Storm,、,S4,、,Cloudera Impala,,,ApacheDrill,等;,交互式场景(,5s1m,):,最好支持,SQL,,:,Cloudera Impala,、,ApacheDrill,、,Shark,等;,非交互式场景(,1m1h,):,MapReduce,、,Hive,、,Pig,、,Stinger,等;,批处理场景(,1h+,),运行时间较长,,处,处理数据量较大,,,,对容错性和扩,展,展性要求较高,MapReduce,、,Hive,、,Pig,、,Stinger,等。,8,大数据分析与处,理,理架构,一个案例,9,Ingest,Landingand AnalyticsSandbox Zone,Indexes, facets,Hive/HBase,Col Stores,Documents,In Variety ofFormats,Analytics,MapReduce,Repository, Workbench,Ingestion andReal-time Analytic Zone,Data,Sinks,Filter,Transform,Ingest,Correlate, Classify,Extract, Annotate,Warehousing Zone,Enterprise Warehouse,Data Marts,Query Engines,Cubes,Descriptive,Predictive,Models,Models,Widgets,Discovery,Visualizer,Search,Analytics andReporting Zone,Metadata and Governance Zone,9,Connectors,大数据处理与分,析,析技术,数据采集,数据处理,数据存储,统计分析,数据挖掘,模型预测,数据可视化,元数据管理,10,数据处理的几种,模,模式,转换,Transformer,Convertpayload or modify headers,过滤,Filter,Discardmessages based on boolean evaluation,路由,Router,Determine nextchannel basedon content,分割,Splitter,Generate multiple messages from one,聚集,Aggregator,Assemble a single message from multiple,11,几种平台介绍,MPP,Hadoop,storm,spark,12,开源的大数据处,理,理平台,SQL onHadoop,Hortonworks: Tez,、,Stinger,Cloudera: Impala,Facebook,:,Hive,,,Presto,Google,发布了,Dremel,和,PowerDrill,EMC,推出,Pivotal+HAWQ,开源数据仓库,brighthouse,基于,MySQL,的数据仓库存储,引,引擎,13,开源的大数据处,理,理平台,NO-MapReduce,系统,微软的,DAG,任务计算模型,Dryad,Google,的图批量同步处,理,理系统,Pregel,和增量式计算框,架,架,Percolator,Yahoo!,的数据流计算系,统,统,S4,、,NYU,的共享内存处理,系,系统,Piccolo,Berkeley,的交互式实时处,理,理系统,Spark,等等。,NEW SQL,系统,VoltDB,mySQL,集群,14,Hadoop,的版本,15,16,Intel Hadoop,*,17,Hadoop1.0,18,Hadoopeco-system,External,Data,Sources,HDFS storage layer,Processing Framework,(Map-Reduce),HBase,Sqoop,+,Flume,Pig,HiveQL,Mahout,HiveMetastore,(HCatalog),Oozie,Cloudera,Navigator,Morevarieddatasourceswithmanymoreaccess/retentionrequirements,Users,Hadoopeco-system,External,Data,Sources,HDFSstoragelayer,ProcessingFramework,(Map-Reduce),HBase,Sqoop,+,Flume,Pig,HiveQL,Mahout,HiveMetastore,(HCatalog),Oozie,Cloudera,Navigator,Dataaccessedthroughmultipleentrypoints,Users,Hadoopeco-system,External,Data,Sources,HDFSstoragelayer,ProcessingFramework,(Map-Reduce),HBase,Sqoop,+,Flume,Pig,HiveQL,Mahout,HiveMetastore,(HCatalog),Oozie,Cloudera,Navigator,Users,Lotsofnewconsumersofthedata,Hadoopeco-system,External,Data,Sources,HDFSstoragelayer,ProcessingFramework,(Map-Reduce),HBase,Sqoop,+,Flume,Pig,HiveQL,Mahout,HiveMetastore,(HCatalog),Oozie,Cloudera,Navigator,Users,One access control mechanism: files,Hadoop1.0HDFS,存储模型,23,Hadoop1.0,计算模型,MapReduce,24,节点功能与角色,25,集群部署示意,26,YARN,和,Hadoop2.0,27,comprises thelatestreleaseacrossHadoopand the key relatedprojects intoa single integrated and tested platform,Core services,Data services,Operational services,28,Hadoop2.0,Hadoop2.0,YARN,的基本思想是将,JobTracker,的两个主要功能,资,资源管理和作业,调,调度,/,监控分离,主要方法是创建,一,一个全局的,ResourceManager,(,RM,)和若干个针对,应,应用程序的,ApplicationMaster,(,AM,),29,对比:,Hadoop1.0,JobTracker,和,TaskTracker,30,对比:,Hadoop 2.0,31,运行在,YARN,上的计算,框,框架,YARN= Yet Another ResourceNeogitator.,32,内存计算,Spark andShark,33,High-Speed In-Memory AnalyticsoverHadoopand Hive Data,UC BERKELEY,34,MapReduce,数据共享于,HDFS,iter.1,iter.2,. .,Input,HDFSread,HDFSwrite,HDFSread,HDFSwrite,Input,query 1,query 2,query 3,result 1,result 2,result 3,. . .,HDFSread,Slow,due toreplication, serialization, and disk IO,35,iter.1,iter.2,. .,Input,Spark,数据共享于内,存,存,Distributedmemory,Input,query1,query2,query3,. .,one-timeprocessing,10-100,fasterthannetwork anddisk,Spark,之,RDD,弹性分布式数,据,据集,37,伯克利架构,38,分布式实时计,算,算系统,Storm,流数据处理,Storm,可以用来处理,源,源源不断流进,来,来的消息,处,理,理之后将结果,写,写入到某个存,储,储中去。,S4(Simple ScalableStreaming System),是一个分布式,流,流处理引擎,,开,开发者可以在,这,这个引擎基础,上,上开发面向无,界,界的,不间断,的,的流数据处理,应,应用。,分布式,rpc,由于,storm,的处理组件是,分,分布式的,而,且,且处理延迟极,低,低,所以可以,作,作为一个通用,的,的分布式,rpc,框架来使用。,搜索引擎本身,也,也是一个分布,式,式,rpc,系统。,39,STORM,角色,Nimbus,:,负责资源分配,和,和任务调度。,Supervisor,:,负责接受,nimbus,分配的任务,,启,启动和停止属,于,于自己管理的,worker,进程。,Worker,:,运行具体处理,组,组件逻辑的进,程,程。,Task,:,worker,中每一个,spout/bolt,的线程称为一,个,个,task.,40,基本逻辑,概念,Spout,:,在一个,topology,中产生源数据,流,流的组件。,Spout,是一个主动的,角,角色,其接口,中,中有个,nextTuple(),函数,,storm,框架会不停地,调,调用此函数,,用,用户只要在其,中,中生成源数据,即,即可。,Bolt,:在一个,topology,中接受数据然,后,后执行处理的,组,组件。,Bolt,可以执行过滤,、,、函数操作、,合,合并、写数据,库,库等任何操作,。,。,Bolt,是一个被,动,动的角色,,Tuple,:,一次消息传,递,递的基本单,元,元。,Stream,:,源源不断传,递,递的,tuple,就组成了,stream,。,Topology,:,storm,中运行的一,个,个实时应用,程,程序,,因为各个组,件,件间的消息,流,流动形成逻,辑,辑上的一个,拓,拓扑结构。,41,大数据处理,平,平台,MPP,42,应用程序通过,Master,主机访问数据,在存储节点和,Master,主机之间交换数据,每一个存储节点都是独立,的,PgSQL,数,据库(无共享),QueryPlan,MPP=,Massive Parallel Processing,海量并行处,理,理结构,数据分发,43,Share-Nothing,的完全并行,架,架构,44,共享磁盘,例,如,:,Oracle RAC,DB,SAN/,共享磁盘,DB,DB,DB,网络,SAN/FC,完全共,享,例如:,SMP,服务器,DB,磁盘,完全不共享,例,如,:,Greenplum,DB,DB,DB,DB,网络,磁盘,磁盘,磁盘,磁盘,Master,注:所有的,共,共享资源都,用,用蓝灰色表,示,示,基于外部表,的,的高速数据,加,加载,利用并行数,据,据流引擎,,Greenplum,可以直接用,SQL,操作外部表,数据加载完,全,全并行,加,载,载速度可达,4.5TB/,小时,45,Master,主机,Segment,主机,内部互联网,千兆以太网交换机,gdfdist,gdfdist,Segment,主机,Segment,主机,Segment,主机,外部表文件,外部表文件,ETL,服务器,内部网络,MapReduce& SQL,一体环境,46,传统,RDBMS,系统,ACID,交易管理器,ACID,交易管理器,查询优化器,ACID,交易管理器,关系型表,关系型表,SQL,关系型表,数据库日志,数据流,引擎,reduce , ,map , ,化简,映射,reduce , ,map , ,数据流,引擎,数据流,引擎,map , ,ACID,交易管理器,ACID,交易管理器,查询优化器,ACID,交易管理器,关系型表,关系型表,SQL,关系型表,数据库日志,数据流,引擎,查询优化器,关系型表,查询优化器,数据库日志,化简,映射,化简,map , ,reduce , ,ACID,交易管理器,ACID,交易管理器,ACID,交易管理器,关系型表,关系型表,关系型表,数据库日志,数据流,引擎,关系型表,数据库日志,传统的编程,环,环境,Greenplum,机制,Pivotal HD+hawq,47,Phd,集群,48,谢谢大家!,
展开阅读全文