大数据关键技术

上传人:zha****an 文档编号:253065272 上传时间:2024-11-28 格式:PPTX 页数:39 大小:5.75MB
返回 下载 相关 举报
大数据关键技术_第1页
第1页 / 共39页
大数据关键技术_第2页
第2页 / 共39页
大数据关键技术_第3页
第3页 / 共39页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014/11/11 Tuesday,#,大数据分析关键技术,概述,即席查询,批量,处理,流式计算,大数据,计算分析模式分类,即席查询,Ad-Hoc Query,批量处理,Batch,Processing,Map/Reduce,流式计算,Stream,Computing,数据承载,响应时间,适用场景,磁盘,秒级,(,准实时,),自然人交互式,经营分析,磁盘,分钟级至小时级,(,准实时,),事前,/,事后,大批量数据处理,内存,(,事件窗口,非全量数据,),秒级,(,实时,),实时事件分析,实时风险干预,针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。,即席查询,即席查询(,Ad Hoc,)是,用户根据自己的需求,,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是,普通的应用查询是定制开发的,,,而,即席查询是用户自定义查询条件,。,即席查询,Storage,Distribute,File,System,Column,Database,Resource,Management,Parallel,Compute,Framework,SQL,Syntax+,Compute,Framework,SQL,Syntax,Meta,Data,Batch,Processing,Ad-Hoc,Query,实时性,:高,批量处理,Storage,Distribute,File,System,Column,Database,Resource,Management,Parallel,Compute,Framework,SQL,Syntax+,Compute,Framework,SQL,Syntax,Meta,Data,Batch,Processing,Ad-Hoc,Query,MapReduce,是一种编,程模型,用于,大规模数据,集的并行,批量计算,。概念,Map,和,Reduce,当前的,主流,实现是指定一个,Map,函数,,用来把一组键值对映射成一组新的键值对,指定并发的,Reduce,函数,,用来保证所有映射的键值对中的每一个共享相同的键组,。,形成这种模型的原因是:数据的分布式存储、计算资源的分布式、,并行计算减少计算时长。,批量处理,实时性,:低,流式,计算,流数据的实时计算,注重对流数据的快速高效处理、计算和分析,。,其特点是计算过程数据不落地,所有数据在内存中完成。其计算模型是根据规则生成容器,当数据流经过容器时,实时产生分析结果。,流式计算,Input,Adapter,Output,Adapter,Engine,Cluster,Cluster,Management,Rule,Repository,NoSQL,实时性,:高,概述,即席查询,批量,处理,流式计算,Impala,Node,Impala,架构,Impalad,Query Planner,Query,Coordinator,Query,Exec,Engine,Common,HiveQL,&,Interface,MetaData,SQL,JDBC,Hive MetaStore,HDFS NN,State Store,Impalad,Query Planner,Query,Coordinator,Query,Exec,Engine,Impalad,Query Planner,Query,Coordinator,Query,Exec,Engine,Data,HDFS,DN,HBase,Data,HDFS,DN,HBase,Data,HDFS,DN,HBase,Impala,Node,Impala,Node,Local,Direct,Reads,Thrift,Hive,架构,Data,HDFS,DN,Task,Tracker,Job,Tracker,Name,Node,Hadoop,Hive(Over Hadoop 0.20.X),SQL,JDBC,WUI,Thrift,Server,Driver,(Compiler,Optimizer,Executor),Meta,Store,ThriftServer:J,DBC,通过,ThriftServer连接到,Hive,。,ThriftServer,连接,MetaStore,来读取,hive,的元数据信息,。,MetaStore,:,在关系型数据库中,存放,表,/,分区,/,列元数据,,可以低延迟的快速的访问到需要的元数据信,息。,Driver/QueryCompiler/ExecutionEngine:,客户端提交的,HiveSQL,首先进入,Driver,,然后,Driver,会为此次,HiveSQL,的执行创建一个,Session,,,Driver,维护整个,session,的生命周期。,Driver,首先将,HiveSQL,传送给,QueryCompiler,,然后由,QueryCompiler,来对用户提交的,HiveSQL,进行编译,/,检查,/,优化并最终生成,MapReduce,任务,。,ExecutionEngine,会与Hadoop进行交互,将 MapReduce任务交给Hadoop来执行,并从Hadoop取得最终的执行结果,并返回给用户,。,解析,HiveSQL,之后,生成,所,MapReduce,任务,,在,运行,中,访问元数据信息时,,将,直接读取,生成的物理计划,时产生的,plan.xml,,,此,文件会被放入,Hadoop,的分布式缓存中,,,,,MapReduce,任务可以从分布式缓存中获得,相应,的元数据。,Impala,相对于,Hive,的优势,Impala,不需要把中间结果写入磁盘,省掉了大量的,I/O,开销。,省掉了,MapReduce,作业启动的开销。,MapReduce,启动,task,的速度很慢(默认每个心跳间隔是,3,秒钟),,Impala,直接通过相应的服务进程来进行作业调度,速度快了很多。,Impala,借鉴,了,MPP,并行数据库的,思想,,可以,做,更多的查询优化,从而省掉不必要的,shuffle,、,sort,等开销。,使用了支持,Data locality,的,I/O,调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。,用,C+,实现,做了很多有针对,性的硬件优化。,对外提供多语言,API,、多种访问协议。,中间结果,作业调度,作业分发,数据访问,代码实现,概述,即席查询,批量,处理,流式计算,MapReducev0.23.x(YARN),NodeManager,Container,AppMaster,NodeManager,Container,AppMaster,NodeManager,Container,ResourceManager,Client,Client,Job,Submission,Container,MapReduce,Status,Resource,Request,NodeStatus,版,版本开,始,始,Hadoop,的,的 MapReduce,框,框架完,全,全重构。,新的Hadoop MapReduce,框,框架命,名,名为MapReduceV2,Y,ARN,概述,即席查询,批量,处理,流式计算,Primeton,CEP,Storm,流数据处,理,理技术,对,对比,传统,规则引擎,(,概念,),维度,流数据处理技术,传统规则引擎,处理方式,“窗口模式”多维关联分析,基于对属性的判断,处理模型,富状态,无状态,异常处理,内存状态数据的自动化恢复,服务无状态,数据重跑,简单举例,每种硬币各有多少个,对硬币进行分类,按时间区,间,间、按长,度,度区间、,按,按时间与,长,长度混合,区,区间、按,特,特有属性,值,值等规则,所,所建立起,的,的对象集,合,合,存放,在,在内存中,。,。,若动画中,,,,再对已,分,分类的硬,币,币进行自,动,动打包,,有,有两种方,式,式:,1.,判断槽中,的,的硬币数,量,量,触发,打,打包动作,;,;,2.,判断槽中,的,的硬币重,量,量,触发,打,打包动作,;,;,窗口模式,如动画中,对,对硬币的,分,分拣动作,:,:可以根,据,据硬币的,物,物理属性,设,设计不同,的,的判断规,则,则(轨道,宽,宽度,转,角,角等),,完,完成分类,。,。,决策判断,普元,CEP,平台架构,事件采集,层,层,Agent,Agent,Agent,Agent,外部系统,系统,A,系统,B,系统,C,系统,D,接入层,InputCluster1n,分析引擎,平台,结果执行,层,层,规则库,分析引擎,OSGiBased,分析引擎,OSGiBased,接入层,OutputCluster1n,分析规则,开,开发(离,线,线开发,),规则开发,IDE,(,EclipseBased),Action,Action,Action,Action,应用门户,(,功能松耦,合,合,),管理门户,(,规则模板,生,生命周期,管,管理,),运维门户,(,引擎,监控、全,局,局配置、,自,自动化部,署,署),业务门户,(,规则实例,业,业务参数,配,配置,),分析集群,运,运行环境,管理控制,环,环境,普元,CEP,平台特色,基于云计,算,算,PaaS,架构,分布式集,群,群管控框,架,架,系统级,物理主机,/,虚拟机,管理,进程级,服务实例,管理,集群配置,分析规则,热更新,/,热部署,与虚拟机,镜,镜像结合,分析服务,快,快速部署,与规则库,结,结合,规则插件,快,快速部署,集群通知,渠,渠道,规则实例,快,快速应用,自动化,、,图形化运,维,维,事件分析,平,平台,面向数据,流,流,基于内存,内存状态,数,数据迁移,冷热数据,分,分离与恢,复,复,集群规模,水,水平伸缩,事件动态,路,路由,分析规则,开发、管,理,理与应用,规则模板,开,开发,IDE,事件元,数据,类,SQL,规则语言,Action,元数据,Web,规则实例,配,配置与热,部,部署,Web,规则模板,管,管理,分布式,集,集群管控,框,框架,AnyOS,持久化,集,集群,AMQPMQ,集群,ZooKeeper,集群,Web,控制台,(,无状态,多实例,),负载均,衡,衡,(SessionSticky),物理,/,逻辑拓,扑,扑,规则模,板,板模板,状态,规则实,例,例,监控业,务,务进程,(,过滤,/,聚合,),(Support ZKClient),ZK,Client,OS(Support NodeJS),监控业务进,程,程,(,过滤,/,聚合,),(unSupportZKClient),Process Daemon,(NodeJS+ZKClient),OS(unSupportNodeJS),监控业务进,程,程,(,过滤,/,聚合,),(unSupportZKClient),Process Daemon,(Java+ZKClient),OS Agent,(NodeJS+ZKClient+MQClient),OS Agent,(NodeJS+ZKClient+MQClient),OS Agent,(,Java,+ZKClient+MQClient),管控服务,ZK,客户端,DB,客户端,MQ,客户端,规则部署,与配置,场景,运维人员,Repository,业务,Console,业务人员,DB,CEP,Engine1,CEP,Engine2,CEP,Engine3,ZooKeeper,3.,下载规则的,表,表单页面,2.,保存规则到,仓,仓库,运维,Console,4.,规则参数配,置,置,5.,保存规则参,数,数配置,6.,保存规则参,数,数配置到,ZooKeeper,engine1,Rule1,Rule2,Rule3,engine2,Rule4,engines,7.,通知,Engine,1.,上传规则部,署,署包
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!