大数据分析关键技术38

上传人:tfg****lgh 文档编号:243981502 上传时间:2024-10-01 格式:PPTX 页数:38 大小:5.60MB
返回 下载 相关 举报
大数据分析关键技术38_第1页
第1页 / 共38页
大数据分析关键技术38_第2页
第2页 / 共38页
大数据分析关键技术38_第3页
第3页 / 共38页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014/11/11 Tuesday,#,大数据分析关键技术,概述,即席查,询,询,批量处理,流式计,算,算,大数据计算分,析,析模式,分,分类,即席查,询,询,Ad-HocQuery,批量处,理,理,BatchProcessing,Map,/,/Reduce,流式计,算,算,StreamComputing,数据承,载,载,响应时,间,间,适用场,景,景,磁盘,秒级,(准实时),自然人,交,交互式,经营分,析,析,磁盘,分钟级,至,至小时,级,级,(准实时),事前/事后,大批量,数,数据处,理,理,内存,(事件窗,口,口,非全量,数,数据),秒级,(实时),实时事,件,件分析,实时风,险,险干预,针对不,同,同的业,务,务领域,,,,需要,采,采用不,同,同的数,据,据计算,分,分析方,式,式,快,速,速发现,数,数据价,值,值。,即席查,询,询,即席查,询,询(AdHoc)是用户根,据,据自己,的,的需求,灵活,的,的选择,查,查询条,件,件,系,统,统能够,根,根据用,户,户的选,择,择生成,相,相应的,统,统计报,表,表。即,席,席查询,与,与普通,应,应用查,询,询最大,的,的不同,是,是普通的,应,应用查,询,询是定,制,制开发,的,的,而即席查,询,询是用,户,户自定,义,义查询,条,条件。,即席查,询,询,Storage,DistributeFileSystem,ColumnDatabase,ResourceManagement,Parallel,ComputeFramework,SQLSyntax,+,+,ComputeFramework,SQLSyntax,Meta,Data,BatchProcessing,Ad-HocQuery,实时性:高,批量处,理,理,Storage,DistributeFileSystem,ColumnDatabase,ResourceManagement,Parallel,ComputeFramework,SQLSyntax,+,+,ComputeFramework,SQLSyntax,Meta,Data,BatchProcessing,Ad-HocQuery,MapReduce是一种,编,编程模型,,,,用于大规模,数,数据集的并,行,行批量计,算,算。概念Map和Reduce当前的主流实现是,指,指定一,个,个Map函数,用来,把,把一组,键,键值对,映,映射成,一,一组新,的,的键值,对,对,指,定,定并发,的,的Reduce函数,用来,保,保证所,有,有映射,的,的键值,对,对中的,每,每一个,共,共享相,同,同的键,组,组。,形成这,种,种模型,的,的原因,是,是:数,据,据的分,布,布式存,储,储、计,算,算资源,的,的分布,式,式、并行计,算,算减少,计,计算时,长,长。,批量处,理,理,实时性:低,流式计算,流数据,的,的实时,计,计算注重对,流,流数据,的,的快速,高,高效处,理,理、计,算,算和分,析,析。其特点,是,是计算,过,过程数,据,据不落,地,地,所,有,有数据,在,在内存,中,中完成,。,。其计,算,算模型,是,是根据,规,规则生,成,成容器,,,,当数,据,据流经,过,过容器,时,时,实,时,时产生,分,分析结,果,果。,流式计,算,算,Input,Adapter,Output,Adapter,EngineCluster,Cluster,Management,RuleRepository,NoSQL,实时性:高,概述,即席查,询,询,批量处理,流式计,算,算,ImpalaNode,Impala架构,Impalad,QueryPlanner,QueryCoordinator,QueryExecEngine,CommonHiveQL&Interface,MetaData,SQL,JDBC,Hive MetaStore,HDFS NN,StateStore,Impalad,QueryPlanner,QueryCoordinator,QueryExecEngine,Impalad,QueryPlanner,QueryCoordinator,QueryExecEngine,Data,HDFSDN,HBase,Data,HDFSDN,HBase,Data,HDFSDN,HBase,ImpalaNode,ImpalaNode,LocalDirectReads,Thrift,Hive架构,Data,HDFSDN,TaskTracker,JobTracker,NameNode,Hadoop,Hive(Over Hadoop0.20.X,),),SQL,JDBC,WUI,ThriftServer,Driver,(Compiler,Optimizer,Executor),MetaStore,ThriftServer,:,:JDBC通过ThriftServer,连,连接到Hive。ThriftServer连接MetaStore来读取hive的元数,据,据信息。,MetaStore:在关系,型,型数据,库,库中存放表/分区/列元数,据,据,可以低,延,延迟的,快,快速的,访,访问到,需,需要的,元,元数据,信,信息。,Driver,/,/QueryCompiler/ExecutionEngine,:,:客户端,提,提交的HiveSQL首先进,入,入Driver,然后Driver会为此,次,次HiveSQL的执行,创,创建一,个,个Session,Driver维护整,个,个session的生命,周,周期。Driver首先将HiveSQL传送给QueryCompiler,然后,由,由QueryCompiler来对用,户,户提交,的,的HiveSQL进行编,译,译/检查/优化并,最,最终生,成,成MapReduce任务。,ExecutionEngine会与Hadoop进,行,行交互,,,,将MapReduce,任,任务交,给,给Hadoop来执,行,行,并,从,从Hadoop取得,最,最终的,执,执行结,果,果,并,返,返回给,用,用户。,解析HiveSQL之后生成所MapReduce任务,在运行中访问元,数,数据信,息,息时,将直接读,取,取生成的,物,物理计,划,划时产生,的,的plan.xml,此文件会,被,被放入Hadoop的分布,式,式缓存,中,中,MapReduce任务可,以,以从分,布,布式缓,存,存中获,得,得相应的元数,据,据。,Impala相对于Hive的优势,Impala不需要,把,把中间,结,结果写,入,入磁盘,,,,省掉,了,了大量,的,的I/O开销。,省掉了MapReduce作业启,动,动的开,销,销。MapReduce启动task的速度,很,很慢(,默,默认每,个,个心跳,间,间隔是3秒钟),,,,Impala直接通,过,过相应,的,的服务,进,进程来,进,进行作,业,业调度,,,,速度,快,快了很,多,多。,Impala借鉴了MPP并行数,据,据库的思想,可以做更多的,查,查询优,化,化,从,而,而省掉,不,不必要,的,的shuffle、sort等开销,。,。,使用了,支,支持Data locality的I/O调度机,制,制,尽,可,可能地,将,将数据,和,和计算,分,分配在,同,同一台,机,机器上,进,进行,,减,减少了,网,网络开,销,销。,用C+实现,,做,做了很,多,多有针,对,对性的硬,件,件优化,。,。对外提,供,供多语,言,言API、多种,访,访问协,议,议。,中间结,果,果,作业调,度,度,作业分,发,发,数据访,问,问,代码实,现,现,概述,即席查,询,询,批量处理,流式计,算,算,MapReducev0.23.x(YARN),NodeManager,Container,AppMaster,NodeManager,Container,AppMaster,NodeManager,Container,ResourceManager,Client,Client,JobSubmission,Container,MapReduceStatus,ResourceRequest,NodeStatus,从 0,.,.23,.,.0,版,版本开,始,始,Hadoop,的,的 MapReduce,框,框架完,全,全重构。,新的HadoopMapReduce 框,架,架命名,为,为MapReduceV2YARN,概述,即席查,询,询,批量处理,流式计算,PrimetonCEP,Storm,流数据,处,处理技,术,术 对,比,比传统规则引,擎,擎(概念),维度,流数据处理技术,传统规则引擎,处理方式,“窗口模式”多维关联分析,基于对属性的判断,处理模型,富状态,无状态,异常处理,内存状态数据的自动化恢复,服务无状态,数据重跑,简单举例,每种硬币各有多少个,对硬币进行分类,按时间,区,区间、,按,按长度,区,区间、,按,按时间,与,与长度,混,混合区,间,间、按,特,特有属,性,性值等,规,规则所,建,建立起,的,的对象,集,集合,,存,存放在,内,内存中,。,。,若动画,中,中,再,对,对已分,类,类的硬,币,币进行,自,自动打,包,包,有,两,两种方,式,式:1.判断槽,中,中的硬,币,币数量,,,,触发,打,打包动,作,作;2.判断槽,中,中的硬,币,币重量,,,,触发,打,打包动,作,作;,窗口模,式,式,如动画,中,中对硬,币,币的分,拣,拣动作,:,:可以,根,根据硬,币,币的物,理,理属性,设,设计不,同,同的判,断,断规则,(,(轨道,宽,宽度,,转,转角等,),),完,成,成分类,。,。,决策判,断,断,普元CEP平台架,构,构,事件采,集,集层,Agent,Agent,Agent,Agent,外部系,统,统,系统,A,系统,B,系统,C,系统,D,接入层,InputCluster1n,分析引,擎,擎,平台,结果执,行,行层,规则库,分析引,擎,擎,OSGi Based,分析引,擎,擎,OSGi Based,接入层,OutputCluster1n,分析规,则,则开发,(,(离线,开,开发),规则开,发,发IDE,(EclipseBased),Action,Action,Action,Action,应用门,户,户(功能松,耦,耦合),管理门,户,户,(规则模,板,板生命,周,周期管,理,理),运维门,户,户,(引擎监控、,全,全局配,置,置、自,动,动化部,署,署),业务门,户,户,(规则实,例,例业务,参,参数配,置,置),分析集,群,群运行,环,环境,管理控,制,制环境,普元CEP平台特,色,色,基于云,计,计算PaaS架构,分布式,集,集群管,控,控框架,系统级,物理主,机,机/虚拟机,管理,进程级,服务实,例,例,管理,集群配,置,置,分析规,则,则,热更新/热部署,与虚拟,机,机镜像,结,结合,分析服,务,务快速,部,部署,与规则,库,库结合,规则插,件,件快速,部,部署,集群通,知,知渠道,规则实,例,例快速,应,应用,自动化、图形化,运,运维,事件分,析,析平台,面向数,据,据流,基于内,存,存,内存状,态,态数据,迁,迁移,冷热数,据,据分离,与,与恢复,集群规,模,模水平,伸,伸缩,事件动,态,态路由,分析规,则,则,开发、,管,管理与,应,应用,规则模,板,板开发IDE,事件元,数据,类SQL规则语,言,言,Action,元数据,Web规则实,例,例配置,与,与热部,署,署,Web规则模,板,板管理,分布式,集,集群管控,框,框架,AnyOS,持久化,集,集群,AMQPMQ集群,ZooKeeper集群,Web控制台(无状态,多实例),负载均,衡,衡(SessionSticky,),),物理/逻辑拓,扑,扑,规则模,板,板模板,状态,规则实,例,例,监控业,务,务进程(过滤/聚合),(SupportZKClient),ZK
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 市场营销


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!