大数据即席查询技术13693

上传人:痛*** 文档编号:243909037 上传时间:2024-10-01 格式:PPTX 页数:28 大小:2.81MB
返回 下载 相关 举报
大数据即席查询技术13693_第1页
第1页 / 共28页
大数据即席查询技术13693_第2页
第2页 / 共28页
大数据即席查询技术13693_第3页
第3页 / 共28页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,1/10/2017,#,百度大数据即席查询服务,百度开放云,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,大数据即席查询(,Ad-Hoc,Query,)平台,PAAS,:,开箱即用,用户无需关心机器,/,集群的运维,/,细节,高性能,/,规模:裸机,/,优化,/,最大,PB,量级以上,低成本:,多租户共享集群,/,按使用付费,BigSQL,定位,数据格式:半结构化(,CSV/JSON/Parquet/Protobuf,等),使用接口:易用,/,多样化(,RestAPI/Console/CLI/JDBC,),语法集:,兼容开源,SparkSQL/HQL,按使用付费:,按(,Query,复杂度,+,扫描数据量)计费,多用户协同:,灵活的权限管理,BigSQL,特点,面向“人”的查询,交互式(,Interactive,):,查询具有较高时效性,即席(,Ad-Hoc,):,查询模式相对不固定,数据没有(时间,/,成本)做过多预处理,Ad-Hoc,Query,Ad-HocQuery,OLAP,数据密度,弱(半)结构化,高度结构化,加工过程,粗(浅)加工,深度加工,查询模式,相对随机,相对固定,即席查询,vs,多维分析,MPP/Impala,SQLonHadoop/SparkSQL,扩展性,1000,台以内,/PB,以下,千台以上,/PB,以上,查询延迟,毫秒,秒,秒,分钟,架构复杂性,中等,复杂,容错,无,有,调度策略,Gang/Transaction,分批,启停开销,小,/,常驻进程,大,/,现启动,与存储结合程度,紧密,松散,MPP/Shared-Nothing,BigSQLService,WebServe,r,Tools/SDK,BOS,BigSQL,示意图,User,Query,User,Query,Streaming,Batch,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,REST,API,接入层(Http,Server),SessionManager,SparkContext,SessionWorker,Query,Query,Scheduler,Compute,&,Storage,Cluster,SparkContext,SessionWorker,Query,Query,SparkContext,SessionWorker,Query,Query,SDK,CLI,Tools,MetaStore,IAM,账单,监控,State,Store,Console,BigSQL,整体架构,易用性:各种形式的,API,可用性:关键节点容错,安全:租户认证和鉴权、,Quota,限制,账单,监控,BigSQL,整体架构:接入层,计算引擎(Spark),SessionWorker,SessionWorker,SessionWorker,SessionWorker,APP,Executor,Executor,APP,Executor,Executor,Executor,分布式缓存(Cache,Manager),存储引擎(DFS/Column,Storage),APP,Executor,APP,Executor,Executor,BigSQL,整体架构:引擎层,接入层,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,高性能,Shuffle,BigSQL,关键技术(一),高性能,Shuffle,BigSQL,关键技术(一),BigSQL,关键技术(一),数据缓存层,BigSQL,关键技术(二),User,User,接入层,计算引擎(Spark),Cache,Manager,Cache,存储引擎(HDFS,+,Parquet),数据缓存策略,l,按需缓存,Query,运行时触发,Cache,miss,,异步,load,到缓存,l,数据预取,周期性,Load,相关,Table/Partition,到缓存,根据过去,Query,信息统计热点数据,提前,Load,到缓存,典型案例:跨地域查询加速,(提升至少一个数量级),BigSQL,关键技术(二),优化执行,l,智能参数优化,利用,Combine,类,InputFormat,,减少,MapTask,数,根据上游输出,自动优化,Reduce,Partition,数目,l,调度优化,评估数据量,自动复用,Application,或者,启用新的,Application,l,近似查询,长尾任务自动忽略,保证时效性,BigSQL,关键技术(三),资源隔离,/,安全,l,基于,Cgroup/Namespace,的,Container,隔离,CPU/Memory/FS,Container,本身的加固,网络的互通与隔离,l,JVM,沙箱层的多种安全策略,l,计算,/,存储框架层的安全认证和加密传输,BigSQL,关键技术(四),即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,在,Baidu,内部的应用,凤巢广告数据分析,l,漏斗分析,分析广告被过滤的原因,各个维度特征等,l,系统优化和问题定位,分析系统业务日志,发现可优化的指标和潜在问题,日均扫描数据量:,xx,PB,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,l,持续投入技术研发,更智能的数据缓存层:,细粒度,/,物化视图选取,实时更新,向量执行:,提高,CPU,cache,命中率,CBO,:,Cost-based,Optimizer,BigSQL,后续规划,l,构建通用大数据处理平台,日志收集服务,数据变形,/ETL,服务,报表,/,多维分析,即席查询服务,批处理服务,预测服务,BigSQL,后续规划,DW,Transform,HDFS,Collect,OLAP,Storage,Transform,特征库,Transform,多维分析,ETL,报表,Log,Service,即席查询,批处理,服务,预测,服务,通用大数据处理平台,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!