资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,1/10/2017,#,百度大数据即席查询服务,百度开放云,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,大数据即席查询(,Ad-Hoc,Query,)平台,PAAS,:,开箱即用,用户无需关心机器,/,集群的运维,/,细节,高性能,/,规模:裸机,/,优化,/,最大,PB,量级以上,低成本:,多租户共享集群,/,按使用付费,BigSQL,定位,数据格式:半结构化(,CSV/JSON/Parquet/Protobuf,等),使用接口:易用,/,多样化(,RestAPI/Console/CLI/JDBC,),语法集:,兼容开源,SparkSQL/HQL,按使用付费:,按(,Query,复杂度,+,扫描数据量)计费,多用户协同:,灵活的权限管理,BigSQL,特点,面向“人”的查询,交互式(,Interactive,):,查询具有较高时效性,即席(,Ad-Hoc,):,查询模式相对不固定,数据没有(时间,/,成本)做过多预处理,Ad-Hoc,Query,Ad-HocQuery,OLAP,数据密度,弱(半)结构化,高度结构化,加工过程,粗(浅)加工,深度加工,查询模式,相对随机,相对固定,即席查询,vs,多维分析,MPP/Impala,SQLonHadoop/SparkSQL,扩展性,1000,台以内,/PB,以下,千台以上,/PB,以上,查询延迟,毫秒,秒,秒,分钟,架构复杂性,中等,复杂,容错,无,有,调度策略,Gang/Transaction,分批,启停开销,小,/,常驻进程,大,/,现启动,与存储结合程度,紧密,松散,MPP/Shared-Nothing,BigSQLService,WebServe,r,Tools/SDK,BOS,BigSQL,示意图,User,Query,User,Query,Streaming,Batch,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,REST,API,接入层(Http,Server),SessionManager,SparkContext,SessionWorker,Query,Query,Scheduler,Compute,&,Storage,Cluster,SparkContext,SessionWorker,Query,Query,SparkContext,SessionWorker,Query,Query,SDK,CLI,Tools,MetaStore,IAM,账单,监控,State,Store,Console,BigSQL,整体架构,易用性:各种形式的,API,可用性:关键节点容错,安全:租户认证和鉴权、,Quota,限制,账单,监控,BigSQL,整体架构:接入层,计算引擎(Spark),SessionWorker,SessionWorker,SessionWorker,SessionWorker,APP,Executor,Executor,APP,Executor,Executor,Executor,分布式缓存(Cache,Manager),存储引擎(DFS/Column,Storage),APP,Executor,APP,Executor,Executor,BigSQL,整体架构:引擎层,接入层,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,高性能,Shuffle,BigSQL,关键技术(一),高性能,Shuffle,BigSQL,关键技术(一),BigSQL,关键技术(一),数据缓存层,BigSQL,关键技术(二),User,User,接入层,计算引擎(Spark),Cache,Manager,Cache,存储引擎(HDFS,+,Parquet),数据缓存策略,l,按需缓存,Query,运行时触发,Cache,miss,,异步,load,到缓存,l,数据预取,周期性,Load,相关,Table/Partition,到缓存,根据过去,Query,信息统计热点数据,提前,Load,到缓存,典型案例:跨地域查询加速,(提升至少一个数量级),BigSQL,关键技术(二),优化执行,l,智能参数优化,利用,Combine,类,InputFormat,,减少,MapTask,数,根据上游输出,自动优化,Reduce,Partition,数目,l,调度优化,评估数据量,自动复用,Application,或者,启用新的,Application,l,近似查询,长尾任务自动忽略,保证时效性,BigSQL,关键技术(三),资源隔离,/,安全,l,基于,Cgroup/Namespace,的,Container,隔离,CPU/Memory/FS,Container,本身的加固,网络的互通与隔离,l,JVM,沙箱层的多种安全策略,l,计算,/,存储框架层的安全认证和加密传输,BigSQL,关键技术(四),即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,在,Baidu,内部的应用,凤巢广告数据分析,l,漏斗分析,分析广告被过滤的原因,各个维度特征等,l,系统优化和问题定位,分析系统业务日志,发现可优化的指标和潜在问题,日均扫描数据量:,xx,PB,即席查询服务(,BigSQL,),BigSQL,定位,/,特点,BigSQL,架构,BigSQL,关键技术,BigSQL,在,Baidu,内部的应用,下一步计划,l,持续投入技术研发,更智能的数据缓存层:,细粒度,/,物化视图选取,实时更新,向量执行:,提高,CPU,cache,命中率,CBO,:,Cost-based,Optimizer,BigSQL,后续规划,l,构建通用大数据处理平台,日志收集服务,数据变形,/ETL,服务,报表,/,多维分析,即席查询服务,批处理服务,预测服务,BigSQL,后续规划,DW,Transform,HDFS,Collect,OLAP,Storage,Transform,特征库,Transform,多维分析,ETL,报表,Log,Service,即席查询,批处理,服务,预测,服务,通用大数据处理平台,
展开阅读全文