资源描述
,8/21/2018,#,阿里,资源,混部技术,架,构介绍,阿里资源混部技术架构介绍,1,混部简介,混部的历程,混部的架构,调度与内核,未来的展望,混部简介混部的历程,2,为什么要混部,各种数据报告都显示目前数据中,心的机器利用率平均在,10%,左右 容灾、峰值,机器数,冗余大,另一方面,大数据的普及,离线,分析作业越来越多,,成本极高,如何解决,?,为什么要混部各种数据报告都显示目前数据中 心的机器利用率平均,3,什么是混部,在线服务,离线计算,实时计算,把集群混合起来,将不同类型的任务调度到相同,的物理资源上,通过调度,资源隔离等控制手段,保障SLO,极大降低成本,我们称这样的技术为,混部(Co-loaction),什么是混部在线服务离线计算实时计算把集群混合起来,将不同类,4,在线离线的混部,在线优 先,级,离线优 先,级,低,低优先 级牺牲,就像是石块,且延时敏感,利用率不高,不可重跑,就像水和沙子,且延时不 敏感,利用率高,可重跑,当在线不忙时,离线就抢 占,反之则返还,甚至反哺,是可以进行混部,并带来 成本收益的两个前提条件,优先级 互补性,在线离线的混部在线优 先级离线优 先级低低优先 级牺牲就像,5,混部的使用场景,30%,成本下降,日常可以提升利用率、,大幅度降低成本,10%,交易流量,大促时可以通过挤占 离线的方式来抗住峰,值带来的压力,混部的使用场景30%成本下降,6,混部简介,混部的历程,混部的架构,调度与内核,未来的展望,混部简介,7,混合云,双11每年都在创造奇迹,但是 高峰却只有,1,小时,左右。,一方面开始使用阿里云的公有 云资源的弹性能力降低成本。另一,方面,我们也开始研究混部的相关 技术。,业务层,在线服务运维,在线服务调度,计算任务调度,Cloud,open,API,计算产品运维,云服务运维,T4NC,保有云,在线服务与计算任务,ECS,公有云,当保有云不足时,32.5,万笔,/,秒,混合云双11每年都在创造奇迹,但是 高峰却只有1小时左右。业,8,Google与Borg,201,5年,Googl,e,发表了,Bor,g,论,文,其中就提到了在线服务与计算 任务之间的混合运行,也就是我们 说的混部技术。,B,o,r,g论文中描述了Google由于采,用了这项技术,为,Google,整体节省 了,20%-30%,的机器规模,Google与Borg2015年,Google发表了Borg,9,混部的四年历程,2015,2014,2016,2017,启动研究,线上验证,200,大规模使用,20%,线下测试,混部的四年历程201520162017启动研究线上验证大规模,10,日常混部的效果,混部:,40%,非混部:,10%,30,%,日常混部的效果混部:40%非混部:10%30%,11,干扰性的效果,影响,5,%,以内,干扰性的效果影响,12,混部简介,混部的历程,混部的架构,调度与内核,未来的展望,混部简介,13,基于容器的Sigma,兼,容,Kubernetes,API,,和开源,社区共建,采用阿,里,Pouch,容器,(,兼,容,OCI,标准,),通过阿里多年大规模及,双,11,验证,基于容器的Sigma兼容Kubernetes API,和,14,基于进程的Fuxi,面向海量数据处理和大规模计 算类型的复杂应用,提供了一个数据驱动的多级流 水线并行计算框架,在表述能 力上兼容MapRe,duc,e,Map-,R,educe-Me,rg,e,,,Cas,cadin,g,,FlumeJava,等多种编程模式。,高可扩展,性,,支持十万以上级 的并行任务调度,能根据数据 分布优化网络开销。自动检测,故障和系统热点,重试失败任,务,保证作业稳定可靠运行完 成。,CLT,RPC_wrapper,FuxiMaster,Fuxi,Agent,APP,Master,Cluster,Node,Fuxi,Agent,APP,Worker,Cluster,Node,Fuxi,Agent,APP,Worker,Cluster,Node,APP,Worker,Fuxi,Agent,APP,Master,Cluster,Node,APP,Worker,APP,Worker,基于进程的Fuxi面向海量数据处理和大规模计 算类型的复杂,15,混部的整体架构,通,过,sigm,a和fu,xi,完成,在线离线的各自调度,通过零层相互协调资源,配比,通过调度和内核解决资,源竞争隔离问题,SigmaAgent,RunC,RunV,Follow the,OCI standards,Non-prod,Jobs,JOB,JOB,Prod,Jobs,Pouch,RunLXC vLinux,Level0-Agent,FuxiAgent,Level0-Data,FuxiMaster,SigmaMaster,Level0-,Con,t,roller,Pouch,Pouch,混部的整体架构通过sigma和fuxi完成 在线离线的各自调,16,零层的协调机制,sigmaMaster,Level0,Manager,FuxiMaster,Sigma,RM,Level0,RM,Fuxi,RM,Level0Agent,sigmaAgent,FuixAgent,容 器,容 器,容 器,ta sk,ta sk,ta sk,混部集群管理,各调度租户资源配比,日常压测大促策略,异常检测与处理,零层的协调机制sigmaMasterLevel0 Manag,17,混部简介,混部的历程,混部的架构,调度与内核,未来的展望,混部简介,18,混部中的两大核心,调度,通过资源画像,在 竞争之前,尽量减 少资源竞争的可能 性,内核,在发生资源竞争 的极端情况时,优先保障高优先 级任务,主动,,,延时高,被动,,,延时低,资源竞争,混部中的两大核心调度内核主动,延时高被动,延时低资源竞争,19,调度:平时的分时复用,对集群进行资源使 用的画像,在线凌,晨1-,6点为低 峰,离线是高峰,通过在线服务资源 画像智能挑选空闲 容器进行,offli,n,e,处,理,离线扩水位 在线缩水位,在线扩水位 离线缩水位,离线高峰可拉升 至,60%,以上,调度:平时的分时复用对集群进行资源使 用的画像离线扩水位 在,20,调度:大促时的分时复用,1,时完成快,速线切换,日常态,促态,在线服务,计算任务,混部机器,独占机器,调度:大促时的分时复用1时完成快日常态促态在线服务计算任,21,调度:压测时的无损有损降级,5,分钟内完成无损降级,在线服务,CPUSE,T模式,N,C,平均利,用率不高,离线,70%,的任务小于,3,分钟,分钟级快速恢复,秒级的快,速,kill,预案,离线运行,5min,离线降级,在线压测,30min,5min,离恢复,离线运行,1,小时,5min,离线降级,常 态 在 线 压 测,调度:压测时的无损有损降级5分钟内完成无损降级分钟级快速恢复,22,调度:离线作业选取,Task2,Task3,Task4,Task5,Task1,规则过滤,资源画像,Task4,Task5,Level0 Data,对作业进行资源,使用的画像,通,过,0,层来获得 剩余的资源能力,挑选符合条件的,作业,调度:离线作业选取Task2Task3Task4Task5T,23,调度:弹性内存,在线加入内存共享分组,基于在线的实际内存使,用,,动态调整离线水位,当在线突增,时,,自动降级,(Kill),解决离线内存快速释放问题,整,体OOM,时,优先杀离线优先级低的任务,buffer,在线 实际,离线 最小,共享组,离线 可占,调度:弹性内存在线加入内存共享分组基于在线的实际内存使用,动,24,调度:存储计算分离,SSD,SSD,SSD,SATA,SATA,SATA,大数据存储,计算节点,计算节点,计算节点,计算节点,计算节点,计算节点,通用块存储,日志中心,统一计算调度,统一存储调度,存储与计算混杂在一,起,,,对于调度复杂度是乘的 关系,网络能力的提,升,让远 程访问变得像本地一样,快,调度:存储计算分离大数据存储通用块存储日志中心统一计,25,内核隔离:CPU,CPU,抢占,按照CGroup分配优先级(cpu.shares),高优先级任务可以抢占低优先级任务 的时间片,规,避,HT(noise,clean),避免离线任务调度到在线任务相邻的,HT,上,保证已经运行的离线任务在在线任务于相邻HT上唤醒后迁走,内核隔离:CPUCPU抢占,26,内核隔离:CPU,L3,Cache,隔离,CAT:BDW,CPU,的特性;,内存带宽隔离,Memory,Bandwidth Monitoring,;,Cfs,bandwidth,control,调节离线任务运行时间片长度,5,10,25,30,Response,Time,1520,DRAM,Write,BW,(GB/s),Response,Time,against different,DRAM BW,内核隔离:CPUL3 Cache隔离内存带宽隔离Cfs ba,27,内核隔离:内存,内存回收隔离,按照,CGroup,分配优先级,增加组内回收机制,避免全局内存回收干扰在线任务,按优先级确定内存回收的权重,在线任务的内存被回收的更少,OOM,优先级,整机,OOM,时,优先杀低优先级任务,内核隔离:内存内存回收隔离,28,内核隔离:网络,带宽隔离,隔离本机带宽,(TC),。,Pouch,容器间的带宽隔离,带宽共享,(,金、银、铜),在离线间可以存在共享带宽,进程间按照优先级可以抢占带宽,内核隔离:网络带宽隔离,29,内核隔离:IO,文件级别的,IO,带宽隔离,(,上限,),新增,blkio,的控制接口,限制,IOPS,BPS,文件级别的保低带宽,(,下限,),允许应用超出保底带宽后使用富余的空闲带宽;,Metadata throttle,限制特定操作的,metadata,操作,例如一次性删除大量小文件。,内核隔离:IO文件级别的IO带宽隔离(上限),30,混部简介,混部的历程,混部的架构,调度与内核,未来的展望,混部简介未来的展望,31,更大规模的使用,千级别,万级别,混部,GPU,FPGA,实时,计算,场景更多元,规模更大,更大规模的使用千级别万级别混部GPUFPGA实时计算场景更多,32,更加精细化的调度与隔离,从集群,位到单机位,从实时判断到智能预测,混部,更多的优先级和维度,完全自动化的协调机制,更加精细化的调度与隔离从集群位到单机位从实时判断到智能,33,云上推出敏捷版本,定位,阿里内部调度、容器、运维 领域优势技术的输出平台,兼容,Kubernetes,架构和标 准,提供企业级容器应用管理能 力,提高企业,IT,效率,混部,(Co-location),灵活的调度策略和算法,和阿里云生态无缝整合,经过双,11,检验,Based,on,Kubernetes,and,Yarn.,优 势,混合云架构,弹性伸缩,资源调度,应用管理,混部,Co-lo,cation,3rd party,client,or,PaaS,Kubectl,Spark,在线服务,PaaS,ACS,EDAS,离线计算,PaaS,EMR,K8S,API,Yarn,API,K8S,API,Yarn,API,Sigma,Agility,Sigma,Agility,Console,ECS,EIP,公有云,SLB,V,P,C,Bare,Metal,VM,资源+服务,+,数据,编排,私有云,LB,Netw,or,k,N,A,S,OSS,Pangu,HDFS,Hadoo,p,云上推出敏捷版本定位 混部(Co-location)Ba,34,
展开阅读全文