资源描述
GOPS,全球运维大会,2019,上海站,阿里巴巴海量服务器下的基础运维和智能化 实践,GOPS,全球运维大会,2019,上海站,阿里巴巴海量服务器下的基础运维和智能化 实践GOPS 全球运,1,目录,业务介绍,1,整体架构,2,安全运维,3,智能化之路,4,GOPS,全球运维大会,2019,上海站,目录业务介绍1整体架构2安全运维3智能化之路4GOPS 全球,2,我们是谁,GOPS,全球运维大会,2019,上海站,$:,一套自动化数据中心管理系统,管理数据中心中的软硬件生命周 期,各类静态资源编排,基础软件的版本和发布,我们是谁GOPS 全球运维大会2019上海站$,3,解决什么问题,GOPS,全球运维大会,2019,上海站,解决什么问题GOPS 全球运维大会2019上海站,4,设计理念,设计理念,终态系统:当前态向终态逼近,假设失败会在任何地,发,吞吐和,可靠:热备,快速服务切换能力,稳定性和鲁棒性:即使天基系统瘫痪也不能影响管理的服务,版本维护,天基运维天基:,部署,,从,到有部署 天基的能,飞天智能运维平台系统最核心的设计,业务联动的监管控一体化安全运维以及恢复机制和变更机制的统一,声明式(,D,e,c,l,a,r,a,t,i,v,e,)变更。无论是配置变更,还是软件升级、硬件变更,都是通过一个格式化的说明文件来提交。这个对于避 免人工失误是非常有效的。,变更、恢复和修复机制的统一:面向终态的设计使得这三类操作采用同样的机制。,集成的监控机制:自动发现故障,运维系统要解决的问题:,能够最大化的无人干预,信息化,-,自动化,-,智能化,稳定安全,能够尽量避免人工失误,并且在失误 或故障发生的情况下,能快速进行恢复,GOPS,全球运维大会,2019,上海站,设计理念设计理念飞天智能运维平台系统最核心的设计,业务联动的,5,目录,业务介绍,1,整体架构,2,安全运维,3,智能化之路,4,GOPS,全球运维大会,2019,上海站,目录业务介绍1整体架构2安全运维3智能化之路4GOPS 全球,6,R,e,g,i,o,n,化,GOPS,全球运维大会,2019,上海站,Region化GOPS 全球运维大会2019上海站,7,不做,100%,可用的假设,不能因为中心服务不可用,而 影响别的服务,版本兼容和自管理,相邻三个版本之间必须保证向下兼容,版本和升级自维护,自己运维自己,减少单点故障,m,a,s,t,e,r,存状态,其他模块无状态,可重入,每个模块功能设计尽量简单,确定信号触发确定行为,轻量快速的服务状态检查,Monitor,状态机反馈,监管空一体化,自包含,:Package,Model,减少对环境的依赖,易于 清理,分布式设计,+HDOLQJ,6HUYLFH,HSOR,6HUYLFH,HYLFH,0DQDJHU,3RUWDO,&,$3,6HUYHU,WMSUR,6HUYLFH,0DQDJHU,&RQJ,0DQDJHU,6V(QY,0DQDJHU,RZQORDGHU,$YDLODELOLW,6HUYLFH,6LPSOH,HFLGHU,6HUYHU,6HUYLFH,HFLGHU,0RQLWRU,$SS1,$SS2,6HUYHU5ROH,7LDQML&OXVWHU,8VHU,&OXVWHU,6HUYHU5ROH:,7LDQML.7LDQML&OLHQW,HOLYHU,TianjiAdaptor,TjMaster On,Paxos,GOPS,全球运维大会,2019,上海站,不做100%可用的假设,不能因为中心服务不可用,而 影响别的,8,变更,天基,品,用户,提交发布,GOPS,全球运维大会,2019,上海站,变更定义:通过平台进行的软件部署、版本升级、配置变更、扩容、缩容等操,普通模式:所有的机器同等对待,审批之后开始升级。,金丝雀模式:先选两台机器,试着升级,成功了再升级剩下的。,grayunit,模式:灰度升级,用户可以自定义灰度策略。,滑动窗口模式:自定义机器升级并发数,保证任意一个时刻,升级机器不超过并发数,非安全模式:不考虑服务可用性,所有的机器直接升级,Adaptor,业务灰度模式:,查询批次,返回机器,变更天基 品用户提交发布GOPS 全球运维大会2019上海,9,灰度模式,普通,金丝雀,grayunit,滑动窗口,Adaptor,业务灰度,GOPS,全球运维大会,2019,上海站,灰度模式普通 金丝雀 grayunit 滑动窗口 Adapt,10,灰度模式,普通,金丝雀,grayunit,滑动窗口,Adaptor,业务灰度,GOPS,全球运维大会,2019,上海站,灰度模式普通 金丝雀 grayunit 滑动窗口 Adapt,11,灰度模式,普通,金丝雀,grayunit,滑动窗口,Adaptor,业务灰度,GOPS,全球运维大会,2019,上海站,灰度模式普通 金丝雀 grayunit 滑动窗口 Adapt,12,灰度模式,普通,金丝雀,grayunit,滑动窗口,Adaptor,业务灰度,GOPS,全球运维大会,2019,上海站,灰度模式普通 金丝雀 grayunit 滑动窗口 Adapt,13,灰度模式,普通,金丝雀,grayunit,滑动窗口,Adaptor,业务灰度,GOPS,全球运维大会,2019,上海站,灰度模式普通 金丝雀 grayunit 滑动窗口 Adapt,14,自愈系统,应用,系统,机器,整机替换,离线修复,故障注入,在线修复,机器,机器,系统,机器,H,e,a,li,n,g,Service,Repair,S,er,v,i,c,e,R,e,p,l,a,c,e,Service,Chaos,M,a,n,a,g,e,r,GOPS,全球运维大会,2019,上海站,自愈领域,自愈范围,负责服务,自愈系统应用系统机器整机替换离线修复故障注入在线修复机器机器,15,自愈实现方式,发现问题,决策,修复动作,Monitor,State,基础硬件,monitor,应用上报,1.,2.,3.,4.,按照规则触发修复,action,quota,manager,action,manager,action,translator,Service,Decider,1.,2.,3.,对,a,c,t,i,o,n,进行审批,simple,decider,custom,decider,1.,2.,3.,GOPS,全球运维大会,2019,上海站,x_labor,xx_labor,xxx,_,l,a,b,o,r,Labor,自愈实现方式发现问题决策修复动作MonitorState基础,16,目录,业务介绍,1,整体架构,2,安全运维,3,智能化之路,4,GOPS,全球运维大会,2019,上海站,目录业务介绍1整体架构2安全运维3智能化之路4GOPS 全球,17,Infrastructure,as,Code,GOPS,全球运维大会,2019,上海站,通过配置文件定义一切,一切变更都是基于,code,review,的,configuration,change,通过服务模版方式管理版本和配置,服务在不同集群之间版本配置尽量保持一致,终态,不管当前状态,向终态前进,安全运维三驾马车,:Monitor,+,状态机,+,Decider,践行,devops,Infrastructure as CodeGOPS 全球运,18,角色实例,Monitor,产品根据自身,CheckHealth,结果汇报的信息,角色实例,KeyMonitor,用于处理,c,h,e,c,k,_,h,e,al,t,h,_,a,pp,本身异常,无法 汇报信息的情况,机器,Monitor,对服务器进行监控产生的监控信息,GOPS,全球运维大会,2019,上海站,Monitor,角色实例 MonitorGOPS 全球运维大会2019上海,19,状态机,GOPS,全球运维大会,2019,上海站,状态机GOPS 全球运维大会2019上海站,20,Simple,Decider,应用通过定义百分比的方式实现,D,e,c,i,d,e,r,逻辑,天基根据百分比自动审批,Custom,Decider,应用自己实现逻辑,通过天基,API,与天基交互,Adaptor,Decider,应用按要求提供,openApi,,天基负责调用,GOPS,全球运维大会,2019,上海站,D,e,c,i,d,e,r,Simple DeciderGOPS 全球运维大会2019,21,目录,业务介绍,1,整体架构,2,安全运维,3,智能化之路,4,GOPS,全球运维大会,2019,上海站,目录业务介绍1整体架构2安全运维3智能化之路4GOPS 全球,22,$fl,AIOps,所有操作,线上化,规范,效率,数据积累,过程结果数字化,透明,可衡量,智能化的基,础,分析决策智能化,准确,高效,全局,优化,$flfi$,自,动化,数字化,智能化,GOPS,全球运维大会,2019,上海站,$fl AIOps所有操作线,23,D,C,B,r,a,i,n,:$fl$,GOPS,全球运维大会,2019,上海站,DCBrain:$fl$GOPS 全,24,fi,$flfl,集群和服务器智能化运维,大规模计算系统,供应链智能化,数据中心智能化运维,供应链智能化整体方案:,针对供应链特点,打造需求、运营、分 析、决策智能化方案,实现数据驱动、基于算法的需求预测、,库存优化、,TCO,分析和优化,自动闭环环境:,打通自动化工具和系统平台与智能化算 法的闭环系统,为未来进行先进,A,I,算法和系统探索、部,署奠定基础,针对数据中心电热性能进行优化,包括:冷量预测控制、,P,o,w,e,r,预测控制、,IDC,电热感知、,PUE,优化等,对现场运维进行智能化改造,包括:多媒体信息处理巡检、安防视频识别、工单智能派发等,集群智能化方案:,提升集群和服务器的稳定性和可靠性,包括:服务器和部件故障预测,跨域关联,根因分析,规则生成,提升集群资源利用率和流转率,包括:集群资源异常检测,关联分析智能决 策,GOPS,全球运维大会,2019,上海站,fi$flfl集群和服务器智能化运维大规模计算系统供,25,集群,资源,智能探,查,集群利用率异常,检测,低水位和,闲置智能判断和预警,服,务器,&,部件 故障,预测,智能管理,&,修复,集群自,动管控,故障智能化在,线修复决策,集群和服,务器智能化布局,硬,盘故障预测,内存宕机故障,预测,根因分析,$,实现从专家规则,-,智能分析的演,进,实现问题和故障的处理方式,从被动响应,-,主,动发现,-,提前,预测,GOPS,全球运维大会,2019,上海站,集群资源 智能探查集群利用率异常检测服务器&部件 故障预测智,26,集群,资源,智能探,查,集群利用率异常,检测,低水位和,闲置智能判断和预警,服,务器,&,部件 故障,预测,智能管理,&,修复,集群自,动管控,故障智能化在,线修复决策,集群和服,务器智能化布局,硬,盘故障预测,内存宕机故障,预测,根因分析,$,实现从专家规则,-,智能分析的演,进,实现问题和故障的处理方式,从被动响应,-,主,动发现,-,提前,预测,GOPS,全球运维大会,2019,上海站,集群资源 智能探查集群利用率异常检测服务器&部件 故障预测智,27,
展开阅读全文