资源描述
,1/23/2019,#,阿里智能,化,业务,故,障治理流,程实,践,阿里巴巴故障治理背景介绍,阿里巴巴全局故障治理流程,基于,AIOps,的全局故障治理架构,故障治理实战案例,新零售,/,云计算等新业态给故障治理带来的挑战,智能运维大图,业务环境给稳定性带来的挑战,业务数量巨大,订单量,49.1,万笔,/,秒,业务形态差异较大,电商、金融、云计算、物流、新 零售、文娱、社,交,业务关联性复杂,用户行为对业务的影响 应用调用链路复杂,线上故障需要统一的治理机制,业务故障统一发现,跨,BU,故障协同处理,故障的影响面及根因统,一收口推送,故障快速恢复需要 统一的机制,要解决的问题:,平衡监控准确率和召回率,报警规则维护成本较大,故障等级定义仁者见仁,故障判断条件繁多,千万级别的运维事件 哪些与业务故障相关?,跨,BU,故障如何定位根因,快速恢复场景稍纵即逝 如何实时决策触发切换?,如何快速响应并组织故 障处理,阿里巴巴全局故障治理流程,故障发现,故障定级,故障通告,故障辅助 定位,处理决策,故障快速 恢复,故障复盘,故障演练,业务流程,基于,AIOps,的全局故障治理架构,AIOps,故障治理产品架构,监控展示,异常发现,故障通告,根因分析,相关事件推送,智能监控大盘,智能基线,多指标关联分析,自动化通告,智能干系人管理,可疑应用分析,多维下钻,故障信息检索快速恢复切换,故障自定义分析,信息流转故障恢复,故障治理生命周期,故障治理实战案例,故障发现,故障定级,故障通告,故障辅助 定位,处理决策,故障快速 恢复,故障复盘,故障演练,通告,排查,自动化通告,核心故障秒级通告,故障知识图谱,智能水位,故障自定义分析,人工故障通告,慢,人工判断故障影响等级并组织通告内容发送一 般在,5,分钟左右,不可靠,人的主观因素会影响故障判级,不能确保故障 通告时效,SLA,,通告文案可能有错,自动化故障通告,故障等级定义结构化,智能基线计算跌幅,数据预处理,基线拟合,平滑去噪声,Modified,STL,滑动平均,插值补缺,故障自动定级 通告95,%,准确 快速发出,业务量下跌,count,失败率跌至,percent,自动化故障通告,自动化故障通告,通过多条监控规则,触发自动化故障通告,生成自动化通告内 容,发送给业务方,故障等,级,故障概述,影响范,围,监控,等,级定义,从分钟级通告到秒级通告,故障发生,报警发出,1-2,分钟,涵盖了大部分业务,在业务发生重大故障时,一 般最快可在,1-2,分钟内发出报警,,3-5,分钟发出详 细故障通告,报警发出快慢与故障持续时长有直接的关系,部分核心业务(如淘宝交易创建、支付宝交易创 建),一旦发生故障,等到分钟级报警发出,即 使立刻发出通告,报警发出之前业务已经产生巨 大损失,故障处理需要争分夺秒,减少故障损失,缩短故障时长 加快报警发现,改分钟级监控,为秒级监控,核心故障秒级通告,秒级指标波动大,传统报警策略误报多,减少故障损失,缩短故障时长 加快报警发现,接入条件:监控指标每秒数据量级,=500,趋势预测异常发现,通告发出,10-20,秒,故障发生,准确率,:80%,召回率,:80%,零监控配置成本,异常判 定,孤立森林,逻辑回归,特征工程,集成 策略,时序分析,N-sigma,统计特征,One-hot,自动反馈调节,机器学习,智能异常检测,故障知识图谱,故障场景复杂多样,目前暂无法做到所有故障自动化 通告。存在大量人工通告,人工故障通告,由值班同学根据平台提供的故障信 息,结合个人经验,组织发送给处理人。易出错,2,、通过非结构化的故障通告,如何快速找到故障处理人?快速 发现历史相关故障帮助处理?,rdma,1,、人工发送的通告,出错率,10%,。其中,90%,由错别字导致,W,H,O,?,口,错误通告示例,故障知识图谱,历史故障信息,实体识别,产品线、,B,U,、人名、,关键词等实体抽取,实体关系,故障知识图谱,新故障通告,实体抽取,智能纠错,历史故障匹配 度查询,实体匹配度查 询,原因初步怀疑为,RDMA,异常,故障推荐,干系人推荐,实体查询,人工通告错误率 减少,50%,智能水位,多个系统指标映射为水位指标,取值,0-,100,衡量应用实时容量,通过水位发现业务容量瓶颈,提 供扩容依据,不受应用扩缩容影响,不受应用流量成分变化影响,无需应用压测极限值作输入,无需预先假设服务异常,CPU,临界值,多维指标映射,部分权重为线性关系,部分为非线性(阶跃拉升):,水位,=w*cpu,load,T,+f(disk,mem,),业务需求,水位特点,关键业务包含的应用成百上千,如何快速发现应用容量瓶颈,故障自定义分析,分机房指标,分析,查看关联变,更,基础设施故,障分析,全链路应用,状态分析,关联业务,分析,监控、开发同学根据经验排查异常,容量问题排,查,人工故障分析,故障平均排查时间,10,分 钟,影响故障恢复时长,排查结果受不同人影响 较大,不可控,往往查询多个平台,影 响效率,故障自定义分析,多维下钻,分析,变更分析,跨,BU,基,础设施故,障分析,全链路应,用分析,关联业务,分析,通用分析,自定义分析,分机房下钻,分门店下钻,变更大盘,IDC/,网络,中间件,智能异常检,测,智能异常检测,自动化故障,通告,故障秒级通告,监控组,故障知识图谱,智能异常检,测,故障平均排查时间,1,分钟,排查结论不受经验限制,新零售给故障监控带来的挑战,实体店故障给客户造成 的感受更直接,高峰期、活动业务不可 用,易引发社会群体事件,业务门店零散分布,中心 难及时感知故障及影响面,故障分门店下钻分析,-,及时启动应急预案,故障分门店下钻,故障定位 20Min,2,M,in,故障总时长,减少,4,倍,1,/,4,云计算给故障监控带来的挑战,.,.,.,监控 系统,G,O,C,故障应急无法统 一查看监控、报 警数据,故障处 理成本高,报警发送,云服务由于业务特 性,拥有大量个性 化基础设施,无法 统一监控,统一监控网关,.,.,.,监控 系统,G,O,C,报警发送,抽象不同监控 系统,报警,/,监控统 一查看,监控查看,提高故障应急效率,通用参数,特定参数,智能运维大图,A,I,O,PS,质量,监控,时序异常检测,指标相关性分析,报警收敛,根因分析,故障类型判定,历史故障推荐,可疑应用,/,事件推荐,故障自愈,自动化触发快恢,脚本执行环境,成本,容量,容量预测,自动熔断,调度,资源调度,流量调度,效率,无人值守,发布,值班,运维机器人,信息流转,任务执行,智能化故障治理总结,愿景,无人故障治理(完全智能化),困难,智能算法对数据标准化、量级、质量要求高。满足需求的数据有 限,现状,人工,+,部分场景智能化,/,自动化 通过规则积累线上化数据,帮助 智能化,
展开阅读全文