阿里巴巴大数据运维之道课件

上传人:风*** 文档编号:252774977 上传时间:2024-11-19 格式:PPTX 页数:32 大小:4.51MB
返回 下载 相关 举报
阿里巴巴大数据运维之道课件_第1页
第1页 / 共32页
阿里巴巴大数据运维之道课件_第2页
第2页 / 共32页
阿里巴巴大数据运维之道课件_第3页
第3页 / 共32页
点击查看更多>>
资源描述
,阿里巴巴大数据运维之道,阿里巴巴大数据运维之道,1,目录,运维进阶,1,一体化运维平台,2,Da,t,a,O,p,s,实践,3,A,I,O,p,s,探索,4,目录运维进阶1一体化运维平台2DataOps实践3AIOps,2,运维进阶,人肉运维,(,Human,Ops,),自动化运维,(,Automated,Ops,),数据化运维,(,Data,Ops,),智能运维,(,AI,Ops,),数据,决策,算法,+,模型,执行,人的 经验,结果,数据,算法,+,模型,结果,执行,异常响应,D,a,t,a,O,p,s,A,I,O,p,s,运维进阶人肉运维自动化运维数据化运维智能运维数据决策算法+模,3,目录,运维进阶,1,一体化运维平台,2,Da,t,a,O,p,s,实践,3,A,i,O,p,s,探索,4,目录运维进阶1一体化运维平台2DataOps实践3AiOps,4,全球运,维,大,会,2018,上海,站,阿里巴巴大数据场景,物理机,10w+,GOP,S,全球运维大会 2018 上海站 阿里巴巴大数据场景物理机G,5,运维分层解决方案,运维分层解决方案,6,一站式运维平台,运维场景,用户,老板,监控,S,R,E,水位咋样?,服务稳定吗?,服务稳定吗?,为啥作业挂了? 资源咋扩容,申请新资源,*,模块超过阈值,机房裁撤调整 新数据中心建设 新服务上线,SRE,我们所运维的服务,一站式运维平台运维场景用户老板监控SRE水位咋样?服务稳定,7,一站式运维平台,功能抽象,用户,老板,监控,S,R,E,水位咋样?,服务稳定吗?,服务稳定吗?,为啥作业挂了? 资源咋扩容,申请新资源,*,模块超过阈值,机房裁撤调整 新数据中心建设 新服务上线,命,令,做,流,我们所运维的服务,UI,视图,+AI,技术,老板用户监控,S,R,E,信 息,看,流,运维平台,需求抽象,一站式运维平台功能抽象用户老板监控SRE水位咋样?服务稳定,8,目录,运维进阶,1,一体化运维平台,2,Da,t,a,O,p,s,实践,3,A,i,O,p,s,探索,4,目录运维进阶1一体化运维平台2DataOps实践3AiOps,9,运维数仓,Da,t,a,O,p,s,基础,图出自书大数据之路,运维数仓DataOps基础图出自书大数据之路,10,常见的运维数据,服务器,集群,网络,应用,服务,维度(元数据),度量(运行时),指标,事件,日志,常见的运维数据服务器集群网络应用服务维度(元数据)度量(运行,11,Da,t,a,O,p,s,架构,DataOps架构,12,知识图谱,如何用统一的语言来定义运维数据?,我们把运维里的对象称为实体,运维领域里实体的关系,就是一张图,可以用知识图谱来定义,运维领域关系知识图谱,知识图谱如何用统一的语言来定义运维数据?,13,知识图谱,运维搜索,整合集团所有运维资源(元数据、运维工具系统等),为,S,R,E,打造垂直领域搜索服务,运维习惯的改变,通过搜索到达一切,站点功能,Map,,站内垂直搜索,知识图谱运维搜索整合集团所有运维资源(元数据、运维工具系,14,知识图谱,C,h,a,t,O,p,s,服务状态,机器状态,开关报警,事件推送,命令执行,运维操作,简单、重复的工作,信息直达,减少重复咨询解放 生产力,搜索兜底意图,缺陷,问答积累,自助诊断,基础知识,知识图谱ChatOps服务状态机器状态开关报警事件推送命,15,作业诊断,作业诊断,16,机器诊断,机器诊断,17,聚类异常检测,关于算法选择,,Why,DBScan,?,无需指定聚类组的数量,支持离群点的自动发现,聚类异常检测关于算法选择,Why DBScan?,18,日志异常检测,如何发现异常的日志?,A.,从千万行日志中提取出日志打印的模式,B.,针对识别的模式,建立对应的指标,-,时间序列异常检测,日志异常检测如何发现异常的日志?B. 针对识别的模式,建,19,日志异常检测,日志异常检测,20,运筹优化,运维,“,运,”-,运筹,运维领域存在较多的规划问题,需要用运筹优化的方法来解决,多集群容量均衡,动态调整用户配额,如何优化带宽,任务参数智能优化,运筹优化运维 “运”- 运筹,21,运筹优化,同步任务优化,上图是,A,B,两个事业部类似同步作业的速度分布,如何将成熟,B,U的作业优化经验快速应用到其他,B,U?,运筹优化同步任务优化上图是AB两个事业部类似同步作业的速度,22,运筹优化,同步任务优化,影响因子分析:,源类型,宿类型,记录大小,字段数量,并发,jvm,参数,batchsize,出错限制,固定属性,可配属性,固定属性,k,-,m,e,a,n,s,聚类,,,找,出,每,类,的,最,佳,配,置,运筹优化同步任务优化影响因子分析:源类型并发固定属性可配属,23,运筹优化,同步任务优化,优化前大部分任务集中在,5,M,B,/,s,的低效同步速度区间内,优化后大都在在,5,10,M,b,/,s,、,10MB/s50MB/s,、,50MB100MB/s,的高速区间。,优化前平均速度,2.28MB/s,,优化后,15.9MB/s,,均速直接提升,7,倍!,运筹优化同步任务优化优化前大部分任务集中在5MB/s的低效,24,目录,运维进阶,1,一体化运维平台,2,Da,t,a,O,p,s,实践,3,A,i,O,p,s,探索,4,目录运维进阶1一体化运维平台2DataOps实践3AiOps,25,A,I,O,p,s,之监控自愈,AIOps之监控自愈,26,A,I,O,p,s,之硬件自愈,10,w,级的服务器上部署硬件相关信息采集插件,打印硬件状态日志,经过数据通道、流计算、,O,L,A,P,系统,建立起了一份实时硬件状态表,Center,程序通过定时运行,SQL,任务,使用规则判断硬件异常,1,数据采集链路,2,建模预 测反馈,3,决策执行链路,一年处理,20,万次自愈事件,服务器可用率,99%,AIOps之硬件自愈10w级的服务器上部署硬件相关信息采集插,27,A,I,O,p,s,之资源优化,如何给集群的作业划分,quota,组,最,合,理?,目标:,用最少的资源让用户,尽,可,能,满意,问题:,静态划分缺乏灵活性,,,无,法,削,峰,填,谷,,,资,源,浪,费,部分用户占用大量资,源,,,其,他,用,户,感,受差,AIOps之资源优化 如何给集群的作业划分quota组最合理,28,A,I,O,p,s,之资源优化,用户满意度模型:,一套综合评价体系主要包含用户资源抢占、等待分配时间、资源满足率等。 用,Tdata,时序异常检测模型跟踪用户满意度变化情况。,AIOps之资源优化用户满意度模型:,29,A,I,O,p,s,之资源优化,用指数平滑模型对未来一周的资源消耗进行预测,指数模型包括单指数、双指数和三指数模型。,单指数模型拟合的是只含水平项,不含趋势项和季节效应的时间序列。,双指数模型,(Holt,模型)拟合含水平项和趋势项的时间序列。,三指数模型,(Holt-Winters,模型),拟合含水平、趋势以及季节项的时序。,效果好,基于对每个配额组未来一周的资源消耗预测值结合该 配额组的历史用户满意度数据和所在用户等级的服务,SLA,,由此计算出每个配额组的资源推荐值。,AIOps之资源优化用指数平滑模型对未来一周的资源消耗进行预,30,A,I,O,p,s,之资源优化,AIOps之资源优化,31,谢谢,谢谢,32,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!