资源描述
,分布式主动感知在智能运维中的实践课件,1,分布式主动感知在智能运维中的实践,分布式主动感知在智能运维中的实践,2,分布式主动感知在智能运维中的实践,运维的发展,什么是智能运维 宜信运维的实践 主动感知,01,02,03,04,分布式主动感知在智能运维中的实践运维的发展01020304,3,运维的价值,资源提供,业务变更,请求处理,故障预测,异常检测,根因分析,动态扩容,服务降级,容量规划,弹性调度,利用率分析,趋势分析,成本分析,效率,质量,成本,运维的价值资源提供故障预测容量规划效率质量成本,4,运维的困境,服务在运维层面的多维度,网络拓扑,技术栈,服务拓扑,运维质量,=,运维人,员,X,运维手段,运维的困境服务在运维层面的多维度运维质量=运维人员 X 运维,5,运维的发展,空白,IT,SM,I,T,O,M,I,T,O,A,AIOps,(,Alg,o,rit,hm,),AI,O,p,s,D,e,v,O,ps,Ch,at,O,ps,运营角度,运维角度,管理,工程,手工阶段,标准化阶段,自动化阶段,智能化阶段,运维的发展空白ITSMITOMITOAAIOps (Alg,6,分布式主动感知在智能运维中的实践,运维的发展,什么是智能运维,宜信运维的实践 主动感知,01,02,03,04,分布式主动感知在智能运维中的实践运维的发展01020304,7,AIOps,定义,AIOps refers to multi-layered technology platforms that automate and enhance IT operations by 1)using analytics and machine learning to analyze big data collected from various IT operations tools and devices,in order to 2)automatically spot and react to issues in real,time.,BMC,AIOps 定义AIOps refers to multi-,8,技术、场景与算法,大数据分析,机器学习,知识图谱,自然语言处理,单指标异常检测,多维指标异常检测,趋势预测,日志异常检测,根因分析,智能问答,智能执行,规则,统计,机器学习,变分自编码器、,GBRT,、,EMA,、极限理论,Pearson,相关系数、DBScan 算法,FP-Tree,Path,Ranking,技术、场景与算法大数据分析单指标异常检测规则变分自编码器、G,9,架构,Sensing,Ac,t,i,ng,Th,i,nk,i,n,g,架构SensingActingThinking,10,分布式主动感知在智能运维中的实践,运维的发展,什么是智能运维,宜信运维的实践,主动感知,01,02,03,04,分布式主动感知在智能运维中的实践运维的发展01020304,11,宜信I,T,运营架构,物理 环境,全网,网络,服务器,存储,终端,I,A,A,S,P,A,A,S,SAAS,自 动 化,监 控,信 息,流 程,CI/CD,数据,算法,应用,数据通道,运维中台,技术中台,智能应用,数据,/,智能中台,业务价值,宜信IT运营架构物理 环境全网网络服务器存储终端IAASPA,12,运维管理,服务台,自服务,展示,主机自 动化,请事,求件,管管,理理,问 题 管 理,需求管理,变 更 管 理,持续集成,C,M,D,B,资产管理,持续发布,域名自 动化,数据库 自动化,负载均 衡自动,化,编排管理,指标,跟踪,日志,运维管理服务台自服务展示主机自 动化请事问 题 管 理需求,13,采集与处理,业务,应用,链路,基础设施,全网,日志,配置,拓扑,工单,U,A,V,E,a,g,le,Na,trix,WatchDog,Dashun,Kafk,a,DBus,Wormhole,Spark,Streaming,N,e,o4,j,m3,d,b,E,l,a,s,t,i,c,Se,a,r,c,h,H,i,v,e,HD,F,S,关系,指标,文档/日志,结构化数据,历史,动 态,静 态,采集,加工,存储,采集与处理业务应用链路基础设施全网日志配置拓扑工单UAVEa,14,智能场景,搜索引擎,知识图谱,NL,P,工单,编排规则,C,M,D,B,画像,服务台(Cha,t),编排管理,问答后台,K,P,I,s,Lo,g,s,T,r,ac,i,n,g,异常检测,趋势预测,根因分析,算法/模型,监控系统(报警,),展板,通知,算法,模型,应用,业务价值,智能场景搜索引擎知识图谱NLP工单编排规则CMDB画像服务台,15,智能问答,/,执行,智能问答/执行,16,故障检测,故障检测,17,分布式主动感知在智能运维中的实践,运维的发展,什么是智能运维 宜信运维的实践,主动感知,01,02,03,04,分布式主动感知在智能运维中的实践运维的发展01020304,18,R,OI,痛点,承载业务,的,IT,运维可观察,的,IT,真实观察,的,IT,数据,ROI痛点承载业务的 IT运维可观察的 IT真实观察的 IT,19,主动感知定义,态势感知,情景感知,决策,动作执行,经验训练,条例规则,预期目标,环境,情景理解,预见计划,Active Perception is where an agents behaviors are selected in order to increase the information content derived from the flow of sensor data obtained by those behaviors in the environment in,question.,Wikipedia,反馈,主动感知定义态势感知情景感知决策动作执行经验训练条例规则预期,20,主动感知领域,机器人,自动驾驶,智能手机,路网监控,.,主动感知领域机器人,21,分布式主动感知,全,网,Agent,网,络,Agent,主,机,Agent,业,务,Agent,应,用,Agent,通过对真,实,IT,环境的参与者建立模型,有目的的获取相,关,IT,数据,并基于获取到的数据持续优化获取 的数据和方法,以实现对真,实,IT,实时完整的监控,有主动筛选的被动感知,有主动行为的主动感知,基于规则,基于智能算,法,(,贝叶斯决策树等,),画像,关联,细节捕捉,定向跟踪,本地模型,全局模型,分布式主动感知全网 Agent网络 Agent主机 Agen,22,全网感知模型,设备,1,设备,N,互联网,业务系统,三方系统,专线,公网,V,PN,公网,V,PN,公网,网络识别,网络统计,风险检测,访问模拟,全网,A,ge,n,t,蜜罐,职场网络,互联网,IDC,网络,边缘检测,全网感知模型设备1设备N互联网业务系统三方系统专线公网VPN,23,全网感知应用,全网,A,ge,n,t,全网,A,ge,n,t,拓扑/图谱,组织、职场,出口、网段、地理、运营商,职场设备、分布,嗅探风险端口、扫描攻击等,监控数据,网络统计,不,同,Agent,监测模拟配置,拓扑/图谱,应用感知监控数据,+,职场身份信息,模拟监测数据,监控数据,异常时拓扑网络监测和密集系统检测数据,针对风险的细节扫描数据,全网感知应用全网 Agent全网 Agent拓扑/图谱组织、,24,全网感知示例,职场信息,组织信息,模拟监测 数据,动态监测 配置,全网感知示例职场信息组织信息模拟监测 数据动态监测 配置,25,网络感知模型,核心交换机,核心交换机,核心交换机,核心交换机,核心交换机,全网,A,ge,n,t,全网,A,ge,n,t,全网,A,ge,n,t,服务器,1,服务器,N,网间监测,网内扫描,网络感知模型核心交换机核心交换机核心交换机核心交换机核心交换,26,网络感知示例,网间矩阵,异常细节数据,网内质量,网络感知示例网间矩阵异常细节数据网内质量,27,主机,/,应用,/,业务感知,业务功能1,业务功能2,业务功能N,业务系统,主动业务异常 捕捉和上报,业,务,Agent,运行状态,调用,日志,应用,根据运行状态 动态调整采集 密度和方法,应,用,Agent,主,机,Agent,主机,进 程,存储,网 络,异常时对进程、IO、网,络,Dump 细节信息,内核,主机/应用/业务感知业务功能1业务功能2业务功能N业务系统运,28,收益,更丰富的画像和拓扑,更有价值的监控数据,知识图谱,根因分析,异常检测,职场,设备,网络,主机,应用,业务,部分职场访问,A,系统故障,所有职场到数据中心网络健康,A,系统入口应用健康,A,系统依赖的,X,应用有调用失败接口,X,应用运行的某主机,CPU,过高,收益更丰富的画像和拓扑异常检测职场设备网络主机应用业务部分职,29,问题与前景,缺乏理论支撑,缺乏智能的感知算法,主动感知数据对学习算法的挑战,较高的实施成本,AIOT,带来的前所未有的运维数据爆炸,商用领域越来越丰富的算法应用降低落地门槛,SD(X),系列的普及,IOT,带来的边缘智能未来,问题与前景缺乏理论支撑AIOT 带来的前所未有的运维数据爆炸,30,社区,全网监,控,-,Natrix,系统监,控,-,Eagle,ITSM-,Dashun,赋能,AIOps,社区全网监控-Natrix赋能 AIOps,31,谢谢,谢谢,32,
展开阅读全文