资源描述
,#,智能运维在金融核心领域的,研究与应用,智能运维在金融核心领域的,1,01,背景介绍,02,智能运维研究,03,智能运维应用实践,04,智能运维实施路径,2019,中,国,数,据,智,能,管,理,峰,会,01 背景介绍02 智能运维研究03 智能运维应用实践201,2,架构特色,2019,中,国,数,据,智,能,管,理,峰,会,架构特色2019中 国 数 据 智 能 管 理 峰 会,3,运维三大挑战,安全运行,专有、封闭、集中,-,国产、开放、分布式,单数据中心,-,多数据中心,人力紧缺,系统管理:人管机器,值班运行:人盯系统,远场运维,值班操作繁琐重复、夜班值守压力增大,数据中心地点偏僻、远程运维需求迫切,2019,中,国,数,据,智,能,管,理,峰,会,运维三大挑战安全运行 专有、封闭、集中-国产、开放、分布,4,智能运维关键问题,定义、特点、优势劣势、,产学研现状、关键技术,基础,研究,实施,策略,战略,目标,引入智能运维所,应达到的目标,提出下一步实,施方针与路径,智能,运维,技术,架构,应用,场景,所处位置、系统架构、功能组件,结合战略目标,寻找合适场景,2019,中,国,数,据,智,能,管,理,峰,会,智能运维关键问题定义、特点、优势劣势、基础实施战略引入智能运,5,01,背景介绍,02,智能运维研究,03,智能运维应用实践,04,智能运维实施路径,2019,中,国,数,据,智,能,管,理,峰,会,01 背景介绍02 智能运维研究03 智能运维应用实践201,6,智能运维,(Artificial,Intelligence,for,IT Operations,AIOps),运维,是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事,件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用,的状态,。,2019,中,国,数,据,智,能,管,理,峰,会,智能运维(Artificial Intelligence,7,智能运维,(Artificial,Intelligence,for,IT Operations,AIOps),运维,是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事,件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用,的状态,。,2019,中,国,数,据,智,能,管,理,峰,会,智能运维(Artificial Intelligence,8,智能运维,运维,是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事,件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用,的状态,。,2019,中,国,数,据,智,能,管,理,峰,会,智能运维 运维是技术类运营维护人员根据业务需求来规划信息、,9,智能运维,运维,是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事件预,警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用的状态,。,1.0,手工运维,2.0,自动化运维,3.0,智能运维,人工监控、人工,决策、手工实施,特点:运维人员,手工完成,低效;,成本随系统规模,增加而线性增长,利用脚本和程序,完成重复性、大,规模、批量化的,工作,特点:减少人力,成本、提高运维,效率,通过人工智能算法,自动从海量数据中,学习总结规则,模,拟人类作出决策,特点:由人工智能,替代人类做决策,2019,中,国,数,据,智,能,管,理,峰,会,智能运维 运维是技术类运营维护人员根据业务需求来规划信息、,10,优缺点对比,智能运维将人工智能科技融入运维系统,增强了传统运维能力,能有效运维大,规模复杂系统,减轻人的负担。,手工运维,自动化运维,智能运维,自动分析处理事件,将多种自动化工具实现联动,,运维效率高,运维效率,受限于人为因素,运维效率较低,部分操作自动化后,运维效率较高,手工运维时处理异常效率低,系,得益于自动化工具,异常处理与恢复,采用智能分析、预警、决策等手段,异常处理效率,系统可用性,系统可靠性,统可用性相对较低,速度较快,系统可用性相对较高,高,甚至可规避异常,,系统可用性高,将重复性操作实现为自动化工具,采,结合自动化工具,并采用多种策略使用工具,,高可,用自动化运维时系统可靠性较高,靠性,手工运维时系统的可靠性较低,需掌握多个系统的运维知识和操,需对自动化工具有一定掌握,学习难,故障分析、预警及异常处理可由智能运维自动实现,,学习成本,作指令,学习难度高、成本高,度较高、成本较高,学习难度与成本低,建设运维的工具成本低,可采用,系统自带的运维命令。但对复杂,建设自动化运维的成本较高,投入运,系统的运维需投入大量的人力,,维的人力成本则相对较低,人力成本高,建设与使用成本,应用范围,智能运维的建设成本较高,投入运维的,人力成本低,在互联网企业、金融行业得到广泛应,运维基础手段,应用广泛,但不,适用于分布式、大规模系统运维,新技术,目前有部分金融企业、互联网企业开展研,究与实践,适用于大规模分布式系统运维,用,适用于集群系统、服务器数量一,般的分布式系统运维,2019,中,国,数,据,智,能,管,理,峰,会,优缺点对比智能运维将人工智能科技融入运维系统,增强了传统运维,11,创新触发期,期望膨胀期,冷静期,启蒙复苏期,稳定成熟期,2019,中,国,数,据,智,能,管,理,峰,会,创新触发期期望膨胀期冷静期启蒙复苏期稳定成熟期2019中 国,12,产学研现状,科,卡内基梅隆:Netflix合作,清华大学:交行,/,阿里/IBM,南京大学:360/腾讯,阿里云:智能故障管理平台,百度:单机房故障自愈系统,互,联,网,研,机,构,腾讯:哈勃大数据平台、织云智能监,控、蓝鲸智云监控,技,Splunk:大数据搜索与可视化,术,华为:FusionInsight,厂,IBM:实时大数据分析驱动,商,金,融,行,业,运维大数据:交行,/,中行,智能巡检:阳光保险,/,上海银行,容量评估:太平洋保险,/,招行,京东/IBM/,国自:巡检机器人,2019,中,国,数,据,智,能,管,理,峰,会,产学研现状科卡内基梅隆:Netflix合作阿里云:智能故障管,13,核心技术组成,大脑:智能运维算法,。,它利用人工智能算法,根,据具体的运维场景、业务规则或专家经验等,对,运维事件进行分析、定位,并作出决策,智能运,维算法,手:自动化运维工具。,眼睛:运维大数据平台,。,它能采集、处理、存储、,展示各种运维数据,感,知与洞察技术系统,它基于确定逻辑的运维,工具,对技术系统实施,诸如运行控制、监控、,上线等系列处理操作,运维大,数据平,台,自动化运,维工具,2019,中,国,数,据,智,能,管,理,峰,会,核心技术组成 大脑:智能运维算法。它利用人工智能算法,根据,14,运维大数据平台,运维数据是在日常技术系统运行维护过程中产生的数据,用以表述当前系统的,状态、事件、异常等信息,一般可分为动态数据和静态数据两类,系统日志,设备监控数据,应用日志,网络日志,设备日志,安全日志,系统监控数据,数据库监控数据,中间件监控数据,应用监控数据,安全监控数据,动环监控数据,环境监控数据,统一告警时间,日志数据,配置信息,监控数据,CMDB,变更管理,2019,中,国,数,据,智,能,管,理,峰,会,运维大数据平台运维数据是在日常技术系统运行维护过程中产生的数,15,运维大数据平台,搜索引擎可视化,Elasticsearch,智能运维分析,BI,展现,Kibana,数据展示层,指标预警、报警聚合,异常定位、故障自我修复,离线计算,实时计算分析,数据挖掘,统计分析,应用平台,输,入,输,出,数据计算层,数据接口,机器学习算法,分析结果文件,数据流,事件驱动,Redis,Hive,Mysql,数据存储层,数据采集层,数据组织存储,ETL,Spark,sql,Storm/,Spark,Streaming,数据准实时获取、数据,直接访问,HDFS,flume/sqoop,/JDBC,FTP/sqoop,分布式存储,层,数据中心数据源,(,Hadoop,),系统监控数据,应用日志,巡检日志,监控数据,LogStash,日志收集及处理,(,flume,),性能监控数据,日志数据,告警事件,历史数据,非结构化数据源,各系统日志Logs,实时事件日志,网络,&,设备,安全访问,&,审计日志,日志,2019,中,国,数,据,智,能,管,理,峰,会,运维大数据平台搜索引擎可视化智能运维分析BI展现Kibana,16,智能运维算法,主体画像与知识图谱类,+,动态决策类,通过多种算法挖掘运维历史数据,从而得出运维主体画像,然后构建运维主体之间的关系,最终,形成运维主体的知识图谱,运维主体:,系统软件、硬件及其运行状态,如指标、日志、事件、变更等,画,像:,用以描述运维主体的自身属性,如容量画像、指标画像等,知识图谱:,基于画像,用来描述主体之间相互关系,如故障失效传播链,举例:,构建故障传播链,是对失效现象进行回本溯源的分析,查找引起该失效的可能的故,障原因。,主体画像与知识图谱,主体画像类,知识图谱类,日志正常,模式画像,历史故障,工单画像,应用健康,画像,特殊日整,体画像,应用流量,画像,自动化任,务脚本,业务拓扑,自动构建,故障传播,链构建,故障先兆,画像,性能瓶颈,画像,运维数据,整体画像,交易链条,画像,指标画像,及聚类,物理拓扑,自动构建,故障止损,预案构建,容量画像,2019,中,国,数,据,智,能,管,理,峰,会,智能运维算法主体画像与知识图谱类+动态决策类通过多种算法,17,智能运维算法,主体画像与知识图谱类,+,动态决策类,在已经挖掘好的运维画像与知识图谱的基础上,利用实时监控数据作出实时响应与决策,甚至,预测未来一段时间内系统运行状态,举例:,故障预测,基于历史经验的基础上,使用多种模型或方法对现有的系统状态进行分,析,判断未来某一段时间内发生失效的概率,举例:,单指标异常检测是对系统中突然出现的单个KPI性能指标的异常(如突增、突降、,抖动)自动判断和识别,检测出潜在的故障,动态决策,异常检测,故障定位,故障处置,故障规避,单指标异,常检测,多指标异,常检测,异常机器,多维数据,定位,部署自动,迁移可行,性评估,智能瓶颈,容量预测,定位,拦截,报表,文本日志,异常检测,交易链条,异常检测,变更故障,定位,交易链条,定位,弹性扩缩,容决策,变更风险,评估,限流决策,故障预测,2019,中,国,数,据,智,能,管,理,峰,会,智能运维算法主体画像与知识图谱类+动态决策类在已经挖掘好,18,自动化运维工具,2019,中,国,数,据,智,能,管,理,峰,会,自动化运维工具2019中 国 数 据 智 能 管 理 峰 会,19,运维闭环,智能运维闭环:,告警,离线:,分析构建运维主体画,像与知识图谱,修复建议,异常检测,根因分析,异常定位,异常预测,运维人员,人工智能,在线:,利用主体画像与知识,图谱分析处理实时日志信息,预,测、检测以及定位异常,执行自,动化脚本将系统恢复到正常状态,运维知识反馈,:智能运维自,动从历史的运维操作中学习并总,结规律,增强运维决策能力,专家知识,反馈,采取运,维手段,监控信息,配置信息,变更信息,修复软硬件故障,执行预案脚本,执行修复建议,技术系统,变更,技术系统,2019,中,国,数,据,智,能,管,理,峰,会,运维闭环智能运维闭环:告警 离线:分析构建运维主体画修复建,20,01,背景介绍,02,智能运维研究,03,智能运维应用实践,04,智能运维实施路径,2019,中,国,数,据,智,能,管,理,峰,会,01 背景介绍02 智能运维研究03 智能运维应用实践201,21,战略目标,事前,智能预警,事后,快速定位,夜间,无人值守,远程,集中管理,2019,中,国,数,据,智,能,管,理,峰,会,战略目标事前事后夜间远程2019中 国 数 据 智 能 管,22,应用场景,智
展开阅读全文