智能运维在金融核心领域的研究与应用课件

上传人:痛*** 文档编号:243875624 上传时间:2024-10-01 格式:PPTX 页数:37 大小:2.71MB
返回 下载 相关 举报
智能运维在金融核心领域的研究与应用课件_第1页
第1页 / 共37页
智能运维在金融核心领域的研究与应用课件_第2页
第2页 / 共37页
智能运维在金融核心领域的研究与应用课件_第3页
第3页 / 共37页
点击查看更多>>
资源描述
,#,智能运维在金融核心领域的,研究与应用,智能运维在金融核心领域的,01,背景介绍,02,智能运维研究,03,智能运维应用实践,04,智能运维实施路径,2019,中,国,数,据,智,能,管,理,峰,会,01 背景介绍02 智能运维研究03 智能运维应用实践201,架构特色,2019,中,国,数,据,智,能,管,理,峰,会,架构特色2019中 国 数 据 智 能 管 理 峰 会,运维三大挑战,安全运行,专有、封闭、集中,-,国产、开放、分布式,单数据中心,-,多数据中心,人力紧缺,系统管理:人管机器,值班运行:人盯系统,远场运维,值班操作繁琐重复、夜班值守压力增大,数据中心地点偏僻、远程运维需求迫切,2019,中,国,数,据,智,能,管,理,峰,会,运维三大挑战安全运行 专有、封闭、集中-国产、开放、分布,智能运维关键问题,定义、特点、优势劣势、,产学研现状、关键技术,基础,研究,实施,策略,战略,目标,引入智能运维所,应达到的目标,提出下一步实,施方针与路径,智能,运维,技术,架构,应用,场景,所处位置、系统架构、功能组件,结合战略目标,寻找合适场景,2019,中,国,数,据,智,能,管,理,峰,会,智能运维关键问题定义、特点、优势劣势、基础实施战略引入智能运,01,背景介绍,02,智能运维研究,03,智能运维应用实践,04,智能运维实施路径,2019,中,国,数,据,智,能,管,理,峰,会,01 背景介绍02 智能运维研究03 智能运维应用实践201,智能运维,(Artificial,Intelligence,for,IT Operations,AIOps),运维,是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事,件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用,的状态,。,2019,中,国,数,据,智,能,管,理,峰,会,智能运维 (Artificial Intelligence,智能运维,(Artificial,Intelligence,for,IT Operations,AIOps),运维,是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事,件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用,的状态,。,2019,中,国,数,据,智,能,管,理,峰,会,智能运维 (Artificial Intelligence,智能运维,运维,是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事,件预警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用,的状态,。,2019,中,国,数,据,智,能,管,理,峰,会,智能运维 运维是技术类运营维护人员根据业务需求来规划信息、,智能运维,运维,是技术类运营维护人员根据业务需求来规划信息、网络、服务,通过系统监控、事件预,警、安全维护、业务调度、排障升级等手段,使服务处于长期稳定、安全可用的状态,。,1.0,手工运维,2.0,自动化运维,3.0,智能运维,人工监控、人工,决策、手工实施,特点:运维人员,手工完成,低效;,成本随系统规模,增加而线性增长,利用脚本和程序,完成重复性、大,规模、批量化的,工作,特点:减少人力,成本、提高运维,效率,通过人工智能算法,自动从海量数据中,学习总结规则,模,拟人类作出决策,特点:由人工智能,替代人类做决策,2019,中,国,数,据,智,能,管,理,峰,会,智能运维 运维是技术类运营维护人员根据业务需求来规划信息、,优缺点对比,智能运维将人工智能科技融入运维系统,增强了传统运维能力,能有效运维大,规模复杂系统,减轻人的负担。,手工运维,自动化运维,智能运维,自动分析处理事件,将多种自动化工具实现联动,,运维效率高,运维效率,受限于人为因素,运维效率较低,部分操作自动化后,运维效率较高,手工运维时处理异常效率低,系,得益于自动化工具,异常处理与恢复,采用智能分析、预警、决策等手段,异常处理效率,系统可用性,系统可靠性,统可用性相对较低,速度较快,系统可用性相对较高,高,甚至可规避异常,,系统可用性高,将重复性操作实现为自动化工具,采,结合自动化工具,并采用多种策略使用工具,,高可,用自动化运维时系统可靠性较高,靠性,手工运维时系统的可靠性较低,需掌握多个系统的运维知识和操,需对自动化工具有一定掌握,学习难,故障分析、预警及异常处理可由智能运维自动实现,,学习成本,作指令,学习难度高、成本高,度较高、成本较高,学习难度与成本低,建设运维的工具成本低,可采用,系统自带的运维命令。但对复杂,建设自动化运维的成本较高,投入运,系统的运维需投入大量的人力,,维的人力成本则相对较低,人力成本高,建设与使用成本,应用范围,智能运维的建设成本较高,投入运维的,人力成本低,在互联网企业、金融行业得到广泛应,运维基础手段,应用广泛,但不,适用于分布式、大规模系统运维,新技术,目前有部分金融企业、互联网企业开展研,究与实践,适用于大规模分布式系统运维,用,适用于集群系统、服务器数量一,般的分布式系统运维,2019,中,国,数,据,智,能,管,理,峰,会,优缺点对比智能运维将人工智能科技融入运维系统,增强了传统运维,创新触发期,期望膨胀期,冷静期,启蒙复苏期,稳定成熟期,2019,中,国,数,据,智,能,管,理,峰,会,创新触发期期望膨胀期冷静期启蒙复苏期稳定成熟期2019中 国,产学研现状,科,卡内基梅隆:Netflix合作,清华大学:交行,/,阿里/IBM,南京大学:360/腾讯,阿里云:智能故障管理平台,百度:单机房故障自愈系统,互,联,网,研,机,构,腾讯:哈勃大数据平台、织云智能监,控、蓝鲸智云监控,技,Splunk:大数据搜索与可视化,术,华为:FusionInsight,厂,IBM:实时大数据分析驱动,商,金,融,行,业,运维大数据:交行,/,中行,智能巡检:阳光保险,/,上海银行,容量评估:太平洋保险,/,招行,京东/IBM/,国自:巡检机器人,2019,中,国,数,据,智,能,管,理,峰,会,产学研现状科卡内基梅隆:Netflix合作阿里云:智能故障管,核心技术组成,大脑:智能运维算法,。,它利用人工智能算法,根,据具体的运维场景、业务规则或专家经验等,对,运维事件进行分析、定位,并作出决策,智能运,维算法,手:自动化运维工具。,眼睛:运维大数据平台,。,它能采集、处理、存储、,展示各种运维数据,感,知与洞察技术系统,它基于确定逻辑的运维,工具,对技术系统实施,诸如运行控制、监控、,上线等系列处理操作,运维大,数据平,台,自动化运,维工具,2019,中,国,数,据,智,能,管,理,峰,会,核心技术组成 大脑:智能运维算法。它利用人工智能算法,根据,运维大数据平台,运维数据是在日常技术系统运行维护过程中产生的数据,用以表述当前系统的,状态、事件、异常等信息,一般可分为动态数据和静态数据两类,系统日志,设备监控数据,应用日志,网络日志,设备日志,安全日志,系统监控数据,数据库监控数据,中间件监控数据,应用监控数据,安全监控数据,动环监控数据,环境监控数据,统一告警时间,日志数据,配置信息,监控数据,CMDB,变更管理,2019,中,国,数,据,智,能,管,理,峰,会,运维大数据平台运维数据是在日常技术系统运行维护过程中产生的数,运维大数据平台,搜索引擎可视化,Elasticsearch,智能运维分析,BI,展现,Kibana,数据展示层,指标预警、报警聚合,异常定位、故障自我修复,离线计算,实时计算分析,数据挖掘,统计分析,应用平台,输,入,输,出,数据计算层,数据接口,机器学习算法,分析结果文件,数据流,事件驱动,Redis,Hive,Mysql,数据存储层,数据采集层,数据组织存储,ETL,Spark,sql,Storm/,Spark,Streaming,数据准实时获取、数据,直接访问,HDFS,flume/sqoop,/JDBC,FTP/sqoop,分布式存储,层,数据中心数据源,(,Hadoop,),系统监控数据,应用日志,巡检日志,监控数据,LogStash,日志收集及处理,(,flume,),性能监控数据,日志数据,告警事件,历史数据,非结构化数据源,各系统日志Logs,实时事件日志,网络,&,设备,安全访问,&,审计日志,日志,2019,中,国,数,据,智,能,管,理,峰,会,运维大数据平台搜索引擎可视化智能运维分析BI展现Kibana,智能运维算法,主体画像与知识图谱类,+,动态决策类,通过多种算法挖掘运维历史数据,从而得出运维主体画像,然后构建运维主体之间的关系,最终,形成运维主体的知识图谱,运维主体:,系统软件、硬件及其运行状态,如指标、日志、事件、变更等,画,像:,用以描述运维主体的自身属性,如容量画像、指标画像等,知识图谱:,基于画像,用来描述主体之间相互关系,如故障失效传播链,举例:,构建故障传播链,是对失效现象进行回本溯源的分析,查找引起该失效的可能的故,障原因。,主体画像与知识图谱,主体画像类,知识图谱类,日志正常,模式画像,历史故障,工单画像,应用健康,画像,特殊日整,体画像,应用流量,画像,自动化任,务脚本,业务拓扑,自动构建,故障传播,链构建,故障先兆,画像,性能瓶颈,画像,运维数据,整体画像,交易链条,画像,指标画像,及聚类,物理拓扑,自动构建,故障止损,预案构建,容量画像,2019,中,国,数,据,智,能,管,理,峰,会,智能运维算法主体画像与知识图谱类 + 动态决策类通过多种算法,智能运维算法,主体画像与知识图谱类,+,动态决策类,在已经挖掘好的运维画像与知识图谱的基础上,利用实时监控数据作出实时响应与决策,甚至,预测未来一段时间内系统运行状态,举例:,故障预测,基于历史经验的基础上,使用多种模型或方法对现有的系统状态进行分,析,判断未来某一段时间内发生失效的概率,举例:,单指标异常检测是对系统中突然出现的单个KPI性能指标的异常(如突增、突降、,抖动)自动判断和识别,检测出潜在的故障,动态决策,异常检测,故障定位,故障处置,故障规避,单指标异,常检测,多指标异,常检测,异常机器,多维数据,定位,部署自动,迁移可行,性评估,智能瓶颈,容量预测,定位,拦截,报表,文本日志,异常检测,交易链条,异常检测,变更故障,定位,交易链条,定位,弹性扩缩,容决策,变更风险,评估,限流决策,故障预测,2019,中,国,数,据,智,能,管,理,峰,会,智能运维算法主体画像与知识图谱类 + 动态决策类在已经挖掘好,自动化运维工具,2019,中,国,数,据,智,能,管,理,峰,会,自动化运维工具2019中 国 数 据 智 能 管 理 峰 会,运维闭环,智能运维闭环:,告警,离线:,分析构建运维主体画,像与知识图谱,修复建议,异常检测,根因分析,异常定位,异常预测,运维人员,人工智能,在线:,利用主体画像与知识,图谱分析处理实时日志信息,预,测、检测以及定位异常,执行自,动化脚本将系统恢复到正常状态,运维知识反馈,:智能运维自,动从历史的运维操作中学习并总,结规律,增强运维决策能力,专家知识,反馈,采取运,维手段,监控信息,配置信息,变更信息,修复软硬件故障,执行预案脚本,执行修复建议,技术系统,变更,技术系统,2019,中,国,数,据,智,能,管,理,峰,会,运维闭环智能运维闭环:告警 离线:分析构建运维主体画修复建,01,背景介绍,02,智能运维研究,03,智能运维应用实践,04,智能运维实施路径,2019,中,国,数,据,智,能,管,理,峰,会,01 背景介绍02 智能运维研究03 智能运维应用实践201,战略目标,事前,智能预警,事后,快速定位,夜间,无人值守,远程,集中管理,2019,中,国,数,据,智,能,管,理,峰,会,战略目标事前事后夜间远程2019中 国 数 据 智 能 管,应用场景,智能检测,异常报警聚合,智能异常检测,故障根因分析,智能预警,作业运行预测,最长路径分析,指标预警,应用场景,智能巡检,智能值守,应用巡检智能化,机房巡检智能化,值班操作智能化,运维数据可视化,2019,中,国,数,据,智,能,管,理,峰,会,应用场景智能检测智能预警作业运行预测应用场景智能巡检智能值,智能预警,作业运行时间预测,基于历史运行信息,对批处理作业的运行时间进行预测,方法,效果,基于作业历史运行数据,,构,建,作业运行时间的特征模型,利用历史数据,训练,模型,利用回归类算法,预测,当天作,业的运行时间,60%的作业可建立回归预测模型,预测值误差在10%,以内,举例:某作业预测值的平均误差为,9.21秒,,误差在3.7%以内,2019,中,国,数,据,智,能,管,理,峰,会,智能预警作业运行时间预测 基于历史运行信息,对批处理作业的,智能预警,最长路径分析,结合作业运行时间的预测值,实时计算跑批过程中关注的作业最晚处理时刻,方法,效果,以作业预测数据、作业关系,为输入,预测结果与实际结果拟合度超过90%,起点:处理前备份,利用动态规划算法,实时计算,关键路径及关键完成时刻,利用,SPFA,算法验证并,修正,终点:处理结束,2019,中,国,数,据,智,能,管,理,峰,会,智能预警最长路径分析 结合作业运行时间的预测值,实时计算跑,智能预警,指标预警,是针对某一应用或系统,根据其历史运行的信息,以时间序列为轴,构建其正常运,行的基线,结合该应用或系统当前的运行状态、指标数值,判断是否出现异常。,指标是用以衡量应用系统各方面业务状态(,业务指标,)和运行状态(,技术指标,)的,自描述的标准或数据,举例:成交笔数、交易量;,未应答数,服务响应延迟时间,http请求状态等,2019,中,国,数,据,智,能,管,理,峰,会,智能预警指标预警是针对某一应用或系统,根据其历史运行的信息,,智能预警,指标预警平台,预警对象:技术指标和业务指标,指标类型:基于时间序列、基于时刻,预警阈值:固定类、变化类,2019,中,国,数,据,智,能,管,理,峰,会,智能预警指标预警平台 预警对象:技术指标和业务指标2019,智能检测,异常报警聚合,是将冗余的报警信息进行聚合,将其处理成精简的报警信息,聚合相同时间段内多个关联性较强异常报警,挖掘历史报警数据中的关联关系,建立关联的报警策略列表,重新回顾报警策略,将报警关注度较低的报警策略剔除,故障根因分析,是基于准确报警,分析查找异常发生原因,定位故障点。它是对异常报警聚合、,故障失效传播链的一次综合应用。,历史日,志信息,检测器,特征,故障,案例,机器学习,实时日,志信息,检测器,特征,异常分类器,检测结果,2019,中,国,数,据,智,能,管,理,峰,会,智能检测异常报警聚合是将冗余的报警信息进行聚合,将其处理成精,智能值守,值班操作智能化,基于基线的报警确认,利用聚类算法、孤立森林,的报警分类与识别,异常处理智能化,运维数据可视化,丰富监控对象,提升数据的可视化程度,与现有监控相集成,2019,中,国,数,据,智,能,管,理,峰,会,智能值守值班操作智能化 基于基线的报警确认 异常处理智能,智能巡检,应用巡检智能化,是对应用系统采用模拟的、黑盒的自我检查,一方面可提前判断关键业务的可用性,,另一方面可结合历史数据与当前KPI指标,预测应用系统未来的可用性,对外服务应用系统的巡检,内部应用组件的互检,机房智能巡检,是引入智能巡检机器人、定点摄像实时监控机器人,对IT设备、机房环境进行巡检,或定点监控,2019,中,国,数,据,智,能,管,理,峰,会,智能巡检应用巡检智能化是对应用系统采用模拟的、黑盒的自我检查,智能巡检,综合巡检平台,集中统一显示对内、对外应用自检状况,异常处理时,可结合内外部应用的自检信息,快速定位,2019,中,国,数,据,智,能,管,理,峰,会,智能巡检综合巡检平台 集中统一显示对内、对外应用自检状况2,智能运维技术架构,智能运维门户,应用场景,Grafana,Kibana,信息统一展示,大屏监控,智能预警,作业运行预测,最长路径分析,指标预警,智能检测,智能值守,智能巡检,异常报警聚合,智能异常检测,故障根因分析,值班操作智能化,应用巡检智能化,运维数据可视化,机房巡检智能化,智能运维算法,自动化工具,运维知识图谱,动态决策库,批处理运行控制,服务器管理工具,应用发布部署工具,服务调用链,故障失效链,系统画像,CMDB,性能预测,异常检测,根因诊断,止损决策,运维数据平台,监控工具,数据存储,hadoop,kafka,Redis,ES,Hive,Mpp,软件监控系统,硬件监控系统,集中报警系统,批处理监控系统,数据采集,logstash,flume,Agent/API,IT基础设施,X86计算资源池,网络资源池,存,储,存储资源池,机,房,小型机计算资源池,服务器,网,络,2019,中,国,数,据,智,能,管,理,峰,会,智能运维技术架构智能运维门户GrafanaKibana信息统,智能运维技术架构,智能运维门户,应用场景,Grafana,Kibana,信息统一展示,大屏监控,智能预警,作业运行预测,最长路径分析,指标预警,智能检测,智能值守,智能巡检,异常报警聚合,智能异常检测,故障根因分析,值班操作智能化,应用巡检智能化,运维数据可视化,机房巡检智能化,智能运维算法,自动化工具,运维知识图谱,动态决策库,批处理运行控制,服务器管理工具,应用发布部署工具,服务调用链,故障失效链,系统画像,CMDB,性能预测,异常检测,根因诊断,止损决策,运维数据平台,监控工具,数据存储,hadoop,kafka,Redis,ES,Hive,Mpp,软件监控系统,硬件监控系统,集中报警系统,批处理监控系统,数据采集,logstash,flume,Agent/API,IT基础设施,X86计算资源池,网络资源池,存,储,存储资源池,机,房,小型机计算资源池,服务器,网,络,2019,中,国,数,据,智,能,管,理,峰,会,智能运维技术架构智能运维门户GrafanaKibana信息统,01,背景介绍,02,智能运维研究,03,智能运维应用实践,04,智能运维实施路径,2019,中,国,数,据,智,能,管,理,峰,会,01 背景介绍02 智能运维研究04 智能运维实施路径201,智能运维实施路径,运维数据大,运维数据采集,运维数据存储,运维数据展示,平台,应用自动巡检,指标智能预警,机器自动巡检,基础性应用,时序数据智能异常发现,流量智能异常告警,数据库智能监控,单点智能化,实践,智能网络日志分析,智能预警,智能检测,智能值守,智能巡检,局部场景智,能化,各运维场景智能化闭环,与运维管理流程、运维组织架构、运维自,动化深度融合,一体化智能,运维,运维人员探索需求、定义场景、专注业务,2019,中,国,数,据,智,能,管,理,峰,会,智能运维实施路径运维数据大运维数据采集平台应用自动巡检基,Q&A,2019,中,国,数,据,智,能,管,理,峰,会,Q&A2019中 国 数 据 智 能 管 理 峰 会,THANK,YOU,!,THANK YOU !,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!