资源描述
,A,I,O,p,s,趋,势,下,的,运维管理体,系,变,化,A I O p s 趋势下的,1,目,录,平安运维管理的现状与挑战,1,2,3,4,目 录平安运维管理的现状与挑战12,2,平安集团与平安科技,是平安集团的全资子公司,致力于,运,用 人工智能、智能认知、云计算、区,块,链 等前沿科技,为人们打造全新云生,活,。,对内,平安科技是平安集团的高科,技,内 核和科技企业孵化器,负责开发并,运营,集团的关键平台和服务,。,对外,平安科技以智慧科技为手段,、,以 智造未来为蓝图,聚焦于医疗、金,融,、 智慧城市三大领域,将国际权威认,证,的 技术能力应用到实际业务场景中,,打,造 生态闭环,积极践行科技改变生活,的,企 业理念。,金融 服务,生态圈,医疗 健康,生态圈,汽车 服务,生态圈,房产 服务,生态圈,保险,银行,大金融资产,大医疗健康,金融,+,科技,金融,+,生态,资产 管理,国际领先的科技型 个人金融生活服务集团,智慧,城市,生态圈,战略目标,行业聚焦,N,个支柱,发展模式,集团科技平台,科技平台,平安科技,平安集团,平安集团与平安科技是平安集团的全资子公司,致力于运用 人工智,3,平安运维的发展历程,业务 背景,产险、寿险、证券等,离散金融,业务,保险、银行、投资为 支柱的,综合金融,业务,传统综合金融,与,互联 网金融,并重发展,IT,运维 管理,独立发展,数据信息,系统架构 和,I,T团队等,离散管理,I,T强力推动变革,实现:,统一数据,统一技术框架,集中,I,T组织架构,公 司化治理,综合金融,业务运维保,持,强集中,新业务,孵化、成长,“散养”,模式,客户数据、系统安全,底线,统一管理,“,综合金融,+,互联网”,和“,互联网,+,综合金 融”双模式,核心业务IT交付职能,回归各业务线,建立,专业公司运维团 队,集团新技术产品研发 与,平台共享,科技能力输出,面向,市场开放合作,资本盈利和科技盈利,双 轮驱动,安全、稳定、专业的,集 团,IT,运维管理服务,深度推进价值运维理念,和核心创新:,智能运维,(,AI,O,p,s,)建设,,运维 推动业务,创造价值;,人工智能、平安云、智 能投资、智慧城市,行业输出运维,专家服务,, 连接标杆性行业资源,0,.,5,2001年前,“诸侯分治”,2001-2012年,“统一集中”,2012-2015年,“自主创新”,2015年-2016年,“开放合作”,1,.,0,2,.,0,3,.,0,2017年至今,“科技引领金融”,4,.,0,平安运维的发展历程产险、寿险、证券等保险、银行、投资为 支柱,4,快速迭代,丰富开源,复杂兼容,大量用户,灾难后果,风险管控,组织变革,人,员,发展,资源优化,组,织,赋能,瞬息万变,快速应对,BO,合一,人工(模糊,),自动(工具),标准(文档),Garter,:,预测,AIOps,对传统运维的替代,率,:,2019,年,25%,;,2022,年,50%,。,在哪里:,当前的运维,环境,海量数据,数据分析,决策依据,快速迭代大量用户组织变革瞬息万变人工(模糊) 自动(工具,5,运维过程中,面临的问题,组织,人员,信息 技术,规范 价值,业 务,30+专业公司,全托、半托、自营等多种服务模式,保险、银行、证券、信托、资管等 多种传统业务,普惠、众筹、陆金所、互娱、互联 网等新型业务,智慧城市等新业务形式,在哪里:,集,团,庞大、,运,维分,散,、,风,险不,可,控,运维管理服务,对象特点,集团庞大,运维分散,各个公司之,间,业务 交互、底层关联错综复杂,监管严格,稳定性要求高,恢复时,效,性要 求高,业务种类多,系统多,基础资源多,,,数据 多,场景复杂,管理复杂,市场、业务、用户的需求变化快,,迭,代要 快,系统变化快,运维过程中面临的问题组织信息 技术规范 价值业 务30+专业,6,目,录,平安运维管理目标,2,目 录平安运维管理目标2,7,快速识别市场趋势,快速识别客户需求,快速响应客户需求,智能识别风险,快速、准确定位故障点,给业务提供价值信息,促进业务发展,有效识别客户需求,提供有效服务,及时响应客户需求,实现快速交付,主动风险识别,做好预防措施,快速恢复业务,降低业务损失,去哪里:,完善集团统,一,的运,维,管,理,体系,业务,创造价值,识别需求,统一标准,建设工具,互通数据,促进交流,打,造,视图,快速识别市场趋势给业务提供价值信息,促进业务发展去哪里:完善,8,能力描述,事件咨询服务,应用变更,故障处理,执行,需求理解,任务规划,经验学习,人工,人工应答,人工上线,人工响应,人,人,人,人,标准,文档手册 检索工具,按需开发,现场开发,人,+,系统,人,人,人,自动,基于预设规则的自动应 答,自动化部署,基于预案的 自动修复,系统,人,人,人,AIOps,基于意图理解和多轮对 话的智能客服,可自主规划上线的智能无 人值守变更系统,可自主规划方案的智能 故障自愈,AI,AI,AI,人为主 系统辅,去哪里:,建,立,运维人,员,的赋,能,机制,赋能 机制,技术发展路径,人员培养体系,人员,转型,能力描述事件咨询服务应用变更故障处理执行需求理解任务规划经验,9,运维 价值,具有解决方案 附加价值,解释性,个性化编辑 个性化服务,个性化,让客户感受所支出 物有所值,可助力,有获取服务通道, 有展示,可寻性,提供便利性,获取权,及时响应、解决,即时性,服务可见、可感受、 可量化,实体化,服务可靠,可靠性,去哪里:,打造,运,维服,务,文化,,,做,真,正有,价,值的,运,维,图表来源,:,运维 价值具有解决方案 附加价值解释性个性化编辑 个性化服务,10,目,录,平安运维管理方法和实践,3,目 录平安运维管理方法和实践3,11,实现管理过程体系化、规范化、轻,量,化、,数,字化,、,智能,化,, 提高执行效率,发挥体系作用,实,现,服务,质,量的,持,续改,进,。,识别,机会,创造,价值,运维f服务化,服务产业化 对外产生价值,快速响应、快速交付,战略 规划,开发 评审,交付 转换,报告 改进,需求 设计,运维 支持,业务,服务管理体系,怎么去:,建设运维管,理,方法论,实现管理过程体系化、规范化、轻量化、数字化、智能化, 提高执,12,专业公司,怎么去:,运,维管理框,架,体系,设,计,工具技术,体系规划 制度建设,集团运营管理,集,团,三道,传 导,组织:三道防线,二道,专业公司总部 信息技术部门,各分支机构/分支行 信息技术部门,一道,统一数据标准、统一使,用,和接入,体系化,工作目标,风险管理执 行委员会,集团稽核 检查部,规范化,轻量化,数字化,智能化,人员能力,分享,培训,荣誉体系,技术评价,上 报,统一标,准,建设工,具,互通数,据,促进交,流,建设视图,专业公司怎么去:运维管理框架体系设计工具技术体系规划 制度建,13,IT,运营管理总纲,管 理 办 法,技 术 规 范,变更管理办法,发布管理办法 配置管理办法,UIOC及重大事件管理,问题管理办法 监控管理办法 日志管理办法,容灾管理办法,信息系统应急管理办法 应急管理流程,IT,运营风险管理办法,数据管理,数据采集管理规范 数据修改管理规范,日志管理规范,、,平台管理,集团监控管理办法,监控告警管理办法,配置管理统一接口规范 端到端监控接入规范 应用子系统管理规范,检查考核,I,I,I,T,T,T,运,运,运,营,营,营,监,管,考,察,理,核,管,综,管,理,合,理,办,评,办,法,估,法,办,法,控制管理,灰度发布管理规范,应用系统账户权限管理,规,范 软件,License,管理流程,中间件管理规范,容灾豁免与延期执行流程,怎么去:,运维管理体,系,大纲,示,例,解决过程,控制过程,交付过程,IT运营管理总纲管 理 办 法技 术 规 范变更管理办法UI,14,怎么去:,运维管理体,系,大纲,示,例,(,容灾),体 系 优 化,内容,目标,集团科技,专业公司,流程,优化流程、提升管理,优化流程,执行把控,平台,工具整合、恢复提升,同步、恢复平台整合,选定方案、配置工具,建设,策略合理、全面覆盖,沟通支持,BIA,分析、环境建设、平台接入,预案,提升质量、演练验证,统一管理、统一演习,识别场景、制定预案 排定计划、完成演练,全面,稳定,可用,关键级别,连续性指标,业务影响,业务类型,业务功能,价 值 输 出,输出,配置,关键等级、关键系统,发布,灰度发布范围判定,监控,系统类型、业务指标,建立指标管,理,平台,变更,分级管理,事件,分级管理、业务影响输入,连续性,以RTO/RPO为目标,制定策略,业务,影,响分析,怎么去:运维管理体系大纲示例(容灾)体 系 优 化内容目标集,15,故障深入分析, 诊断根源,彻 底解决,高适用性,,基于平安集团20年,I,T,运,维经验 进行探索和改进。,功能完善,,灵活配置,智能运维。,统一,I,T,I,L,流程管理标 准,衔接业务需求和,I,T,能 力交付,支撑流程工具落地,强化事件,/,问题,/,变更 等流程关联,形成管理闭环,共享运维管理平台,赋能专业公司规范流程管,理,促进共同成长,数据集中,多维度展示,运营全,视,图助,力,I,T,决策, 合力促进业务发展,Service,BOT,怎么去:,建设统一的,运,维管,理,平台,平台特色,故障上报工单, 标准流程管理, 快速恢复服务,规范变更流程, 确保变更有效执 行,降低风险,灵活配置 工作流和,SLA,事件管理,问题管理,变更管理,智能,CMDB,数据自动采集,自动审计,图形化分析配置项关联关系,辅助故障诊断,服务目录,服务请求,清晰服务目录, 快捷提交请求, 灵活定制表单,报表管理,客制化报表和仪 表盘供用户实时 掌握,I,T服务数据,故障深入分析, 诊断根源,彻 底解决高适用性,基于平安集团2,16,完善人才发展体系,发 展 体 系,能 力 体 系,岗位设置和能力模型,技能发展路线与技能清单,运营技术地图,培训计划、制度和课程,运,运维,维开,发,内外部,培,训,运营技能,竞赛,科技和集 团内部交 流,外部交流 和行业协 会,工程师文 化建设,评价规则,怎么去:,运维的人员,能,力管,理,实,践,(一),完善人才发展体系发 展 体 系能 力 体 系岗位设置和能力模,17,整合运维岗位,能,力,模,型,,,打造,研,发,型,运,维,团,队,,,通,过,技,术,手,段,提,升,运,维,效,率。,通用能力,岗位能力,运维技能,具备,IT,通用运维知识及专业,领,域专,用,技能,,,能够,及,时处,理,系统故 障,预防系统风险,妥,善,安排,系,统变,更,,,持,续,提升,运,维稳,定,。,研发技能,具备研发知识和开发能,力,,提,升,运营,系,列团,队,开发,水,平、,用,技术,提升运维效率,。,专业价值,在所属,岗,位分,工,内,,具,有创,新,意,识,,通过,技,术引,入,、或,流,程优,化,、 或方法改进等手段,,为,运,营稳,定,创造,价,值贡,献,。,主动担当,倡导关注公司整体利益,,,积极,、,热情,、,主动,地,投入,工,作,,以,高 品质、高标准达成并超,越,目标。,关键词,:,认真执行、主,动,支持,、,目标,承,诺、,责,任担,当,、公,司,利 益最大化。,沟通协作,在日常工作中妥善处理,好,各种,关,系,能,够调,动,各方,面,的工,作,积极 性的能力。,关键词:,沟通协调、团,队,协作,、,总结,汇,报,怎么去:,运维的人员,能,力管,理,实,践,(二),整合运维岗位能力模型,打造研发型运维团队,通过技术手段提升运,18,体系制度培训,专业技能培训,IT运营专家讲堂,培训宣导,运维行业动态,创新技术应用,集团运维经验分享,IT运维技术大会,交流分享,荣誉体系,运营稳定奖,创新突破奖,运维技能竞赛奖项,技术规划,集团IT运营技术委员会,技术能力发展模型,技术发展路线,建立人员赋能的机制,建设技术培训及分享平台,,规范,IT,运营技术发展路线,设置荣誉体系,鼓励分享和创新,。,怎么去:,运维的人员,能,力管,理,实,践,(三),体系制度培训培训宣导运维行业动态交流分享荣誉体系运营稳定奖技,19,复杂,简单,高频,低频,数据修改,发布及变更,故障管理: 重大故障,备份管理,配置管理,服务管理,容量管理,监控管理,智能辅助决策 增强,人,的能力,智能决策和执行,经验用,AI,固化 替代人的能力,自动化,(,a,u,to,m,atio,n,) 自助化,(self-service),规范化 流程化,资产和服务管理,引领业务发展,提升运维质效,实现运维价值,服务架构和 性能优化,故障管理:一般故障,从高频、简单的领域入手,打通监控、配置、运维管理等基础工具平台。,借助,AI(,大数据,+,机器学 习),提升运维对数据的获 取、分析、处理能力。,怎么去:,由简入繁,,由,易到,难,,,提,升,AIOps,水平,解决方法,海量数据,+,复杂度,运维挑战,难度高难度低,复杂简单高频低频数据修改发布及变更故障管理: 重大故障备份管,20,整合,可视,调和,同步,K,a,fk,a,/入,库程序,同步平台,界面引擎,中控平台 自动采集,CMDB,子系统,应用,网络,数据库,存储 主机,负载均衡,机房,Neo4J,图 库,规则引擎 健康检查,其它系统,UI,系统管理,平台特点,可配置:,资源视图灵活,配,置,可视化:,CI及关系图形,化,展示,自动化:,基于规则引擎,自,动校验,易搜索:,支持全文搜索,易接入:,开放性数据对,接,平台,数据全:,集团最全的配,置,库,数据规模,600万+,涵盖子系统,应用等8大领域,用户规模,30000+,集团内用户,自动化 自助化,工具,支撑,共享 平台,打造数据平台生态,各专业公司共享共用,配置数据集中治理,支撑跨组织高效运维,ITI,L,流程的基础和 核心,以子系统为主线的 配置数据链,端到端监控,运维管理,云平台,神兵,ITSM,ServiceBOt,重要工具平台支持,怎么去:,运维工具管,理,实践,(,配,置,管理),整合可视调和同步Kafka/入同步平台界面引擎中控平台 自动,21,端到端监控,监控数据汇聚,数据分析计算,监控数据存储,集团监控展现,监控告警,监控响应处理,主动,联合,分析,快速 定位,运用,智能模型训练、业务发展形态,,,预,测,协助预测性能瓶颈、智能容量预测,联合,业务关联性、组件关联性,从集团出发串联完整业务 链路监控数据,,,形成全集团整体监控管理视图,基于,机器学习算法、业务拓扑下钻,模 式实践,协助快速定位异常点,2000+,子系统,1000+,条业务流,3w+,设备组件,5000w,监测项,5000w,+,监控指标项,秒级处理,10w,+,告警计,算,50W,+,数据,接收,全链路端到端监控覆盖,业务端到端,应用端到端,基础资源端到端,98,+,%,监控可发现率,及时发现异常,及时明确业务影响,快速定位问题点和关联方,分析,I,T资源利用率合理性,效果,48%30%,可提前预警可避免事件,WiseAPM,智能端到端应用性能监控,怎么去:,运维工具管,理,实践,(,端,到,端监,控,),端到端监控监控数据汇聚数据分析计算监控数据存储集团监控展现监,22,目,录,面向未来,的,思考,4,目 录面向未来的思考4,23,AI,O,p,s,以业务、用户为中心,深度融合,关心业务、服务指标,除ITIL外,考虑DevOps、AIOps,需求,团队间更强调沟通协作,工具开发以机器为中心,运维过程以敏态、混合态为主,总结(一,):,运维管,理,变化,传统,以软硬件运维为核心,关心技术、流程指标,流程,以,ITIL为主,团队间由明确的职责界限,工具开发以方便人使用为中心,运维过程以稳态、双态为主,AIOps以业务、用户为中心,深度融合关心业务、服务指标除I,24,运维 业务价值,用户 服务,人员、工具、流程,总结(二):,AIOps,时代的运,维,管理,的,价,值,实现,大数据机器学习,AI,O,p,s,运维 业务价值用户 服务人员、工具、流程总结(二):AIOp,25,总结(三,):,运维的,优,越感,一问?,运维往哪里去,?,二问?,运维人怎么办?,AIOps,唉,?,运维,爱!,运维,总结(三):运维的优越感一问?运维往哪里去?AIOps唉?运,26,谢谢,谢谢,27,
展开阅读全文