承载IT运维成功之梦:精准运维

上传人:lis****210 文档编号:35612876 上传时间:2021-10-27 格式:DOC 页数:10 大小:24KB
返回 下载 相关 举报
承载IT运维成功之梦:精准运维_第1页
第1页 / 共10页
承载IT运维成功之梦:精准运维_第2页
第2页 / 共10页
承载IT运维成功之梦:精准运维_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
承载 IT 运维成功之梦:精准运维导读 “已是一个星期的晚上没睡好了,梦里全是 啪啪的声音乱作一气,一串串红绿指示灯交替闪烁,我搞不 清是梦还是在真实机房,只觉得一晚都在忙乎,醒来已是一 身冷汗,这是自从前一段时间老板命令 7*24 小时确保新业 务稳定运行,经一周苦战后,总周期性做梦,挥之不去” 。 这是一个有四年工作经验的运维骨干,也是我书的读者,与 我交流的心里话,他快崩溃了,总是浮现老板幽幽的眼神, 鄙夷的神情暗示他“新系统上线就会崩,你们这帮吃干饭 的”。是呀,生存在这样的环境里,这活还有没有办法干, 有没有办法改变呢? 我们都知道, IT 运维服务是 对 IT 基础设施(网络系统、主机系统、存储 / 备份系统、终 端系统、安全系统、机房动力及环境等)以及软件应用等进 行服务的。一般情况,我们运维信息系统,信息系统支撑企 业业务,而实际情况是,业务受各种因素影响,不断起伏变 化,而没人及时告诉我们详情,只要求我们以不变应万变的 方式维稳,而再牛的公司资源都是有限的,如果运维缺乏一 个反馈,既不符合控制论的思想,也很难让运维做到有 针对性,更不要说精准了,当然也别提运维的价值了。那么,能不能在运维过程中引入业务需求这一变量, 让运维更加精准,实现信息系统与业务的心跳同步呢?答案显然是肯定的。将业务需求和业务变化作为变量,主动将其反馈到运维过程中,让运维工作以业务需求为导向、以信息 系统为对象,通过一系列措施实现信息系统与业务的心跳同 步,促进业务效率、业务效益或用户体验的提升。我们将这 种采取新兴技术提供预防性维护实现 IT 系统与业务精确匹 配的运维方法统称为精准运维。精准运维及其意义 1. 什么是精准运维 大家都熟悉三国演义草船借箭的故事,诸葛亮 的成功是有几个要素的:首先他熟悉业务,其次是及时交流 发现业务薄弱环节和需求,主动提出解决方案,并以意想不 到的方式完成。总结起来,故事的关键点有熟悉业务、交流 反馈、主动服务、执行实施。精准运维是一种 IT 服务方法, 它是要让 IT 运维服务 工作围绕被服务对象的业务来展开,从而进行心跳同步式的 服务, 最大限度地利用资源, 提升业务体验, 实现服务价值, 而不仅仅是围绕信息系统本身(软硬件)来服务。因此,精准运维的理论体系架构本质上是以客户为 导向的服务体系,是以业务的心跳为基准的服务思想理念。 精准运维是通过一系列方法掌握服务对象所使用信息系统 的特性、业务特点, 以及该信息系统所服务的企业业务特性, 找准目标,通过业务部门及时把用户的真实体验反馈给运 维,这样,运维工作就能通过掌控信息系统运行风险、运行 特点、资源调配情况和业务部门反馈的意见来优化信息系 统,从而精准的预测服务要求并开展服务计划,提供和建议 使用较小的代价有效展开主动服务和快速响应服务做到信 息系统与业务心跳同步。总结起来,精准运维的基础是熟悉被服务对象,知 己知彼, 并建立风控模型 (该风控模型与信息安全风控不同, 见下),其要素是主动服务与预测,其关键是掌握业务需求 与变化;与精准运维密切相关的是业务所有者、信息系统、 环境等。 同时,精准运维的行动离不开 PDCA 的方法。下面, 我们可以看看精准运维的框架图: 精准运维的框架模型就犹如汽车的发动机,要求油门通过不 断循环往复提供动力支撑。从图上我们可以看到,上层对下层是要求,下层对 上层是支撑,影响业务的变化主要有六因素;风控模型是精 准运维的定海神针;与运维工作关系密切的是业务所有者、 信息系统与环境;技术实力是运维工作的支撑。以业务目标 为导向,业务所有者(操作人员、维护人员、管理人员等) 以及环境在信息系统运行过程中所面临的作业风险、业务风 险、政策风险、管理风险和安全风险,按照 PDCA 的方法进 行风险评估、识别、规划、执行、回顾、改进等,从而保持 信息系统与业务需求的精确匹配,达到心跳同步。2. 精准运维的特点与意义1) 精准运维的特点精准运维有别于传统运维,概括起来,有以下五 大特点: 以客户的业务为导向。 服 务要与业务精准同步。 强调主动性、计划性的 服务,由救火队变为预防与救火并举。 除了保 障系统安全稳定可靠,更强调用户体验、效率和效益。 更重视服务价值的实现。(2)精准运维的意义使运维服务过程更重视用户体验, 促进 DevOps 落地 精准运维在服务过程中引入了业务需求作为控制变量,并以 此为导向开展运维,充分了解了用户业务诉求,并将用户体 验作为最终目标,这使得运维服务过程更注重用户体验,摆 脱了仅针对信息系统做文章的小格局,有利于开发(软件工 程)、技术运营和质量保障 (QA)之间的沟通、协作与整合, 促进 DevOps 真正落地。让运维服务的价值更得以突显,并由“人天”来衡 量转变为以其产生的价值来衡量传统运维往往签订一个固定期限的运维协议,服务的价值一般体现在多少人 天、多少人年,以时间作为标尺来衡量价值。而精准运维的 目标是服务给客户带来多少价值并得到客户的认可,体现在 精准运维不仅追求系统运行安全稳定可靠,更追求的用户体 验、业务效率、业务效益等,这种价值观的转变,使服务的 立意更高, 目标更高、 客户的体验更好, 因而含金量也更高。 换句话说,精准运维让运维服务从低端走向高端,可以走向 按项目制、目标制来签订合作或服务要求。增强了运维的主动性,使运维更加有计划性、条理 性、预见性,工作不至于被动 很多时候, IT 运维服 务带给人的印象似乎只是停留在“救火队员”的角色之上。 运维人员往往是等到故障已经出现或瓶颈已经产生,然后才 采取应急处理措施予以恢复,这种运维方法虽然能最终排除 故障,但无法规避对企业业务造成的损失。而精准运维主动 关注业务需要、用户体验、系统运行动态和变化趋势,并采 取措施识别人机环境方面的风险并主动采取措施消除,充分 体现了运维的主动性、计划性、条理性和预见性,真正实现 主动预防性运维、防患于未然,实现信息系统与业务的心跳 同步。实现资源优化配置、 提升资源利用率 IT 系统 于业务应用来说,有可能资源不足,也有可能资源过剩,通 过精准运维的方法,不仅能解决资源不足问题,还可有效应 对资源过剩的局面,将“闲置”资源充分利用起来。打个比 方说,一个营销系统每日的不超过万条记录的处理量,但当 时设计时却购置了配置很高的服务器,当前的服务器性能只 利用了不到 10%。通过精准运维的分析与评估,完全可以在 当前的营销系统服务器上部署虚拟机,作为其他信息系统的 运行环境,企业无需再购置新的服务器,从而实现了资源的 优化配置,提升资源利用率。让运维更加向运营靠拢,成为运营的一部分 所谓运营,是指以网站为产品营销平台或产品本身,为开展 网络营销而做的一系列工作总称。精准运维不同于传统运 维,更为关注业务需求、用户体验,通过对运营过程中的大 数据从业务角度进行精准分析,发现用户的需求与业务环节 的关联关系,进而从应用软件的角度进行业务模式、流程的 改进与调整,让业务更好满足用户需要,从而找到新的业务 增长点或改进方向。从这个角度来说,精准运维让运维比历 史上任何时候更接近运营,且已成为运营的一部分,能够为 开展网络营销贡献巨大的价值。 精准运维该怎么做 1. 精 准运维的初始化建立风控模型了解运维系统的业务特点,根据业务和系统运行情 况与业务所有者一起着手建立风控模型。风控模型需要体现 业务所有者(操作人员、维护人员、管理人员等)以及环境 在信息系统运行过程中所面临的作业风险、业务风险、政策 风险、管理风险和安全风险,这些数据来源于信息系统运行 数据、历史运维数据、用户访谈信息及客户体验信息等。通 过综合各方面信息,结合业务,从而建立风控模型,梳理出 风险清单。建立风控模型的过程也就是进行信息系统与业务 的匹配度分析过程,匹配度高的项必然风险小,匹配度低的项势必风险高要素:风控模型的初步建立完成标志是与业务所有 者达成共识。 2. 精准运维日常运行之信息采集与反馈首先,以风控模型为基准,及时了解业务所有者的 具体要求并将系统的情况与所有者交流,得到有价值的服务 信息;其次,可以利用自动化监控技术采集到用户端的用户 体验数据, 如访问网站人数、 登录系统效率、 页面响应速度、 访问流量等; 也可以利用大数据及最新的 ELK 技术的方式采 集系统日常运行的业务数据、资源使用情况数据、业务运行 效率日志数据等。此外,还可以不断与业务部门进行沟通协 调,采集用户的反馈与需求。要素:双方都了解对方的意图, 并形成共识。 3. 精 准运维日常运行之预测及计划编制根据采集信息进行预测与计划的编制,所谓预测, 就是对尚未发生或目前还不确切的失误进行预先的估计和 推断,是现时对事物将要发生的结果进行探讨和研究。科学 预测是建立在客观事物发展规律基础之上的科学推断。系统 预测的实质就是充分分析、理解系统状况发展变化的规律。 用相关性、数据趋势分析法及大数据分析技术对采集的数据 进行挖掘分析,分析出业务需求与资源之间的相关性、与运 维人员之间的相关性,分析出应用系统使用的历史与未来趋 势,根据趋势与现有资源的匹配性来实时优化系统资源和人 力资源,并编制详细的系统优化实施方案对系统进行优化。 计划即是根据预测和业务所有者要求编制的行动方案。要素:计划要得到所有者的认可,如需要可优化风 控模型。 4. 精准运维日常运行之系统优化执行与实施根据编制的优化实施方案精心组织实施,且与业务 方充分沟通,在不影响业务的基础上完成系统优化、应急演 练、风险措施改进的实施服务工作。要素:注意行为规范。 5. 精准运维日常运行之校 验与评估根据实施结果与业务运行情况及对系统运行情况的 采集,不断的校验实施效果, 再进一步评估改进, 通过 PDCA 循环往复直至达到系统与业务的精确匹配与心跳同步。要素:结果要进入下一个环节,即反馈给所有者, 如有必要可修改风控模型。 精准运维实例 这里我们拿一 个经典案例来说。大家最为熟悉的微信红包,在除夕前后会 产生业务高峰,大量用户在同一时间摇红包,瞬间产生每秒 千万级的请求,这个量级的请求如果不加以疏导处理直接到 达后台,必定会导致后端服务过载甚至崩溃。因 2014 年春 节以后,微信红包业务量呈现快速增长,微信后台运维团队 预测 2015 年春节的业务量将爆发式增长,对系统产生巨大 压力。为应对 2015 年的春节业务高峰,微信后台运维团队 开展了一系列准备工作,首先是针对业务建立风控模型,以风控模型为基础展开下面的工作: 事实上,按照上 述步骤,微信后台运维团队在业务高峰期到来前完成了后台 和 APP 应用在微信红包功能上的升级, 硬件进行了相当规模 的扩容,对系统运行环境进行了全面整改,对微信红包模块 支持人员数量进行了补充和技能提升,这对于最终系统稳定 高效运行提供了有力保障。最终的结果也表明,精准运维产 生了积极的效果。 2015 年微信发红包,除夕摇一摇总次数 110 亿次,峰值 1400 万次/秒, 8.1 亿次每分钟,微信红包收 发达 10.1 亿次 !惊人数字再次让人们好奇, 2015 年微信红包 方式与去年用户与用户之间互发红包相比,摇红包的方式对 业务量来说是一个极大的爆发,光是除夕10:30 送出的一波红包就达到了 1.2 亿个,已经是 2014 年除夕夜峰值的 4800 倍之巨 (2014 年峰值每分钟被拆开红包数量仅 2.5W 个 )! 注: 上述数据来源于腾讯公司已公开信息。我们在惊叹腾讯再次创造奇迹的同时,仔细想想, 微信摇红包是个业务,实现这个业务的是它的信息系统,就 是说配什么样的员工、 用什么样的硬件、 怎样的应用更合理, 需要什么样的环境,这些决策都需要基于预测用户的群体意 识和需求,以此为目标导向进行大数据分析和匹配度分析, 进行资源的优化配置,从而实现微信红包业务的高效运行。 写在最后 一篇短文很难把精准运维说透,把 IT 运 维之道说清,但随着技术的发展以及观念的转变,可以让服 务的春天早点来临,让运维人更体面、更自豪,这是我们共 同的梦想!展望未来,大数据、自动化运维、人工智能等新 兴技术层出不穷,为精准运维的实施夯实了坚实的基础,将 助力早日实现 IT 运维成功之梦。 若想更多探索精准运维, 家有空可以读读 IT 运维之道。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 活动策划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!