腾讯大讲堂运维工具让你的开发运营更轻松

上传人:无*** 文档编号:158662355 上传时间:2022-10-05 格式:PPT 页数:85 大小:4.79MB
返回 下载 相关 举报
腾讯大讲堂运维工具让你的开发运营更轻松_第1页
第1页 / 共85页
腾讯大讲堂运维工具让你的开发运营更轻松_第2页
第2页 / 共85页
腾讯大讲堂运维工具让你的开发运营更轻松_第3页
第3页 / 共85页
点击查看更多>>
资源描述
运维工具让你的开发运营更轻松运维工具让你的开发运营更轻松架构平台部-运营平台中心AresliangAresliang架构平台部-运营平台中心产品管理组分机:个人介绍来看一些数据ITIL基础介绍运营平台中心产品介绍Agenda服务器数25867进程数64025域名数4864机房 111业务集合 322业务总数5075我们为什么要建289440085400809554460100020003000400050006000700080009000 2004年2005年2006年2007年2008年服务器增量服务器增量还将以每年80%的速度增长月突发事件平均数量:3000起;故障平均定位时间:23分钟;ISD12月份各业务对外发布450次;我们为什么要建我们为什么要建30多个亿100亿我们的规模会有多大?我们需要多强大的支持能力?来看一些数据ITIL基础介绍运营平台中心产品介绍AgendaIT管理国际规范-ITIL 全称 IT Infrastructure Library 从1986年开始被使用 英国政府电脑局(CCTA)开发制定 国际上唯一的关于IT服务管理的综合性准则 国际性资格认证(基础级/主管级/经理级)有自己的国际性用户组织(ITSMF)全球十万多家大型企业采用的管理模式 最新国际标准ISO 20000ChangeConfigHelp DeskProblemCostSLMAvailContingencyOperationsCapacitySecurityhttp:/www.itil.co.uk IT服务管理的“最佳实践”,而不是抽象的方法论!优化IT 环境/基础设施管理的系统化、实用的方法:运行和维护现有系统 开发新的系统 使IT服务和业务需求保持一致ITIL的好处HPITSM方法论方法论服服务务保保障障协协议议安全管理连续性管理可用性管理服务能力管理财务管理IT服务体系开发&测试IT服务系统发布&试运营服务等级管理变更管理配置管理运营管理问题管理事件及服务请求管理服务体系发展规划IT 战略规划及整体架构设计客户管理IT 系统评估如何实施ITIL 配置管理 CMDB客户 服务台突发事件管理问题管理变更管理发布管理专家建议:应用ITIL,一般从服务支持环节着手。服务支持环节包括包含5个流程:事件管理、问题管理、变更管理、配置管理和软件发布管理,它们之间互为补充。ITIL的实施过程中,配置管理是核心。传统的IT管理和ITSM比较 ITSM的核心思想是:IT组织,不管它是企业内部的还是外部的,都是IT服务提供者,其主要工作就是提供低成本、高质量的IT服务。IT服务的质量和成本则需从IT服务的客户(购买IT服务的)和用户(使用IT服务的)方加以判断。ITSM也是一种IT管理。不过与传统的IT管理不同,它是一种以服务为中心的IT管理。IT服务管理的核心思想 流程工具人来看一些数据ITIL基础介绍运营平台中心产品介绍Agenda质量基础数据运营平台中心成本个产品线个产品线个子产品个子产品效率服务目录介绍运营环境基础数据配置管理系统服务器业务软件网络设备网络专线IP域名LVS存储IDC资源ADS业务监控体系(Service View)基础服务器监控URL监控基础网络监控模块间调用监控智能分析监控综合故障管理平台容量管理质量基础数据2007成本效率运营质量ITIL流程建设事件管理Server Desk问题管理需求门户IDC需求管理IDC变更管理设备分配管理值班系统8000报障系统基础数据成本2007效率质量运营效率效率公共运维平台建设发布管理作业自动化平台自动化编译基础数据成本2007质量控制运营成本ITIL流程建设OMSCA系统基础数据成本2007效率质量产品线体系价值-运维的工作及重心转变221.日常发布及相关沟通协调工作 2.扩容工作 3.投诉的二线支持 4.数据迁移/提取 5.IDC软硬件故障维护 1.配置管理2.运营数据分析3.立体化监控及异常发现4.代码编译检查5.可运营规范及推进开发优化6.重心日常操作救火运营分析优化改进监控预防工具化、智能化及自动化持续优化和规范环境,降低复杂度举措进化配置管理系统配置管理是一项关键过程,负责对所有版本的硬件、软件、文档、过程、程序及信息技术(IT)机构内其它无生命组成要素进行识别、控制和跟踪。配置管理的目标在于,确保只有经过授权的组件才能在 IT 环境中得到应用,并对所有变更调整实施记录和跟踪。什么是配置管理 配置管理 CMDB服务台突发事件管理问题管理变更管理发布管理定位25存放和管理公司各类配置资源,真实准确的反应公司运营环境配置状况推动公司配置管理工作规范化、标准化。为公司其他运营管控流程提供配置数据支持,为公司运营决策提供配置数据支持真实准确的反应公司运营环境的配置状况为其他ITIL流程、各类运营管控流程提供配置数据支持能够计量运营环境所有资产和配置项的价值能够分析和评价公司运营环境的整体服务能力价值控制 重要工具集成 流程粘合剂决策 强有力的支持系统结构配置核心支撑平台管理平台接口基于场景的配置管理模块网管OMSCA变更系统RToolsCMDBAuto Discovery System高级配置管理模块接口系统结构配置核心支撑平台管理平台接口基于场景的配置管理模块网管OMSCA变更系统RToolsCMDBAuto Discovery System高层配置管理模块接口配置核心支撑平台(包括配置系统核心的数据库(CMDB)和管理模型、接口、管理工具(定义及配置管理、用户管理、角色权限管理、日志管理、通用增删改、通用查询检索)系统结构配置核心支撑平台管理平台接口基于场景的配置管理模块网管OMSCA变更系统RToolsCMDBAuto Discovery System高层配置管理模块接口基于场景的配置管理模块(为了提高批量操作,简化配置管理的复杂性,而引入的基于场景的配置管理模块)系统结构配置核心支撑平台管理平台接口基于场景的配置管理模块网管OMSCA变更系统RToolsCMDBAuto Discovery System高层配置管理模块接口高层配置管理模块(以配置数据的管理为核心的高层增值管理模块,如综合管理试图)系统结构配置核心支撑平台管理平台接口基于场景的配置管理模块网管OMSCA变更系统RToolsCMDBAuto Discovery System高层配置管理模块接口Auto Discovery System(用于数据的自动发现、自动采集、自校验和诊断的系统)系统结构配置管理支撑平台管理平台接口基于场景的配置管理模块网管OMSCA变更系统RToolsCMDBAuto Discovery System高层配置管理模块接口周边配套系统(主要不是用于配置管理的系统,但需要存取CMDB中的数据的系统)系统界面 http:/S业务监控体系什么是业务健康 业务在功能、容量等相关方面体现出来的各项可监控数的总称。当个别或部分数据不满足标准阀值时我们称业务为亚健康或不健康的,反之业务为健康的。我们为什么需要立体化监控 一个良好、全面、完善的业务健康立体化监控体系,能够 帮助我们准确,及时、完善地了解业务各个层面的生存情况,并最终实现对业务的量化管理。怎样才算立体化监控一个从外部/内部、从业务/基础环境、从功能/性能、从预算/收入等各个方面对业务数据进行采集、展现和告警的体系3个W用户分析我们的用户是谁u运维人员u业务主管u中高层领导我们面临的需求是什么运维人员:通过对各层次的数据的展示和告警设置,快速直观的发现和定位故障运维主管:通过对各层次的数据的展示,来反应业务的容量和性 能,通过设置阀值来对业务的容量和性能进行告警公司中高层:通过对各层次数据的量化,来量化业务运行的监控度发现快、定位准直观、全面的了解业务情况业务情况量化了解提供腾讯唯一、准确的运营信息采集、传输、存储的渠道及时、准确的发现故障及辅助故障定位、排障向其他业务系统提供高效、规范、稳定可靠的运营数据接口定位和价值逻辑结构监控层次产品业务模块组模块业务功能用例用例操作组件(具体到)基础资源外部监控业务内监控基础监控产品体系架构(三横两纵)用户体验监控系统用户体验定位系统业务特性监控系统外部监控业务逻辑监控系统模块间调用监控系统业务模块监控系统业务内部监控基础环境监控基础设备监控系统基础网络监控系统统一告警平台告警关联模型库统一告警渠道智能分析平台公司级网管 http:/二级网管ISD http:/IED http:/无线 http:/网站 http:/即通 http:/运支 http:/基础设备监控系统基础网管架构层次Agent数据接入层数据Cache层数据逻辑运算层DB,文件存储层数据访问接口层Web展示层采集的网络,主机数据,业务插件接入数据最近访问数据内存缓冲告警分析,数据分析,叠加运算等主机性能数据,告警等历史数据各种数据访问方法,访问协议适配方法基于iis的和apache cgi web应用展示网管公共组件库网管公共组件库(.so)数据流核心价值-故障主动发现和定位能力核心价值-故障主动发现和定位能力核心价值-采集的数据挖掘展现核心价值-挖掘展现:服务器负载分析ISD模块间调用监控系统无线模块间调用监控系统运支模块间调用监控系统模块间调用监控系统模块间调用监控系统现状及原状对比491.运维人员需要做大量的数据查找工作2.运维人员需要做大量的数据统计工作3.定位问题要经过多次尝试4.对模块间调用的监控粒度不更细1.提供数据支持,让分析更轻松2.发现问题及时及准确3.使定位问题更直观4.使对模块间调用的监控粒度更细5.使对模块间调用的告警更直观6.原状原状原状:现状现状:模块间调用原状特点运维人员需要做大量的数据查找工作在公司的日志集中平台需要做大量的手工查找工作查找工作比较耗事且不够准确;运维人员需要做大量的统计工作定位问题需要经过多次尝试,效率低监控粒度不细50模块间调用原状特点运维人员需要做大量的数据查找工作运维人员需要做大量的统计工作在公司的日志集中平台需要做大量的手工统计工作统计工作比较烦琐;定位问题需要经过多次尝试,效率低监控粒度不细51模块间调用原状特点运维人员需要做大量的数据查找工作运维人员需要做大量的统计工作定位问题需要经过多次尝试,效率低模块间调用故障原因比较复杂,多重故障现象交错;如出问题需要从单机、网络、机房、业务特性等多方面反复排除定位,效率极低监控粒度不细52模块间调用原状特点运维人员需要做大量的数据查找工作运维人员需要做大量的统计工作定位问题需要经过多次尝试,效率低监控粒度不细模块间调用只监控到模块层不能监控到模块之间的相互调用的性能及请求量;53产品架构产品架构54日志集中平台日志集中平台-local LogApi55日志预处理机制日志预处理机制Log filesData Process处理插件处理插件Result filesData Sender二级网管预处理机制由Data Process、Data Sender两个模块组成Data Process通过插件形式加载不同的处理逻辑 插件需要实现handle_init、handle_process、handle_write_result几个接口 Data Sender负责将本地的结果数据发送给二级网管 56日志预处理机制说明日志预处理机制说明由于处理结果集可能很大,因此考虑将结果发送独立出来。预处理系统由数据处理和结果发送两个模块组成 处理模块的结果跟log server的输出格式一致,结果发送模块读取后再发送给二级网管。目的是如果单个log id的数据一台机器处理不过来,forward到多台机器分别预处理,然后再通过一台机器汇总,汇总的机器可以用同一套程序数据处理模块通过插件方式加载数据处理算法 不同的处理算法启动多套程序处理,数据也需要分开保存。譬如模块间调用的log数据、业务log数据应该分开不同目录保存 57消灭隐患-提升业务可用率和产品质量 通过解决潜在的问题和隐患,将业务故障消灭在发生前,促进BU的运维管理逐步从救火到预防发展和转变。质量提升案例没有模块间调用监控的时候(以前)产品质量问题多,定位难,跟踪麻烦,长期得不到解决。上级主管常常一周询问运维主管好几次,本周的重大故障定位和解决情况如何,还有什么可能发生的情况存在。有了模块间调用监控(现在)上级主管一个月会询问运维主管一、两次关于重大故障定位和解决情况。快速、准确的定位-提升运营效率通过模块间调用的返回值及调用结果,使开发、运维人员定位故障的时间提升了35%。以前平均定位时间:23分,数据来源于ISD突发事件管理系统现在平均定位时间14.95分,数据来源于模块间调用监控系统邮件订阅点评功能效率提升案例业务:会员功能:会员头像问题:会员头像显示速度慢,不稳定,用户体验感很差没有模块间调用前:根据经验定位,估计是即通的接口返回速度慢。与即通沟通后,答复接口没有问题。问题只得搁置一直得不到解决。接入模块间调用后通过调用数据分析发现,即通的接口返回速度快,没有任何问题网盘接口的调用返回速度慢,失败率高通过排查发现:网盘提供的接口业务逻辑不稳定,有过多的冗余日志操作优化相关代码,问题得到解决从发现问题到具体定位:3个工作日为业务发展和决策提供数据支持提供成功率、响应时间等7个维度业务分析数据,为业务的扩容、迁移等决策提供了数据支持。以QQ会员自定义图像为例,扩容前QQ会员自定义图像调用网络硬盘qqdisk上传接口成功率为81.51%、响应时间为3.52秒,通过数据分析,扩容后QQ会员自定义图像调用网络硬盘qqdisk上传接口成功率为99.9%、响应时间为197.79毫秒,CGI自动化测试时间由2.4秒下降到现在的800毫秒,大大提高了产品质量,提升了产品的用户体验感。对不达标CGI业务潜在隐患的实时跟踪通过模块间邮件订阅和日分析报告,对任何一个不达标的cgi业务模块的潜在隐患,从根本层面形成了BU在每天的业务故障跟踪方面的制度,这一方面在监控技术的发展和思路方面是一个大的进步 后续建设计划 结合配置管理,真实的勾画业务的内部调用结构图,使业务内部结构透明化。后续建设计划 结合自动化测试系统,进行数据的深度分析,打通外部调用和内部调用之间的联系,精确监控每次外部请求的逻辑走向,形成业务调用逻辑有序图,使定位更加快速、直观突发事件管理服务支持流程事件管理流程用于记录跟踪和监控事件事件管理目标l最快恢复正常服务;l尽量减少对业务的不利影响;l确保最可能的服务级别的质量,维护SLA条款的有效性;反应公司平均故障解决时长、计算各个业务的可用率单据类型被动主动事件维护单客服自动监控/运维发现突发事件监控单投诉单服务请求(管工事件)有影响 无影响 管工BU处理部门?标红色是为目前未实现变更实施解决故障产品关联图事件管理问题管理变更管理配置管理服务台变更请求提供配置信息配置变化通知 提供配置信息提供配置信息趋势分析避免故障重复出现监控告警客服工单投诉单事件系统的价值和定位SLA确定及签署事件的记录及处理SLA的阶段核算及监控绩效及评价考核SLA优化及改进措施年度系统建设及优化规划系统建设及优化实施SLA偏离整改及行动方案系统改进及优化系统建设项目评估评价图:可用性管理与项目建设的推进协作解决方案及成果解决方案项目收益事件记录公司统一事件录入平台,记录跟踪事件处理直至最终解决1.将原来分散在工单系统、事件系统和BU内部的运维数据录入统一的事件管理平台中2.公司只建设一套系统,各部门不用投入重复开发3.将ISD/IED对事件管理的管理和规范推广到其他部门管理支持建立服务目录和级别管理模块1.在统一平台上展现管工SLA以及BU可用性统计等重要运营数据和报表,可以纵向对比运营质量2.支持管工、客服、BU针对数据分析,进行管理决策3.支持对运维人员的服务质量和运维质量考评ITIL其他系统建设统一后续问题管理,知识库管理的建设,减少重复投入1.通过各相关系统提供的接口,预留变更管理、问题管理接口,并在统一平台上展现管工SLA以及BU可用性统计等重要运营数据和报表2.已支持与ISD问题管理系统接口,实现初步的问题管理升级模式阶段目标夯实基础夯实基础精耕细作精耕细作拓展拓展08Q108Q208Q4事件数据源的完善;改进事件系统的易用性统一考核指标、关键统计服务台建设第一期系统优化,组件化提高事件系统与配置系统、网管系统、问题系统、变更系统的数据集成,建立公司级统一的可用性度量和评价体系系统优化,组件化提高事件数据源的完善,管理精细化;监控单、突发事件单、管工事件单、维护单整合整合08Q3服务台建设第二期问题管理的建设系统优化,组件化提高V3.2V3.3V4.0系统界面 http:/发布管理公司发布工作以前存在的问题大量的发布仍处于手工或者半自动化运作方式,效率低;由于历史原因,现实环境非常复杂,开发管理不规范,导致发布工作的复杂性高,导致发布容易出错;现有的系统工具虽然能够实现一定程度的自动化,但应用还不够系统化;在权限管理和规范化方面,还有待提高;缺乏同其他相关应用或系统,如配置系统、报警系统的关联和集成;发布管理缺乏健全的管理规范和培训体系;各BU在发布管理上参差不齐,发布工具不统一,在自动化工具的实现上,也具有非常大的差异;75发布管理解决方案的层面发布管理发布工具及管理系统ICT基础架构从发布管理、发布工具及系统、ICT架构三个层面去改进发布管理。1.明确相关岗位角色,区分发布操作岗、发布管理审计、发布工具管理维护等角色,建立岗位职责;2.建立发布管理规范,对发布工作进行严格管理;3.开展相应的人员培训及教育;1.建立TOMS-ARS 软件系统和打包工具;2.实现发布过程的自动化;3.固化相关的关键控制点和权限控制;4.实现同公司相关系统的集成和整合;1.建立预发布机备份管理;2.对测试环境及编译环境进行梳理;3.规范产品、模块在编译环境、测试环境和预发布环境中的映射;4.梳理配置系统,建立配置关系,推动应用系统配置的完整性和准确性;5.梳理IDC生产环境,提高生产环境的一致性,降低复杂性;通过自动化发布,提升发布质量和效率,减少误操作,保证发布安全性;梳理和规范发布流程,促进发布环境管理;版本管理,进行版本的快速恢复;任务管理,有效提升windows服务器维护效率;控制开发环境对生产环境的访问,保证安全性;公司统一发布平台。价值所有开发、测试、运维人员都要全程参加,无序,繁琐,耗时长,易出错开发提单,运维进行发布和数据维护,运维成为瓶颈开发提单,测试人员进行发布,运维进行数据维护和工具维护ARS发布推广情况发布推广情况部门对象业务接口人现状ISDQzonewaynewang1、已经覆盖ISD80的发布工作;2、剩余20的ISD发布计划在Q2实现覆盖(主要是包的增量发布);QQ秀QQ会员QQ相册QQ交友QQ音乐ImagecacheIED寻仙leoxiong、felixwang1、飞行岛发布稳定。2、PET 1.0正常进行了多次正式环境发布。3、CF进行了多次正式发布。4、其它多个产品处于试用中。QQ宠物1.0飞行岛QQ宠物2.0CFQQ幻想无线手机QQamyli,yen,steveqiao,wingzhou1、手机QQ发布稳定。2、VOIP进行了多次正式发布。3、其它多个产品处于试用中。无线音乐无线平台服务VOIP创新中心QQ客服jackye1、频道应用发布稳定。网站部频道应用国际产品中心美国QQGame广告部QQlive运营支持部hairyxie发布数量稳定。电子商务部eagle已完成部署,试用中在线支付部财富通aaronzheng完成了新环境的部署,试用中。红色代表基本覆盖所有产品蓝色代表部分产品覆盖白色代表正在试用中ARS发布数据发布数据3544529230050100150200250300350400互联网事业部互动娱乐事业部无线产品部运营支持部管理工程部各部门月发布次数(2008/3/24-2008/4/20)注明:注明:1、图表中所示为发布次数,不是发布版本数,因为一个版本可能会发布多次;、图表中所示为发布次数,不是发布版本数,因为一个版本可能会发布多次;2、互动娱乐和无线产品部的发布次数中包含试用次数。、互动娱乐和无线产品部的发布次数中包含试用次数。ARS 版本计划V3.2Mar 2008V3.2 Beta02 Apr 6,2008V3.0Dec 2007V3.1Jan 2008ARS V3.2主要进行主要进行windows移植开发、移植开发、Linux整整改、包发布、改、包发布、task完善。完善。V3.2 Beta03Apr 22,2008V3.3Jul 2008V3.2 Beta04May 15,2008V3.2 Beta05May 23,2008V3.2 Beta06Jun 6,2008V3.2 Beta07Jun 17,2008V3.2 Beta08Jun 27,2008公共运维平台的规划发布管理任务管理TSH监控管理用户管理权限管理操作日志管理安全管理公共运维平台发布自动化发布平台化发布审批发布计划管理版本管理公共软件的发布管理命令/脚本集中管理(编辑/查看/保存)任务的权限管理任务手工/定时自动调用任务执行结果查看进程状态监控;版本状态查询;自动/手工重启进程;用户分权分组管理操作进行分类管理记录/查看用户在公共运维平台的所有操作公共运维平台的拓扑图RnetDnetIDCARS 服务器编译机池生产机生产机办公网测试机池预发布机池ARS 备份服务器公共运维平台定位发布管理任务管理TSHIDCRNet办公网办公网控制以及控制以及审计对生审计对生产环境的产环境的访问访问发布系统:http:/
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!