资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,2012,年,8,月,智能巡检平台研发,小 组:网络啄木鸟,QC,小组,课题类型:,创新型,发 表 人:北京移动网运中心,2012年8月智能巡检平台研发小 组:网络啄木鸟,小组概况,小组名称,网络啄木鸟,QC,小组,成立时间,2008,年,12,月,课题类型,创新型,课题名称,智能巡检平台研发,活动时间,2011,年,1,月,-2012,年,1,月,活动次数,25,小组人数,9,出席率,96%,序号,姓名,性别,小组分工,职称,职责,1,臧志勇,男,顾问,工程师,活动指导,2,何嫚,女,顾问,工程师,活动指导,3,郭旗,男,顾问,工程师,活动指导,4,宗建菲,男,顾问,工程师,活动指导,5,刘春燕,女,组长,,QC,小组活动国家级诊断师,国优获得者,工程师,方案制定,组织实施,6,刘磊,男,组员,工程师,方案制定,组织实施,7,刘彦挺,男,组员,工程师,方案制定,具体实施,8,陈恕,男,组员,工程师,方案制定,具体实施,9,何媛,女,组员,工程师,方案制定,具体实施,2,小组概况小组名称网络啄木鸟QC小组成立时间2008年12月课,活动计划表,ID,任务名称,2011,年,2012,年,负责人,1-2,月,3-4,月,5-6,月,7-8,月,9,月,-10,月,11-12,月,2012,年,1,月,1,选择课题,刘春燕,2,目标设定,刘春燕,3,确定方案,刘彦挺、刘磊,4,制定对策,刘磊、陈恕,5,对策实施,刘彦挺、刘磊,6,效果检查,刘春燕、陈恕,7,巩固措施,何媛,8,总结与打算,刘春燕、何媛,计划时间,实际时间,时间:,2011,年,1,月第,1-2,次小组会议制定活动计划表,制表人:刘春燕,3,活动计划表ID任务名称2011年2012年负责人1-2月3-,名词解释,电子运行维护系统(,EOMS,):,实现公司相关管理流程的信息化落地,是管理、维护人员日常工单处理的支撑平台。,集中运行维护平台:,通过指令接口完成网管系统对网络配置信息、主动监控指标、实时信息的查询等操作,实现各类网元指令统一下发、采集、分析、处理。,综合告警平台:,通过接入各类网元告警信息,实现通信网络告警的统一采集、统一关联、统一呈现,统一派单。,4,名词解释电子运行维护系统(EOMS):集中运行维护平台:综,随着通信市场竞争的日趋激烈,,网络质量已成为保障客户感知的生命线,,其战略地位尤为重要。同时,网络管理也正向集中化、一体化逐渐演进。,宏 观 环 境,网 络 质 量,竞争对手,“携号转网”这项惠民政策的开展,使北京移动面临比之前更大的市场竞争压力,同时也对网络安全也提出了更高的要求。,客户感知,2011,年中国移动将提升客户感知作为改善网络质量的指导方向,继续发挥“网络质量大会战”的重要作用。,李跃总裁在网络工作会上指出:“实现全网质量全面领先竞,争对手,建立起集中监控、集中网管、集中维护、集中优化,的现代化维护体系。,北京公司领导在网络工作会上指出:,要“,创新网络管理,推进“一体化”维护,。,战略规划,选择课题,5,随着通信市场竞争的日趋激烈,网络质量已成为保障客户感,选择课题,6,网运中心,预防性维护,故障处理,网络优化,投诉处理,网络建设,27,个局点,2000,余万用户,10000,余台设备,皂君庙区域,西客站区域,望京区域,幸福区域,网运中心,作为北京移动通信网核心网络的维护部门,保障着移动通信网的安全、稳定、高效的运行,同时也,是,公司的,日常,运营收入,重要保证,。,而核心交换设备承载着数十万的交换任务,因此,关系客户感知的核心设备的预防性维护就成为我们工作中的重中之重。,选择课题6网运中心预防性维护故障处理网络优化投诉处理网络建设,选择课题,7,序号,问题未发现原因,发生频数,(,12,个月累计),频率,%,1,维护项目手工查询工作量大、易出错,48,49,2,维护项目执行不及时,45,47,3,维护项目不能确保每项核查,1,1,4,维护项目不能确保有专人处理,3,3,合计,97,100,小组对,2010,年下半年预防性维护问题发现情况进行了统计分析,得出目前的网络预防性维护方式不能完全及时准确地发现网络安全隐患。,1,、每天耗时,150,余人时,出错数由年初月均,3,件上升为年底月均,5,件,。,3,、近,1%,的维护项目不能确保每项核查。,2,、不能及时处理呈上升趋势。,4,、有,3%,的维护项目无专人负责,。,时间:,2011,年,3,月第,34,次小组维护作业计划现状进行分析并归纳原因,制表人:刘春燕,故障隐患发现率在,98%,左右,主要原因:手工查询工作量大、易出错、不及时,选择课题7序号问题未发现原因发生频数频率%1维护项目手工查询,4000,余项日例行维护作业计划,500,台核心网设备,12,名维护人员,4,个维护组,选择课题,时间:,2011,年,2,月第,34,次小组维护作业计划现状进行分析并归纳原因,制表人:刘春燕,新,从左图我们可以看出一年的日例行维护作业计划多达,146,万项,但我们的实际,维护手段还主要停留在手动执行命令及通过小程序半自动执行的混合状态,,手动执行效率低下,存在人为疏忽和遗忘,通过半自动工具手段也无法保证预防性工作的准确及时运行。,实际运维手段分析:,8,4000余项日例行维护作业计划500台核心网设备12名维护人,选择课题,预防性维护,HLR,SGSN,MGW,MSS,CDS,全新智能化维护模式,时间:,2011,年,3,月第,5,次小组设定课题目标,制表人:刘春燕,选 题:,智能巡检平台研发,传统维护方式:,1,、不能完全及时准确地发现网络安全隐患。,2,、手工执行预防性维护工作量大、易出错。,3,、很难通过增加人力及加大考核来提升效率。,小组决定开发,一种全新智能化维护模式,,达到及时发现故障、提高维护效率、确保审计效力的目的。,经过小组讨论决定本次,QC,活动针对最重要的五类网元(,HLR,、,SGSN,、,MGW,、,MSS,、,CDS,)进行试点。,9,选择课题预防性维护HLRSGSNMGWMSSCDS全新智能化,98%,活动前,活动目标,99.99%,100%,活动前,活动目标,60%,故障隐患发现率,工作量,目标,1,:实现,99.99%,故障隐患发现率,目标,2,:,维护工作,量降低,40%,课题目标,设定目标,10,98%活动前活动目标99.99%100%活动前活动目标60%,提出方案并确定最佳方案,-,总体方案设计,针对提升预防性维护工作的迫切需求,小组成员运用“,头脑风暴法,”提出了,11,个想法。并通过,亲和图,进行绘制整理:,11,使用现有半自动化工具,对现有工具进行优化,开发周期短,业务有变更后快速修改,根据现有情况定制开发,灵活度高,基于区域的分散式开发解决方案,集中操作维护平台已经实现到各网元的通道,可通过,EOMS,故障工单的方式督促专人处理,可以利用现有网管系统,无需新购硬件设备,综合告警平台与,EOMS,已开发完成相应接口,提供整体的解决方案,基于网管的集中式开发解决方案,可利用多套网管系统进行联动开发,将预防性维护内容纳入统一的故障管理,开发完成后的平台有专人维护,时间:,2011,年,4,月第,6,次小组会议成员头脑风暴利用亲和图归纳总体方案,制图人:刘彦挺,提出方案并确定最佳方案-总体方案设计针对提升预防性维护工作的,提出方案并确定最佳方案,-,总体方案设计,我们通过使用亲和图法,提出了两种解决方案,:,VS,时间:,2011,年,4,月第,6,次小组会议成员头脑风暴利用亲和图归纳总体方案,制图人:刘彦挺,基于网管的集中式解决方案,总体方案二,基于区域的分布式解决方案,总体方案一,12,提出方案并确定最佳方案-总体方案设计我们通过使用亲和图法,提,提出方案并确定最佳方案,-,总体方案设计,指标较好,指标适中,指标较差,需求满足,开发实现,维护,保障,时间:,2011,年,4,月第,7-8,次小组会议对两个总体方案进行对比讨论,制图人:刘彦挺,100%,满足现有维护作业计划,100%,满足现有维护作业计划,平均变更实现时间为,1,天,平均变更实现时间为,3,天,预计开发,2,个月,预计开发,1,个月,需自主开发,实现较困难,需自主开发,实现较困难,目前网管系统已经实现,目前网管已有派单接口,需进行少量修改即可满足,由于缺少专业测试,可用性较差,年平均系统可用性为:,98%,由开发人员进行监控维护,故障监控率为,58.33%,由于拥有专业测试,可用性较高,年平均系统可用性为:,99.9%,由专业的维护人员进行,7,*,24,监控,故障监控率为,100%,对比项,基于区域的分布式解决方案,基于网管的集中式解决方案,对现有巡检任务的契合度,智能巡检变更的灵活度,开发周期,是否方便与综合告警对接,是否能够进行故障派单,系统可用性,系统维护性,采 用,13,提出方案并确定最佳方案-总体方案设计指标较好指标适中指标较差,提出解决方案并确定最佳方案,-,细化方案的确定,小组在确定总体方案后,根据目前,网管系统对各业务系统的运行状态提供多种支撑方式,可根据具体运维流程需要进行灵活的组合分配,,满足预防性维护工作的各种要求,。具体细化方案如下:,细化方案三,基于智能巡检告警的自动派单式维护,细化方案一,基于集中运行维护平台的一站式维护,细化方案二,基于综合告警平台的人工派单式维护,时间:,2011,年,5,月第,9-11,次小组会议讨论细化方案并进行试验,制图人:刘磊,14,提出解决方案并确定最佳方案-细化方案的确定 小组在确定,提出解决方案并确定最佳方案,-,细化方案的确定,集中运行维护平台,维护人员,网元,1.,集中运行维护平台通过网管系统向网元发送指令并采集返回的报文结果。,2.,维护人员直接登录集中运行维护平台对全部日例行维护作业计划项目进行查看和审核,并根据异常结果来处理故障。,细化方案一:基于集中运行维护平台的一站式维护,0101010,0101010,时间:,2011,年,5,月第,9-11,次小组会议讨论细化方案并进行试验,制图人:刘磊,15,提出解决方案并确定最佳方案-细化方案的确定 集中运行维护平台,提出解决方案并确定最佳方案,-,细化方案的确定,16,测试方案,测试过程,测试网元,BJGS04,执行项目数量,10,返回报文时间,2min,报文呈现时间,10s,维护人员检查时间,8min,添加网元,添加任务,任务执行,执行结果弹出报告,测试方案一,日例行维护作业计划的执行实现了自动化。,返回结果和呈现报告的时间都很短。,X,极大的缩短了之前人工执行指令的操作时间,但是人工审核报告还需要一定的时间。,一个网元,10,项维护作业计划审核,=8,分钟,全网,500,余台设备进行遍历,=500,*,8min=,67,小时,结果分析,人工审核,时间:,2011,年,5,月第,9-11,次小组会议讨论细化方案并进行试验,制图人:刘磊,结论:对报告的审核会消耗大量时间和人力,可继续优化,提出解决方案并确定最佳方案-细化方案的确定16测试方案测试过,细化方案二:基于综合告警平台的人工派单式维护,提出解决方案并确定最佳方案,-,细化方案的确定,1.,集中运行维护平台自动完成报文结果的审核,对异常项目生成智能巡检告警送至综合告警平台。,2.,由专门的监控人员分析综合告警平台上生成的维护作业计划告警信息。,3.,监控人员派发,EOMS,故障工单给相应区域的维护人员,维护人员根据故障工单来处理故障。,网元,集中运行维护平台,综合告警平台,0101010,0101010,维护人员,监控人员,故障,工单,告警信息,智能巡检告警,时间:,2011,年,5,月第,9-11,次小组会议讨论细化方案并进行试验,制图人:刘磊,17,细化方案二:基于综合告警平台的人工派单式维护提出解决方案并确,智能巡检告警,测试方案二,提出解决方案并确定最佳方案,-,细化方案的确定,测试
展开阅读全文