资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,总调通信处,2024年11月27日,南方电网通信大数据融合、挖掘与分析研究,项目,验收汇报材料,提纲,一、项目简介及研究历程,二、研究背景及路线,三、研究内容及成果,四、验证及示范情况,五、研究创新点,六、系统演示,3,项目简介及研究历程,4,经费使用说明,项目,批准预算数,实际发生数,结余数,备注,企业内部,外协单位,合计,一、研究开发费,110,1,、人工费,75,67.17,外委,6,、差旅费,5,5,7,、会议费,10,10,9,、出版印刷,/,文献,/,信息传播,/,知识产权事务费,5,4.48,外委,11,、劳务费,10,89.56,外委,12,、专家咨询费,5,5,二、资本性支出,40,1,、设备购置费,(,2,)软件购置费,40,31.89,合计,150,5,序号,招标要求,交付物名称,进展情况,结论,1,项目工作总结报告,南方电网通信大数据融合、挖掘与分析研究项目,-,工作总结报告,已完成,完成,2,技术研究综合报告,全网通信数据挖掘分析平台,-,技术研究综合报告,已完成,完成,2.1,全网通信数据挖掘分析平台规划部署建设方案、平台技术方案,全网通信数据挖掘分析平台规划部署建设方案、平台技术方案,已完成,完成,2.2,全网通信运行数据融合模型及融合专题方案,全网通信运行数据融合模型及融合专题方案,已完成,完成,2.3,全网通信运行数据库建设专题方案、数据接口服务总线专题方案,全网通信运行数据库建设专题方案、数据接口服务总线专题方案,已完成,完成,2.4,全网通信运行数据质量评价标准及实施细则,全网通信运行数据质量评价标准及实施细则,已完成,完成,研究成果列表(,1/2,),6,序号,招标要求,交付物名称,进展情况,结论,2.5,通信运行大数据清洗(预处理)、统计、挖掘、分析专题方案,通信运行大数据清洗(预处理)、统计、挖掘、分析专题方案,已完成,完成,2.6,通信数据融合及挖掘技术规范稿,通信数据融合及挖掘技术规范,已完成,完成,3,发表“,ISTP,收录的会议论文”或“期刊论文”至少,1,篇,基于大数据处理技术的电力通信网检修工作分析方法,2015,年,8,月,26,日获得电信科学(正刊)论文录用通知,2015,年,11,月刊出,完成,4,发明专利至少,1,项,一种基于大数据的电力通信设备性能分析方法及装置,2015,年,9,月已进入专利公开和实质性审查生效。,完成,5,通信数据挖掘分析试点示范系统,通信数据挖掘分析试点示范系统,已完成技术实验论证,完成,研究成果列表(,2/2,),提纲,一、项目简介及研究历程,二、研究背景及路线,三、研究内容及成果,四、验证及示范情况,五、研究创新点,六、系统演示,8,南方电网通信相关数据现状,网,省,地,通信相关财务、人力资源数据,通信,资源管理,数据,通信相关班组工单数据,通,信台账数据,通信,运行,监视,数据,通信运行维护数据,统,一通信网管、计费系统数据,公,网租用资源数据,其他通信相关,数据,通信相关财务、人力资源数据,通信,资源管理,数据,通信相关班组工单数据,通,信台账数据,通信,运行,监视,数据,通信运行维护数据,统,一通信网管、计费系统数据,公,网租用资源数据,其他通信相关,数据,通信相关财务、人力资源数据,通信,资源管理,数据,通信相关班组工单数据,通,信台账数据,通信,运行,监视,数据,通信运行维护数据,统,一通信网管、计费系统数据,公,网租用资源数据,其他通信相关,数据,9,Volume,总量大,当前存量数据达,100+,亿条、,5TB+,;年增长,1TB,以上。,Variety,类型多,数据涉及管理类、运行类,种类繁多,Velocity,要求处理速度快,要能满足快速响应的业务场景要求。,Value,隐含价值高,数据的价值密度低,但经过清洗、整合、提炼后,可形成高价值的信息。,南方电网通信数据特征及挖掘分析需求,10,数据挖掘面临的问题,亟待分析出数据价值,海量的,多类型的数据隐藏了,大量对通信运行和管理有用的信息,价值,,必须尽快研究出合理的收集、清洗、整合、挖掘,方案,,把,数据价值利用起来。,传统分析方法,无法满足需求,通信服务管理,资产全生命周期,管理,数据,体量大,数据,类型多,隐含,价值高,要求处理速度快,如:在小型机上,计算,9,千万条记录的表记录(约,20GB,)总数,约,45,秒,;,对,记录按照,年份进行分组,求和,耗时,165,秒。,如果再执行,更多维度的、复杂的关联分析挖掘操作,,耗时将成倍增长。,11,业界案例启示,大数据,业界案例,如:在小型机上,计算,9,千万条记录的表记录(约,20GB,)总数,约,45,秒,;,对,记录按照,年份进行分组,求和,耗时,165,秒。,如果再执行,更多维度的、复杂的关联分析挖掘操作,,耗时将成倍增长。,2015,天猫双,11,:订单创建,140,000,单,/,秒,支付笔数,85,900,笔,/,秒。,亚马逊,在全球,共拥有,28,个数据网络。每个,数据网络通常,配备,5,万至,8,万台服务器。据保守估计,亚马逊在全球范围拥有,150,万台服务器,。,传统数据管理与分析,大数据,管理及业务目标,12,通信数据该如何挖掘?,是否能直接照搬成功案例的产品,?,寻找适合通信,数据现状,的,符合管理和业务需要,的大数据技术路线。,需要研究并解决的问题:,研究数据接口服务总线建设,解决数据采集问题,研究通信运行数据库建设,解决大体量数据存储和管理问题,研究数据融合模型设计,解决数据类型多的问题,研究数据预处理、统计、挖掘、分析,解决数据清洗、融合、挖掘问题,研究平台总体技术方案,解决各模块间协同工作问题,研究通信数据挖掘分析平台规划部署建设,解决技术架构落地问题,研究数据质量评价标准及实施细则,解决数据重复、数据项缺失、错误等拉低数据质量的问题,13,理论研究,关键技术验证,形成示范,项目研究思路,理论研究,结合,通信数据管理实际情况,,,对技术架构及关键技术进行了理论研究,形成了技术总报告和,6,个子报告,。,关键技术验证,根据理论研究成果,,搭建,验证平台,,,对,架构以及数据库建设、数据接口服务总线、数据预处理、数据挖掘,等关键技术,从,实践,层面,进行了,验证,,验证结果可行,。,建设示范系统,将验证可行的技术架构和关键技术作为示范系统建设的技术要求,经招标采购,选定了永洪大数据计算平台的示范系统。,(,由于,所选技术架构中各组件均为开源产品,版本,更新,快,且不一定向下兼容,自主或委托合作团队去跟踪开源产品更新的技术力量不足,系统一旦建成后改造困难,难以延续生命力。因此完全使用开源架构不适合当前的开发模式,,有,必要选择一套符合理论研究体系框架技术要求的商业化产品,由该产品适配技术框架中各组件版本升级,从而保持应用系统功能,稳定性。,),提纲,一、项目简介及研究历程,二、研究背景及路线,三、研究内容及成果,四、验证及示范情况,五、研究创新点,六、系统演示,平台架构组成,(,研究平台总体技术方案、,研究,通信数据挖掘分析平台规划部署,建设,),15,数据挖掘一般流程,数据收集,(,研究数据接口服务总线建设,),数据存储与管理,(,研究,通信运行数据库建设、研究数据融合,模型设计,),数据预处理,(,研究数据预处理,),数据发布,数据质量评估,(,研究,数据质量评价标准及实施,细则,),数据分析,(,研究,数据统计,、挖掘、分析,),16,通信相关财务、人力资源数据,通信,资源管理,数据,通信相关班组工单数据,通信台账数据,通信,综合,监视,数据,通信,运行,控制,数据,统一通信网管、计费系统数据,公网租用资源数据,其他通信相关,数据,数据接口服务总线,数据预处理功能域,数据预处理规则配置,数据预处理过程管理,数据预处理异常管控,数据存储,数据融合,各指标分布规律,各指标发展趋势,设备健康档案,设备履历表,业务履历表,规模类指标,缺陷,类指标,故障,类指标,告警,类指标,设备性能,指标,风险,类指标,利用率,类指标,成本,类指标,设备质量,指标,效益类指标,数据质量管理功能域,数据质量评估规则配置,数据质量评估过程管理,数据质量评估,结果分析,数据挖掘层,数据管理层,数据加工层,采集,层,源,数据层,数据展现层,各指标结果展示,数据关联性展现,南网通信数据挖掘平台功能架构,平台架构组成,(,研究平台总体技术方案、,研究,通信数据挖掘分析平台规划部署,建设,),17,平台总体技术架构,数据收集,(,研究数据接口服务总线建设,),数据存储与管理,(,研究,通信运行数据库建设、研究数据融合,模型设计,),数据预处理,(,研究数据预处理,),数据发布,数据质量评估,(,研究,数据质量评价标准及实施,细则,),数据分析,(,研究,数据统计,、挖掘、分析,),平台架构组成,(,研究平台总体技术方案、研究通信数据挖掘分析平台规划部署建设,),18,平台总体技术架构,成果,形成了,全,网通信数据挖掘分析平台规划部署建设方案、平台技术,方案,业务系统,1,业务系统,2,业务系统,n,19,平台部署模式,为利于,通信,数据融合与分析,采用,全网集中部署模式,适合通信数据的管理现状和业务需求。,20,数量,配置项,单台配置,备注,=5,台,PC,服务器,(,或同配置虚拟机,),CPU,2.40GHz,,,8core,内存,=16GB,硬盘,=3* 600GB 15K RPM SAS 6Gbps,网卡,2*1 Gb,服务器硬件配置建议,21,数据接口服务总线,平台架构组成,(,研究平台总体技术方案、,研究,通信数据挖掘分析平台规划部署,建设,),数据收集,(,研究数据接口服务总线建设,),数据存储与管理,(,研究,通信运行数据库建设、研究数据融合,模型设计,),数据预处理,(,研究数据预处理,),数据发布,数据质量评估,(,研究,数据质量评价标准及实施,细则,),数据分析,(,研究,数据统计,、挖掘、分析,),22,数据接口服务总线,目的,处理高并发量的,多种消息内容的各业务系统消息数据,。,成果,形成了,全网通信运行数据库建设专题方案、数据接口服务总线专题方案,报告。,23,数据接口服务总线,消息,头,消息数据,地区标识,认证,token,模块名称,消息分类,初始化、增量、稽核,事件编号,数据,1,记录头,属性数据,操作类型(增、删、改,、取消删除,),时间戳,对象类型,对象标识,属性名称,属性值,属性名称,属性值,数据,2,记录头,属性数据,操作类型(增、删、改,、取消删除,),时间戳,对象类型,对象标识,属性名称,属性值,属性名称,属性值,外部系统把要推送的数据按,JSON,格式封装,推送,到,数据,服务,总线接口。总线根据以上消息封装格式,解析出来自不同系统、不同对象和操作的具体数据。,24,数据预处理,平台架构组成,(,研究平台总体技术方案、,研究,通信数据挖掘分析平台规划部署,建设,),数据收集,(,研究数据接口服务总线建设,),数据存储与管理,(,研究,通信运行数据库建设、研究数据融合,模型设计,),数据预处理,(,研究数据预处理,),数据发布,数据质量评估,(,研究,数据质量评价标准及实施,细则,),数据分析,(,研究,数据统计,、挖掘、分析,),25,目的,收敛南方电网各级、各系统中与通信相关,数据,,按照预处理规则进行数据清洗,以强化数据之间的关联特性、尽可能减少冗余数据、尽量避免干扰数据,提升运营,数据质量,。,数据预处理,成果,实现了数据抽取、清洗、去重,通过数据预处理可提升数据质量。,形成了,通信,运行大数据清洗(预处理)、统计、挖掘、分析专题方案,报告。,26,数据存储与管理,平台架构组成,(,研究平台总体技术方案、,研究,通信数据挖掘分析平台规划部署,建设,),数据收集,(,研究数据接口服务总线建设,),数据存储与管理,(,研究,通信运行数据库建设、研究数据融合,模型设计,),数据预处理,(,研究数据预处理,),数据发布,数据质量评估,(,研究,数据质量评价标准及实施,细则,),数据分析,(,研究,数据统计,、挖掘、分析,),27,融合,模型建模过程,数据融合,处理数据,目的,抽象,全网各项通信数据创建融合模型,,消除系统间数据差异化,增加数据关联性,为全网数据融合分析提供数据支撑。,成果,已形成,全,网通信运行数据融合模型及融合专题方案,报告。,28,数据库指标要求,易扩展性,无扩展瓶颈,易于增加服务器,提供线性扩展支撑。,高可用性,通过硬件冗余或者多个数据中心提供持续可用性,。,大数据量快速处理,在,TB,级数据量下,非常高的读写性能,要求有,IO,优势。,多样化数据类型支持,灵活的数据模型(支持结构或者半结构化数据) 可以灵活的使用键值、文档、图类或者多项组合。,根据挖掘分析平台部署要求、融合模型数据特点,考虑未来平台对数据类型的扩展性,要求数据库具备以下特征:,29,数据库,选型,结论,基于,以上比较,融合数据库方案,选用,NOSQL,数据库,。,比较项,关系数据库,NOSQL,代表产品,Oracle 11g,DB2,INFOMIX,Cassandra2.1,Dynamo,Redis,高可用性,一般复制,Oracle,Dataguard(,Orace RAC(,需要,昂贵的附加组件,支持,通过硬件冗余或者多个数据中心提供持续可用性,可扩展性,通过增加,Oracle RAC,通过增加节点提供现行性能增长,多数据中,心,没有明确的多数据中心,多数据中心,任何地方都可以进行读写操作,数据量分析支持企业搜索支持,TB,通过通过,Oracle search,TB-PB,通过,Solr,集成,数据模型,关系,二维表,类似,Google Bigtable,,宽列存储,数据模型灵活度,不灵活,结构化数据,灵活,结构或者半结构化数据,数据压缩,多种方式,在建立时,数据多样化支持,主要是结构化,结构化半结构化非结构化,30,数据分析,平台架构组成,(,研究平台总体技术方案、,研究,通信数据挖掘分析平台规划部署,建设,),数据收集,(,研究数据接口服务总线建设,),数据存储与管理,(,研究,通信运行数据库建设、研究数据融合,模型设计,),数据预处理,(,研究数据预处理,),数据发布,数据质量评估,(,研究,数据质量评价标准及实施,细则,),数据分析,(,研究,数据统计,、挖掘、分析,),31,数据分析,目的,对清洗、融合后的数据进行并行式数据处理,为上层业务应用提供结果数据。,成果,已建立,了,25,个自动指标的计算模型以及,6,个支撑域中的,39,个指标,模型,,形成了,通信,运行大数据清洗(预处理)、统计、挖掘、分析专题方案,报告。,32,数据发布,平台架构组成,(,研究平台总体技术方案、,研究,通信数据挖掘分析平台规划部署,建设,),数据收集,(,研究数据接口服务总线建设,),数据存储与管理,(,研究,通信运行数据库建设、研究数据融合,模型设计,),数据预处理,(,研究数据预处理,),数据发布,数据质量评估,(,研究,数据质量评价标准及实施,细则,),数据分析,(,研究,数据统计,、挖掘、分析,),目的,提供友好人机交互界面,展示数据挖掘分析结果,对系统各项配置项进行管理。,技术,选型,33,Angular.js,Ember.js,启动速度,启动时遍历整个,DOM,,应用程序越大启动越慢,支持大量延迟加载,不需要遍历,DOM,,启动速度快,开发难度,与,jQuery,等传统,Javascript,框架兼容性较差,开发人员需全盘采用,AngularJS,及相关扩展插件,学习曲线大,不易上手,自行扩展功能难度大。,依赖于,jQuery,和,Handlebars,,依托成熟的,jQuery,社群,有丰富的插件资源。开发人员学习曲线较小,上手难度低。,单一页面绑定属性限制,Angular.js,依靠一种叫做“ 脏检查(,dirty checking,)”的机制来确定对象是否已进行更改。无法一次有超过,2000,个绑定对象。这极大的制约了,Angular.js,在大型应用中的使用场景,Ember.js,允许非常容易地使用,JavaScript,来创建可计算属性,它可以包含任意表达式。必担心代码中是否有超过,2000,个绑定。,优化调试难度,Angular.js,发明了自己的带有 自定义解析器的,JavaScript,子集,这对于浏览器来说,优化代码变得比较困难。,Ember.js,只允许你绑定属性,我们将可以很容易地利用,ECMAScript 6,的性能优势,如,Object.observes,。,结论,选择性,能更好的,Ember.js,符合在大数据的使用场景。,前端展示技术选型,34,数据质量评估,平台架构组成,(,研究平台总体技术方案、,研究,通信数据挖掘分析平台规划部署,建设,),数据收集,(,研究数据接口服务总线建设,),数据存储与管理,(,研究,通信运行数据库建设、研究数据融合,模型设计,),数据预处理,(,研究数据预处理,),数据发布,数据质量评估,(,研究,数据质量评价标准及实施,细则,),数据分析,(,研究,数据统计,、挖掘、分析,),目的,对在库的原始数据、融合数据以及挖掘结果的各类关键属性进行评价,以衡量当前数据质量情况,35,数据质量评估,评价准备,评价过程,评价结果,评价开始,评价结果反馈,录入各类对象的完整性、准确性评价要求、评分细则。,准备环节,执行,环节,反馈环节,选择待评估单位、评估数据范围。,根据评价规则自动完成各类对象的数据质量评价。,根据评分规则自动计算出评价结果。,将问题数据反馈给数据维护单位,修改后数据参与下次评估。,评估,方法,按南方电网通信大数据结构从下至上逐级评价,即分为对象评价、分类评价、总体评价,每级评价分为完整性和准确性两个维度进行单独评价。,评估模型,根据南方电网全网通信大数据结构及管理特点,构建了自下而上的,,分级评价的,全网通信数据质量评估模型。,成果,形成了一整套数据完整性、准确性的评估模型和评估方法。,形成了,全,网通信运行数据质量评价标准及实施细则,报告。,36,序号,成果,描述,1,融合模型研究,建立,123,个数据模型共计,1600,条属性。,2,数据库研究,选定所采用数据库为非关系型,数据库,3,数据服务总线,选定所采用数据服务,总线技术,4,数据预处理研究,研究得出了数据预处理方法、规则。,5,数据分析处理,建立了,25,个自动指标的计算模型以及,6,个支撑域中的,39,个指标模型,6,数据应用和发布,选定所采用的技术,框架,7,数据质量评估方法研究,对,51,个数据模型形成了,830,条评估规则,研究内容小结,37,发明专利一项,专利内容:,本,发明公开了一种基于大数据的电力通信设备性能分析方法,包括:获取电力通信设备的设备性能数据并进行预处理;对预处理后的设备性能数据进行分组,得到设备性能分组数据;根据电力通信设备的设备性能数据时间分布特征建立分类特征库;比对设备性能分组数据和分类特征库中的设备性能数据,得到所述电力通信设备的设备性能状态。与现有技术相比,本发明的技术方案分析效率高,且有有效的数据支撑。,专利,名称:,一种基于大数据的电力通信设备性能分析方法及装置,38,期刊论文一篇,论文摘要:,为,支撑电力通信网的可靠运行和有效管理需求,运用大数据技术依据电力通信网络设备的检修、告警及台账数据来分析电力通信网的检修工作状况。首先分析电力通信网设备检修、告警及台账数据的特点,并采用属性规约和聚类完成对数据的预处理工作。之后提出了设备检修工作分析所需的相关指标及影响因素,并结合,MapReduce,技术和,Apriori,算法提出了数据挖掘的方法,最后运用该方法对实际的网络数据进行了挖掘,并根据挖掘结果从检修工作分布情况、检修对业务的影响、检修耗时等角度来分析通信网的检修工作情况。,论文,名称:,基于大数据处理技术的电力通信网检修工作分析方法,电信科学,期刊论文,提纲,一、项目简介及研究历程,二、研究背景及路线,三、研究内容及成果,四、验证及示范情况,五、研究创新点,六、系统演示,40,验证平台技术架构,业务系统,1,业务系统,2,业务系统,n,41,验证平台部署架构及硬件配置,主机数量,单台主机,CPU,核数,单台主机内存,单台主机磁盘,备注,5,台,3,8G,250G,虚拟机,42,验证平台界面展示,根据理论研究成果,,搭建,验证平台,,,通过开发光路衰减扫描功能,对,架构以及数据库建设、数据接口服务总线、数据预处理、数据挖掘等关键技术,从实践层面,进行了,验证,。证明了理论研究成果的可行性。,43,光路衰减扫描,正常,渐变,跳变,输出结果示意图,数据处理流程图,44,光路衰减扫描,45,示范系统技术架构,46,示范系统特点,开放性,灵活的自助服务,用户可自定义分析功能,可视化,利用图表表达数据处理结果,界面布局可视化配置,高性能,列存储和内存计算技术确保处理秒级响应速度,可进行分布式扩展,线性提高整体处理性能,47,示范系统界面,示范系统是一套开放性,的数据分析和展示平台,在定义了数据集之间的关系后,用户可自行通过可视化的图形拖拽方式,快速搭建出需要的统计分析功能,用户参与度高,减少了沟通和开发成本,极大地提升了工作效率。另外,平台所采用的大数据技术架构,也保证了结果快速展示,。,提纲,一、项目简介及研究历程,二、研究背景及路线,三、研究内容及成果,四、验证及示范情况,五、研究创新点,六、系统演示,49,建立融合模型和融合方法,通信,资源管理,数据,通信,运行,监视,数据,通信运行维护数据,网,通信,资源管理,数据,通信,运行,监视,数据,通信运行维护数据,省,通信,资源管理,数据,通信,运行,监视,数据,通信运行维护数据,地,数据接口服务总线,融合模型,50,基于规则的数据质量评估方法,评估方法,按,南方电网通信大数据结构从下至上逐级评价,即分为对象评价、分类评价、总体评价,每级评价分为完整性和准确性两个维度进行单独评价。,数据的完整性评价,评价各对象类型数据的关键属性或信息是否完整。所进行评价的关键属性或信息不为空,则视为完整;所进行评价的关键属性或信息为空,则视为不完整,。,数据的准确性评价,评价,各对象类型数据的关键属性或信息是符合规定制值,包括值符合规定的枚举值、规定的字符长度、规定的字符串类型、规定的取值,范围,。,51,基于融合数据的网络风险预测预警,单体分析,:,在收集长期的光路衰耗数据后,根据光路衰耗的变化趋势,,综合得出光路衰减,平稳、渐变、突变等结论,结合检修、故障处理等情况,综合分析得出光路运行的发展趋势预测,提前做到风险防范。,同类分析,:再结合光缆厂家、型号、投产时间等数据,可以对分布在全网的同类光缆给出风险预警。,效果,:,通过大数据分析得出趋势预测,变被动抢修为主动运维,提升了通信运维管理水平,。,提纲,一、项目简介及研究历程,二、研究背景及路线,三、研究内容及成果,四、验证及示范情况,五、研究创新点,六、系统演示,南方电网通信大数据融合、挖掘与分析研究,项目组,谢 谢!,
展开阅读全文