资源描述
第一级内容文本样式:黑体,/20,号,Arial/20pt,第二级内容文本样式:华文细黑,/18,号,Arial/18pt,第三级内容文本样式:华文细黑,/16,号,Arial/16pt,第四级内容文本样式:华文细黑,/14,号,Arial/14pt,第五级内容文本样式:华文细黑,/12,号,Arial/12pt,第,页,中国移动通信集团设计院有限公司,标题文本样式:黑体,/26,号,Arial/26pt,-,-,第,页,大数据平台架构及建设思路,大数据平台架构及建设思路,三,、中国移动大数据平台建设思路,二,、主流技术比较,一,、大数据介绍,目录,三、中国移动大数据平台建设思路二、主流技术比较一、大数据介绍,什么是大数据,“大数据”是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。目前,大数据的一般范围是从几个,TB,到数个,PB,。,麦肯锡,无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集合。,维基百科,数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理。,美国国家标准技术研究院(,NIST),体量大、快速和多样化的信息资产,需用高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力。,Gartner,公司,什么是大数据“大数据”是指其大小超出了典型数据库软件的采集、,运营商对大数据的理解,网络数据、用户数据、应用数据的汇聚构成了我们的“大数据”。这些结构化、非结构化的数据的处理和建模形成对用户、服务、资源、终端等对象的洞察。这些洞察与市场营销、网络运维等业务流程的衔接将会给公司带来新的价值。,大数据具备,Volume,海量、,Variety,多样、,Velocity,快速、,Value,价值的特点。据,Ericsson,预测,到,2018,年,每个手机终端每个月将产生,2G,的数据。(,Ericsson Mobility Report,,,2013,年),改善市场运营效率,结构化数据处理,非结构化数据处理,网络数据,话单,XDR,性能监测,故障监测,网络资源,用户数据,HSS,信息,BSS,数据,OSS,数据,终端,应用数据,内容,DPI,Web,Social media,APPS,洞察:用户,/,服务,/,资源,/,终端,/.,提升网络运维效率,改善客户满意度,创新商业模式,数据采集,建模分析,运营改进,传统商业智能,大数据,1,大数据,2,批处理,事先定义的查询和模型,非结构化的数据,,包括互联网日志、,web,文本信息,非实时或准实时,流处理,实时的内容智能感知,策略执行,连续更新,价值,实时性,采集、建模和应用,数据处理实时性与价值呈正比,运营商对大数据的理解 网络数据、用户数据、应用数据,中国移动数据分布,B,域,B,域数据以客户关系、用户行为、产品信息等为主,支撑客户经营和产品营销等,O,域,O,域数据以设备数据、告警信息和性能信息等为主,支撑网络监控、网络优化、用户投诉处理等,M,域,M,域数据以财务、人力资源、供应链和办公信息等为主,支撑企业管理、企业办公信息化等,DPI,数据域,DPI,数据域以上网日志、内容构成、用户轨迹、网络信令等为主,可支撑流量经营、网络运维和增值服务等,业务平台,九大业务基地:基地数据以用户信息、用户行为信息等为主,可支撑个性化推荐、优化产品和服务等。,WAP/,短彩信:存储网络日志,可支撑定位网络及终端问题。,中国移动数据分布B域B域数据以客户关系、用户行为、产品信息等,运营商大数据运用,对内:,客户上网数据处理、网页爬取和网页分类、分析挖掘客户上网行为,详单查询、上网日志查询,流量分析、客户视图、精准营销,网络运维优化,对外:,与航空公司合作,建立乘机客户识别模型,提供大数据挖掘、客户发展全流程大数据信息服务,提供针对性的营销方案,与交通运输部、省高速公路合作,开展“基于移动大数据分析在交通行业中的应用”研究项目,利用通信信令实时分析景区人流量,结合游客的行为数据挖掘,为旅游管理部门、景区提供数据的决策参考,以客户授权为依据,发挥移动客户实名数据优势,为互联网金融提供客户信息验真服务,与外部客户合作在手机冲浪平台实施移动广告精准投放,目前主要的电信运营商都已积极探索开发其内部大数据资源。但从目前的应用发展看,电信运营商的大数据仍主要用于内部服务的,如支持内部的客户流失分析、营销分析和网络优化分析等,对外的应用模式尚未成型,部分电信运营商开始尝试通过给第三方提供数据产品和服务,进行数据的增值。,运营商大数据运用对内:目前主要的电信运营商都已积极探索开发其,三,、中国移动大数据平台建设思路,二,、主流技术比较,一,、大数据介绍,目录,三、中国移动大数据平台建设思路二、主流技术比较一、大数据介绍,大数据具备数据量大、数据类型多、数据处理速度要求高和价值密度低的特点,传统分析系统架构(,RDBMS+,小型机,+,高端阵列模式)下,传统数据库无法支撑海量数据(如,100TB,以上,性能下降)、非结构化数据,现有,IOE,的架构无法线性扩展且成本高昂。,大数据处理技术,大数据对传统数据处理技术体系提出挑战,大数据处理技术,OldSQL,:传统关系型数据库,NewSQL,:新型,MPP,数据库,关系型数据库,NoSQL,:泛指非关系型的数据库,Hadoop,:对大量数据进行分布式存储和处理的软件框架,大数据具备数据量大、数据类型多、数据处理速度要求高和价值密度,大数据三大技术比较,面对海量种类繁多的数据进行实时数据分析和离线数据分析,,仅有传统,的数据库技术已不适用,,需要针对不同数据场景选择不同技术手段。,MPP,数据库:适合结构化数据的深度分析、复杂查询以及多变的自助分析类应用、数据集市等。,Hadoop,:适合海量数据存储查询,(,详单存储和查询,),、批量数据,ETL,、非结构化数据分析,(,日志分析、文本分析,),等。,传统数据库:在复杂关联、汇总、事务处理方面能力强,适合数据量小、高可靠、数据价值密度高的应用。,大数据三大技术比较面对海量种类繁多的数据进行实时数据分析和离,中国移动大数据目标架构,数据,处理,层(数据存储、数据计算、数据共享),基础数据资源池(,HADOOP,),Map/Reduce2,HIVE,Hbase,HDFS,分析数据资源池(,MPP,),分布式关系数据仓库,SPARK,Shark,YARN,统一调度,流处理资源池,分布式,内存数据库,实时行为识别,复杂事件处理,框架,实时模型计算,任务,调度,资源管理,统一,作业,数据管理,元数据管理,数据质量管理,经,分数据模型计算,网络,数据模型计算,管理分析模型计算,数据调度,Hadoop,平台软件部署,于,Hadoop,大数据处理集群,实现海量非结构化数据存储与处理,以及结构化数据的垂直汇总。,在当前数据种类繁多、数据处理复杂的情形下,不适合采用一种的单一的技术解决全部问题,大数据平台据需要采用,Hadoop,资源池、,MPP,数据库、流处理资源池混搭大数据技术架构,数据平台基于,MPP,、,Hadoop,、流处理等云计算、大数据技术,流数据与复杂事件处理(,CEP,)规则引擎平台用于对数据流进行实时处理,实现对高速数据流的接入与实时处理,实时探测关键事件,MPP,数据库用于结构化数据的关联分析。,一体机资源池,(DW),OLAP,应用,DW,数据库用于分析处理统计分析类,OLAP,应用,中国移动大数据目标架构数据处理层(数据存储、数据计算、数据共,三,、中国移动大数据平台建设思路,二,、主流技术比较,一,、大数据介绍,目录,三、中国移动大数据平台建设思路二、主流技术比较一、大数据介绍,建设思路,由易到难,稳步推进:,初期以数据整合为主,逐步面向内外提供数据服务。,管控架构,同步推进:,同步推动数据标准化和组织机构变革,为大数据共享平台商用奠定基础。,自主掌控,能力内化:,逐步培养自研团队,构建研发运营一体化能力。,建设思路由易到难,稳步推进:初期以数据整合为主,逐步面向内外,中国移动大数据平台架构,企业级省大数据平台的技术架构包括数据采集、数据存储与计算层、开发框架和应用中心四层,同时包括统一运维管理为各类使用人员提供服务。在大数据技术架构中数据的存储和计算是紧密相连的。,中国移动大数据平台架构企业级省大数据平台的技术架构包括数据采,建设重点,1,与其他分析型平台关系,大数据共享平台:,全网,XDR,数据采集、标准化、全量存储(,1,个月),全网网管数据采集、标准化、全量存储,大数据共享平台实现负责,xDR,数据和网管数据的统一集中采集和预处理;提供上层应用对,xDR,细粒度数据的查询响应。,按应用需求进行多维度小粒度汇总、数据整合、存储,提供明细数据查询、轻度汇总数据查询。,性能管理系统:,从大数据共享平台获取应用所需全量小时汇总数据。,数据缓存层:负责对来自于大数据共享平台的数据进行深入处理和缓存;为应用层提供各种汇总数据存储、处理与共享,以及综合分析与深度挖掘。,应用层:承载上层各类应用软件和第三方应用,实现上层应用。,建设重点1与其他分析型平台关系大数据共享平台:,第,14,页,2G,3G,4,G,WLAN,Network,Data,acquisition,Data,parsing,Data,storage,Application,E1,Interface,Signaling,Parsing,DPI,Processing,Traffic,Identify,CDR,Fusion,ATM,Interface,FE/GE,Interface,Data storage and data service for each application system,Performance,Analysis,Behavior,Analysis,Data,Operation,Industry,Application,第 14 页2G3G4GWLANNetworkData ac,建设重点,2,制定数据治理规则,规范约束,构建基础,提升改进,数据评估,数据盘点,数据治理,制定安全流程,系统间数据流,数据统一视图,数据字典,数据标准评估,数据安全评估,统一数据标准,数据实体,典型问题分析与,改进建议,强化治理组织,完善数据质量,数据质量评估,数据治理方法,数据采集,规则,按照规则从数据源直接采集,避免重复采集数据。,对于现有系统已采集的数据,发掘沉默数据的剩余价值。,对于现有系统未采集的数据,增加采集点并发掘数据价值。,采集后的数据存储,遵照各域属地化存储原则,各域的数据仓库是公共仓库,全公司共享使用。,数据应用,规则,按照规则进行数据统一清洗,清洗后根据不同专业应用需求,进行数据分发和权限控制,。,对于数据缺失不能满足应用需求的,要么修改数据清洗规则,要么重新采集数据。,从各域共享数据和标签组合中,探索大数据对内对外的应用场景和未知价值。,建设重点2制定数据治理规则规范约束构建基础提升改进,建设重点,3HADOOP,服务器测算模型,模型搭建:根据,HDFS,存储容量能力计算,主要分为两个方面:,一是某一体量的数据在采用不同的数据处理技术时,它所需要的物理存储容量、即磁盘裸容量的理论计算;,二是针对配置一定情况下,,X86,服务器在承载不同的数据处理技术实体时,该,X86,服务器能够提供的有效存储容量。,最终得出某一体量的数据在采用不同的数据处理技术时所需要配置的,X86,服务器数量,=,物理存储容量,X86,服务器能够提供的有效存储容量。,HDFS,存储能力需求计算模型,序号,参数名称,取值范围,取定值(,TB,),1,原始存储数据量,TB,100,2,副本数,3,3,3,索引率,20%,30%,30%,4,数据压缩率,1/2/3/4/5,3,物理存储总容量,=1*2*(1+3)/4,130,序号,参数名称,取值范围,取定值(,TB,),1,单碟物理容量,1TB4TB,4,2
展开阅读全文