大数据平台规划方案课件

上传人:494895****12427 文档编号:252653788 上传时间:2024-11-19 格式:PPTX 页数:24 大小:1.81MB
返回 下载 相关 举报
大数据平台规划方案课件_第1页
第1页 / 共24页
大数据平台规划方案课件_第2页
第2页 / 共24页
大数据平台规划方案课件_第3页
第3页 / 共24页
点击查看更多>>
资源描述
单击此处编辑母版文本样式,的,的,单击此处编辑母版标题样式,#,-,#,-,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,#,大数据平台规划方案汇报,大数据平台规划方案汇报,目 录,二、大数据平台整体规划,一、大数据应用发展趋势,目 录二、大数据平台整体规划一、大数据应用发展趋势,大数据,所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。,大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息。,从大量数据中挖掘高价值知识是各界对于大数据的一个共识。,海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。,Google,首席经济学家,Hal Varian,大数据主要被用于分析和决策,,企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,,对企业产生新的价值。,大数据所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过,大数据对电信运营商的应用价值体现,3,1,5,4,2,自助分析、生产管道,可视化、资源解耦随,需而动,营销实时,,以业务效率提升为标志。,提升业务效率,数据集中到数据中心,,多数据源管理,透,明服务支持,实时的,决策和预测能力提升,整体经营管理水平。,增强管理水平,数据开放服务、与,OTT,厂商合作的后向收费、,广告等新业务,.,创新商业模式,互联网化的电子渠道,全景体验、个性化商,品推荐、,LBS,位置营,销、面向客户个体的,深度洞察,提升客户体验,以技术驱动为标志,内,存计算、,MPP,、,CEP,分而治之的分布式计算,让运营商实时高效决策,.,技术高效、低成本,大数据对电信运营商的应用价值体现31542自助分析、生产管道,数据平台现状,精细化营销数据中心,营账系统,经分,(BI),GN,口上网话单,终端,(DM),VAC,短彩信中心,语音通话详单,客服接触记录,流媒体平台详单,位置信令话单,基站信息,116114,企业黄页信息,渠道应用助销信息,经过一二期的建设,精细化运营平台的数据中心,已经成为,最大、内容最丰富,的数据仓库;,随着,数据量的增长,,需要对基础架构做长远规划;,有必要深入,挖掘数据价值,,研究新的商业模式,将成本中心转化为利润中心,数据平台现状精细化营销数据中心营账系统经分(BI)GN口上网,5,扩展性,增量式的、几乎无限的扩展,可用性,要求系统总是在线运行,灵活性,灵活可动态改变的数据模型,扩展性,纵向扩展,横向扩展,分布式,资源集中,计算和存储分布,可用性,单份数据,数据复制,一致性,不要使用分布式事务处理,大数据处理的需求和特点,5扩展性增量式的、几乎无限的扩展可用性要求系统总是在线运行灵,低成本运营,一体化运营,精细化运营,全网运营,实时、智能化运营,集中化建设、管理和维护,可不断线性扩展,提高资源综合利用率,标准化功能组件,可共享可复用,按业务量、按需支付,BASS,与,BOSS,、,CRM,的一体化,BSS,与,MSS,、,OSS,、,VAS,等跨域一体化,对外部客户和应用的一体化,片区化、网格化管理,长尾市场、小众市场的支撑,个性化、短周期需求的满足,异地客户、家庭客户、集团客户,一点接入、全网服务、全网客户画像,全国统一套餐、全网营销、 统一客服,实时数据获取、处理、分析,智能化主动事件触发,智能管道,移动互联网,业务运营发展趋势,对业务支撑平台的集中化要求,对数据架构的,集中化,要求,集中化、大容量、高扩展、高可用数据库平台:支持全网型数据、跨域数据的整合,形成集中化管理的的企业级数据中心,高,性能:,支持,3G,时代更高的实时性要求、支持,动态资源共享:支持多租户管理、资源动态按需供应,可重用、标准化组件:形成可重用组件,支持一次开发、各省共享的模式,形成规模型效益,数据集中化趋势使得运营商面临着海量数据的存储及分析问题,大数据在支撑移动业务发展趋势中,充当重要角色。,电信运营商数据集中化趋势,低成本运营一体化运营精细化运营全网运营实时、智能化运营集中化,7,电信运营,面临的大数据挑战,移动互联网和个人消费领域业务扩展和,CEM,导致海量数据的及时分析带来挑战,运营商一体化集中运营和透明管控,催生巨大的经营分析数据仓库,对大数据的存储、性能、开放带来挑战,DPI,和信令监测,产生的大量事件在存储和用户通信行为分析的实时处理性能带来挑战,ICT,融合,核心网络、运营支撑和,VAS,业务数据的融合催生海量,User Profile,并集,对大数据的关联分析计算效能带来挑战,移动互联网流量井喷与客户行为分析,业务融合、能力互通带来数据融合,提升客户体验要求分析网络服务数据,IT,系统集中化和行业数据价值挖掘,BSS BI,数据:,河南,17,个地市,每天抽取正常用户数,7000,多万,拨备用户数,3000,多万,,DW,层用户表总量,1,亿多条,;语音清单每天,2.7,亿条数据,,,GPRS,清单,每天,4.2,亿条数据,;账务每天,4.7,亿条数据,;,GPRS,文件每个,100M,左右,其它文件,25M,。,日接口数据量:,2000G,,其中话单,220G,,,WAP,清单,300G,,,工单服务,200G,,,用户、帐务,300G,,其它,980G,。,每月,124TB,数据量入库,历史数据保留,1,年,总数据量,1.45PB,。,按照用户数简单测算, 6.5,亿用户下,总数据量, 10PB!,总部,3G,互联网访问记录查询及分析系统:,全国每日新增,10TB,数据,,每月近万亿条,记录,要,存放,6,个月,,约,2PB,的上网记录数据。上网记录入库时间小于,30,分钟, 原始上网记录保留,6,个月。上网,查询速度不高于,1,秒,并发查询数,1000,请求,/,秒,。,集群规模,188,个数据节点,存储容量,2.6 PB,7电信运营面临的大数据挑战移动互联网和个人消费领域业务扩展和,传统数据仓库无法有效存储日益增长的业务数据存储需求,基础数据,(,用户资料,产品订购信息):,15G/,日*,365+40G *12,月,= 5T/,年,考虑,20%,的业务增长率后为:,6T/,年,用户上网数据,话单数据:,250T/,年,考虑,20%,的业务增长率后为:,300T/,年,MR,数据,话单数据:,634G/,日,634G/,日*,365,= 227T/,年,考虑,20%,的业务增长率后为:,272T/,年,BSS,数据,新增,新增,评估中,日使用流量,(,TB,),6,月,10,月,随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力; 数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等,传统数据仓库只保存处理后的汇总数据。在大数据架构下需要对用户原始话单进行长期保存。需要扩容大量存储空间。,大数据使得现有的数据处理方法面临新问题,用户层,现平台的数据保存周期,大数据的数据保存周期,应用层,KR/CB/DM,层,永久保留,至少,2,年,数据存储层,MK,层,永久保留,至少,2,年,DW,层,5,个月,永久保留,数据获取层,ODS,层,37,天,永久保留,面对海量的数据压力,需要大数据平台提供可供线性扩容的存储能力。,传统数据仓库无法有效存储日益增长的业务数据存储需求基础数据用,每个应用需求的变化就是一场灾难。由于数据处理与业务的紧密关联可能需要对中间每个处理环节进行逐个调整。重新生成数据的周期也非常缓慢。,由于传统数据仓库的数据处理流程与业务保持紧密关联。整个数据加工流程为最终应用服务。为缓解存储压力在数据抽取和清洗阶段会过滤掉与业务无关的数据记录和字段。,大数据使得现有的数据处理方法面临新问题,数据源,明细数据层,(,DW,),汇总层(,MK,),报表数据,标签库,指标数据,客户统一视图,应用层,DW&MK,操作型数据,ODS,层,Oracle,数据库,精细化营销架构,短信中心,经分,DM,VAC,GN,话单,流媒体,客服系统,计费中心,MC,话单,彩信中心,MR,数据,BSS,用户互联网联系方式(总部研究院),2,4,1,2,3,4,现网数据平台是传统关系型数据库架构。大量的用户上网、用户行为等半结构化和非结构化数据无法保存和处理,缺乏非结构化数据的处理能力。用户上网行为等互联网行为数据以结构化数据方式保存至数据仓库中。,传统数据仓库无法有效应对大数据分析需求,1,现网每日用户上网,HTTP,话单达,14,亿条。每月汇总的记录条数也近,30,亿条。随着移动互联网正在迅猛增长,传统数据仓库将很难驾驭,无法满足数据处理时限和事务处理需求。,3,面对海量的数据压力,需要大数据平台提供快速的处理能力。,每个应用需求的变化就是一场灾难。由于数据处理与业务的紧密关联,大数据使得现有的数据处理方法面临新问题,传统数据仓库组网将是大数据分析的瓶颈,现网精细化营销平台的数据库既存放着所有采集的原始数据,又承担所有的数据加工任务,还承载所有报表和业务应用的数据存储和计算。缺乏对数据分层分级及生命周期的有效管理。,系统核心架构为,Oracle,数据库,+,小型机,+,磁阵。数据存放在磁阵上,计算时由数据库服务器从磁阵读到本地后进行计算结果。随着数据量增长,磁盘,I/O,、网络带宽、数据库服务器的处理能力将存在瓶颈,处理时延严重。由于传统架构的可扩展性差,无法满足大数据的计算的扩容需求。,为应对海量数据处理需求,大数据将从集中数据库向分布式数据库进行转变。计算和存储资源都由,x86,服务器提供。,大数据使得现有的数据处理方法面临新问题传统数据仓库组网将是大,因为在移动互联网和物联网上需要有新领域的突破,不同于传统通信业务分析特点,需要对内容等非结构化、大容量信息进行有效分析,传统的架构处理吃力。,关系数据库引入对,XML,的支持仍然无法有效处理,ETL,大数据使得现有的数据处理方法面临新问题,传统数据仓库无法有效处理新型的业务数据,主要关键技术,自然语言理解,,文本分词、语义,分析,情感分析或者大规模计算技,术,非结构化数据索引技术,,如搜索,引擎倒排索引技术,多媒体处理,,包括图像识别,语,音识别,多媒体索引等技术,传统数据仓库无法有效支撑数据合作运营,由于保存原始话单数据周期较短,合作运营无法追溯历史原始数据。,现网传统主数据库的设计只适用与向上层提供既定好的数据分析任务结果。对外开放底层数据将大大消耗系统资源,影响主库正常的数据处理流程。同时数据的处理方式及结果也恐难以满足合作运营的需要。,大数据平台的架构将数据分层管理。在各层提供数据开放接口,以满足不同数据需求。将更有效支撑数据合作运营。同时历时数据能促使合作在第一时间就开展起来。,因为在移动互联网和物联网上需要有新领域的突破,不同于,目 录,二、大数据平台整体规划,一、大数据应用发展趋势,目 录二、大数据平台整体规划一、大数据应用发展趋势,大数据平台目标架构及定位,准实时采集,批量采集,Hadoop,平台,MPP,,基于,X86,平台,主数据仓库,分布式数据库,基于,X86,平台,数据采集(云化,ETL,,流数据处理,、爬虫,),数据层,获取层,能力层,精细化营销,智能运营,物联网应用,应用商店,客服应用,基础分析能力,数据挖掘能力,实时分析能力,自助分析能力,多维分析能力,数据共享,能力,指标应用,报表应用,主题分析,专题分析,互联网,GN,口,半结构化、非结构化数据,BSS,经分,DM,VAC,MC,话单,业务平台,结构化数据,数据源,分布式文件系统,HDFS,记录明细数据,HBase,M/R,Hive,记录汇总数据,数据统一服务和开放,SQL,、,FTP,、,WS,、,MDX,、,API,、,分布式数据库(,MPP,):,存储加工、关联、汇总后的业务数据,并提供分布式计算,支撑数据深度分析和,数据挖掘能力,,向主数据仓库输出,KPI,和高度汇总数据。,主数据仓库(与,MPP,合设):,存储指标数据、,KPI,数据和高度汇总数据。,Hadoop,云平台,:,负责存储海量的流量话单数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储和低时延、高并发的查询能力。,数据开放接口,:,向大数据应用方提供大数据平台的能力。,数据采集(,ETL,):,负责源数据的采集、清洗、转换和加载包括:,1,、把原始数据加载到,Hadoop,平台。,2,、把加工后的数据加载分布式数据库和主数据仓库,应用层,大数据平台目标架构及定位准实时采集批量采集Hadoop平台M,HDFS,:分布式文件系统,有较强的容错性,可在,x86,平台上运行,减少总体成本,可扩展,能构建大规模的应用,HBase,:非结构化,NoSQl,分布式数据库,基于分布式文件系统,HDFS,,保证数据安全,列式存储,节省存储空间,提供大数据量的高速读写操作,Hive,:分布式关系型数据库,数据可保存在,HDFS,,可提供海量的数据存储,类,SQL,的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理,通过,MapReduce,实现大规划并行计算,MapReduce,:大规划并行计算引擎,可将任务分布并行运行在一个集群服务器中,Hadoop,平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源,,Hadoop,集群可以扩展到上千台服务器。同时,,Hadoop,在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。,大数据平台:,Hadoop,主要功能,HBase,MapReduce,Hive,HDFS,快速的数据读取,大数据存储统计,复杂计算并行处理,HDFS:分布式文件系统Hadoop平台提供了海量数据的分布,Shared Nothing,代表数据库,:,GreenPlum,、,Vertica,、,Teradata,适合大数据量的,OLAP,应用,缺点,优点,线性扩展,:,X86,平台高可用性较低,新型,MPP,数据库主要构建在,x86,平台上,为无共享架构(,Share Nothing,),依靠软件架构上的创新和数据多副本机制,实现系统的高可用性和可扩展性。负责深度分析、复杂查询、,KPI,计算、数据挖掘以及多变的自助分析应用等,支持,PB,级的数据存储。,大数据平台:,分布式数据库,新型,MPP,分布式数据库,基于开放平台,x86,服务器,大规模的并发处理能力,无单点故障,可线性扩展,多副本机制保证数据安全,支撑,PB,级的数据量,支持,SQL,,开放灵活,Shared Nothing代表数据库:GreenPlum、,数据分级存储原则,数据融合与分级存储实施,按数据血缘,按逻辑层次,按业务种类,按设备网络划分,按设备物理地址,在线、近线、离线,按访问频度,内存数据库,按响应,及时性,内存数据库,数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。,基于生命周期,基于访问压力,基于业务用途,基于物理属性,分级原则,高性能,磁盘库,磁带,光盘库,中低性能,磁盘库,将核心模型(即中度汇总的模型)通过改造融入到现有,主数据,仓库的核心模型中,,减少数据冗余,提升数据质量。,将主数据仓库中的,历史数据,和,清单数据,迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。,数据,数据,数据,1,、核心模型融入主数据仓库,主数据仓库,2,、历史数据迁移到分布式数据库,分布式数据库,1,、清单数据入,MPP,数据库,大数据平台:,数据分级存储,数据分级存储原则数据融合与分级存储实施按数据血缘按逻辑层次按,Hadoop,平台,主数据仓库,报表数据,标签库,指标数据,客户统一视图,信息子层,话单数据,非结构化数据,信息子层,:报表数据、多维数据、指标库等数据来源于汇总层。,汇总层,:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。,轻度汇总层,:主题域内部基于明细层数据,进行多维度的、用户级的汇总。,明细数据层,:主题域内部进行拆分、关联。是对,ODS,操作型数据按照主题域划分规则进行的拆分及合并,ODS,层,:数据来源于各生产系统,通过,ETL,工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。,明细数据层,(,DW,),轻度汇总层(,MK,),高度汇总层(,MK,),应用库,精细化营销,分布式数据库,MPP,其他应用,1,其他应用,2,应用层,:应用系统的私有数据,应用的业务数据。,精细化营销做为大数据平台的一个上层应用,有由大数据平台提供数据支撑,数据访问,SQL,FTP,HSQL,API,ETL,数据采集,E,T,L,互联网,GN,口,非结构化数据,BSS,经分,DM,VAC,MC,话单,业务平台,结构化数据,数据源,获取层,1,2,1,2,3,3,4,4,大数据平台:,数据分层,Hadoop平台主数据仓库报表数据标签库指标数据客户统一视图,源数据导入,ETL,,进行数据的清洗、转换和入库。,基础数据加载到主数据仓库,规划保存,3,年,清洗、转换后的,ODS,加载到分布式数据库规划保存,1+1,月,在分布式数据库内完成明细数据和轻度汇总数据加工生成,规划保存,2,年,ODS,数据和非结构化数据,如爬到的网页数据,ftp,到,Hadoop,平台做长久保存,非结化数据分析处理在,Hadoop,平台完成,产生的结果加载到分布式数据库,生成,KPI,和高度汇总数据加载到主数据仓库。,Hadoop,平台,主数据仓库,报表数据,标签库,客户统一视图,信息子层,话单数据,非结构化数据,明细数据层,(,DW,),轻度汇总层(,MK,),高度汇总层(,MK,),应用库,分布式数据库,MPP,数据访问,SQL,FTP,HSQL,API,ETL,数据采集,E,T,L,互联网,GN,口,非结构化数据,BSS,经分,DM,VAC,MC,话单,业务平台,结构化数据,数据源,获取层,1,2,3,4,6,5,业务应用通过数据访问接口获取所需求数据。,7,精细化营销,其他应用,1,其他应用,2,指标数据,大数据平台:,数据处理流程,源数据导入ETL,进行数据的清洗、转换和入库。基础数据加载到,消息,采集,文件,采集,话单,预处理,信令,预处理,Gn,话单,位置,信令,DCN,BSS,炫铃,VAC,短彩,平台,物联网,客服,平台,1*10GE,1*GE,2*GE,S9300,S9300,分布式数据库集群,新建,ETL,、分布式数据库和,Hadoop,集群内部各自独立组网。分别通过,10GE,网口接入汇聚交换机。,Hadoop,集群,1*10GE,ETL,集群,1*10GE,大数据平台的组网,消息文件话单信令Gn位置DCNBSS炫铃VAC短彩物联网客服,20,Pcap,数据(,DPI,),互联网,路由器,路由器,防火墙,WAP,网站,WWW,网站,分光镜像,DPI,数据爬取,数据爬取,数据采集,Agent,collector,日志采集,网元设备,(GGSN,PDSNWAP,网关、,NET,网关,)/,Apache,日志,核心设备话单,互联网页面数据,正向采集用户行为数据,反向采集互联网数据,建设方案,基于,Hadoop,构建大数据的用户行为分析系统,系统提供了核心的分布式云存储、分布式并行计算、分布式数据仓库、分布式列数据库整体解决方案,方案延伸,基于,Hadoop,的大数据解决方案提供了基础的云存储和云计算的能力,基于该技术框架可进行应用的扩展和衍生。,基于用户互联网访问行为分析结果,形成详细的户兴趣爱好列表,可进行即时、精准的广告投放,大数据平台有助于提升现网分析能力,20Pcap数据(DPI)互联网路由器路由器防火墙WAP网站,21,系统,构成,系统主要包含数据采集子系统、数据入库子系统、数据存储子系统、数据查询与分析子系统,采用,Hadoop/HBase,作为上网记录存储方案,采用,MapReduce/Hive,作用统计分析和数据挖掘工具,关键性指标,数据存储,上网记录入库时间:一般小于,30,分钟,实际约,10,分钟,历史,5,个月,+,当前月,数据查询,上网记录查询速度:不高于,1,秒(不含用户访问查询页面的时间),并发查询数目:,1000,请求,/,秒,大数据平台有效提升数据查询速度,以手机上网详单查询为应用案例,21系统系统主要包含数据采集子系统、数据入库子系统、数据存储,谢谢观赏,谢谢观赏,我们的承诺:不做不良品。,11月-24,11月-24,Tuesday, November 19, 2024,为别人鼓掌的人,才能赢得别人的鼓掌。,00:11:29,00:11:29,00:11,11/19/2024 12:11:29 AM,入海之前先探风,上岗之前先练功。,11月-24,00:11:29,00:11,Nov-24,19-Nov-24,安全是一切工作的最优环境。,00:11:29,00:11:29,00:11,Tuesday, November 19, 2024,素质提升,交流分享,精耕深耕,永续辉煌。,11月-24,11月-24,00:11:29,00:11:29,November 19, 2024,您的自觉贡献,才有公司的辉煌。,2024年11月19日,12:11 上午,11月-24,11月-24,品质你我都做好,顾客留住不会跑。,19 十一月 2024,12:11:29 上午,00:11:29,11月-24,以工作的品质,提升产品品质。,十一月 24,12:11 上午,11月-24,00:11,November 19, 2024,安全、节能、高效、优质。,2024/11/19 0:11:29,00:11:29,19 November 2024,贯标出质量,认证树形象。,12:11:29 上午,12:11 上午,00:11:29,11月-24,违章蛮干铸成终身遗憾,遵章守纪伴你一生平安。,11月-24,11月-24,00:11,00:11:29,00:11:29,Nov-24,各自做好本职工作,就生产出好产品。,2024/11/19 0:11:29,Tuesday, November 19, 2024,儿行千里母担忧,夫婿在岗妻惦念。,11月-24,2024/11/19 0:11:29,11月-24,谢谢大家!,我们的承诺:不做不良品。9月-239月-23Thursday,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!