资源描述
单击此处编辑母版文本样式,的,的,单击此处编辑母版标题样式,#,-,#,-,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,#,2024年11月17日,上,海联通大数据平台规划方案汇,报,目 录,二,、大数据平台整体规划,一、大数据应用发展趋势,大数据,所谓“大数据”,,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。,。,大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息。,从大量数据中挖掘高价值知识是各界对于大数据的一个共识。,海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。,Google,首席经济学家,Hal Varian,大数据主要被用于分析和决策,,企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,,对企业产生新的价值。,大数据对,电信,运营商的应用价值体现,3,1,5,4,2,自助分析、生产管道,可视化、资源解耦随,需而动,营销实时,,以业务效率提升为标志。,提升业务效率,数据集中到数据中心,,多数据源管理,透,明服务支持,实时的,决策和预测能力提升,整体经营管理水平。,增强管理水平,数据开放服务、与,OTT,厂商合作的后向收费、,广告等新业务,.,创新商业模式,互联网化的电子渠道,全景体验、个性化商,品推荐、,LBS,位置营,销、面向客户个体的,深度洞察,提升客户体验,以技术驱动为标志,内,存计算、,MPP,、,CEP,分而治之的分布式计算,让运营商实时高效决策,.,技术高效、低成本,上海联通数据,平台现状,精细化营销数据中心,营账系统,经分,(BI),GN,口上网话单,终端,(DM),VAC,短彩信中心,语音通话详单,客服接触记录,流媒体平台详单,位置信令话单,基站信息,116114,企业黄页信息,渠道应用助销信息,经过一二期的建设,精细化运营平台的数据中心,已经成为上海联通,最大、内容最丰富,的数据仓库;,随着,数据量的增长,,需要对基础架构做长远规划;,有必要深入,挖掘数据价值,,研究新的商业模式,将成本中心转化为利润中心,5,扩展性,增量式的、几乎无限的扩展,可用性,要求系统总是在线运行,灵活性,灵活可动态改变的数据模型,扩展性,纵向扩展,横向扩展,分布式,资源集中,计算和存储分布,可用性,单份数据,数据复制,一致性,不要使用分布式事务处理,大数据处理的需求和特点,低成本运营,一体化运营,精细化运营,全网运营,实时、智能化运营,集中化建设、管理和维护,可不断线性扩展,提高资源综合利用率,标准化功能组件,可共享可复用,按业务量、按需支付,BASS,与,BOSS,、,CRM,的一体化,BSS,与,MSS,、,OSS,、,VAS,等跨域一体化,对外部客户和应用的一体化,片区化、网格化管理,长尾市场、小众市场的支撑,个性化、短周期需求的满足,异地客户、家庭客户、集团客户,一点接入、全网服务、全网客户画像,全国统一套餐、全网营销、统一客服,实时数据获取、处理、分析,智能化主动事件触发,智能管道,移动互联网,业务运营发展趋势,对业务,支撑平台的集中化要求,对,数据,架构的,集中化,要求,集中化、大容量、高扩展、高可用数据库平台:支持全网型数据、跨域数据的整合,形成集中化管理的的企业级数据中心,高,性能:,支持,3G,时代更高的实时性,要求、支持,动态资源共享:支持多租户管理、资源动态按需供应,可重用、标准化组件:形成可重用组件,支持一次开发、各省共享的模式,形成规模型效益,数据集中化趋势使得运营商面临着海量数据的存储及分析问题,大数据在支撑移动业务发展趋势中,充当重要角色。,电信运营商数据集中化趋势,7,电信,运营,面临的大数据挑战,移动互联网和个人消费领域,业务扩展,和,CEM,导致海量数据的及时分析带来挑战,运营,商一体化集中运营和透明管控,催生巨大的经营分析数据,仓库,,对大数据的存储、性能、开放带来挑战,DPI,和信令监测,产生的大量事件在存储和用户通信行为分析的实时处理性能带来挑战,ICT,融合,核心网络、运营支撑和,VAS,业务数据的融合催生海量,User Profile,并集,对大数据的关联分析计算效能带来挑战,移动互联网流量井喷与客户行为分析,业务融合、能力互通带来数据融合,提升客户体验要求分析网络服务数据,IT,系统集中化和行业数据价值挖掘,BSS BI,数据:,河南,17,个地市,每天抽取正常用户数,7000,多万,拨备用户数,3000,多万,,DW,层用户表总量,1,亿多条,;语音清单每天,2.7,亿条数据,,,GPRS,清单,每天,4.2,亿条数据,;账务每天,4.7,亿条数据,;,GPRS,文件每个,100M,左右,其它文件,25M,。,日接口数据量:,2000G,,其中话单,220G,,,WAP,清单,300G,,,工单服务,200G,,,用户、帐务,300G,,其它,980G,。,每月,124TB,数据量入库,历史数据保留,1,年,总数据量,1.45PB,。,按照用户数简单测算,6.5,亿用户下,总数据量,10PB!,联通总部,3G,互联网访问记录查询及分析,系统:,全国,每日新增,10TB,数据,,每月近万亿条,记录,要,存放,6,个月,,约,2PB,的上网记录数据。上网记录入库时间小于,30,分钟,原始上网记录保留,6,个月。上网,查询速度不高于,1,秒,并发查询数,1000,请求,/,秒,。,集群规模,188,个数据节点,存储容量,2.6 PB,传统,数据仓库无法有效存储日益增长的业务,数据存储需求,基础,数据,(,用户资料,产品订购信息):,15G/,日*,365+40G*12,月,=5T,/,年,考虑,20%,的业务增长率后为,:,6T,/,年,用户上网数据,话单数据:,250T/,年,考虑,20%,的业务增长率后为:,300T/,年,MR,数据,话单数据,:,634G/,日,634G/,日*,365,=227T/,年,考虑,20%,的业务增长率后为,:,272T,/,年,BSS,数据,新增,新增,评估中,日使用流量,(,TB,),6,月,10,月,随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力;数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降,等,传统数据仓库只保存处理后的汇总数据。在大,数据架构下需要对用户原始话单进行长期保存,。需要扩容大量存储空间。,大,数据使得现有的数据处理,方法面临,新问题,用户层,现平台的数据保存周期,大数据的数据保存周期,应用层,KR/CB/DM,层,永久保留,至少,2,年,数据存储层,MK,层,永久保留,至少,2,年,DW,层,5,个月,永久保留,数据获取层,ODS,层,37,天,永久保留,面对海量的数据压力,需要大数据平台,提供可供线性扩容的存储能力。,每个应用需求的变化就是一场灾难。由于数据处理与业务的紧密关联可能需要对中间每个处理环节进行逐个调整。重新生成数据的周期也非常缓慢。,由于传统数据仓库的数据处理流程与业务保持紧密关联。整个数据加工流程为最终应用服务。为缓解存储压力在数据抽取和清洗阶段会过滤掉与业务无关的数据记录和字段。,大,数据使得现有的数据处理,方法面临,新问题,数据源,明细数据层,(,DW,),汇总层(,MK,),报表数据,标签库,指标数据,客户统一视图,应用层,DW&MK,操作型数据,ODS,层,Oracle,数据库,精细化营销架构,短信中心,经分,DM,VAC,GN,话单,流媒体,客服系统,计费中心,MC,话单,彩信中心,MR,数据,BSS,用户互联网联系方式(总部研究院),2,4,1,2,3,4,现网数据平台是传统关系型数据库架构。大量的用户上网、用户行为等半结构化和非结构化数据无法保存和处理,,缺乏非结构化数据的处理能力。用户上网行为等,互联网行为数据以结构化数据方式保存至数据仓库中。,传统,数据,仓库无法有效应对大数据分析需求,1,现网每日用户上网,HTTP,话单达,14,亿条。每月汇总的记录条数也近,30,亿条。,随着移动互联网正在迅猛增长,,传统数据仓库将很难驾驭,无法满足数据处理时限和事务处理需求。,3,面对海量的数据压力,需要大数据平台提供快速的处理,能力。,大数据使得现,有,有的数据处,理,理方法面临新问题,传统数据仓库组网将,是,是大数据分,析,析的瓶颈,现网精细化,营,营销平台的,数,数据库既存,放,放着所有采,集,集的原始数,据,据,又承担,所,所有的数据,加,加工任务,,还,还承载所有,报,报表和业务,应,应用的数据,存,存储和计算,。,。缺乏对数,据,据分层分级,及,及生命周期,的,的有效管理,。,。,系统核心架构为,Oracle,数据库,+,小型机,+,磁阵。数据存,放,放在磁阵上,,,,计算时由,数,数据库服务,器,器从磁阵读,到,到本地后进,行,行计算结果,。,。随着数据量增长,磁,盘,盘,I/O,、网络带宽、数据,库,库服务器的,处,处理能力将,存,存在瓶颈,处理,时,时延严重。由于传统,架,架构的可扩展性差,无法满,足,足大数据的,计,计算的扩容,需,需求。,为应对海量数据处理需,求,求,大数据将,从,从集中数据,库,库向分布式,数,数据库进行转变。计算,和,和存储资源,都,都由,x86,服务器提供,。,。,因为在移动,互,互联网和物,联,联网上需要,有,有新领域的,突,突破,不同,于,于传统通信,业,业务分析特,点,点,需要对,内,内容等非结,构,构化、大容,量,量信息进行,有,有效分析,,传,传统的架构,处,处理吃力。,关系数据库,引,引入对,XML,的支持仍然,无,无法有效处,理,理,ETL,大数据使得现,有,有的数据处,理,理方法面临新问题,传统数据仓,库,库无法有效,处,处理新型的,业,业务数据,主要关键技术,自然语言理解,,文本分词、语义,分析,情感分析或者大规模计算技,术,非结构化数据索引技术,,如搜索,引擎倒排索引技术,多媒体处理,,包括图像识别,语,音识别,多媒体索引等技术,传统数据仓库无法有,效,效支撑数据,合,合作运营,由于保存原,始,始话单数据,周,周期较短,,合,合作运营无,法,法追溯历史,原,原始数据。,现网传统主,数,数据库的设,计,计只适用与,向,向上层提供,既,既定好的数,据,据分析任务,结,结果。对外,开,开放底层数,据,据将大大消,耗,耗系统资源,,,,影响主库,正,正常的数据,处,处理流程。,同,同时数据的,处,处理方式及,结,结果也恐难,以,以满足合作,运,运营的需要。,大数据平台,的,的架构将数,据,据分层管理,。,。在各层提,供,供数据开放,接,接口,以满,足,足不同数据,需,需求。将更,有,有效支撑数,据,据合作运营,。,。同时历时,数,数据能促使,合,合作在第一,时,时间就开展,起,起来。,目,录,录,二、大数据,平,平台整体规,划,划,一、大数据,应,应用发展趋,势,势,上海联通大,数,数据平台目,标,标架构及定,位,位,准实时采集,批量采集,Hadoop,平台,MPP,,基于,X86,平台,主数据仓库,分布式数据,库,库,基于,X86,平台,数据采集(,云,云化,ETL,,流数据处,理,理,、爬虫,),数据层,获取层,能力层,精细化营销,智能运营,物联网应用,应用商店,客服应用,基础分析能,力,力,数据挖掘能,力,力,实时分析能,力,力,自助分析能,力,力,多维分析能,力,力,数据共享,能力,指标应用,报表应用,主题分析,专题分
展开阅读全文