数据中心相关技术与应用大数据相关

上传人:zha****an 文档编号:252492272 上传时间:2024-11-16 格式:PPTX 页数:40 大小:3.71MB
返回 下载 相关 举报
数据中心相关技术与应用大数据相关_第1页
第1页 / 共40页
数据中心相关技术与应用大数据相关_第2页
第2页 / 共40页
数据中心相关技术与应用大数据相关_第3页
第3页 / 共40页
点击查看更多>>
资源描述
,母版标题样式(微软雅黑体,28,号加粗),单击此处编辑母版文本样式(,24,号黑体),第二级华文细黑,22,号字体,第三级华文细黑,20,号字体,第四级华文细黑,16,号字体,第五级华文细黑,12,号字体,备注,#,红色,25,绿色,40,蓝色,80,黑色淡色,50%,绿色,RGB160,绿色,RGB200,标题,28,号微软雅黑加粗,第一级,24,号黑体,第二级,22,号华文细黑,第三级,20,号华文细黑,第四级,16,号华文细黑,第五级,12,号华文细黑,数据中心相关技术与,应用,2013-12-02,目录,MPP,数据库在数据中心的应用,企业级数据中心定义,数据中心中的大数据,数据中心,BI,技术选型描述,Hadoop,在数据中心的应用,数据中心,ESB,技术研究,大数据技术与传统数据中心的集成,传统的数据仓库的架构,数据源,抽取、转换、加载,业务数据集市,企业数据仓库,ETL,元数据,前端分析展现工具,查询工具、应用,新一代,数据中心定义,企业数据中心是指建立在数据仓库与数据仓库之上的决策分析应用,应包括数据源、数据,ETL,、,ODS,数据库、数据仓库、数据集市、商务智能应用、数据管理等功能。,数据,中心应该具备常见数据的处理与管理能力,具备对结构化、半结构化、非结构化等数据的处理能力,同时支持,RDB,、,MPP,、,NoSQL,,同时具备数据的通用管理能力,以数据为中心进行平台建设,。,数据中心数据平台在接口层要丰富又简单,可以提供各种应用所需接口,最大程度匹配已有接口,,对应用改动需求力求最低。,一个合理的数据平台,,,不能等同于,Hadoop,或者其他某项单一技术建设,;,整体,数据,中心,的建设,从数据采集层,、,存储,层、,应用,层,都有完整的解决,方案,,同时具备平台运维管理、接口管理、数据管理功能;,数据中心数据管理能力至少应包含:,1.,元数据管理,,2.,数据质量管理,,3.,数据安全管理,,4.,数据可视化管理,,5.,数据生命周期管理。,数据平台必须,针对数据提供完整方案,同时兼顾应用接口、其他平台接入,系统管理、系统调度等功能。,任何一种单一技术都难以,适应,数据中心,数据采集,、存储、处理和对外服务的需求,,多种技术并存才是发展,趋势,。,RDB,、,MPP,、,Hadoop,采集,处理层,数据抽取,/,加载,/,检查,ETL,调度,数据交互、转换,数据映射,数据层,数据,存储,数据聚合服务,数据处理服务,数据查询服务,事件,通知服务,信息,子层,KPI,报表,统一视图,知识库,接口层,服务管理,资料,类数据服务,指标,类数据服务,配置,类数据服务,清单,累数据服务,日志类数据服务,OPEN API,数据管理功能,数据生命周期管理,数据可视化管理,数据质量管理,采集,层数据质量管理,数据质量规则、知识库,数据质量稽核指标运维,数据安全管理,4A,认证,隐私信息保护,权限管控、审计追踪,元数据管理,元数据获取管理,元数据存储与模型管理,元数据分析、展现、服务,技术、业务,元数据管理,ODW-RDB,ODW-MPP,分布式文件系统,分布式,关系数据库,分布式,计算,数据分发同步处理,用户管理,权限管理,备份与恢复,日志管理,设备监控指标,资源池指标,数据库指标,分布式系统指标,指标汇总,存储管理,资源池管理,设备管理,作业调度管理,事件自动化,规则配置,执行引擎,性能预警,调度异常,控制,北向接口管理,数据采集接口管理,数据共享配置,通用接口配置,平台,管理功能,数据服务功能,综合分析系统,A+ABIS,应用,无线网优,综合监控系统,信令监测系统,日志上层应用,其他应用,新一代,数据中心功能视图,数据中心整体功能视图可以分为数据服务功能模块、平台管理功能模块,数据管理功能模块,共同,数据,中心的应用。,采集,处理层,数据抽取,/,加载,/,检查,ETL,调度,数据交互、转换,数据映射,数据层,数据,存储,数据聚合服务,数据处理服务,数据查询服务,数据集市、,OLAP,接口层,服务管理,资料,类数据服务,指标,类数据服务,配置,类数据服务,清单,累数据服务,日志类数据服务,OPEN API,数据管理功能,数据生命周期管理,数据可视化管理,数据质量管理,采集,层数据质量管理,数据质量规则、知识库,数据质量稽核指标运维,数据安全管理,4A,认证,隐私信息保护,权限管控、审计追踪,元数据管理,元数据获取管理,元数据存储与模型管理,元数据分析、展现、服务,技术、业务,元数据管理,DW-RDB,DW-MPP,分布式文件系统,非,关系数据库,分布式,计算,数据分发同步处理,数据服务功能,用户管理,权限管理,备份与恢复,日志管理,设备监控指标,资源池指标,数据库指标,分布式系统指标,指标汇总,存储管理,资源池管理,设备管理,作业调度管理,事件自动化,规则配置,执行引擎,性能预警,调度异常,控制,北向接口管理,数据采集接口管理,数据共享配置,通用接口配置,平台,管理功能,应用展示层,企业,数据中心,元数据获取,采集,层数据质量定义、稽核,存储库模型定义,采集数据分发,目录,MPP,数据库在数据中心的应用,企业级数据中心定义,数据中心中的大数据,数据中心,BI,技术选型描述,Hadoop,在数据中心的应用,数据中心,ESB,技术研究,大数据技术与传统数据中心的集成,数据中心引入大数据的意义与原则,随着,半,结构化、非结构化数据,、互联网数据等新型数据源的引入以及分析需求对分析深度和广度的,增加,以移动运营商行业为例,越来越需要大数据。,主要包括,如下:,1,、数据规模方面:,GPRS,流量话单的条数和数据量已经超过了语音详单,而位置信令、,Gn,信令、客服语音、互联网外部数据等规模更大,且还处在不断增长的趋势。,2,、数据类型方面:逐步从,OLTP,系统中获得的结构化数据,过渡到结构化数据和互联网网页、上网日志等非结构化数据和半结构化数据共存。,3,、对数据的使用方面:不仅有批量的数据加工和前台界面的访问,临时统计、数据挖掘等访问需求也逐步增多。对历史明细数据的访问增多。对数据访问的及时性增强。,随着数据中心越来越,具备大数据平台的特征,利用传统的单一数据仓库技术就难以满足高效低成本的需求,需要引入相应的大数据,技术。,新技术,的引入不能影响原有的使用感知,需要按照分阶段逐步引入的方式。可以参考如下的几个引入,原则:,1,、先增量后存量。现有的数据处理系统引入大数据处理技术,面临着模型改造、流程改造等一系列的问题,可以首先在新上线应用引入大数据处理技术。,2,、先边缘后核心。对于原有功能的迁移,可以先迁移非关键的应用。这些应用不涉及到关键生产任务,可以忍受数据处理延迟和故障修复时间较高等可能出现的风险。,3,、先简单后复杂。数据处理逻辑较简单的应用也可以首先尝试引入大数据处理技术,降低实施的复杂度,积累运维经验。,通过在大数据处理技术的规划、实施及运维过程中积累经验及教训,不断提升和完善大数据技术的应用水平,逐步拓展大数据技术应用领域,。,大数据在数据中心的应用场景,大数据技术可以应用在以下场景(包括但不限于):,1,、原数据仓库底层结构化数据处理(,ETL,或,ELT,)。底层结构化数据处理计算任务重但复杂性不高,不涉及多表关联,适合引入大数据技术实现高效低成本。例如:,对运营商的清单,(语音详单、,GPRS,清单、,WLAN,清单等)的清洗、转换、汇总等。,2,、半结构和非结构数据处理与分析。例如对上网日志、网络信令、客服语音等数据的处理和分析,这些数据难以利用传统数据仓库技术进行处理和分析。,3,、数据集市。,地数据,集市应用较为独立,且对可靠性的要求并不是十分严格,适合作为引入大数据技术形成资源池,,以移动运营商为例,可实现,各地市、各部门数据集市的云化、池化和虚拟化,最终实现资源动态调配,达到高效低成本。,4,、数据仓库数据分级存储。对低价值的细节数据以及长周期的历史数据(冷数据)访问频率较低,也能容忍相对较长的响应时间,可以存储在成本更低的平台上。,5,、数据挖掘。某些数据挖掘设计长周期的数据,计算时间很长(数天),占用很多数据仓库资源。还有一些数据挖掘算法超出了关系代数计算范畴,需要抽取数据到独立的计算平台(例如,SAS,统计分析系统),中进行计算。这些数据挖掘任务可以迁移到大数据平台之上进行计算。例如交往圈的计算,因其仅涉及单一数据,但数据量非常大,且需要多次迭代计算。,6,、对外查询,。数据中心不仅仅是,数据处理,也需要将数据处理的结果对外提供查询,而这些查询一部分是海量的,OLAP,性质的查询,另外还有一部分,OLTP,性质的查询,即数量众多但每次查询量较少的。,比如数据中心前端,库、与生产系统互动的数据库以及提供流量详单查询的数据库。这些查询任务不能很好地运行在,OLAP,类数据库之上,可以迁移到大数据平台上。,针对这些应用场景,可以看到,主要需要引入的是,Hadoop,和,MPP,技术,然后逐步考虑,NoSQL,、流计算和内存计算等技术的引入。,Hadoop,技术与,MPP,技术的比较,Hadoop,MPP,传统数据仓库,平台开放性,高,低,低,运维复杂度,高,与运维人员能力相关,中,中,扩展能力,高,中,低,拥有成本,低,中,高,系统和数据管理成本,高,中,中,应用开发维护成本,高,中,中,SQL,支持,低,高,高,数据规模,PB,级别,部分,PB,TB,级别,计算性能,对非关系型操作效率高,对关系型操作效率高,对关系型操作效率中,数据结构,结构化、半结构化和非结构数据,结构化数据,结构化数据,Hadoop,在处理非结构数据和半结构数据上具备优势,尤其适合海量数据批处理等应用需求。当然随着,Hadoop,技术的成熟,基于,Hadoop,的即席查询技术也逐渐崭露头角。比如仿照,Dremel,的开源项目,Apache Drill,以及,Cloudera Impala,。,MPP,适合替代现有关系数据结构下的大数据处理,具有较高的效率,但其在大规模集群(超过,100,个节点)下的可用性还有待试点证实,。,MPP,数据库场景下经常需要扫描大量的数据,所以对磁盘存储系统的,I/O,性能要求非常高,在测试和日常运行中,,I/O,多大情况下是瓶颈,这点与,Hadoop,平台可以明显区分开来,。,目录,MPP,数据库在数据中心的应用,企业级数据中心定义,数据中心中的大数据,数据中心,BI,技术规划,选型,Hadoop,在数据中心的应用,数据中心,ESB,技术,研究,大数据技术与传统数据中心的集成,MPP,数据库,在,在数据,中,中心的,应,应用场,景,景,MPP,数据库适合,结,结构化数据,的,的深度分析,、,、复杂查询,以,以及多变的,自,自助分析类,应,应用。它提,供,供了统一的,标,标准访问接,口,口(,SQL,),而无需,像,像,Hadoop,一样需要定,制,制开发。,MPP,数据库一般,构,构建在,X86,平台上,并,使,使用本地盘,而,而不用阵列,,,,而且产品,众,众多,因为,可,可以降低拥,有,有成本。,MPP,数据库产品在,数据中心,中可以用于以,下,下场景(包,括,括但不限于,),),:,数据集市:,数据集市定,位,位于以企业,数,数据仓库数,据,据为基础,,结,结合其他相,关,关数据,支,撑,撑特定业务,场,场景或者业,务,务部门需求,的,的,IT,平台。,目前运营商,数,数据中心中已经存在地,市,市数据集市,和,和部门数据,集,集市。随着,新,新业务平台,分,分析需求的,出,出现、不同,分,分析特征的,需,需求的出现,,,,还有一些,分,分析需求可,以,以通过数据,集,集市的方式,进,进行承载,,比,比如深度分,析,析(,Advanced Analysis,)和自助分,析,析(,Self-Service Analysis,)。,数据分级存储(,历,历史库或者,明,明细库):,数据中心中,数,数据存储周期分,为,为在线数据,、,、近线数据,、,、归档数据,。,。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!