大数据分析一体机概述课件

上传人:2127513****773577... 文档编号:241289526 上传时间:2024-06-15 格式:PPT 页数:30 大小:4.80MB
返回 下载 相关 举报
大数据分析一体机概述课件_第1页
第1页 / 共30页
大数据分析一体机概述课件_第2页
第2页 / 共30页
大数据分析一体机概述课件_第3页
第3页 / 共30页
点击查看更多>>
资源描述
目录1大数据概述大数据概述2一体机概述一体机概述3研发思路研发思路4应用分析应用分析1目录1大数据概述2一体机概述3研发思路4应用分析1大数据的4V特征“4V”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的特征大数据的4V特征“4V”是“大数据”的显著特征,或者说,只有2大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),属于IT领域新一代的技术与架构用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合数据分析的价值 用以分析的数据越全面,分析的结果就越接近于真实。3分析技术:数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等存储结构化数据:p海量数据的查询、统计、更新等操作效率低非结构化数据p图片、视频、word、pdf、ppt等文件存储p不利于检索、查询和存储半结构化数据p转换为结构化存储p按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo的S4)一些相关技术分析技术:存储解决方案:一些相关技术41、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。2、经典数据库技术并没有考虑数据的多类别(variety)SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3、实时性的技术挑战:一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。网络架构、数据中心、运维的挑战:技术架构的挑战:人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,目前的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。领域共性问题1、对现有数据库管理技术的挑战网络架构、数据中心、运维的挑战5大数据大数据处处理理技技术手段手段String ConvertCountFilterString TruncateSortIndexingJoinSequenceExtractAggregateSocial MediaMachine&Sensor DataMediaWeb ClickstreamMobile AppsCall LogSplunkBI/ReportingCustomizedSolutionsDatabase/Data Warehouse大数据处理技术手段String CountFilterStr6较常常见的的解决方案解决方案大数据大数据储储存存大数据大数据处处理理数据分享数据分享数据数据检检索索数据分析数据分析数据展数据展现现分布式软件架构并行计算框架分布式存储横向扩容(Scale-out)架构存储与运算合一Big Data 运算与存储,单一架构解决较常见的解决方案大数据储存大数据处理数据分享数据检索数据分析78传统并行计算架构并行计算+分布式存储运算存储传统存储架构计算与存储一体,计算向数据靠拢,高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖(share-nothing),具有高系统延展性(scale-out)利用利用Hadoop 的特性的特性8传统并行计算架构并行计算+分布式存储运算存储传统存储架8目录1大数据概述大数据概述2一体机概述一体机概述3研发思路研发思路4应用分析应用分析9目录1大数据概述2一体机概述3研发思路4应用分析9一体机概念和分类一体机是软件与硬件相结合的集成系统产品,其一般集数据处理、数据传输、数据存储三方面于一体。一体机通过预先集成、测试、优化,能够实现快速部署、简化IT基础架构,节省资源,提升系统高可用性和可扩展性。服务器服务器软件软件存储存储网络网络管理管理10一体机概念和分类一体机是软件与硬件相结合的集成系统产品,其一从IT基础设施发展角度看,复杂的系统集成模式已经成为业务创新的“绊脚石”简化(预集成)、优化的基础设施才能为业务应用“云化”提供更好的保障大型机一体化、预集成系统集成一体化预集成专有技术标准运行专有软件运维成本极高分层(服务器、网络、存储)现场集成通用平台,缺乏对平台软件优化开放的技术标准集成及运维成本高简化,将平台软件需要的基础设施预集成优化,针对平台软件非功能需求进行优化沿用开放的技术标准运维成本低平台即服务软件即服务数据即服务云云从IT基础设施发展角度看,复杂的系统集成模式已经成为业务创新11Gartner Data Center Conference presentationGartner数据中心大会专题讲座Will Fabric Computing Change the Concept of the Traditional Server?”,December 2011光纤运算是否会颠覆传统服务器的概念光纤运算是否会颠覆传统服务器的概念 2011年年12月月“By 2015,35%of total server shipped value will be as integrated systems.”“到2015年,35%的服务器都将以集成系统方式交付”Gartner Data Center Conference12Unified Computing System(UCS)2012.42012.9FusionCubeExadata数据库一体机数据库一体机Exalogic中间件一体机中间件一体机Exalytics内存分析机内存分析机Big Data 大数据机大数据机从2008年开始,基于开放的技术标准,国内外厂商纷纷开始研制一体机。Oracle率先推出数据库、中间件、数据分析以及大数据等多款一体机产品Unified Computing System 2012.13一体机架构负载均衡中间件数据库服务器存储单机,集群单实例,多实例横向、纵向扩展能力CPU/内存比高I/O配置单机HA,群集高随机,高顺序读写性能存储单机,多机串行,并行交易应用 数据应用 管理应用其他系统高端中端PC服务器刀片存储传统架构一体机架构一体机通过把传统架构中的主机、存储、网络、管理软件、数据仓库或数据库或中间件或虚拟化软件进行集成打包,形成一体化解决方案,降低总拥有成本(TCO),提升整体性能。一体机不是简单的将软硬件进行堆砌,而是在软硬件架构上对硬件性能、软件性能进行平衡优化,以克服传统解决方案在数据管理、I/O读写等方面的瓶颈,针对性的增强系统整体处理能力。14一体机架构负载均衡中间件数据库服务器存储单机,集群横向、纵向一体机发展背景(一)-海量数据分析驱动 随着信息技术在人类各项生产生活中的应用不断拓展,可分析的数据呈现出爆炸式增长。高效高效、迅速迅速地从海量数据中挖掘出潜在价值并转化为决策依据已经成为各行业信息化面临的重大挑战挑战。15一体机发展背景(一)-海量数据分析驱动 随着信息技术在人一体机发展背景(二)-大并发承载能力驱动随着信息系统的深入应用以及企业对信息系统的依赖程度增加,对软硬件平台的并发处理能力、海量数据处理能力、系统响应速度、软硬件平台稳定性、软硬件平台可扩展性等方面的能力有了更高的要求,且呈上升趋势。并发处理能力海量数据处理能力系统响应速度软硬件平台稳定性软硬件平台可扩展性16一体机发展背景(二)-大并发承载能力驱动随着信息系统的深一体机发展背景(三)-简化IT需求驱动由于前期IT技术与理念的局限性,信息化发展过程中形成了许多复杂的“竖井式”应用,对信息化管理带来极大挑战。通过简化IT基础架构,提高硬件资源利用率,减少投资采购成本、降低设备能耗和运维成本等措施提升信息化水平已成为共识。设备品牌型号繁杂集成复杂度高资源利用率低运维管理难度大面临挑战面临挑战设备型号标准化工业化预集成负载动态均衡统一管理平台解决思路解决思路机房空间不足电力能耗大运维成本高面临挑战面临挑战简化IT架构提升软硬件集成度减少设备数量选用绿色节能设备解决思路解决思路17一体机发展背景(三)-简化IT需求驱动由于前期IT技术与软硬件资源池软硬件资源池应对简化IT架构需求,目前业界有软硬件资源池与专业化一体机两种主流技术路线可供选择,相比较一体机产品适用于单一化(数据库、中间件、虚拟化之一)的场景,软硬件资源池适用于多用途的通用场景。海量数据分析简化IT适用于专业性要求低的通用场景开放性强耦合度低可采购软硬件自行集成搭建适用于专业性强的场景开放性弱耦合度高由专业厂商预集成封装专业化一体机专业化一体机一体机发展背景(四)-技术路线18软硬件资源池应对简化IT架构需求,目前业界有软硬件资源池与专目录1大数据概述大数据概述2一体机概述一体机概述3研发思路研发思路4应用分析应用分析19目录1大数据概述2一体机概述3研发思路4应用分析19存储管理分析可视化软硬件一体的创新数据处理平台针对不同应用的系列化产品业务支持团队提供全国产的自主可控方案数据获取重新设计软件体系结构研发思路:基于开源软件和国产硬件构建应用级一体机存储管理分析可视化软硬件一体的创新数据处理平台针对不同应用的20采用浪潮的设备做一体机的硬件支撑适用于大数据处理的计算单元有针对性设计和开发的适用于大数据处理的通用计算单元、轻量计算单元和重载计算单元。采用浪潮的设备做一体机的硬件支撑适用于大数据处理的计算单元21l计算随数据分布l弹性可扩展l业务连续性保证在Hadoop上有一定拓展计算随数据分布在Hadoop上有一定拓展22JobTrackerDataNodeCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUDataNodeDataNodeDataNodeNameNode主备备主备备主备备主备备数据本地化(计算随数据分布)是指并行计算框架智能地将计算任务指派到存储着该任务所需数据的节点,从而避免传统分布式计算中严重的数据传输瓶颈。JobMapCPU计算和存储合一JobTrackerDataNodeCPUCPUCPUCPU23DataNodeCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUCPUDataNodeDataNodeDataNode主备备主备备主备备主备备CPU业务连续性保证是传统分布式计算中最为复杂的开发目标。通常当系统规模扩展至百节点以上时,就必须应对计算单元失效,显式地保存和恢复失败任务。浪潮大数据一体机能够智能识别失败任务,自动将其转移到备份数据节点。使用浪潮的底层保障DataNodeCPUCPUCPUCPUCPUCPUCPUC24优化系统任务调度策略,对任务实现实时监控,并动态调整任务执行资源,减少慢任务数量,提高整体性能专注性能提升和优化优化系统任务调度策略,对任务实现实时监控,并动态调整任务执行25目标:数据分析一体机(业务级)全环节覆盖存储、管理、展现、分析处理密集型的重载应用可重构加速器件或众核处理器,硬件加速P-1P-1数据处理应用计算能力、I/O能力、存储能力均衡P-2P-2视频处理等行业关键数据处理系统目标:数据分析一体机(业务级)全环节覆盖处理密集型的重载应用26研发工作组织实施(建议)研发工作组织实施(建议)研发工作组织实施(建议)研发工作组织实施(建议)设备到位基础环境搭建概念规划2013.11.1-12.31一体机规划研究思路确定一体机0.1版2014.3.1-5.31一体机产品工艺完善10.1-12.312015.1一体机批量生产6.1-9.30软件平台测试、提升一体机整体设计概念验证2013.12-2014.2熟悉、掌握一体机研发组织实施包含测试环境搭建、技术验证、产品规划、一体机原型详细设计、一体机试生产、一体机规模生产等六个阶段。目前以人数上以学生主体,如果有应急需要,则以社会招聘为主体。27研发工作组织实施(建议)设备到位一体机规划一体机产品工艺完善目录1大数据概述大数据概述2一体机概述一体机概述3研发思路研发思路4应用分析应用分析28目录1大数据概述2一体机概述3研发思路4应用分析28应用分析应用分析-案例案例Exadatav具有业内普遍认同的最强OLTP处理能力、产品成熟度较高、采用shared-nothing+shared-disk的混合架构,IO吞吐能力强、存储智能化扫描、存储索引;v适用于OLTP与OLAP两种系统、与公司信息系统数据对接程度高;v性能扩展方面介于线性扩展与非线性扩展之间,最多可扩展至8个满配机柜(64台计算服务器);vOLTP场景测试表现良好,高传输性能,业界成功案例丰富,产品开放性较低,兼容性有待测评,整体拥有成本(TCO)相对较高。n华为FusionCube遵循开放架构标准,于12U机框中融合刀片服务器、分布式存储及网络交换机.并预集成了虚拟化平台及云管理软件;n实现了一站式交付、家电化安装;资源可按需调配、线性扩展;n合作伙伴:SAP,TRS等。案例:拓尔思-华为信息采集一体机是一款软件与硬件集成并优化整合的产品,可实时监控、采集Internet网站内容,自动对信息进行过滤、分类、排重等智能化处理,全方位信息查询等功能。一体机软硬件进行了优化整合,在空间占用、采集性能、能耗、成本、管理等多方面具有优势。该信息采集一体机可用于政府、媒体、科研院所、军工、企业等各个应用行业和领域。应用分析-案例Exadata具有业内普遍认同的最强OLTP处29IBM 的大数据平台大数据企业引擎大数据企业引擎IBM 大数据解决方案大数据解决方案Internet 规模分析流分析开发人员开发人员最终用户最终用户管理员管理员大数据用户环境大数据用户环境将大数据引入企业客户和合作伙伴解决方案客户和合作伙伴解决方案开源基础性组件Eclipse Hadoop HBase Pig Lucene Jaql 代理代理集成集成信息服务器市场营销市场营销仓库设备仓库设备数据仓库数据仓库数据库数据库内容分析内容分析业务分析业务分析主数据管理主数据管理InfoSphere 仓库Netezza/InfoSphere MDMDB2Cognos 和 SPSSUnicaECM数据增长管理数据增长管理InfoSphere Optim30IBM 的大数据平台大数据企业引擎IBM 大数据解决方案In
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!