EMCGreenplum统一数据分析平台解决方案.ppt

上传人:xt****7 文档编号:2382861 上传时间:2019-11-22 格式:PPT 页数:48 大小:4.67MB
返回 下载 相关 举报
EMCGreenplum统一数据分析平台解决方案.ppt_第1页
第1页 / 共48页
EMCGreenplum统一数据分析平台解决方案.ppt_第2页
第2页 / 共48页
EMCGreenplum统一数据分析平台解决方案.ppt_第3页
第3页 / 共48页
点击查看更多>>
资源描述
EMC Greenplum Unified Analytics Platform 统一数据分析平台,Alex Liu 刘琳 EMC Data Computing Division,Cloud Meets Big Data What is Big Data? Cloud Computing What is changed? Greenplum UAP Greenplum Database Greenplum HD Greenplum Chorus Greenplum DCA,Agenda,什么是大数据?,维基百科对大数据的定义,即无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合 大数据呈现出三大特征,即3V 数据大(Volume),例如每天在30万台服务器上处理25Tb数据 时效性要求高(Velocity),例如搜索引擎要求在几分钟内为用户查询新闻 种类和来源多样化(Variety),除了结构化的数据、半结构化、非结构化的数据大量产生,Source : 2011 IDC Digital Universe Study 1 ZB = 1024 EB, 1 EB = 1024 PB,数据源正在膨胀,Cloud Meets Big Data What is Big Data? Cloud Computing What is changed? Greenplum UAP Greenplum Database Greenplum HD Greenplum Chorus Greenplum DCA,Agenda,大数据解决之道 - 云计算,古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,我们也不需要尝试开发超级计算机,而应该试着结合使用更多计算机系统。 Grace Hopper,云计算的特点,Cloud Meets Big Data What is Big Data? Cloud Computing What is changed? Greenplum UAP Greenplum Database Greenplum HD Greenplum Chorus Greenplum DCA,Agenda,驾驭大数据能够改变什么?,2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获 得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。,驾驭大数据能够改变什么?,电信行业借助社交网络分析,对客户的通话数据进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录,而是分析各用户所处的社交网络。房,驾驭大数据能够改变什么?,全球金融危机带给我们的最大教训就是加强风险的监管力度,如何更好的进行风险管理已经成为银行等金融机构重要的课题。,Cloud Meets Big Data Greenplum UAP Greenplum Database Greenplum HD Greenplum Chorus Greenplum DCA,Agenda,What is it?,Private/Hybrid Cloud Infrastructure or Appliance,Data Access & Query Layer,3rd Party/Partner Tools & Services,Greenplum Chorus - Analytic Productivity Layer,Greenplum Hadoop,Data Scientist,Data Engineer,Data Analyst,Bl Analyst,LOB User,Greenplum Database,Data Platform Admin,Data Science Team,The Greenplum Unified Analytics Platform,EMC Greenplum,Greenplum Product Line,Cloud Meets Big Data Greenplum UAP Greenplum Database Greenplum HD Greenplum Chorus Greenplum DCA,Agenda,Shared-Nothing 架构优势,DB,SAN/共享存储,DB,DB,DB,DB,Disk,DB,DB,DB,DB,Disk,Disk,Disk,Disk,Master,Shared-Everthing,Shared-Storage,Shared-Nothing,红色表示共享资源,绿色表示无共享资源,数据均匀分布,并行处理的关键,数据均匀分布在每一块磁盘上面 发挥每一块磁盘性能,根本上解决I/O瓶颈 支持数据Distribution分布和Partition分区,Master Node 高可用性,Standby Master Node,当Primary Master出现故障时,热备份Standby Master 担它全部工作 热备份Standby Master 通过复制进程,保持与Primary Master的交易日志同步一致,Segment Node 高可用性,Mirror Technology,RAID保护驱动器故障,Mirror Segment保护服务器故障,同一份数据在集群内有4份copy Mirror Segment接管不丢失服务,快速在线差异恢复,大规模并行处理优势,真正意义上的并行处理 利用原生MapReduce模型实现,业界效率最高的并行处理引擎 全部SQL逻辑都可以并行在每一个Segment Node执行 负载根据Segment Node数量自动均衡,Segment,Segment,Segment,Segment,Master,并行加载和导出优势,业界最快并行加载速度10TB/Hr 并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块Disk的I/O资源 并行加载比串行加载,速度提高40-50倍以上,减少ETL窗口时间 增加Segment和ETL Server,并行加载速度呈线性增长,行列组合存储优势,列存储 少数字段查询,大幅节省I/O操作 大数据量频繁访问,性能提升30%以上,行存储 大多数字段频繁查询 随机行访问较多,组合存储 按照应用类型,随需定制Partition存储方式 达到最优化访问性能,动态在线扩容优势,系统永不停机 Greenplum动态在线扩容技术,可以保证客户在扩容期间不宕机 不能动态在线扩容,高可用性无从谈起 宕机意味着利润的流失,客户需要可靠的IT环境,在线数据重分布,在线数据重分布,在线数据重分布,Cloud Meets Big Data Greenplum UAP Greenplum Database Greenplum HD Greenplum Chorus Greenplum DCA,Agenda,开源Apache项目 Hadoop 核心包括: -HDFS 分布式文件系统 -Map/Reduce 分布式计算 用JAVA编写 运行在: Linux, Mac OS/X, and Solaris 开放硬件平台,What is Hadoop?,2007,2008,2009,2010,The Datagraph Blog,Source: Hadoop Summit Presentations,Hadoop在各行业的应用,Hadoop 组件,Greenplum HD MapR Enterprise-Ready Hadoop Platform for Unstructured Data,DFSIO (higher is better),Terasort (lower is better),10 node cluster, 2x Quad-Core, 24G DRAM, 12 x 1TB SATA Drives 7200 rpm, Quad NICs,Elapsed time in minutes,MB/sec,3.5 TB,GPHD MapR,Apache,Greenplum HD MapR更快的速度,为什么有更快的速度?,Greenplum HD MapR Job Tracker 高可用性,保证业务连续性 专为关键业务设计 自动安全重启动 没有任务丢失的重新连接 稳定的任务执行状态,Greenplum HD MapR Distribution,Enterprise HD MapReduce,Enterprise HD Lockless Storage Services,Distributed Name Node,Job Tracker HA,Greenplum HD MapR Distributed Name Node,所有Hadoop节点都进行分布式处理 自动和已处理的失效机制 稳固的元数据 高达1万亿个文件存储,Greenplum HD MapR 管理简单,直观 洞察力 完整 查看一个或者多个节点,GPDB & GPHD 并行访问,Analytic Productivity Applications, Tools, Chorus,Greenplum Database,Hadoop,Data Computing Interfaces SQL, MapReduce, In-Database Analytics, Parallel Data Loading (batch or real-time),All Data Types,unstructured data structured data temporal data,geospatial data sensor data spatial data,parallel data exchange,parallel data exchange,Network,Cloud Meets Big Data Greenplum UAP Greenplum Database Greenplum HD Greenplum Chorus Greenplum DCA,Agenda,数据分析现状,对企业数据仓库的访问严格管理 数据仓库中的计算负载通常很大 有可能可以发现非常有价值的见解的深入分析不被鼓励 数据分析的结果不再存储在数据库中,而是通过邮件来交换共享,Greenplum Chorus 主要给三类用户提供帮助,数据库架构师和管理员 负责管理数据库和提供数据访问 监控数据流动 数据分析师 负责从数据推导见解 和数据库管理员紧密合作 公司管理层 负责解释投资回报 关注对数据的快速有效分析,公有云数据,Chorus,Chorus 自我服务的分析架构,Hadoop,企业数据仓库,Chorus主要功能,企业数据云 整合数据源 整合结构化数据和非结构化数据 自我服务的架构 自己创建沙箱数据库 加快数据分析和形成商业方案的进程 协作环境 分析师通力合作,发现和创建见解 共享分析结果,代码和数据 开放和可扩展的平台,Chorus与企业数据仓库,数据仓库 管理数据 生成企业运营报告和财务汇总, Chorus 一个自我服务的架构,支持针对不同业务的分析沙箱 分析的结果可以影响企业发展方向和方案,Chorus 与Hadoop,把Hadoop作为一个数据源注册到Chorus中 浏览Hadoop 分布式文件系统 (HDFS)目录 预览HDFS文件 把HDFS文件添加到分析沙箱中 为HDFS文件添加注解 统一的数据分析平台 结构化数据 (数据库表) 非结构化数据 (HDFS文件),Cloud Meets Big Data Greenplum UAP Greenplum Database Greenplum HD Greenplum Chorus Greenplum DCA,Agenda,EMC Greenplum DCA,2 GPDB Master Servers,2 10GE Switches,Administrative Switch,Functional Module,Functional Module,Functional Module,Functional Module,DCA模块化灵活配置,GPDB,HD,Greenplum HD Module,Greenplum DB Module,DIA,DIA Module,Example 3 Rack Configuration,GP DB,DIA,GP HD,GP HD,GP HD,GPDB,GP HD,GP DB,GP HD,DCA Modules Specifications,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!