云计算与分布式数据处理课件

上传人:仙*** 文档编号:240946850 上传时间:2024-05-19 格式:PPT 页数:80 大小:7.23MB
返回 下载 相关 举报
云计算与分布式数据处理课件_第1页
第1页 / 共80页
云计算与分布式数据处理课件_第2页
第2页 / 共80页
云计算与分布式数据处理课件_第3页
第3页 / 共80页
点击查看更多>>
资源描述
唐卓唐卓 博士博士 副教授副教授 湖南大学信息科学与工程学院湖南大学信息科学与工程学院2015 2015 年年 9 9 月月云计算与大数据云计算与大数据分布式处理技术分布式处理技术概述概述讲义大纲讲义大纲1云计算概述23云计算主要技术CloudStack+Hadoop生态系统网络计算发展趋势1995集群计算集群计算1998网格计算网格计算1999对等计算对等计算2007云计算云计算201X3分布式计算技术的演进智能计算智能计算云计算已经成为IT的发展趋势 行业环境分析行业环境分析云计算云计算 一种新的突破式创新一种新的突破式创新云计算云计算随需应变的计算随需应变的计算软件即是服务软件即是服务效用计算效用计算网格计算网格计算 基基于于网网络络的应用订购的应用订购 把把计计算算资资源源作作为为一一种种可可计计量量的的服服务提供出来务提供出来 用用并并行行计计算算解解决决大大的的计计算算问题问题 整整合合的的端端到到端端业业务务,能能够够快快速速响响应应任任何何客客户户需需求求、市市场场机机会会或或者者外外部威胁部威胁 在在任任何何时时间间、任任何何地地点点访访问问动动态态提提供供的的IT资源资源云计算的推动力商业的需求:降低IT成本、简化IT管理和快速响应市场变化运营的需求:规范流程、降低成本、节约能源计算的需求:更大的数据量、更多的用户技术的进步:虚拟化、多核、自动化、Web技术云计算定义v云计算(Cloud Computing):是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。vWikiWiki定义定义:CloudcomputingisastyleofcomputinginwhichdynamicallyscalableandoffervirtualizedresourcesareprovidedasaserviceovertheInternet。p云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化虚拟化的资源的计算模式.云计算的目标企业B企业A企业C企业A企业B企业C互联网云平台服务商像用电、水一样使用像用电、水一样使用IT发电厂企业自己部署发电设施企业使用公共电力服务电力传输网络v数据在云端:不怕丢失,不必备份,任意点恢复;v软件在云端:不必下载自动升级;v无所不在的计算:在任何时间,任意地点,任何设备登录后就可以进行计算服务;(桌面虚拟化、服务器虚拟化)v无限强大的计算:具有无限空间的,无限速度。硬件为中心硬件为中心软件为中心软件为中心 服务为中心服务为中心 PCC/S云计算云计算定义应用运维整合应用软件集成软件平台整合硬件系统整合传统企业信息化服务的模型传统企业信息化服务的模型开发商A应用A维护企业IT运行部门操作系统、数据库、中间件、套件软件、工具软件等系统软件维护服务器、存储、备份、网络、通讯、安全、桌面等系统运行维护服务器、存储、备份、网络、通讯、安全、桌面等系统产品维保供电、通风、监控、消防、门禁、接地、避雷、机架等机房产品维保系统维保服务商系统软件服务商系统运维服务商机房维保服务商开发商B应用B维护开发商C应用C维护开发商X应用X维护烟囱式的建设分布式的开发分离式的运维云计算将改变模式单一、重复建设、各自为阵的状态开发商A应用A维护操作系统、数据库、中间件、套件软件、工具软件等系统软件维护服务器、存储、备份、网络、通讯、安全、桌面等系统运行维护服务器、存储、备份、网络、通讯、安全、桌面等系统产品维保供电、通风、监控、消防、门禁、接地、避雷、机架等机房产品维保开发商B应用B维护开发商C应用C维护开发商X应用X维护云计算理念:一切皆服务云计算理念:一切皆服务软件服务(SaaS):云软件服务云软件服务平台服务(PaaS):云平台服务云平台服务基础架构服务(IaaS):云架构服务云架构服务运维服务(OaaS):云运营服务云运营服务基础设施服务(DCaaS):云数据中心服务云数据中心服务软件开发服务(SDaaS):云开发服务云开发服务信息融合服务云计算正走向成熟的生产期Gartner14技术预测技术预测云计算已过了最高期望点、炒作高峰期!云计算已过了最高期望点、炒作高峰期!人类机能增进量子计算语音识别平面计算机增强现实云计算飞速发展11云计算处于快速发展阶段十年一浪潮12智能计算智能计算以数据为中心以数据为中心云计算必然走向以数据为基础的智能计算云计算必然走向以数据为基础的智能计算v以以云计算为基础、以大数据为核心云计算为基础、以大数据为核心的企业级应用的企业级应用/软件,将是互联网下软件,将是互联网下一个爆发领域。在营销领域,企业级营销云将成为广大企业的智能核心,一个爆发领域。在营销领域,企业级营销云将成为广大企业的智能核心,在未来在未来5年,将逐步颠覆数字广告、电商销售、客户信息管理年,将逐步颠覆数字广告、电商销售、客户信息管理CRM、甚、甚至是至是OA领域的传统模式。领域的传统模式。1月14日,阿里宣布战略投资并控股中国最大的多屏整合数字广告平台易传媒。易传媒闫方军:五年内颠覆易传媒闫方军:五年内颠覆整个整个CRM营销产业营销产业马云:现在正在从马云:现在正在从IT Technology 到到DT云服务提供云服务提供面向云服务消费者,提供统一登录界面和访问根据云服务资源状况和消费者需求,包装云服务资源对云服务的消费设立服务等级,按需计费管理云消费者状态和请求简化和标准化云计算整体逻辑结构云服务管理云服务管理运行维护云计算架构系统,保障云架构的稳定和可靠云计算的类型和服务层次私有云公有云混合云操作系统操作系统+应用服务引擎应用服务引擎应用系统应用系统基础设施基础设施(IaaS)应用平台应用平台(PaaS)应用软件应用软件(SaaS)Infrastructure as a Service以服务的形式提供虚拟硬件资以服务的形式提供虚拟硬件资源,如虚拟主机源,如虚拟主机/存储存储/网络网络/数数据库管理等资源。据库管理等资源。用于无需购买服务器、网络设用于无需购买服务器、网络设备、存储设备,只需通过互联备、存储设备,只需通过互联网租赁即可搭建自己的应用系网租赁即可搭建自己的应用系统统典型应用:典型应用:Amazon Web Service(AWS)Platform as a Service提供应用服务引擎,如提供应用服务引擎,如互联网应用编程接口互联网应用编程接口/运运行平台等。行平台等。用户基于该应用服务引用户基于该应用服务引擎,可以构建该类应用。擎,可以构建该类应用。典型应用:典型应用:Google AppEngine,F,Microsoft Azure服务平服务平台台Software as a Service用户通过用户通过Internet(如浏如浏览器览器)来使用软件。用户来使用软件。用户不必购买软件,只需按不必购买软件,只需按需租用软件需租用软件典型应用:典型应用:Google Doc,S,Oracle CRM OnDemand,Office Live Workspace面向外部用户需求,通过开放网络面向外部用户需求,通过开放网络提供云计算服务提供云计算服务IDC,GoogleApp,Saleforce在线在线CRM大型企业按照云计算的架构搭建平台,面大型企业按照云计算的架构搭建平台,面向企业内部需求提供云计算服务向企业内部需求提供云计算服务企业内部数据中心等企业内部数据中心等兼顾以上两种情况的云计算服务兼顾以上两种情况的云计算服务Amazon Web Server等既为企业内部又为等既为企业内部又为外部用户提供云计算服务外部用户提供云计算服务按照部署模式分类按照部署模式分类按照交付模式分类按照交付模式分类阿里云在2014年上半年里成为了国内最大的公有云领域之中基础设施及服务中的老大。位于其后的则分别是:位于其后的则分别是:2.中国电信中国电信3.中国联通中国联通4.微软的微软的azure云云5.亚马逊的亚马逊的AWS部署层次的类型平台即服务Platform as a ServiceHigh VolumeTransactionsSoftware as a Service服务器网络存储Metering监控计费服务云开发云企业云多租赁安全中间件协作业务服务CRM/ERP/HR定制服务数据中心虚拟化,动态供应服务管理J2EEOn-ramps服务封装Ajax开发On-ramps开发工具与其他云的互操作软件即服务基础设施即服务部署层次的类型部署层次的类型云计算的类型和服务层次目录1云计算概述23云计算主要技术CloudStack+Hadoop生态系统18云管理平台虚拟化分布式文件系统结构化数据存储大规模并行技术云计算技术框架云计算技术框架分布式文件系统大规模并行计算结构化分布式数据存储虚拟化云计算云计算n云管理平台:云管理平台:实现对于云计算平台资源的管理、硬件及应用系统的性能和故障监控n分布式文件系统:分布式文件系统:可扩展的支持海量数据的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,提供容错功能(通常保留数据的3份拷贝),典型技术为GFS/HDFS/KFS以及中国移动提出的HyperDFSn大规模并行计算:大规模并行计算:在分布式并行环境中将一个任务分解成更多份细粒度的子任务,这些子任务在空闲的处理节点之间被调度和快速处理之后,最终通过特定的规则进行合并生成最终的结果。典型技术为MapReducen结构化分布式数据存储:结构化分布式数据存储:类似文件系统采用数据库来存储结构化数据,云计算也需要采用特殊技术实现结构化数据存储,典型技术为BigTable/Dynamo以及中国移动提出的HugeTablen虚拟化:虚拟化:即资源的抽象化,实现单一物理资源的多个逻辑表示,或者多个物理资源的单一逻辑表示云管理平台虚拟化技术n前端数据中心虚拟化前端数据中心虚拟化组件虚拟化:设备层面组件虚拟化:设备层面IDS/IPS,虚拟路由转发VRF,VDC,虚拟防火墙交换系统虚拟化:系统层面交换系统虚拟化:系统层面虚拟交换VSSN:1,提供更好的可用性虚拟私有云VPCNexusN:1提供更好的网络扩展能力网络虚拟化:连接层面网络虚拟化:连接层面VPN,MPLS/VPN,VLAN,VNet,OTV网络服务虚拟化:服务层面网络服务虚拟化:服务层面应用加速、L4-7交换机,安全服务,广域网优化技术n服务器和后端存储虚拟化服务器和后端存储虚拟化:存储虚拟化与统一存储虚拟化与统一IO:DCE:数据中心以太网,UnifiedIO/FCoEVSAN:虚拟SAN技术服务器及桌面虚拟化服务器及桌面虚拟化:x86服务器虚拟化小型机分区技术VDI技术:虚拟桌面技术前端前端虚拟虚拟 SANs/统一统一IO虚拟存储虚拟存储虚拟网络服务虚拟网络服务VirtualFirewallContext1VirtualSSLContext3虚拟机虚拟机前端虚拟化前端虚拟化 VirtualFirewallContext1VirtualFirewallContextVirtualSLBContextVirtualSSLContext3VirtualSSLContextVSSVLANVRFVPNsVDCvHBAVSANsFCoEGFS后端后端虚拟化不等于云计算虚拟化不等于云计算,云计算除了虚拟化之外,还需要从运虚拟化不等于云计算,云计算除了虚拟化之外,还需要从运维、管理、安全等方面进行调整来满足云计算的要求。维、管理、安全等方面进行调整来满足云计算的要求。虚拟化转化成云计算的要素云计算关键技术:资源管理与调度建立超大规模集群的资源管理系统,实现透明化的可伸缩计算系统,提高资源的使用效率、发挥计算资源的聚合效能关键技术虚拟机生成虚拟机文件管理(复制、备份)快速的动态部署技术资源监控与调度,高效负载均衡高效迁移技术故障快速检测与容错技术高效的资源动态扩展技术2323镜像文件存储器镜像文件存储器部署服务器、监控服务器调度服务器云计算关键技术:分布式文件系统文件划分为64M的块每一块至少在三个服务器上保存(可靠性)其中某块数据失效,会从其他块访问并恢复新的块主机(Master)管理所有元数据信息(每个块的具体大小、位置、起始)数据实际上直接在客户端和块服务器(ChunkServer)之间传输主机和块服务器之间保持通讯,以保证块服务器和块数据的有效性每次主机重启,都会重新从块服务器中刷新信息文件客户端文件客户端应用应用备份备份主机主机 MasterMasterC0C1C2C5块服务器块服务器C0C2C5块服务器块服务器C1块服务器块服务器文件客户端文件客户端应用应用C5C3文件命名空间文件命名空间块块1 2ef7块块n.块块m.块块s./foo/bar 时间200GB300GB500GB1TB传统模式自动精简配置模式1TB1TB减少预分配空间浪费达31%-50%资源利用率达到近100%不停机扩容快照空间自动扩展数据卷快照资源传统快照技术数据卷快照资源新一代快照技术预留100%空间预留20%空间自动智能扩展初始空间节省80%按需扩展,提高存储利用率无快照溢出问题分级存储与FC/SAS硬盘比较,SSD功耗降低近80%,访问速度提升近100倍四级分层存储,提高资源整体利用效率CacheCacheSSDSSDSASSASSATASATA性能提升第0层第1层第2层第3层典型功耗比较16W2W典型访问时间比较6ms0.09ms11W12ms自动精简配置 关键技术:智能空间管理实现资源动态分配存储资源管理计算资源管理网络资源管理应用性能管理Executive DashboardService Level Reporting统一管理中心n部署对计算、存储、网络的统一资源化管理平台部署对计算、存储、网络的统一资源化管理平台n网络,安全资源的触发联动技术网络,安全资源的触发联动技术n部署实现存储资源基于策略的动态调整机制部署实现存储资源基于策略的动态调整机制云计算关键技术:统一管理云计算关键技术:统一管理云计算关键技术:并行计算传统的并行计算算法复杂,并行规模有限(1024个节点),Mapreduce通过若干优化(本地化计算),简化模型(Map和Reduce)高效地并发计算(扩展到5000个节点)Google的搜索要求在几百毫秒内得到结果,如果采用传统的计算方式是不可能达到的。200多亿个网页,产生的索引是天文数据。2000年时2亿个网页,2005年是20亿,2009年初是200亿但这种模式只适合小众应用,不具有普适性v云计算时代的分布并行编程技术分布并行数据处理技术Google MapReduceHadoop MapReduce分布式文件系统Google File SystemHadoop Distributed File System分布式数据库Google BigTableHadoop HBase28云计算关键技术云计算中的数据并行处理技术云计算中的数据并行处理技术vHadoop中将Job分成map和reduce两种类型的任务,Job执行流程如下图:MapReduce示例:单词计数v案例:单词记数问题(WordCount)给定一个巨大的文本(如1TB),如何计算单词出现的数目?MapReduce示例:单词计数v使用MapReduce求解该问题Step1:自动对文本进行分割MapReduce示例:单词计数v使用MapReduce求解该问题Step2:在分割之后的每一对进行用户定义的Map进行处理,再生成新的对MapReduce示例:单词计数v使用MapReduce求解该问题Step3:对输出的结果集归拢(不同mapslot间copy到一起)、排序(sort)(系统自动完成)MapReduce示例:单词计数v使用MapReduce求解该问题Step4:通过Reduce操作生成最后结果MapReduce示例:单词计数v使用MapReduce求解该问题定义Map和Reduce函数privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedExceptionStringTokenizeritr=newStringTokenizer(value.toString();while(itr.hasMoreTokens()word.set(itr.nextToken();context.write(word,one);publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedExceptionintsum=0;for(IntWritableval:values)sum+=val.get();result.set(sum);context.write(key,result);互联网公司的大数据处理框架vGoogle:MapReduce、hadoop、GFSvAmazon:SimpleStorageService(S3)、vTwiter:StormvFacebook:ApacheHive、CassandravUCBerkeley:SparkvIBM:StreamBasevTaobao:OceanBase,TFSv讲义大纲讲义大纲1云计算概述23云计算主要技术CloudStack+Hadoop生态系统ComputeHypervisorStorageBlock&ObjectNetworkNetwork&NetworkServicesPrimaryStorageSecondaryStorageCloud平台及技术支持平台及技术支持HostsServersontowhichserviceswillbeprovisionedPrimaryStorageVMstorageClusterAgroupingofhostsandtheirassociatedstoragePodCollectionofclustersNetworkLogicalnetworkassociatedwithserviceofferingsSecondaryStorageTemplate,snapshotandISOstorageZoneCollectionofpods,networkofferingsandsecondarystorageManagementServerFarmResponsibleforallmanagementandprovisioningtasksCore CloudStack ComponentsZonePodClusterNetworkPrimaryStorageHostHostVMVMPodClusterSecondaryStorage Pod1.ClusterNAccessLayerHost2Cluster1Host1HostHost是部署是部署HypervisorHypervisor的物的物理主机理主机ClusterCluster由一组由一组HostHost组成组成ClusterCluster中的中的HostHost可访问共享可访问共享存储存储 (Primary Primary S Storagetorage)单个或多个单个或多个ClusterCluster组成组成PodPod一一个个PodPod通常配置一个通常配置一个2 2层交层交换机设备换机设备Availability Availability ZoneZone由一组由一组PodPod组成,配置二级存储组成,配置二级存储(Secondary Secondary S Storagetorage)整个云由单个或位于不同地理整个云由单个或位于不同地理位置的多个位置的多个Availability Availability ZoneZone构成构成PrimaryStorageZone1.L3switchSecondaryStoragePodNMgmtServerInternetDeployment ArchitectureInternetInternet服务目录服务目录&门户门户用户管理用户管理统计报表统计报表性能监控和管理性能监控和管理浏览器用户用户服务管理Telnet,VNC.虚拟服务器虚拟存储虚拟桌面虚拟网络资源申请资源申请资源访问资源访问物理资源的转变资源管理资源管理服务器服务器网络网络存储服务器和存储存储服务器和存储刀片服务器刀片服务器资源管理资源管理资源管理模板管理模板管理服务实例管理服务实例管理web安全管理安全管理接口管理接口管理物理系统物理系统虚拟系统虚拟系统ZoneZoneZoneZonePodsClustersHostsPrimary StorageSecondary StorageZoneZone资源池运营管资源池运营管理平台时序理平台时序用户应用用户应用v资源池管理资源池管理UIUI:帮助完成应用启动和准备,允许用户以自助方式完成:帮助完成应用启动和准备,允许用户以自助方式完成添加、移动和修改等虚拟机操作添加、移动和修改等虚拟机操作Cloudstack的主要功能的主要功能自动化管理:通过资源池管理自动化管理:通过资源池管理UIUI,实现高度自动化操作,实现高度自动化操作提供系统级资源调度,支持用户自定义资源调度策略,具通用调度引擎资源调度支持用户自定义资源调度策略,资源调度引擎和监控系统联动动态资源调度通过定制模板的方式,支持操作系统介质库创建,支持Xen和VMware裸机操作系统安装虚拟机创建、IP地址分配、用户名密码设定、系统镜像部署、软件安装与配置虚拟机自动化部署通过门户对虚拟服务器进行开机与关机、停止与恢复、重启、删除等操作虚拟机控制实现存储层面的自动化功能存储自动化自动化的为虚拟机设置IP地址、机器名称、子网掩码、网关以及用户名、密码网络自动化软件自动化部署通过部署工具和应用模板两种方式Cloudstack的主要功能的主要功能什么是HDFS?vHadoopDistributedFileSystemHadoop Distributed File System(HDFS)is theprimarystoragesystemusedbyHadoopapplications.HDFScreatesmultiplereplicasofdatablocksanddistributesthemoncomputenodesthroughoutaclustertoenablereliable,extremelyrapidcomputations.HDFS简介vHDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了。HDFS主要组件的功能NameNodeDataNode 存储元数据存储元数据 存储文件内容存储文件内容元数据保存在内存中元数据保存在内存中文件内容保存在磁盘文件内容保存在磁盘 保存文件保存文件,block,datanode之间的映之间的映射关系射关系维护了维护了block id到到datanode本地文件本地文件的映射关系的映射关系系统架构文件v文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)vNameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataNode等等vDataNode在本地文件系统存储文件块数据,以及块数据的校验和v可以创建、删除、移动或重命名文件,当文件创建、写入和关闭之后不能修改文件内容。NameNodevNamenode是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。v文件操作,NameNode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不经过NameNode,只会询问它跟那个DataNode联系,否则NameNode会成为系统的瓶颈NameNodev副本存放在那些DataNode上由NameNode来控制,根据全局情况做出块放置决定,读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗和读取时延vNamenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。DataNodev一个数据块在DataNode以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳vDataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。v心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。v集群运行中可以安全加入和退出一些机器Example:HDFS如何写文件?Write packetCreate file Write packetWrite packetSend ackSend ackSend ackClose fileExample:HDFS如何写文件?v写一个数据块Example:HDFS如何读文件?Read blockOpen fileClose fileGet block locationv客户端联系NameNode,得到所有数据块信息,以及数据块对应的所有数据服务器的位置信息v尝试从某个数据块对应的一组数据服务器中选出一个,进行连接v数据被一个包一个包发送回客户端,等到整个数据块的数据都被读取完了,就会断开此链接,尝试连接下一个数据块对应的数据服务器,整个流程,依次如此反复,直到所有想读的都读取完了为止读文件流程读文件流程节点失效是常态vDataNode中的磁盘挂了怎么办?vDataNode所在机器挂了怎么办?vNameNode挂了怎么办?DataNode的磁盘挂了怎么办?vDataNode正常服务v坏掉的磁盘上的数据尽快通知NameNodeDataNode所在机器挂了怎么办?v问:NameNode怎么知道DataNode挂掉了?v答:datanode每3秒钟向namenode发送心跳,如果10分钟datanode没有向namenode发送心跳,则namenode认为该datanode已经dead,namenode将取出该datanode上对应的block,对其进行复制。NameNode挂了怎么办?v持久化元数据操作日志(editlog)p记录文件创建,删除,修改文件属性等操作Fsimagep包含完整的命名空间pFile-Block的映射关系p文件的属性(ACL,quota,修改时间等)NameNode挂了怎么办?vSecondaryNameNode将NameNode的fsimage与editlog从Namenode复制到临时目录将fsimage同editlog合并,并产生新的fsimage(减少启动时间)将产生的新的fsimage上传给NameNode清除NameNode中的editlog注:SecondaryNameNode仅仅对NameNode中元数据提供冷备方案SecondaryNameNode进化vMapReduce是offline应用v基于HDFS的HBase是online应用HBasevHBase是一个分布式的、面向列的开源数据库,该技术来源于Changetal所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。vHBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。vHBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。vHBase中的表一般有这样的特点:v1大:一个表可以有上亿行,上百万列v2面向列:面向列(族)的存储和权限控制,列(族)独立检索。v3稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。Hbase系统框架图通过通过client读写数据读写数据HMaster管理元数据(表分区,管理分区的管理元数据(表分区,管理分区的 HregionServer)HRegionServer负责负责Region的数据存取的数据存取Hbase的所有数据都存放在的所有数据都存放在HDFS上上HDFS将文件分成将文件分成64M的块,并存储多个副本的块,并存储多个副本vhive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。v其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。HiveHivev主要分为以下几个部分:v用户接口,包括CLI,Client,WUI。v元数据存储,通常是存储在关系数据库如mysql,derby中。v解释器、编译器、优化器、执行器。vHadoop:用HDFS进行存储,利用MapReduce进行计算。Pigv什么是pigvPig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。vPig的特点v1、专注于于大量数据集分析(ad-hocanalysis,ad-hoc代表:asolutionthathasbeencustomdesignedforaspecificproblem);v2、运行在集群的计算架构上,YahooPig提供了多层抽象,简化并行计算让普通用户使用;这些抽象完成自动把用户请求queries翻译成有效的并行评估计划,然后在物理集群上执行这些计划;v3、提供类似SQL的操作语法;v4、开放源代码。SqoopvSqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具v可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。AvrovAvro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。vAvro是一个数据序列化的系统。Avro可以将数据结构或对象转化成便于存储或传输的格式。vAvro设计之初就用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。ZookeepervZookper是一种分布式的,开源的,应用于分布式应用的协作服务。它提供了一些简单的操作,使得分布式应用可以基于这些接口实现诸如同步、配置维护和分集群或者命名的服务。Zookper很容易编程接入,它使用了一个和文件树结构相似的数据模型。可以使用Java或者C来进行编程接入。v众所周知,分布式的系统协作服务很难有让人满意的产品。这些协作服务产品很容易陷入一些诸如竞争选择条件或者死锁的陷阱中。Zookper的目的就是将分布式服务不再需要由于协作冲突而另外实现协作服务。TezvTez是基于HadoopYarn之上的DAG(有向无环图,DirectedAcyclicGraph)计算框架。v它把ap/Reduce过程拆分成若干个子过程,同时可以把多个ap/Reduce任务组合成一个较大的DAG任务,减少了ap/Reduce之间的文件存储。v同时合理组合其子过程,也可以减少任务的运行时间。Sparkv Spark是 UC Berkeley AMP lab所 开 源 的 类 Hadoop MapReduce的通用的并行计算框架vSpark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;v不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS。能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。v工作原理Sparkv总总的的来来说说,一一个个 SparkSpark运运行时环境由行时环境由4 4个阶段构成:个阶段构成:v阶阶段段1 1:构构建建应应用用程程序序运运行时环境行时环境v阶阶段段2 2:将将应应用用程程度度转转换换为为DAGDAG图图v阶阶段段3 3:按按照照依依赖赖关关系系调调度执行度执行DAGDAG图图v阶阶段段4 4:销销毁毁应应用用程程序序运运行时环境。行时环境。Q&AQuestions?!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!