物联网导论云计算与大数据

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,物联网导论云计算与大数据,通过本章的学习，应掌握云计算的定义、基本概念及模型。了解云计算的虚拟化技术、云计算的机制以及云计算的基本架构。掌握大数据的概念和典型的大数据处理系统，大数据处理的基本流程，了解,Hadoop,分布式大数据系统。,本章学习目标,应掌握云计算的定义、基本概念及模型,云计算的虚拟化技术、云计算的机制以及云计算的基本架构,大数据的概念,大数据处理的基本流程,本章知识点,10.1,云计算基础,10.1.1,云计算的起源与定义,（,1,）效用计算与网络技术催生了云计算,（,2,）远程服务加快了云计算的发展,（,3,）早期的“网络云或云”与现在的“云”的异同,计算机应用的效用化及互联网的普及化带来了云计算概念的诞生与发展，企业推出的远程服务及远程计算资源的租赁，使得云计算正真成为一种全新的信息技术,1,云计算的起源,（,1,）,NIST,定义：云计算是一种模型，可以实现随时随地、便捷地、按需地从可配置计算资源共享池中获取所需资源（例如，网络、服务器、存储、应用程序及服务），资源可以快速供给和释放，使管理的工作量和服务提供者的介入降低至最少。这种云模型由五个基本特征、三种服务模型和四种部署模型构成。计算资源是指各种硬件和软件资源（如服务器、软件、网络等与计算相关的实体）。,（,2,）本书的定义：云计算是一种基于网络的分布式计算，它可以按需提供给用户可扩展和计量的计算资源。,2,云计算的定义,（,1,）集群化的冗余与故障转移,（,2,）网格计算,（,3,）虚拟化,（,4,）使能技术,3,云计算的技术创新,10.1.2,云计算基本概念及模型,1,基本概念与术语,云是指一个独特的计算环境，它可以按需提供给用户可扩展和计量的计算资源。云这个术语原来比喻,Internet,，在本质上是由网络构成的，可用于对一组分散的计算资源进行远程访问。云的符号如图所示。在云计算出现之前，云符号代表,Internet,，在云计算中专门表示云环境边界。,（,1,）云,(Cloud),（,2,）计算资源,物理服务器,虚拟服务器,软件,服务,存储设备,网络设备,提供基于云计算资源的一方称为云提供者,(Cloud Provider),，使用基于云的计算资源的一方称为云用户,(Cloud Consumer),。,（,3,）云用户与云提供者,从计算资源的角度看，可扩展性是指计算资源可以增加或减少的使用需求的能力。可扩展性主要有两种类型：第一种是向外或向内扩展的水平扩展；另一种是向上或向下扩展的垂直扩展。,（,4,）可扩展性,（,a,）水平扩展,物理服务器池,虚拟服务器,A,A,B,A,B,C,水平扩展,（,b,）垂直扩展,A,B,4,个,CPU,8,个,CPU,垂直扩展,云服务,(Cloud Service),是指任何可以通过远程访问的计算资源。云服务的含义较宽泛，可以是一个简单的,Web,程序，或者是管理工具，或者更大环境和其他计算资源远程接入点。,云计算是以服务形式提供计算资源的，这些服务封装了其他计算资源，向客户端提供远程应用功能，亦即“作为服务”,(As-a- Service),。,（,5,）云服务,云端用户,(Cloud Consumer),是一个临时的运行角色，由访问云服务的软件承担此功能。常见的云端用户可为软件程序、服务、工作站、笔记本电脑、移动终端等。,云计算可以降低用户的投资，提高计算资源的可扩展性，提高可用性和可靠性。,（,6,）云端用户,2,云概念与模型,依照与云以及承载云的计算资源之间的关系和交互状况，组织机构与人可以在云环境中承担不同类型的、事先定义好的角色，各角色参与云计算活动、履行与之相应的职责。角色可分为以下几种：,（,a,）云提供者；（,b,）云用户；,（,c,）云服务拥有者；,（,d,）云资源管理者；（,e,）其他角色；,（,f,）组织边界；（,g,）信任边界,（,1,）角色与边界,（,a,）按需使用,（,b,）泛在接入,（,c,）多租户与资源池,（,d,）弹性,（,e,）可计量使用,（,f,）可恢复性,（,2,）云计算的,6,大特性,单租户环境中，每个云用户都有单独的计算资源实例,云服务用户,A,云服务,A,存储设备,A,云服务用户,B,云服务,B,存储设备,B,在多租户环境中，计算资源的一个实例要服务多个用户,云服务用户,A,云服务,A,云服务用户,B,云服务,B,共享云存储设备,云交付模型,(Cloud Delivery mode),是云提供者提供具体的、事先封装好的计算资源的组合，常见的云交付模型有,IaaS,、,PaaS,和,SaaS,。,（,3,）云交付模型,IaaS,交付模型是一种自我包含的计算资源，由以基础设施为中小的计算资源组成，可以通过云服务接口和工具访问、管理这些资源。这个环境可以包括硬件、网络、连通性、操作系统以及其他一些原始的计算资源。在,IaaS,中计算资源通常是虚拟化的封装，在运行时扩展和定制基础设施就较简单容易。,IaaS,环境一般允许云用户对其资源配置和使用进行更高层次的控制。,IaaS,提供的计算资源通常是未配置好的，需要云用户配置管理。,（,a,）基础设施即服务,(IaaS),云用户使用,IaaS,环境中的虚拟服务器,云服务用户,云提供者,物理服务器,虚拟服务器,Iaas,服务合约,PaaS,交付模型是预先定义好的“就绪可用”,(Ready-to-Use),的环境，一般由已部署好的和配置好的计算资源组成。,PaaS,依赖于使用已就绪环境,(Ready-made),环境，设立好一套预先封装好的产品和用来支持定制化应用的整个交付生命周期的工具。,在预先准备好的平台上，用户省去了建立和维护裸的基础设施计算资源的管理负担。对于承载和提供这个平台的底层计算资源，云用户的控制权的级别较低。,（,b,）平台即服务,(PaaS),云用户访问已就绪的,PaaS,环境,云服务用户,云提供者,已就绪的环境,虚拟服务器,Iaas,服务合约,SaaS,通常将软件定位为共享的云服务，作为“产品”或通用的工具提供服务。,SaaS,交付模型一般是一个可重用的云服务，对大多数云用户可用。,（,c,）软件即服务,(SaaS),SaaS,云服务,云服务用户,屏蔽了环境细节云服务,Iaas,服务合约,三个基础的云交付模型组成了一个资源提供的层级，可以把这些模型组合起来使用。常见的组合有,IaaS+PaaS,，,IaaS+PaaS+SaaS,。,（,e,）云交付模型组合,云部署模型表示的是某种特定的云环境类型，主要是以所有权、大小和访问方式来分。常见的云部署有公有云、社区云、私有云和混合云。,（,a,）公有云：,公有云,(Public Cloud),是由第三方云提供者拥有的、可公共访问的云环境。,（,b,）社区云：,社区云与公有云类似，只有社区内的云用户才可访问社区云。社区云可以是社区成员或提供具有访问限制的公有云的第三方提供者共同拥有的。,（,c,）私有云：私有云是由一家组织或单位单独拥有的云。,（,d,）混合云：混合云是由两个或多个不同云部署模型组成的云环境。,（,4,）云部署模型,虚拟化技术是云计算的关键技术之一。虚拟化是将物理的计算资源转化为虚拟的计算资源的过程。计算资源的虚拟化主要包括以下几个部分：,服务器的虚拟化，即将一个物理服务器抽象为一个虚拟的服务器；,存储设备的虚拟化，即将一个物理存储设备抽象为一个虚拟存储设备或一个虚拟磁盘；,网络的虚拟化，即将一个物理的路由器、交换机等网络设备抽象为逻辑网络，如,VLAN,。,10.1.3,虚拟化,采用虚拟化软件创建新的虚拟服务器时，首先分配物理计算资源，然后安装操作系统。虚拟服务器使用自己的操作系统，它独立于创建虚拟服务器的操作系统。安装了操作系统的虚拟机与在物理服务器上运行一样。,运行虚拟化软件的物理服务器称为主机,(Host),或物理主机,(Physical Host),，其底层硬件可以被虚拟化软件访问。虚拟化软件功能包括系统服务（与虚拟机管理相关的服务），这些服务通常不会出现在标准的操作系统中。因此，这种虚拟化软件有时也称为虚拟机管理器,(Virtual Machine Manager),或虚拟机监视器,(Virtual Machine Monitor, VMM),。,（,1,）硬件无关性,（,2,）服务器整合,（,3,）资源复制：创建标准化虚拟机映像；增强灵活性；回滚功能；支持业务连续性。,1,硬件无关性与服务器整合,基于操作系统的虚拟化是指：在一个已存在的操作系统上安装虚拟化软件，该已存在的操作系统称为宿主操作系统,(Host Operating System),，例如，一个用户的工作站安装了一操作系统，现在欲生成虚拟服务器，于是，就像安装其他软件一样，在宿主操作系统上安装虚拟化软件。该用户需要利用这个应用软件生成并运行一个或多个虚拟服务器，并对生成的虚拟服务器直接访问。由于宿主操作系统可以提供对硬件设备的支持，所以，即使虚拟化软件不能直接应用硬件驱动程序，但操作系统也可以支持虚拟机使用硬件驱动程序。,图为基于操作系统的虚拟化逻辑分层结构，其中,VM,首先安装到宿主操作系统上，然后生成虚拟机。虚拟化带来的硬件无关性使硬件计算资源的使用更加灵活。,2,基于操作系统的虚拟化,基于硬件的虚拟化是指，将虚拟化软件直接安装在物理主机硬件上，这样可以绕过宿主操作系统。由于虚拟服务器与硬件的交互在再需要来自宿主操作系统的中间环节，因此，基于硬件的虚拟化具有更高的效率。在这种情况下，虚拟化软件一般是指虚拟机管理程序,(Hypervisor),，其具有简单的用户接口，所需的存储空间非常小。它由处理硬件管理功能的软件构成，形成了虚拟化管理层。为了虚拟服务器，它优化了驱动程序、系统服务和系统的性能开销，使得多个虚拟服务器可以同时在一个硬件平台上进行交互。图所示了基于硬件虚拟化的逻辑分层，它不需要另一个宿主操作系统。,3,基于硬件的虚拟化与虚拟化管理,基于硬件的虚拟化逻辑分层结构,10.1.4 Web,技术,WWW,是通过,Internet,访问互联的信息资源系统。它由两个,Web,浏览器客户端和,Web,服务器两个基本组件构成。另外，还有其他一些如代理、缓存服务、网关、负载均衡等组件，用来改善诸如扩展性和安全性等,Web,的应用特性。,Web,技术架构由三个基本元素组成：,统一资源定位符,( URL),超文本传输协议,(HTTP),标记语言,(Markup Language) HTML, XML,Web,资源也称为超媒体,(Hypermedia),，以区别超文本，这就意味着包含图形、音频、视频、纯文本和,URL,等，全部可以在单个文件中引用。,1,基本,Web,技术,基于,Web,技术的分布式应用，由于具有高性能的访问性，因此这些应用用于云环境中。一个,Web,应用的简化通用架构如图所示，为三层结构，分别为表示层、应用层和数据层。表示层用于用户界面，应用层用于实现应用逻辑，数据层由持久性数据存储构成。,2 Web,应用,Web,服务的核心技术由,Web,服务描述语言、,XML,描述语言、,SOAP,和,UDDI,体现。,3 Web,服务,Web,服务描述语言,(Web Service Description Language,，,WSDL),为标记语言，用于创建,WSDL,定义，该定义界定了,Web,服务的应用编程接口，包括独立的操作或功能，以及每个操作的输入,/,输出消息。,（,1,）,Web,服务描述语言,Web,服务交换的消息必须采用,XML,表示。,XML,模式定义了基于,XML,的输入,/,输出消息的数据结构，这些消息由,Web,服务来交换。,XML,模式可以直接链接到,WSDL,定义，或嵌入到,WSDL,定义中。,（,2,）,(XML schema definition language),SOAP,它的前身为简单对象访问协议，它定义了,Web,服务交换的请求和响应消息的通用格式。,SOAP,消息由报文和报头组成，报文是主要消息内容，报头一般包含运行时可处理的元数据。,（,3,）,SOAP,统一描述、发现和集成,(Universal Description Discovery, and Integration, UDDI),规定服务要进行注册，将,WSDL,定义发布到服务目录，以便用户发现该服务。,（,4,）,UDDI,10.2,云计算机制,云基础设施是云环境的基础，是云技术构架基础的主要构件，主要包括的云基础设施机制有：逻辑网络边界、虚拟服务器、云存储设备、云使用监控、资源复制和已就绪环境等，它们是云平台中常见的核心组件。,10.2.1,云基础设施机制,（,1,）逻辑网络边界的定义：逻辑网络边界,(Logical Network perimeter),定义为：将一个网络环境与通信网络的其他部分隔离开，形成一个虚拟网络边界。它包含并隔离了一组相关的基于云的计算资源，这些资源在物理上可能是分布式的。,（,2,）用途：,逻辑网络边界的机制可被用于以下情形中：,（,a,）将云中的计算资源与非授权用户隔离；,（,b,）将云中的计算资源与非用户隔离；,（,c,）将云中的计算资源与云用户隔离；,（,d,）控制被隔离的计算资源的可用带宽。,1,逻辑网络边界,逻辑网络边界通常是由数据中心的网络设备建立的，一般作为虚拟化计算资源进行部署，主要包括：,（,a,）虚拟防火墙,(Virtual Firewall),：虚拟防火墙是一种计算资源，可主动过滤被隔离的网络流量，控制与,Internet,的交互。,（,b,）虚拟网络,(Virtual Network),：虚拟网络一般通过,VLAN,形成，用来隔离数据中心基础设施内的网络环境。,（,3,）逻辑网络包含的设备,逻辑网络边界构建逻辑网络布局,虚拟服务器,(Virtual Server),是一种模拟物理服务器的虚拟化软件。通过云，向用户提供独立的虚拟化服务器实例。云提供者使多个云用户共享同一物理服务器。虚拟服务器与虚拟机是同一个含义。,如图所示，,2,个物理服务器提供了,3,个虚拟服务器。一个给定的物理服务器可以共享的实例数量由其容量决定。虚拟服务器是最基本的云环境构建模块。每个虚拟服务器均可以存储大量的信息资源。,2,虚拟服务器,虚拟服务器组群,云存储设备,(Cloud Storage Device),机制是指专门为云配置而设计的存储设备。同物理服务器一样，它可以进行虚拟化。在支持按使用计费的机制时，云存储设备通常可以提供固定增幅的容量分配。另外，通过云存储服务，还可以远程访问云存储设备。,云存储的一个主要问题是数据的安全性、完整性和保密性。对于大型数据库存储的性能来说，本地存储的性能要优于远程存储的性能。,3,云存储设备,云存储设计机制提出的常见数据结构有文件,(File),、块,(Block),、数据集,(Dataset),和对象,(Object),。,文件：数据集合分组，存放在文件夹中的文件中；,块：存储的最低级，最接近硬件，数据块是可被访问的最小数据单位；,数据集：基于表格的、以分隔符分隔的或以记录形式组织的数据集合；,对象：将数据及其相关元数据组织为,web,的资源。,（,1,）云存储等级,传统的网络存储大多数受到网络存储接口类型的影响，包括了符合标准协议的存储设备，例如，用于存储块和服务器消息块,(SMB),的,SCSI,，用于文件与网络存储的通用,Internet,文件系统,(CIFS),和网络文件系统,(NFS),。文件存储需要将独立的数据存入不同的文件，这些文件的大小和格式可以不同，并且可以形成文件夹和子文件夹。当数据发生变化时，原来文件通常要被生成的新文件替换。,（,2,）网络存储接口,各种类型的数据都可以作为,Web,资源被引用和存储，这即为对象存储，它可以支持多种数据和媒体类型。实现这种接口的云存储设备通常可以通过,HTTP,为主要协议的,REST,，或基于,Web,服务的云来访问。,SNIA,（网络存储协会）的云数据管理接口,(CDMI),规范支持使用对象存储接口。,（,3,）对象存储接口,基于数据库存储接口的云存储设备机制除了支持基本存储操作外，通常还支持查询语言，并通过标准,API,或管理用户接口实现存储管理。这种存储可分为关系数据库存储，和非关系数据库存储两类。,（,4,）数据库存储接口,云使用监控机制是一种轻量级的自治软件，用来收集和处理计算资源的使用情况数据。根据需要收集的指标和收集数据的方式，云使用监控器可以不同的实现形式。常见的实现形式为监控代理、资源代理和轮询代理。每种形式都将收集到的使用情况数据发送到日志数据库，以便后续处理和报告。,4,云使用监控,复制被定义为对同一计算资源创建多个实例，通常在需要加强计算资源的可用性和性能时执行。,5,资源复制,已就绪环境机制是,PaaS,云交付模型定义的组件，它代表的是预定义的云平台，该平台由一组已安装的计算资源组成，云用户可以使用和定制，如图所示。云用户使用这些环境在云内远程开发和配置自身的服务与应用程序。典型的已就绪环境包括预安装的计算资源，如数据库、中间件、开发工具和管理工具。已就绪环境通常配备一套完整的软件开发工具包,(SDK),。,中间件用于多租户平台，支持开发和部署,Web,应用程序。一些云提供者向包含计费参数的不同性能的云服务提供运行时的执行环境。,6,已就绪环境,特殊云机制是完成特定运行时的一个功能的实体，用来支持一个或多个云特性。特殊云机制包括了自动伸缩监听器、负载均衡器、,SLA,监控器、按使用付费监控器、审计监控器、故障转移系统、虚拟机监控器、资源集群、多设备代理和状态管理数据库。这些特殊云机制可以看做是云基础设施的扩展，它们可以以多种方式组合，作为不同的和定制的技术架构的一部分。,10.2.2,特殊云机制,自动伸缩监听器,(Automated Scaling Listener),机制是一个服务代理，它监控和追踪云服务和云用户之间的通信，用以动态自动伸缩。自动伸缩监听器部署子云中，通常接近防火墙，在这里它们自动跟踪负载状态信息。负载量可以由用户产生的请求量、或某种类型的请求引发的后台处理量的需求来决定。,1,自动伸缩监听器,水平扩展常见方法是对负载在两个或更多的计算资源进行负载均衡，与单一计算资源相比，它提升了性能和容量。负载均衡器,(Load Balancer),机制是一运行代理，其作用就是负载均衡或者是水平扩展。负载均衡器的基本工作原理如图所示，图中负载均衡器实现为代理服务器，它将收到的负载请求消息透明地分配到两个冗余的云服务实现上，相应地最大化云服务的性能。,负载均衡器的目的是优化计算资源的使用，避免过载并最大化吞吐量。负载均衡器机制可以是：多层网络交换机、专门硬件设备、专门的软件系统和代理服务器。负载均衡器通常位于产生负载的计算资源和执行负载处理的计算资源间的通信路径上。,2,负载均衡器,SLA,监控器,(SLA Monitor),机制被用来专门观察云服务的运行时的性能，确保它们履行了,SLA,中公布的约定,QoS,需要。,SLA,监控器收集的数据由,SLA,管理系统处理，并集成到,SLA,报告的标准中。当异常条件发生时，如当,SLA,监控器报告有云服务“下线”时，系统可以主动地修复转移云服务。,3 SLA,监控器,故障转移系统,(Failover System),机制通过使用现存的集群技术提供冗余来增加计算资源的可靠性和可用性。,故障转移系统通常用于关键任务和重用的服务。故障转移系统可以跨越多个地理区域，这样每个地点都能有一个或多个同样计算资源的冗余。,故障转移系统有时会利用资源复制机制提供冗余的计算资源实例。主动监控这些资源实例，以获得它们的失效与不可用性的情况。故障转移系统有两种基本配置，即主动,主动，主动,被动配置。,4,故障转移系统,虚拟机监控器,(Hypervisor),机制是虚拟化基础设施的最为基础的部分，主要用来在物理服务器上生成虚拟服务器实例。虚拟机监控器通常限于一台物理服务器，因此只能创建哪台服务器的虚拟映像，虚拟服务器通过在每台物理服务器上的单个虚拟机监控器创建，这三个虚拟机监控器共同受到一个,VIM,的管理控制。,5,虚拟机监控器,资源集群,(Resource Cluster),机制是将多个计算资源的实例分为一组，使得它们能像一个资源那样进行操作，这增强了计算资源的组合计算能力、负载均衡能力和可用性。,资源集群架构依赖于计算资源实例间的高速网络链接或集群节点，在计算资源实例间就工作负载分布、任务调度、数据共享和系统同步等进行通信。,常见的资源集群类型包括：,（,1,）服务器集群,(Server Cluster),（,2,）数据库集群,(Data Cluster),（,3,）大数据库集群,(Large Data Cluster),6,资源集群,一个云服务可能会被大量云服务用户访问，而它们对主机硬件设备和通信需求是不同的。为了克服云服务和不同云服务用户之间的不兼容性，需要创建映射逻辑来转换运行时交换的信息。,多设备代理,(Multi-device broker),机制用来帮助运行时的数据转换，使得云服务能够被更广泛的云服务用户程序和设备所使用。,7,多设备代理,云计算资源需要创建、配置、维护和管理，云管理机制可以完成这些功能。以下将介绍云的管理机制系统，主要包括远程管理系统、资源管理系统、,SLA,管理系统和计费管理系统。这些系统通常由,API,整合在一起，为用户提供较完善的云管理服务。,10.2.3,云管理机制,远程管理系统,(Remote Administration System),机制向外部云资源管理者提供工具和用户界面来配置并管理云计算资源。用户界面通常是一个特定类型的门户网站。,远程管理系统能够建立一个入口，以便访问各种底层系统的控制与管理功能，这些功能包括了资源管理、,SLA,管理和计费管理。,1,远程管理系统,资源管理系统,(Resource Management System),机制帮助协调计算资源，以响应云用户和云提供者执行的管理，其结构如图所示。系统的核心是虚拟基础设施管理器,(VIM),，它用于协调服务器硬件，可以从最合适的底层物理服务器创建虚拟服务器实例。,VIM,用于管理一系列跨多个物理服务器的计算资源，例如,VIM,可以创建并管理跨不同物理服务器的虚拟机监控器的多个实例，或者将一个物理服务器上的虚拟服务器分配到另一个物理服务器上,/,资源池。,2,资源管理系统,SLA,管理系统,(SLA Management System),机制代表的是一系列商品化的可用云管理产品。这些产品提供的功能有：,SLA,数据库的管理、收集、存储、报告以及运行时通知，其结构如图所示。,SLA,管理系统包含一个,SLA,管理器和,QoS,测量库。,3 SLA,管理系统,计费管理系统,(Billing Management System),机制专门用于收集和处理云使用数据，它涉及云提供者的结算和云用户的计费。计费管理系统依靠云使用费监控器来收集运行时云使用数据。这些数据存储在系统组件的一个库中，计费、报告和发票等动作都从该库中获取数据。,4,计费管理系统,10.3,大数据技术,10.3.1,大数据的发展及其相关概念,2008,年，著名的,Nature,杂志推出了“大数据”专辑。,2012,年,3,月，美国政府发布了,大数据研究和发展倡议,，投资,2,亿美元发展大数据研究。,2012,年,7,月，日本提出以电子政府、电子医疗、防灾等为中心制定了新的信息通信战略，重点关注大数据的研究与应用。,2013,年,1,月，英国政府宣布将在对地观测、医疗卫生等大数据和节能计算计算方面投资亿英镑。同年，我国的上海市、重庆市等地相继分布了大数据行动计划。,1,大数据的发展,2,大数据的概念与特点,大数据是一个较为抽象的概念，维基百科将大数据描述为：大数据是现有数据库管理工具和传统数据处理应用很难处理的大型、复杂的数据集，大数据的挑战包括采集、存储、搜索、共享、传输、分析和可视化等。,（,1,）大数据的概念,（,a,）规模性,(Volume),规模性是指需要采集、处理、传输的数据容量大。,（,b,）多样性,(Variety),多样性是指数据的种类多，复杂性高。,（,c,）高速性,(Velocity),高速性是指需要频繁地采集、处理和输出。,大数据满足三“,V,”条件,大数据的来源很多，主要包括物联网、信息管理系统、网络信息系统、科学实验系统等，这些数据类型有结构化数据、半结构化数据和非结构化数据。,（,2,）大数据的来源,在现今信息、通信技术广泛应用的环境下，数据的采集、分析、处理与传统的方式有较大的不同，主要表现在：,（,a,）数据产生的方式不同,在大数据环境下，数据采集的方式由以往的被动方式转变为主动采集方式。,（,b,）数据采集的密度不同,以往数据采集的密度较低，所获得的采样数据有限。在大数据环境下，有了大数据处理系统的支撑，可以对需要分析的事件数据进行更加密集地采样，从而精确地获得事件的全局数据。,（,3,）大数据的特点,（,c,）数据的来源不同：以往我们多从各个单一的数据源获取数据，获得的数据较为孤立，不同数据源之间相互整合的难度较大。在大数据环境下，我们可以通过分布式计算、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理。,（,d,）数据的处理方式不同：以往我们对数据的处理大多采用离线处理，对已生成的数据集中进行分析处理，不对实时产生的数据进行分析。在大数据时代，我们可以根据应用的实际需求对数据采取灵活的处理方式，对较大的数据源、响应时间要求低的应用可以采取批处理的方式集中处理，而对响应时间要求高的实时数据的处理则采用流处理的方式、进行实时处理，并且可以通过对历史数据的分析进行预测。,（,e,）数据量大、且结构种类多样,大数据需要处理的数据量通常达到了,PB,级,(1024TB),或,EB(1024PB),级，且数据的类型多种多样，既包括结构化数据，也包括半结构和非结构化数据。这就对大数据的存储和处理带来了巨大的挑战，单节点的存储容量和计算能力成为了大数据的瓶颈。,分布式系统是大数据处理的基本方法，分布式系统将数据分割后存储到多个节点，并在多个节点发起计算，解决单节点存储和计算的制约。常见的数据分割方法有随机法、哈希法和区间法。,大数据在社会生活的各个领域都将得到广泛的应用，这些领域包括物联网、科学计算、金融、社交网络、移动服务、,Web,、多媒体等。不同领域的大数据应用具有不同的特点，其响应时间、系统的稳定性、计算的精度各有不同。,（,4,）大数据的应用领域,大数据处理的数据源类型不同，有结构化的、半结构化的、还有非结构化的数据，数据处理的需求各不相同，有些需要对海量已有数据进行批量化处理，有的需要对大量实时生成的数据实时处理，有的需要在数据分析时反复迭代计算，有的则需要对图像数据进行分析计算。目前典型的大数据处理系统有数据查询分析计算协调、批处理系统、流式计算系统、迭代计算系统、图计算系统和内存计算系统。,10.3.2,典型的大数据处理系统,在大数据环境下，数据查询分析计算系统需要具备对大规模数据进行实时或准实时查询的能力，数据规模的增长以超出了传统关系数据库的承载及处理能力。目前主要的数据查询分析计算系统有,HBase,、,Hive,、,Cassanda,、,Dremel,、,Shark,和,Hana,等。,1,数据查询分析计算系统,MapReduce,是被广泛应用的批处理计算模式。,MapReduce,对具有简单数据关系、易于分割的大数据采用了“分而治之”的并行处理思想，将数据记录分为,Map,和,Reduce,两个简单的操作，提供了一个统一的并行计算框架。批处理系统将复杂的并行计算的实现进行封装，大大降低开发人员的并行程序设计的难度。,Hadoop,和,Spark,是典型的批处理系统。,MapReduce,处理模式不支持迭代计算。,2,批处理系统,流式计算具有很强的实时性，需要对应不断产生的实时数据处理，使数据不积压、不丢失，常常用于处理电信等行业及互联网行业的访问日志等。,Facebook,的,Scribe,，,Apache,的,Flume,，,Twitter,的,Storm,，,Yahoo,的,S4,，,UCBerkeley,的,Spark Streaming,是常用的流式计算系统。,3,流式计算系统,对应,MapReduce,不支持迭代计算的缺陷，人们对,Hadoop,的,MapReduce,进行了大量改进，,Haloop,、,iMapReduce,、,Twister,、,Spark,是典型的迭代计算系统。,Spark,是基于内存计算的开源集群计算框架。,4,迭代计算系统,社交网络，网页链接等包含具有复杂关系的图数据，这些图数据的规模巨大，可包含数十亿顶点和上百亿条边，图数据需要由专门的系统进行存储和计算。常用的图计算系统有,Google,的,Pregel,、,Pregel,的开源版本,Giraph,、微软的,Trinity,、,Berkeley AMPLab,的,GraphX,以及高速图数据处理系统,PowerGraph,。,5,图计算系统,目前常用的内存计算系统有分布式内存计算系统,Spark,、全内存式分布式数据库系统,HANA,、,Google,的可扩展交互查询系统,Dremel,。,6,内存计算系统,大数据的处理流程可以定义为在适合工具的辅助下，对广泛异构的数据进行抽取和集成，结果按照一定的标准统一存储，利用合适的数据分析技术对存储数据进行分析，从中获取有益的知识并利用恰当的方式将结果提交给终端用户。大数据处理的流程如图所示。,10.3.3,大数据处理的基本流程,因大数据处理的数据来源其类型较丰富，大数据处理的第一步是对数据进行抽取和集成，从中提取关系和实体，经过关联和聚合等操作，按照统一的格式对数据进行存储。现有的数据抽取和集成的方法有三种：,（,1,）基于物化或,ETL,方法的引擎,(Materialization or ETL Engine),；,（,2,）基于联邦数据库或中间件方法的引擎,(Federation Engine or Mediator),；,（,3,）基于数据流方法的引擎,(Stream Engine),。,ETL,，,Extract-Transform-Load,，用来描述将数据从来源端经过抽取,(extract),、转换,(transform),、加载,(load),到目的端的过程。,1,数据抽取与集成,数据分析是大数据处理流程的核心，通过数据抽取和集成环节，由于已从异构的数据源中获得用于大数据处理的原始数据，因此用户可以根据自己的需求对这些数据进行分析，如数据挖掘、机器学习、数据统计等。数据分析可以用于决策支持、商业、推荐系统和预测系统等。,2,数据分析,在大数据处理流程中，用户最关心的是数据处理的结果，正确的数据处理结果只有通过合适的展示方式才能被终端用户理解。可视化和人机交互是数据解释的主要技术。,3,数据解释,Hadoop,是由,Apache,软件基金会开发的开源、高可靠、伸缩性强的分布式计算系统，主要用于大于,1TB,的海量数据处理。,Hadoop,采用,Java,语言开发，实现了对,Google,的,MapReduce,核心技术的开源。目前，,Hadoop,的核心模块主要包括,HDFS(Hadoop Distributed File System),和分布式计算框架,MapReduce,，该结构实现了计算和存储的高度融合，非常适应于面向数据的系统架构的分布式处理。,第一代,Hadoop,包含和、三个版本，最后演化为了版本；第二代,Hadoop,包含和两个版本，版本比版本增加了,NameNode HA,和,Wire-compatibility,两个特性。,10. 4 Hadoop,：分布式大数据系统,Hadoop,是对大数据进行自动处理的系统，是一种并行数据处理的方法，实现自动处理时需要对数据进行分割，对数据的分割是在数据存储就开始的，因此文件系统是,Hadoop,系统重要的组成部分，也是它实现自动并行处理的框架基础。,2 HDFS,Hadoop,中的,HDFS,的原型来自于,Google,文件系统,(Google File System, GFS),，为了满足,Google,迅速增长的数据处理要求，,Google,设计并实现了,GFS,。,GFS,是一个可扩展的分布式文件系统，用于对大量数据进行访问的大型、分布式应用。它运行在普通、廉价的计算机硬件上，可提供较好的容错性能，给大量的用户提供总体性能较高的服务，也可以提供容错功能。,GFS,为分布式结构，是一个高度容错的网络文件，主要由,Master,（主）和众多的,Chunkserver,（大块设备）构成，其体系结构如图所示。,（,1,）,HDFS,文件系统的原型,GFS,（,2,）,HDFS,文件的基本结构,HDFS,在对一个文件存储时采用了两个重要策略：一是副本，二是分块。副本策略保证了文件存储的高可靠性；分块策略保证了数据并发读写的效率，是,MapReduce,实现并行数据处理的基础。,（,c,）文件写入的基本过程：一个文件要写入的,HDFS,，首先由,Namenode,为该文件创建一个新的记录，该记录为文件分配存储节点，包括文件的分块存储信息。在写入时，系统会对文件进行分块，文件写入的客户端获得存储位置的信息后，直接与指定的,Datanode,进行通信，将文件块按,Namenode,分配的位置写入到指定的,Datanode,，数据块在写入时不再通过,Namenode,，因此,Namenode,不会成为数据通信的瓶颈。,（,3,）,HDFS,的存储过程,1.,简述云计算的起源，网络“云”与云计算中的“云”有何异同？,2.,云计算主要有哪几种定义？,3.,云计算是在那些技术上的创新？,4.,试简述云、计算资源、云用户与云提供者、可扩展性、云服务和云端用户的含义与概念。,5.,云计算中的角色与边界都有那些？,6.,云计算有哪,6,大特性？,7.,常见的云交付模型有那些？试简述之。,8.,常见的云部署有哪些？试简述之。,9.,计算资源的虚拟化主要包括那几种？,10.,试简述,Web,技术。,11.,云基础设施机制主要包括哪些内容？,12.,常见的云存储机制中数据结构有哪几种？试简述之。,13.,常见的云监控机制的实现形式有哪些？,14.,特殊云机制包括哪些机制？,15.,常见的资源集群类型包括哪些？,16.,云管理机制主要包含哪些系统？,17.,基本云架构有哪些？试述资源池架构的组成与作用。,18.,动态可扩展架构有何作用？试简述常用的动态扩展类型。,19.,什么是大数据？它有何特点？,20.,典型的大数据处理系统有哪些？,21.,简述大数据处理的基本流程。,22. Hadoop,的核心模块主要包括哪些？,23.,简述,GFS,的简单工作过程。,24. HDFS,的存储过程中采用了哪两种策略？简述在,HDFS,中文件写入的基本过程。,习题,谢谢大家！,结语,

展开阅读全文

物联网导论云计算与大数据

最新文档