云计算第二章2-3教学ppt.ppt

资源描述

第2章Google云计算原理与应用提纲 Google文件系统GFS 分布式数据处理MapReduce 分布式锁服务Chubby 分布式结构化数据表Bigtable 分布式存储系统Megastore 大规模分布式系统的监控基础架构Dapper Google应用程序引擎设计目标及方案选择 Megastore数据模型 Megastore中的事务及并发控制 Megastore基本架构核心技术复制产品性能及控制措施在互联网的应用中为了达到好的可扩展性常常会采用NoSQL存储方式但是从应用程序的构建方面来看传统的关系型数据库又有着NoSQL所不具备的优势 Google设计和构建了用于互联网中交互式服务的分布式存储系统Megastore 该系统成功的将关系型数据库和NoSQL的特点与优势进行了融合设计目标及方案选择可用性实现了一个同步的容错的适合远距离传输的复制机制引入Paxos算法并对其做出一定的改进以满足远距离同步复制的要求可扩展性借鉴了数据库中数据分区的思想将整个大的数据分割成很多小的数据分区每个数据分区连同它自身的日志存放在NoSQL数据库中具体来说就是存放在Bigtable中设计目标一种介于传统的关系型数据库和NoSQL之间的存储技术尽可能达到高可用性和高可扩展性的统一数据分区和复制数据分区和复制 Megastore中这些小的数据分区被称为实体组集 EntityGroups 每个实体组集包含若干实体组 EntityGroup 相当于分区中表的概念而一个实体组中又包含很多的实体 Entity 相当于表中记录的概念从图中还可以看出单个实体组支持ACID语义实体组集之间只具有比较松散的一致性每个实体组都通过复制技术在数据中心中保存若干数据副本这些实体组及其副本都存储在NoSQL数据库 Bigtable 中设计目标及方案选择 Megastore数据模型 Megastore中的事务及并发控制 Megastore基本架构核心技术复制产品性能及控制措施 Megastore数据模型传统的关系型数据库是通过连接 Join 来满足用户的需求的但是就Megastore而言这种数据模型是不合适的主要有以下三个原因 1 对于高负载的交互式应用来说可预期的性能提升要比使用一种代价高昂的查询语言所带来的好处多 2 Megastore所面对的应用是读远多于写因此好的选择是将读操作所需要做的工作尽可能地转移到写操作上 3 在Bigtable这样的键值存储系统中存储和查询级联数据 HierarchicalData 是很方便的 Megastore数据模型怎么设计 Google设计了一种能够提供细粒度控制的数据模型和模式语言同关系型数据库一样 Megastore的数据模型是在模式 schema 中定义的且是强类型的 stronglytyped 每个模式都由一系列的表 tables 构成表又包含有一系列的实体 entities 每实体中包含一系列属性 properties 属性是命名的且具有类型这些类型包括字符型 strings 数字类型 numbers 或者Google的ProtocolBuffers 这些属性可以被设置成必须的 required 可选的 optional 或者可重复的 repeated 即允许单个属性上有多个值数据模型实例照片共享服务数据模型实例图中表Photo就是一个子表因为它声明了一个外键 User则是一个根表一个Megastore实例中可以有若干个不同的根表表示不同类型的实体组集图中实例还可以看到三种不同属性设置既有必须的如user id 也有可选的如thumbnail url 值得注意的是Photo中的可重复类型的tag属性这也就意味着一个Photo中允许同时出现多个tag属性索引 Index Megastore索引分成两大类局部索引 localindex 和全局索引 globalindex 局部索引定义在单个实体组中作用域仅限于单个实体组如PhotosByTime 全局索引则可以横跨多个实体组集进行数据读取操作如PhotosByTag Megastore还提供了一些额外的索引特性 STORING子句 STORINGClause 可重复的索引 RepeatedIndexes 内联索引 InlineIndexes Bigtable中数据存储情况表中不难看出 Bigtable的列名实际上是表名和属性名结合在一起得到不同表中实体可存储在同一个Bigtable行中设计目标及方案选择 Megastore数据模型 Megastore中的事务及并发控制 Megastore基本架构核心技术复制产品性能及控制措施 Megastore中的事务及并发控制 Megastore三种方式的读分别是current snapshot和inconsistent 其中current读和snapshot读总是在单个实体组中完成对于snapshot读系统取出已知的最后一个完整提交的事务的时间戳接着从这个位置读数据 inconsistent读忽略日志的状态直接读取最新的值 Megastore中的事务及并发控制 Megastore事务中的写操作采用了预写式日志 Write aheadLog 一个写事务总是开始于一个current读以便确认下一个可用的日志位置提交操作将数据变更聚集到日志接着分配一个比之前任意一个都高的时间戳然后使用Paxos将数据变更加入到日志中协议使用了乐观并发 OptimisticConcurrency 尽管可能有多个写操作同时试图写同一个日志位置但只会有1个成功读获取最后一次提交的事务的时间戳和日志位置完整事务周期应用逻辑从Bigtable读取且聚集数据到日志入口提交使用Paxos达到一致将个入口追加到日志生效将数据更新到Bigtable中的实体和索引清除清理不再需要的数据 Megastore中的事务机制消息队列机制消息能够横跨实体组每个消息都有一个发送和接收实体组如果两个实体组是不同的则传输将是异步特点规模声明一个队列后可以在其他所有的实体组上创建一个收件箱支持两阶段提交增加竞争风险不鼓励使用 Megastore中的事务机制设计目标及方案选择 Megastore数据模型 Megastore中的事务及并发控制 Megastore基本架构核心技术复制产品性能及控制措施 Megastore的基本架构 Megastore中三种副本完整副本 Bigtable中存储完整的日志和数据见证者副本在Paxos算法执行过程中无法产生一个决议时参与投票只读副本读取最近过去某一个时间点一致性数据 Megastore的基本架构 Megastore中提供快速读 FastReads 和快速写 FastWrites 机制快速读如果读操作不需要副本之间进行通信即可完成那么读取的效率必然相对较高利用本地读取 LocalReads 实现快速读能够带来更好的用户体验及更低的延迟确保快速读成功的关键是保证选择的副本上数据是最新的为了达到这一目标引入了协调者的概念协调者是一个服务该服务分布在每个副本的数据中心里面它的主要作用就是跟踪一个实体组集合协调者的状态是由写算法来保证快速写 Megastore采用了一种在主从式系统中常用的优化方法如果一次写成功那么下一次写的时候就跳过准备过程直接进入接受阶段 Megastore没有使用专门的主服务器而是使用leaders leader主要是来裁决哪个写入的值可以获取0号提议优化提交值最多的位置附近选择一副本作为leader 客户端网络及Bigtable的故障都会导致一个写操作处于不确定的状态设计目标及方案选择 Megastore数据模型 Megastore中的事务及并发控制 Megastore基本架构核心技术复制产品性能及控制措施复制的日志预写式日志当日志有不完整的前缀时我们就称一个日志副本有缺失 Holes 图中0 99的日志位置已经被全部清除 100的日志位置被部分清除 101的日志位置被全部副本接受 102的日志位置被获得 103的日志位置被副本A和C接受副本B则留下了一个缺失 104的日志位置则未达到一致性数据读取数据读取数据读取过程本地查询 QueryLocal 发现位置 FindPosition 本地读取 LocalRead 多数派读取 MajorityRead 追赶 Catchup Paxos将会促使绝大多数副本达成一个共识值达到一种分布式一致状态验证 Validate 查询数据 QueryData 数据写入数据写入数据写入完整过程 1 接受leader 请求leader接受值作为0号提议快速写方法若成功跳至步骤 3 2 准备将值替换成拥有最高提议号的那个值 3 接受请求剩余的副本接受该值如果大多数副本拒绝这个值返回步骤 2 4 失效将不接受值的副本上的协调者进行失效操作 5 生效将值的更新在尽可能多的副本上生效如果选择的值和原来提议的有冲突返回一个冲突错误协调者的可用性协调者在系统中是比较重要的协调者的进程运行在每个数据中心每次的写操作中都要涉及协调者因此协调者的故障将会导致系统的不可用 Megastore使用了Chubby锁服务为了处理请求一个协调者必须持有多数锁一旦因为出现问题导致它丢失了大部分锁协调者就会恢复到一个默认保守状态除了可用性问题对于协调者的读写协议必须满足一系列的竞争条件设计目标及方案选择 Megastore数据模型 Megastore中的事务及并发控制 Megastore基本架构核心技术复制产品性能及控制措施可用性分布情况可用性分布情况 Megastore在Google中已经部署和使用了若干年有超过100个产品使用Megastore作为其存储系统从图中可以看出绝大多数产品具有极高的可用性 99 999 这表明Megastore系统的设计是非常成功的基本达到了预期目标产品延迟情况分布应用程序的平均读取延迟在万分之一毫秒之内平均写入延迟在100至400毫秒之间避免Megastore的性能下降可采取以下三种应对方法可能结合使用 1 重新选择路由使客户端绕开出现问题的副本 2 将出现问题副本上的协调者禁用确保问题的影响降至最小 3 禁用整个副本平均延迟的分布需要指出 Megastore已经是Google相对过时的存储技术 Google目前正在使用的存储系统是Spanner架构 Spanner的设计目标是能够控制一百万到一千万台服务器 Spanner最强大之处在于能够在50毫秒之内为数据传递提供通道基本设计目标 Dapper监控系统简介关键性技术常用Dapper工具 Dapper使用经验用户将一个关键字通过Google的输入框传到Google的后台在我们看来很简单的一次搜索实际上涉及了众多Google后台子系统这些子系统的运行状态都需要进行监控广泛可部署性不间断的监控监控系统设计两个基本要求设计目标 03 02 01 广泛可部署性的必然要求监控系统的开销越低对于原系统的影响就越小系统的开发人员也就越愿意接受这个监控系统 Google的服务增长速度是惊人的设计出的系统至少在未来几年里要能够满足Google服务和集群的需求如果监控系统的使用需要程序开发人员对其底层的一些细节进行调整才能正常工作的话这个监控系统肯定不是一个完善的监控系统低开销应用层透明可扩展性基本设计目标 Dapper监控系统简介关键性技术常用Dapper工具 Dapper使用经验基本概念图中用户发出请求X 前端A发现该请求的处理需要涉及服务器B和服务器C 因此A又向B和C发出两个RPC 远程过程调用 B收到后立刻做出响应但是C在接到后发现它还需要调用服务器D和E才能完成请求X 因此C对D和E分别发出了RPC D和E接到后分别做出了应答收到D和E的应答之后C才向A做出响应在接收到B和C的应答之后A才对用户请求X做出一个应答X 在监控系统中记录下所有这些消息不难如何将这些消息记录同特定的请求本例中的X 关联起来才是分布式监控系统设计中需要解决的关键性问题之一典型分布式系统的请求及应答过程方案一黑盒 BlackBox 方案方案比较轻便但在消息关系判断过程中主要是利用一些统计学知识来进行推断有时不是很准确方案二基于注释的方案利用应用程序或中间件给每条记录赋予一个全局性的标示符借此将相关消息串联起来 Google最终选择基本概念 Dapper监控系统中三个基本概念监控树 TraceTree 区间 Span 和注释 Annotation 图示是一个典型的监控树实际上就是一个同特定事件相关的按照一定的规律以树的形式组织起来所有消息每一个节点称为一个区间一条记录所有记录联系在一起就构成了对某个事件的完整监控每个区间包括如下的内容区间名 SpanName 区间id Spanid 父id Parentid 和监控id Traceid 监控树监控id图中并没有列出一棵监控树中所有区间的监控id相同随机分配且唯一区间Helper Call的详细信息图中区间包含来自客户端的注释信息 ClientSend ClientRecv 和也包含来自服务器端的注释信息 ServerRecv foo 和 ServerSend 除 foo 是用户自定义的注释外其他的注释信息都是和时间相关的信息 Dapper不但支持用户进行简单的文本方式的注释还支持键值对方式的注释基本概念监控信息的汇总监控信息汇总监控信息汇总 1 将区间的数据写入到本地的日志文件 2 所有机器上的本地日志文件汇集 3 汇集后的数据写入到Bigtable存储库中监控数据汇总是单独进行的而不是伴随系统对用户的应答一起返回的如此选择主要原因内置的汇总方案监控数据随RPC应答头返回会影响网络动态内置的汇总方案需要保证所有的RPC都是完全嵌套安全问题应用层注释提供一种方便的选择机制 Opt inMechanism 应用程序开发者可以将任何对后期分析有益的数据和区间关联起来基本设计目标 Dapper监控系统简介关键性技术常用Dapper工具 Dapper使用经验 Dapper三个设计目标中实现难度最大的是应用层透明怎么实现应用层透明轻量级的核心功能库二次抽样技术轻量级核心功能库将Dapper的核心监控实现限制在一个由通用线程 UbiquitousThreading 控制流 ControlFlow 和RPC代码库 RPCLibraryCode 组成的小规模库基础上其中最关键的代码基础是基本RPC 线程和控制流函数库的实现主要功能是实现区间创建抽样和在本地磁盘上记录日志二次抽样技术第一次抽样实践中设计人员发现当抽样率低至1 1024时也能够产生足够多的有效监控数据即在1024个请求中抽取1个进行监控也是可行的从而可以捕获有效数据第二次抽样发生在数据写入Bigtable前具体方法是将监控id散列成一个标量z 0 z 1 如果某个区间的z小于事先定义好的汇总抽样系数则保留这个区间并将它写入Bigtable 否则丢弃基本设计目标 Dapper监控系统简介关键性技术常用Dapper工具 Dapper使用经验 Dapper存储API Dapper的存储API 简称为DAPI 提供了对分散在区域Dapper存储库 DEPOTS 的监控记录的直接访问一般来说有以下三种方式可以对这些记录进行访问 1 监控id访问 AccessbyTraceid 利用全局唯一的监控id直接访问所需的监控数据 2 块访问 BulkAccess 借助MapReduce对数以十亿计的Dapper监控数据的并行访问 3 索引访问 IndexedAccess Dapper存储库支持单索引 SingleIndex 根据不完全统计目前大约有三个基于DAPI的持久应用程序八个额外的基于DAPI的按需分析工具及大约15 20个使用DAPI框架构建的一次性分析工具 Dapper用户界面 1 选择监控对象起止时间区分监控模式的信息及一个衡量开销的标准 2 用户对这些执行模式进行排序并选择某个查看更多细节 Dapper用户界面 3 分布式执行模式图形化描述呈现给用户 4 根据最初选择的开销度量标准 Dapper以频度直方图的形式将步骤 3 中选中的执行模式的开销分布展示出来 Dapper用户界面 5 用户选择了某个监控样例后就会进入所谓的监控审查视图 TraceInspectionView 基本设计目标 Dapper监控系统简介关键性技术常用Dapper工具 Dapper使用经验新服务部署中Dapper的使用利用Dapper对系统延迟情况进行一系列的跟踪进而发现存在的问题定位长尾延迟 AddressingLongTailLatency 因此发现关键路径上的网络延迟常常就能够发现端到端性能表现不佳的原因利用Dapper恰恰能够比较准确的发现关键路径 Dapper使用经验关键路径网络延迟对于端到端性能表现的影响确定不同服务的网络使用情况利用Dapper平台构建了一个连续不断更新的控制台用来显示内部集群网络通信中最活跃的应用层终端 Dapper使用经验推断服务间的依存关系 InferringServiceDependencies Google的服务依存关系项目使用监控注释和DPAI的MapReduce接口实现了服务依存关系确定的自动化利用Dapper进行火拼 FirefightingwithDapper 火拼是指处于危险状态的分布式系统的代表性活动正在火拼中的Dapper用户需要访问最新的数据却没有时间来编写新的DAPI代码或者等待周期性的报告此时可以通过和Dapper守护进程的直接通信将所需的最新数据汇总在一起 Dapper使用经验分层的共享式存储系统没有Dapper之类的工具的情况下对于这种共享式服务资源的争用也同样难以调试

展开阅读全文