分布式存储系统可靠性:系统量化估算

上传人:feng****heng 文档编号:160967604 上传时间:2022-10-12 格式:DOCX 页数:16 大小:103.84KB
返回 下载 相关 举报
分布式存储系统可靠性:系统量化估算_第1页
第1页 / 共16页
分布式存储系统可靠性:系统量化估算_第2页
第2页 / 共16页
分布式存储系统可靠性:系统量化估算_第3页
第3页 / 共16页
点击查看更多>>
资源描述
分布式存储系统可靠性:系统量化估算、引言我们常常听到衡量分布式存储系统好坏的两个指标:可用性和可靠性 指标。可用性指的是系统服务的可用性。一般按全年可用时间除以全年时间来衡量可用性的好坏,平常我们说的SLA指标就是可用性指标,这里 就不展开细说。可靠性指标指的是数据的可靠性。我们常说的数据可靠性11个9,在对象存储中就意味着存储一千亿个对象大概会有 1个文件是不可读的。由此可见,数据可靠性指标给分布式存储系统带来的挑战不言而喻。本文就重点来分析一下分布式系统的数据可靠性的量化模型。数据的重要性不必多说,基本上数据可以称得上是企业生命力的核心, 是企业赖以生存的根本。因此数据的可靠性是基础的基础,任何数据 的丢失都会给企业造成无法计算和弥补的损失。随着数据规模的日益增大,环境更加复杂,我们大体可以把威协数据可靠性的因素归为几大类:硬件故障:主要是磁盘故障、还有网络故障、月服务器故障、IDC故障;软件隐患:内核BUG,软件设计上的BUG等;运维故障:人为误操作。其中,第1类的硬件故障中又以磁盘故障最为频繁,坏盘对于从事分布式存储运维的同学来说再正常不过了。因此,我们接下来从磁盘故障这个维度来尝试量化一下一个分布式系统的数据可靠性。三、数据可靠性量化为了提高数据的可靠性,数据副本技术和 EC编码冗余技术是分布式系统可靠性最常用的手段了。以多副本为例,副本数越多,数据的可靠性肯定越高。为了对分布式系统的数据可靠性作一个量化估算,进一步分析得到影响存储数据可靠性的因素主要有: N :分布式系统磁盘的总数,可以很直观理解,磁盘的数量是和可靠性 强相关,N的大小与数据的打散程度有很大关系。 R :副本数,副本数越高数据的可靠性肯定越高,但同时也会带来更大 的存储成本。 T :RecoveryTime出现坏盘情况下数据恢复的时间,这个也很好理解, 恢复时间越短,数据的可靠性越高。 AFR : Annualized Failure Rate磁盘的年度故障率,这个和磁盘本身 的质量相关,质量越好,AFR越低,数据的可靠性越高。 S : CopySet数量,一个盘上的数据的冗余在集群中的打散程度,打得 越散,则有可能任意坏3块盘就刚好有数据的冗余数据都丢失。所以, 仅从打散程度这个维度看,打散程度越小越好。因此,我们可以用一个公式表示分布式系统的全年数据可靠性:3.1磁盘年故障率:AFRAFR : Annualized Failure Rate又称为硬盘年度失败概率,一般用来 反映一个设备在全年的使用出故障的概率,可以很直观的理解,AFR越低,系统的可靠性越高,因为AFR与系统的数据可靠性强相关;而 这个指标通常又是由另一个磁盘质量指标MTBF( Mean Time BeforeFailure )推算出来,而MTBF各大硬盘厂商都是有出厂指标的,比如 说希捷的硬盘出厂的MTBF指标为120W个小时。以下为AFR的计 算公式:但是实际使用当中往往 MTBF会低于硬盘出厂指标。Google就根据他们的线上集群的硬盘情况进行了统计计算 AFR如下:(5年内硬盘AFR统计情况)SA L.(图片来自 )3.2副本数据复制组:CopySet副本数据复制组CopySet :用通俗的话说就是,包含一个数据的所有 副本的节点,也就是一个copyset损坏的情况下,数据会丢失。(单个数据随机复制分组示意图)(图片来自 )如图2所示,以9块盘为例,这9块盘的copyset就是:1,5,6,2,6,8,如果不做任何特殊处理,数据多了之后,数据的随机分布如下:匚口 口 ZI聽机复制分组1H况(海量数据随机分布示意图)ModelNodB2NodalNode7NodeS (图片来自 )最大CopySet :如上图所示,12个数据的多副本随机打散到9块盘上,从上图中任决意挑3块盘都可以挑出包含某个数据的三个副本,就相当于从n个元素中取出k个元素的组合数量为:最大的CopySet配置下一旦有三块磁盘坏了,丢数据的概率是100%。 另外一种情况,数据的分布是有规律的,比如一块盘上的数据只会在 另外一块盘上备份,如下图所示,在这种情况下数据覆盖的 CopySet 只有(1,5,7)、(2,4,9)、(3,6,8 )也就是说这种情况下CopySet为3。我们不难理解,9块盘的最小CopySet为3。也就是N/R。 co *miH Chb 口 Node1口 3 na 匚 ElNod6 : 匚 BIB - *口(磁盘粒度冗余分布示意图)因此,CopySet数量S符合以下:N/R S CgJ?)既然CopySet数据可以最小为N/R,能不能把CopySet数量调到最 小,答案当然是不行的,因为,一方面如果 CopySet调到最小,当有 一个盘坏了后,只有其它2块盘进行这块盘的恢复操作,这样数据的 恢复时间又变长了,恢复时间变长也会影响数据的可靠性;而且一旦 命中了 CopySet中的一个,则丢失的数据量规模非常大。因此,分布 式系统中的CopySet的量和恢复速度RecoveryTime是一个均衡整 个系统数据可靠性和集群可用性的参数。文献【1 】Copysets: Reducing the Frequency of Data Loss in Cloud Storage提供了一种分布式系统的CopySet Replication的选择策略, 在分布式存储系统当中比如对象存储和文件存储当中,还有一种方式 可以根据系统的可靠性和可用性进行调整系统CopySets的数量,就是在随机放置情况下,使用小文件合并成大文件的存储策略,可以通 过控制大文件的大小从而控制每个磁盘上大文件的数量,比如100G一个文件,8T盘上的最大文件存储数量也就是 8T/100G = 80个文 件,也就是说一个8T的盘的数据最多打散到了 80块其它的盘上,对 于集群盘远大于80的系统显然也能够很好的控制一个数据盘的数据 打散程度。因此,在磁盘上的分片是随机打散的情况下,CopySets数量可以量化 为以下公式:其中,P为磁盘的容量,B为分片大小,N为系统磁盘的数据,R为副本数。80%为使用率。3.3数据恢复时间:Recovery Time 数据恢复时间对数据可靠性影响很大,这个很好理解,因此缩短数据 恢复时间可以有效降低数据丢失的风险。前面已经介绍数据恢复时间 和磁盘上数据打散程度强相关,同时数据恢复时间也与服务本身的可 用性相关。比如磁盘带宽为 200MB/S,假设留给恢复可用的带宽为 20%就是 40MB/S,磁盘容量为P,使用率为80%,B为BlockSize大小,则恢 复速度可按以下方式计算:P + 80%常斗B四、可靠性模型推导4.1磁盘故障与泊松分布泊松分布:泊松分布其实是二项分布的极限情况,泊松分布公式如下:(图片来自知乎)其中,t为时间周期(小时为单位),n为故障的盘的块数,N为整个 集群的盘的数量,为单位时间1小时内出故障的磁盘平均数。从3.1节我们已经介绍过了磁盘一年之内出故障的概率为 AFR,那么 单位时间1个小时的时间周期磁盘出故障的概率为 FIT( Failures in Time):那么N块盘的集群在单位时间1小时内出故障的盘的数量为FIT*N, 换句话说,也就是单位时间1小时内出故障的磁盘平均数。因此可以 得到:A = F/r + /V4.2系统全年可靠性计算推导由4.1我们得到磁盘故障是符合泊松分布,N块盘的集群中在t小时 内有n块盘故障的概率:接下来我们以3副本为例,来推导一下全年集群没有数据丢失的概率 的量化模型,3副本情况下,全年集群没有数据丢失的概率不太好量 化,我们可以通过计算全年集群出现数据丢失的概率,然后全年集群 没有数据丢失的概率就以计算出来:全年集群出现数据丢失的概率:只有在t(1年)的时间内有第一块磁 盘出现故障之后,然后系统进入数据恢复阶段,在数据恢复的时间tr内又有第二块磁盘出现故障,我们先不考虑数据恢复了多少,然后在 tr内又有第三块磁盘出现故障,但是这三个磁盘不一定刚好命中了我 们在3.2介绍的copyset复制组如果命中了 copyset,那么集群在全 年就真的有出现数据丢失了。因为全年集群出现数据丢失的概率和 P1, P2,P3,以及Copyset命中概率Pc相关。P = Pi *1年时间t内有任意一块磁盘出现故障的概率为:Pr(any disk failure) = 1 一厲(九 E)= 1 - Pq(FT * Nf t)n!上面这块磁盘出现问题后,需要马上恢复,在恢复时间tr内有另外一块盘出现故障概率:在恢复时间tr内有第三块任意盘出现故障的概率:而这三块出现故障的磁盘刚好命中集群的 CopySets的概率为:因此,不难得到全年集群出现数据丢失的概率 P :)* (1 _ 厂耐心-“如)* (1 _ g-FlZ然后全年集群不出现数据丢失的概率1-P就可以计算得到了。4.3 EC冗余全年可靠性计算推导EC冗余机制相对于三副本机制是用额外的校验块来达到当有一些块 出现故障的情况下数据不会丢,按(D,E)数据块进行EC编码,那么 在计算EC冗余下的全年集群数据丢失概率的时候,EC模式下的恢复 速度tr和三副本肯定是不一样的,另外,EC模式下的copysets是不 一样的,EC模式是允许E个数据块丢失,而且是在D个数据块有任 意的E个数据块丢失数据都找不回来了,因此,不难得出,EC模式的 全年集群出现数据丢失的概率P,以下公式,默认E为4,也就是丢 失4个数据块:相对于三副本模式来说,EC模式的copyset需要考虑在D+E个块当 中丢失其中任意E个块,则EC模式下的copyset数为:min(爼斗些冷吨+)五、可靠性模型估算5.1量化模型影响因素以三副本为例,从以上量化的全集群出故障的概率计算公式可以得到影响的因素有: N:集群的盘的个数; FIT :就也是1小时磁盘的故障率,可以由AFR得到; t:这个是固定1年; tr :恢复时间,单位为小时,和恢复速度 W和磁盘存储量、分片大小相关; R:副本数; Z:磁盘的存储总空间; B :分片或者Block的大小,小文件合并成大文件的最大 Size。5.2可靠性量化计算接下来我们把影响可靠性计算的几个因素根据生产集群的现状带入模型计算可靠性计算:因袁AFRW(ME/sjRP14&0.43ICC3 DCSS39.862 30S3922S0407G-1223500.43ICC3 0C2S37.40201561346S761&-133004043ICC80C3S31 437900014856&a6e-l 3436C3043ICC80C3E31.94)37353614085208C-1358040431030C3E3|A2391E1955909a77e-DBa0.431080C3S39.393 333484259648e-13736G31.2ICC30C3S37.3341D85675777976e-09呂36G37ICC80C3532.45&394305ZS7295e-0791000,43ICC3 DCS3035.550 36362&94664e-13131000,43ICC3 DCS1003&2S77333Ci596573e-13111A0000,43ICC30C0132.14C696635S279285e-11121AO0O0,43ICCMMS32,675S7O7947S49106e-12表1:不駅旺下参数證咆可靠由翡结果结合4.2的磁盘故障与可靠性的推导,通过表格中10个case的计算, 可以看到:Case 1,2,3通过扩展磁盘的数量从48块盘到804再到3600块盘, 可靠性从11个9提高到接近13个9,然后804块盘到3600块盘还 是维护在13个9,按理说,集群的规模增大,增3块盘的概率会提 高,但是由于恢复速度也随着磁盘的增加而线性增加,因此,可靠性 一直在提升,而从804到3600块盘,可靠性没有增加,是因为这时 候恢复速度已经不随磁盘增加而线性增大,因为在磁盘量很大后,决 定恢复速度因素就变为单盘分片个数。Case 5,6比较好理解,恢复速度由100M/S变为10M/S,可靠性降 低2个以上数量级;Case 7,8也比较好理解,AFR由0.43提咼到1.2再提咼到7,可靠 性降低了 3个数量级;Case 9,10比较绕,磁盘数在100的情况下,Block大小由80G 一个 提高到100G 一个,可靠性降低了,这种情况下是因为恢复速度提高, CopySet也提高,但速度影响更大导致。Case 11,12也比较绕,由于我们限定了恢复速度不能超过 5分钟(模 拟线上,因为系统检测坏盘,自动踢盘等操作也需要时间),这两个Case下的CopySet都超级大,所以恢复的并发度都非常高,但受限于5分钟限定,所以两个Case的恢复速度一样,所以PK CopySet 的数量,Case12的CopySet比Case11的CopySet要小,所以更不 容易丢失,所以可靠性更高。六、总结首先AFR越低越好,AFR是直接决定整个集群磁盘故障引起的数据丢 失概率的最大因素;其次是恢复速度:在不影响服务可用性指标的前提下,最大限度的提高磁盘故障的恢复带宽是提高集群数据可靠性的另一个重要因素;如果在恢复速度受限的前提下,比如系统架构设计导致的相关发现坏盘到踢盘到进行数据恢复操作启动为 5分钟,那么可以通过合理降低 磁盘数据的分散程度降低CopySet,如果系统是按分片粒度或Block 粒度,则相应的以提高Block粒度来降低数据分散程度的方式来提高 数据的可靠性。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!