mossefshadooplusterpanasas分布存储.pptx

上传人:tia****nde 文档编号:12806207 上传时间:2020-05-25 格式:PPTX 页数:29 大小:676.23KB
返回 下载 相关 举报
mossefshadooplusterpanasas分布存储.pptx_第1页
第1页 / 共29页
mossefshadooplusterpanasas分布存储.pptx_第2页
第2页 / 共29页
mossefshadooplusterpanasas分布存储.pptx_第3页
第3页 / 共29页
点击查看更多>>
资源描述
Linux文件系统,演示主要内容:LinuxvfsLinux(ext2)文件访问机制Linux(ext3)日志功能Linux文件系统(ext2/ext3)数据不一致的处理认识几种分布式文件系统,虚拟文件系统,为了支持其他各种不同的文件系统,Linux提供了一种统一的框架,就是所谓的虚拟文件系统转换(VirtualFilesystemSwitch),简称虚拟文件系统(VFS)。,Vfs与文件系统关系,逻辑文件系统,整个文件系统示意图,Inode和数据区?,读取/etc/crontab的流程,目录/etc的inode,文件crontab的inode,目录/etc的块区域关联性内容,文件/etc/crontab的实际内容,Inode总结,Inode:记录文件的相关属性,以及文件内容放置在哪一个块内。换句话说,inode除了记录文件的属性外,同时还必须要具有指针的功能,Inode记录的一些信息;该文件的拥有者与用户组该文件的访问模式该文件的类型该文件的建立,改变,最近一次读取时间,最近一次的修改时间。该文件的大小该文件的属性标志该文件的真正内容指针。,数据与元数据,Inode表与块区域成为数据存放区。其他的诸如超级块,块位图与inode位图等记录成为元数据。元数据记录数据(属性)的数据。,数据的不一致问题,文件写入硬盘时,未知原因导致系统中断,就会发生元数据与数据的不一致情况。如何处理?EXT2:系统重启时通过超级块记录的有效位与文件系统状态等,判断是否强制进行数据检查。,EXT3的日志功能,1.系统要写入一个文件的时候,先在日志块中记录:某个文件要写入磁盘了。2.开始写入文件的权限与数据。3.开始更新元数据的数据。4.完成数据与元数据的更新后,在日志记录块中完成该文件的记录。,使用日志文件系统好处,文件的安全提高了,文件被破坏的机率降低了,对磁盘的扫描时间缩短了,扫描次数减少了。当系统意外宕机后,不会再有文件内容的丢失,至少文件应该保持上一个版本的内容;采用日志文件系统,通常系统每重新启动2030次后,才会对磁盘进行一次整体扫描,扫描次数减少了。日志增加了文件操作的时间,但是,从文件安全性角度出发,磁盘文件的安全性得到了重大的提高。网友对日志文件系统进行了测试,日志文件系统的性能并不比ext2文件系统有太大的性能损失,有的日志文件系统由于采用B+树算法,在操作一些大尺寸的文件时,性能反面比非日志文件系统的性能还要好。,什么是分布式文件系统,数据、文件分散存储到不同的物理设备文件、数据被块文件读写并行低成本,Hadoop是什么,Hadoop:一个基于MapReduce的相当成功的分布式计算平台MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释MapReduce就是任务的分解与结合的汇总。MapRecuce可以将被划分成多个小的Block的海量检索数据以分布式的方法局部计算,并应用Map将他们映射到一个提供Reduce的中心上。从而达到快速处理海量数据检索的目的。然而Map和Reduce不仅仅只是可以检索,事实上修改MapReduce的部分细节,就可以利用MapReduce实现更广泛的应用。,hadoop三个子项目,HDFS、MapReduce和HBase三者相辅相成、各有长处,HDFS-最大化利用磁盘MapReduce-最大化利用CPUHBase-最大化利用内存MapReduce和HBase都将数据存储在HDFS,而且HBase还利用了MapReduce的计算能力。而Pig和Hive则为更高层的建筑,降低了使用Hadoop的门槛,提高了Hadoop开发的效率。ZooKeeper和Com-mon成员可以说是地基,是为上层建筑(包括高层)服务的。Hadoop的线性扩展性,体现在以下几个方面:(1)存储扩展性,即HDFS的扩展能力(2)计算扩展性,即MapReduce的扩展能力,受束于计算均衡性(3)Master节点扩展性,主要是Master的处理能力和元数据存储能力,Hadoop优点,1可扩展不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本,能可靠地(reliably)存储和处理千兆字节(PB)数据。(hadoop支持的节点数是1,000,甚至更多,在这个大范围内,可以任意的添加和删除,也就是在分布式文件系统中的可伸缩性,有masternode统一命名空间,URI的先进思想,使的任何的添加或删除对于应用来说都是透明的。即使是HDFS中的文件经常由于节点的失效、增加或者replication因子的改变或者重新均衡等进行着复制或者移动,而客户端和客户端程序并不需要改变什么,Namenode的edits日志文件记录着这些变更)2经济框架可以运行在任何普通的PC上。可以通过普通机器组成的服务器群来分发以及处理数据。3可靠分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。4高效分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式,为高效处理海量的信息作了基础准备hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。,Hadoop缺点,1.主要针对大块的数据文件,最好是数据规模上G、T级别的,hadoop把大块数据进行切割并进行分布式存储,对小块数据由于系统开销等原因处理速度并不一定比单个串行程序明显。2.hadoop的mapreduce计算模型通过map任务会产生中间结果文件,reduce任务在处理这些中间结果文件形成最终结果文件并输出。由于中间结果文件是存储在各个分布式计算节点本地内存或磁盘上的,如果计算产生的中间结果文件非常巨大,reduce过程需要通过远程过程调用来取得这些中间结果文件,会加大网络传输的开销,则不适合采用hadoop处理。,moosefs,管理服务器managingserver(master)负责各个数据存储服务器的管理,文件读写调度,文件空间回收以及恢复.多节点拷贝。目前只有一个master服务器(可靠性?)元数据日志服务器Metaloggerserver(Metalogger)负责备份master服务器的变化日志文件,文件类型为changelog_ml.*.mfs,以便于在masterserver出问题的时候接替其进行工作。数据存储服务器dataservers(chunkservers)负责连接管理服务器,听从管理服务器调度,提供存储空间,并为客户提供数据传输。客户机挂载使用clientcomputers通过fuse内核接口挂接远程管理服务器上所管理的数据存储服务器,.看起来共享的文件系统和本地unix文件系统使用一样的效果。,元数据丢失或损坏,可以从他取得文件进行恢复,文件分成块,在他们之间复制(副本),/usr/local/mfs/var/mfs自动复制到存储服务器,Moosefs优势,1.通用文件系统,不需要修改上层应用就可以使用。2.部署简单,可以在线扩容。3.googlefilesystem的一个c实现,Hadoop的基础是Java,moosefs效率更高。4.提供webgui监控接口。5.提高随机读或写的效率6.提高海量小文件的读写效率(但效率依然不理想,技术瓶颈),Moosefs不足,1.有单点故障,元数据日志服务器也需要和其他的HA软件协作才能做到无单点故障,元数据日志服务器只能保证元数据不丢失,但它不能在masterserver出问题是接替其工作。2.mfsmaster把文件结构放内存里面,如果mfsmaster掉电,cache无法刷到磁盘上。3.虽然mfs可以设定的goal,但还是存在数据备份归档的问题。4.MFS对内存容量的要求非常大,一般的服务器也就几G的内存,PB级的存储,可能要消耗1TB的内存(跟文件数量有关)。,Lustre文件系统,Lustre是HP、Intel、ClusterFileSystem公司联合美国能源部开发的Linux集群并行文件系统。该系统基于对象存储设备的,开源的并行文件系统。,Lustre集群并行文件系统的结构图,Lustre优缺点,Lustre采用分布式的锁管理机制来实现并发控制,元数据和文件数据的通讯链路分开管理。与PVFS相比,Lustre虽然在性能,可用行和扩展性上略胜一踌,但它需要特殊设备的支持,而且分布式的元数据服务器管理还没有实现。注:PVFS:Clemson大学的并行虚拟文件系统(PVFS)项目用来为运行Linux操作系统的PC群集创建一个开放源码的并行文件系统。PVFS已被广泛地用作临时存储的高性能的大型文件系统和并行I/O研究的基础架构。作为一个并行文件系统,PVFS将数据存储到多个群集节点的已有的文件系统中,多个客户端可以同时访问这些数据。,Panasas,Panasas通过提供一个基于对象存储和集群的并行文件系统,从根本上改变了传统的网络存储中的规则。PanasasActiveScale文件系统与智能灵巧的Panasas指挥刀片和Panasas存储刀片相结合,Panasas的指挥刀片和存储刀片协调工作,提供了一个平衡的和可扩展的设计来配合PanFS文件系统。,Panasas刀片的功能,Panasas刀片的资源,PanasasActiveScale文件系统,Panasas存储集群的心脏是PanasasActiveScale文件系统(PanFS),它把文件的活动分散到许多存储刀片中。PanFS将多个指挥刀片构成集群来协调指挥文件活动,平衡系统性能和管理可用性。这种分布的基于集群的方法消除了性能瓶颈并减轻了Panasas存储集群的管理负担。,PanasasActiveScale存储集群优缺点,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!