UIT存储基础培训

资源描述

Page,*,United Information Technology Co., Ltd.,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,UIT 存储基础,技术中心郭镭,第二章操作系统与存储,块设备,文件系统,卷管理技术,数据库与存储,操作系统与存储,设备分类 - 字符设备与块设备,字符设备（,Character devices,）,指那些无须缓冲直接读写的设备。字符设备以字节为单位进行读写，数据缓冲系统对它们的访问不提供缓冲。,裸设备，也叫裸分区（原始分区），是一种没有经过格式化，不通过文件系统来读取的特殊字符设备,块设备,(Block devices),只能以块为单位进行读写，典型的块大小为512或1024字节。块设备允许随机访问，每次读写的数据量都是数据块长度的整数倍。,块设备和字符设备的区别在概念上主要是字符设备跳过了缓冲区，块设备则要经过缓冲区。硬盘是既可以做块设备用，也可以做字符设备用。,块设备和块I/O,Sector 块设备传输数据的最小单位,Block 文件系统的最小存储单位,Segment 内存交换单位或一部分,Page 磁盘缓存单位,Page,Block,Sector,Block I/O,Sector,硬件设备存放数据的连续区域单位.,一个sector的大小是512字节,sector是磁盘设备和操作系统之间最小传输单位，多个sector可同时传输。,如果磁盘设备支持的sector大小是512的整数倍且大于512字节，那么操作系统的底层block 驱动程序帮我们自动转化。,sector是操作系统和块硬件设备之间传送数据的单位，那么block是文件系统管理数据的单位,比如操作系统的虚拟文件系统VFS需要从硬件设备上读取一个block，实际上是从硬件设备读取了一个或多个sector.,对于文件管理来说，每个文件对应的多个block可能是不连续的,block最终要映射到sector上，所以一般block的大小是sector大小的整数倍,不同的文件系统，可以使用的block的大小可以不同,块 Block,块设备操作的基本概念,对 block 设备的操作涉及到的内核组件,The generic block layer,The generic block layer 隐藏硬件细节，提供block设备的抽象视图。,提供通用的数据结构描述 disks 和 disk partitions.,I/O scheduler,I/O scheduler (I/O调度器)根据内核制定的策略对未决的(pending) I/O 数据传送请求进行排序和调度。,提高I/O 调度器的效率也是影响整个系统对块设备上数据管理效率的一个方面。,block device,最后，block device 设备驱动程序，完成和硬件的具体交互。,为什么需要I/O调度？,磁盘寻道在计算机系统中是最慢的操作,没有合适的I/O调度器，对系统性能影响非常大,I/O 调度可以安排磁头在一个方向上移动，减少 seek 次数,像电梯（操作系统中一般称这样的算法为电梯算法),在全局范围内获得高吞吐量,block I/O,request,I/O Scheduler,Request queue,maintenance,Request dispatch,I/O Scheduler 的工作,Sort request queues,Merge request queues,Dispatch I/O requests,提高读取磁盘的效率,逻辑卷管理,传统分区缺点：,磁盘的划分通过分区来实现，在系统安装之前用户必须正确选择每个分区的大小,分区大小是固定不变的，同时也就限制文件系统和文件的大小,分配给分区的磁盘空间必须是连续，这个特点限制了分区不能跨越多个物理卷,LVM逻辑卷管理优点：,可分配非连续空间，可以跨越多个硬盘,可以动态增大逻辑卷的大小,方便存储管理操作，包括文件系统的备份、分区的删除、新分区的建立和文件系统的恢复等,新的硬盘很容易动态地添加到系统,Drivers,VG,操作系统,物理存储,Logical Volume Manager,(LVM),LV,LV,数据库,文件系统,VG,LV,文件系统,卷组VG ：Volume Group,hdisk0,hdisk1,hdisk2,rootvg,datavg,一个卷组VG可以拥有多个硬盘，但至少拥有一个硬盘(hdisk),一个硬盘(hdisk)只能属于一个VG，不能同时属于多个不同VG,用户可以创建多个不同VG，rootvg是操作系统所在的VG,物理卷PV和PP,存储管理器中，一个硬盘就是一个PV,一个PV要划分为大小相等的PP,同一个VG中的不同PV的PP大小要一样，默认的PP大小为4M,PV必须加入一个VG中，系统才能使用其存储空间,hdisk(硬盘),PV,PP,Physical Volume,(物理,卷),Physical Partition,(物理分区,),逻辑卷LV,1,2,3,4,5,9,6,7,8,10,11,12,1,2,3,4,5,9,6,7,8,10,11,12,PV,PV,LV逻辑卷,(Logical Volume),映射关系,1,2,3,4,5,6,7,8,n,存储管理一个很重要的特点就是引入了“逻辑卷”这个概念，几乎所有的存储管理都围绕“逻辑卷”展开,逻辑卷LV有多个逻辑上连续的逻辑分区LP组成，逻辑分区与物理分区存在映射关系，他们大小一样,VG,Logical Partition,逻辑分区,创建了逻辑卷后，可以在上面创建文件系统，还可以直接是裸设备，用于数据库软件的数据存取等,逻辑卷空间不足，只要卷组中还有足够的PP数量，那么逻辑卷空间都可以动态增大,LV逻辑卷的意义,逻辑卷LV与文件系统,hd4,LV,hd1,limhai,home,(root),LV,hd2,bin,usr,lpp,lib,hd9var,spool,var,etc,mnt,逻辑卷管理器：扮演的角色就是管理好逻辑卷与物理卷之间的映射关系，保证所有的上层存储操作命令都正确地把数据写入相应的物理设备中,文件系统：是数据存储方式。它扮演的角色就是以清晰层次结构的文件和目录，去管理好用户数据存取，保证用户写入的数据以可靠的存储方式存放，且无差错地响应用户请求的数据,不同文件系统的数据存在硬盘的不同逻辑卷中,逻辑卷管理器,rootvg,PV,PV,文件系统,LV,hd1,hd6,hd8,lv00,paging00,Mount表,jfs,pagespace,jfslog,jfs,pagespace,PP,home,limhai,类型,var,limhai,oracle,oracle,App-data,Mount点,datatvg,逻辑卷LV与文件系统结构图,逻辑卷策略 - 镜像mirror,PP1,PP2,PP1,PP2,PP1,PP2,LP1,LP2,.,.,hdisk0,hdisk1,hdisk2,LV00,镜像mirror，类似于RAID1，可以实现逻辑卷中逻辑分区的镜像，在独立的不同硬盘中保存两个或三个副本，从而保证硬盘出错时数据不受损坏而且是可用的,镜像的调度策略,Parallel(并行)：每个副本的写请求是同时进行的，当更新时间最长的副本完成后，控制就返回给程序。执行效率很高，但当副本更新时若有硬盘错误发生，数据的完整性有可能遭到破坏。读操作时候，读最相近的副本，所以响应速率快,Sequential(串行)：当数据写到逻辑分区时，只有所有的副本都更新后控制才返回给程序，而且副本是一个个轮留更新。执行速率比并行镜像慢，但是数据完整性较好。读操作时候，总是先读主副本,逻辑卷策略 -条带化striping,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,1,4,7,10,13,16,2,5,8,11,14,17,3,6,9,12,15,18,1、没有做条带化的数据块流：,2、做了条带化的数据块流：,PV,PV,做条带化类似于RAID0,条带化把数据块均匀地分布在不同硬盘上,访问逻辑卷上的连续数据时多个硬盘驱动器并行操作，提高了I/O的吞吐量,物理卷内分配策略,外部边缘,外部中间,中心,内部中间,内部边缘,硬盘的平面图,通常访问最频繁的LV分配在中心，访问不频繁的LV分配在边缘,访问速度,慢,慢,快,文件系统 File System,概念：文件和对文件进行操纵和管理的软件集合。,三个层次,一、管理的对象及属性,（1）文件,（2）目录,（3）物理存贮空间的管理,二、管理的文件操作：,（1）逻辑文件系统：受命write - write,（2）基本I/O管理：write,（3）基本文件系统：向driver发令,（4）I/O控制层：driver,三、管理的文件系统接口,（1）命令接口：,（2）程序接口：,文件系统层次模型,File System Driver体系结构（本地）,File System Driver体系结构（远程）,存储分配方法（文件物理组织）,连续分配（磁带，磁盘都可采用）,每个顺序文件分配一组相邻盘块。,特点：简单,（1）顺序访问容易且速度快，因磁头移动距离小，,（2）要求连续空间，一段时间后需整理磁盘以消除外部碎片。,（3）必须事先知道长度，文件不易动态增长和删除。,链接分配,文件离散地分配于各盘块中，以提高外存利用率，文件长度可变，易于增删，只能顺序存取。,特点：只适合于顺序访问，对随机访问效率低，可靠性差。,链接分配问题：不能高效直接存取；FAT需占较大的内存。,索引分配,概念：为每个文件分配一个索引块,特点：,（1）文件较大时有利。文件较小时浪费外存空间（还需为小文件建索引块）,（2）当文件较大时，索引块太多，则需建立多级索引,日志文件系统,日志文件系统最大的优点在于提供了更好的安全性。日志文件系统会将整个磁盘所做过的更动, 像写日记一样完整的记录下来，一旦发生非预期的故障状况, 会在下次启动时, 自动检查已记录的日志,然后依照日志记录的动作再做一次，将系统恢复到当机前的正常状态。可以大幅减少不正常关机后所花费的系统修复时间, 让数据的使用更有效率,非日志文件系统发生故障时, 需要辛苦地执行 FSCK命令检查与修复整个文件系统。现在动辄数十 GB 的磁盘空间, 一旦不正常关机, 便要耗费相当多的时间来检查及修复文件系统, 且不能百分之百保证所有的数据都不会流失,每个文件系统由逻辑块的序列组成，一个逻辑盘空间一般划分为几个用途各不相同的部分，即引导块、超级块、inode区以及数据区等。,引导块：在文件系统的开头，通常为一个扇区，其中存放引导程序，用于读入并启动操作系统；,超级块：用于记录文件系统的管理信息。特定的文件系统定义了特定的超级块；,inode区（索引节点）：一个文件或目录占据一个索引节点。第一个索引节点是该文件系统的根节点。利用根节点，可以把一个文件系统挂在另一个文件系统的非叶节点上；,数据区：用于存放文件数据或者管理数据。,Unix/Linux文件系统,逻辑块数量的决定,：,建立文件系统时,可以自行设定逻辑块的大小是 1024、2048 或 4096,Bytes,若沒有指定, 则系统默认为 4096,Bytes,每个分区的逻辑块数量由以下公式确定：,Unix/Linux文件系统结构,超级块中包含了描述文件系统基本尺寸和形态的信息。文件系统管理器利用它们来使用和维护文件系统。通常安装文件系统时只读取数据块组0 中的超级块，但是为了防止文件系统被破坏,每个数据块组都包含了复制拷贝。,超级块包含如下信息：,Block Group Number：超级块的拷贝。,Block Size：以字节记数的文件系统块大小如1024 字节。,Blocks per Group：每个组中块数目，当文件系统创建时此块大小被固定下来。,Free Blocks：文件系统中空闲块数,Free Inodes：文件系统中空闲Inode数,First Inode：文件系统中第一个inode号。根文件系统中第一个inode将是指向/目录的目录入口。,超级块,Partition,Partition,Partition,File System,inode,inode,inode,inode,inode,i-list,directory blocks and data blocks,Boot,Block,Super,Block,文件系统通过一个 inode 结构来描述文件系统中文件并确定此文件系统的拓扑结构。同时还有一个位图被系统用来跟踪已分配和未分配的inode。inode 结构描述文件中数据占据哪个块以及文件的存取权限、文件修改时间及文件类型。文件系统中的每个文件用一个inode 来表示且每个inode 有唯一的编号。目录是一个包含指向其目录入口指针的特殊文件（也用inode表示）。,inode包含以下几个域：,mode：它包含两类信息：inode 描述的内容以及用户使用权限。inode 可以表示一个文件、目录、符号连接、块设备、字符设备或FIFO。,Owner Information：表示此文件或目录所有者的用户和组标志符。文件系统根据它可以进行正确的存取。,Size：以字节计算的文件尺寸。,Timestamps：inode 创建及最后一次被修改的时间。,Datablocks：指向此inode 描述的包含数据的块指针。,inode数量= FileSystem_size / NBPI（Number of Bytes per inode）在文件系统创建以后就不能修改了,想增加inode数，只能增加文件系统的大小。Bytes-per-inode最小不能小于block size，因此指定Bytes-per-inode大小等于block size大小可以获得最大inode个数。,inode,inode 的数量,执行 df -i 命令可查看 inode 的数量：,inode 文件结构,inode 中存放的指针, 会指到实际存放文件的数据块,小的文件仅需用到 inode中direct blocks 的空间,若再大文件则会用到 indirect blocks、double indirect blocks 或 triple indirect blocks块指针指向间接数据块，间接数据块再指向实际的文件数据块。较大文件的inode指向更多的间接数据块。,NTFS文件系统,什么是NTFS新(N)技术(T)文件(F)系统(S)？,NTFS新特性,主文件表(Master File Table)。而$MFT则由文件记录(File Record)数组构成。File Record的大小一般是固定的，通常情况下均为1KB，这个概念相当于Linux中的inode。$MFT仅供File System本身组织、架构文件系统使用，这在NTFS中称为元数据(Metadata)。,NTFS存储结构,卷，簇,主控文件表,文件引用号，文件记录，文件名称,常驻属性与非常驻属性,索引,数据压缩,NTFS存储结构：卷,卷是建立在磁盘分区上,一个磁盘可以有多个卷，一个卷也可以有多个磁盘组成,经过格式化的卷上的数据可分为：元数据和用户数据,NTFS存储结构：簇,簇作为磁盘空间分配和回收的基本单位,簇的大小是用户在使用Format命令或其他的格式化程序格式化卷时确定的。簇随卷的大小而不同，但都是物理扇区的整数倍，通常是2的幂。系统默认NTFS簇的大小不会超过4KB，簇越小空间的利用率就越好。,NTFS使用LCN（Logical Cluster Number，逻辑簇号）和VCN（Virtual Cluster Number，虚拟簇号）来进行簇的定位。,分区大小,每簇的扇区,缺省的簇大小,=2G,8,4KB,VCN和LCN,NTFS使用逻辑簇号（Logical Cluster Number，LCN）和虚拟簇号（Virtual Cluster Number，VCN）来对簇进行定位。LCN是对整个卷中所有的簇从头到尾所进行的简单编号。用卷簇乘以LCN，NTFS就能够得到卷上的物理字节偏移量，从而得到物理磁盘地址。VCN则是对属于特定文件的簇从头到尾进行编号，以便于引用文件中的数据。VCN可以映射成LCN，而不必要求在物理上连续。,NTFS存储结构：主控文件表,MFT（Master File Table，主控文件表）是NTFS卷结构的核心，是NTFS中最重要的系统文件，包含了卷中所有文件的信息。,MFT是一个数据库，由一系列文件记录File record组成。卷中每一个文件都有一个文件记录，每个文件记录的大小都固定为1KB。卷上的每个文件（包括MFT本身）都有一行MFT记录。,MFT开始的16个元数据文件是保留的。在NTFS中只有这16个元数据文件占有固定的位置。每个这样的元数据文件都有一个以“$”开头的文件名称，不过该符号是隐藏的。16个元数据文件之后则是普通的用户文件和目录。,NTFS中的16个元数据文件,0：$Mft：MFT本身，保存NTFS卷中所有文件的记录,1：$MftMirr：MFT镜像， Mft一小部分的副本,2：$LogFile：日志文件，NTFS卷结构和元数据更改日志，用来保证数据一致性,3：$Volume：卷文件，保存NTFS卷的基本信息(如NTFS版本等),4：$AttrDef：属性定义表，定义NTFS支持的文件属性,5：$：根目录,6：$Bitmap：位图文件，卷的cluster位图,7：$Boot：引导文件，引导区,8：$BadClus：坏簇文件，坏扇区标记,9：$Secure：安全文件，权限信息,10：$UpCase：大写文件，大小写对应表,11：$Extended metadata directory：扩展元数据目录,$Quota 磁盘配额信息,$ObjID 文件的ObjID,$UsnJrnl 用户使用信息,$Reparse 重分析点,12，13，14，15：预留,15：其他用户文件和目录,NTFS存储结构：主控文件表的空间和备份,NTFS把磁盘分成了两大部分，其中大约12%分配给了MFT，以满足其不断增长的文件数量。为了保持MFT元文件的连续性，MFT对这12%的空间享有独占权。余下的88%的空间被分配用来存储文件。MFT空间的使用机制可以这样来描述：当文件耗尽了存储空间时，Windows操作系统会简单地减少MFT空间，并把它分配给文件存储。当有剩余空间时，这些空间又会重新被划分给MFT。,NTFS设计目标：可恢复性,文件系统的要求：速度快和可恢复性,速度快 =读写操作快 = 使用缓存 =可恢复性降低,文件系统的可恢复性取决于文件系统的写入操作方式。,谨慎写（careful write）文件系统：例如FAT文件系统的“写通”技术。速度性能差,延迟写（lazy-write）文件系统：例如UNIX文件系统的 “写回”高速缓存技术。可恢复性差,事务日志（transaction log）文件系统：试图既超越谨慎写文件系统的安全性，也达到延迟写文件系统的速度性能。,NTFS的恢复机制The Change Journal File,采用Logging来保护FS的结构安全,NTFS通过日志记录（logging）来实现文件系统的可恢复性。所有改变文件系统的子操作在磁盘上运行以前，首先被记录在日志文件中。在系统崩溃后的恢复阶段，NTFS根据记录在日志文件中的文件操作信息，对那些部分完成的事务进行重做或是撤销，从而保证了磁盘上文件系统的一致性。,日志记录的实现,可恢复性的实现,数据库与存储 - 使用裸设备,因为使用裸设备避免了再经过操作系统这一层，数据直接从DBMS到Disk进行传输，所以使用裸设备对于读写频繁的数据库应用来说，可以极大地提高数据库系统的性能。,使用的是原始分区，没有采用文件系统的管理方式，对于Unix维护文件系统的开销也都没有了，比如不用再维护inode，空闲块等，这也能够导致性能的提高,一般数据库厂商会建议使用裸设备（字符设备），空间管理完全由数据库引擎进行管理，这样所有数据和日志直接写盘，当发生系统故障时，安全性较强，不至于丢失数据。,数据库自动存储管理,Oracle ASM,数据库不依赖于OS的文件系统和卷管理,数据库文件的地址映射,数据库自动存储管理的意义,不需要操作系统的映射与缓存，提高效率,在多个磁盘上自动分散空间使用和I/O负载,不需要手动进行存储配置优化,可以在线进行存储配置,谢谢,

展开阅读全文

UIT存储基础培训

最新文档