超融合技术白皮书超融合架构.docx

资源描述

深信服超融合架构技术白皮书深信服科技有限公司2015年10月版权声明深圳市深信服电子科技有限公司版权所有，并保留对本文档及本声明的最终解释权和修改权。本文档中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容，除另有特别注明外，其著作权或其它相关权利均属于深圳市深信服电子科技有限公司。未经深圳市深信服电子科技有限公司书面同意，任何人不得以任何方式或形式对本文档内的任何部分进行复制、摘录、备份、修改、传播、翻译成其他语言、将其全部或部分用于商业用途。免责条款本文档仅用于为最终用户提供信息，其内容如有更改，恕不另行通知。深圳市深信服电子科技有限公司在编写本文档的时候已尽最大努力保证其内容准确可靠，但深圳市深信服电子科技有限公司不对本文档中的遗漏、不准确、或错误导致的损失和损害承担责任。信息反馈如果您有任何宝贵意见，请反馈至：信箱：广东省深圳市学苑大道1001号南山智园A1栋邮编：518055 电话：0755-26581949 传真：0755-26581959您也可以访问深信服科技网站：www.sangfor.com.cn 获得最新技术和产品信息缩写和约定英文缩写英文全称中文解释HypervisorHypervisor虚拟机管理器（和VMM同义）VMMVMM Virtual Machine Manager虚拟机监视器HAHighAvailability高可用性vMotionvMotion实时迁移DRSDistributed Resource Scheduler分布式资源调度RAIDRedundant Arrays of Independent Disks磁盘阵列IOPSInput/Output Operations Per Second每秒读写（I/O）操作的次数VMVirtual Machine虚拟机SDNSoftware Defined Network软件定义网络NFVNetwork Function Virtualization网络功能虚拟化修订记录修订版本号作者日期备注V1.0肖先东2015-10深信服超融合架构技术白皮书目录深信服超融合架构技术白皮书1前言31.1IT时代的变革31.2白皮书总览42深信服超融合技术架构52.1超融合架构概述52.1.1超融合架构的定义52.2深信服超融合架构组成模块52.2.1系统总体架构52.3aSV计算虚拟化平台62.3.1概述62.3.2aSV技术原理72.3.3aSV的技术特性192.3.4aSV的特色技术242.4aSAN存储虚拟化272.4.1存储虚拟化概述272.4.2aSAN技术原理292.4.3aSAN存储数据可靠性保障412.4.4深信服aSAN功能特性472.5aNet网络虚拟化492.5.1网络虚拟化概述492.5.2aNET网络虚拟化技术原理502.5.3aNet功能特性562.5.4深信服aNet的特色技术573深信服超融合架构产品介绍603.1产品概述603.2产品定位604深信服超融合架构带来的核心价值624.1可靠性624.2安全性624.3灵活弹性624.4易操作性625超融合架构最佳实践641 前言1.1 IT时代的变革20 世纪 90 年代，随着 Windows 的广泛使用及 Linux 服务器操作系统的出现奠定了 x86服务器的行业标准地位，然而 x86 服务器部署的增长带来了新的 IT 基础架构和运作难题，包括：基础架构利用率低、物理基础架构成本日益攀升、IT 管理成本不断提高以及对关键应用故障和灾难保护不足等问题。随着X86 服务器性能的提升，通过将 x86 系统转变成通用的共享硬件基础架构，充分挖掘硬件的潜力，提高硬件的利用效率，有效的降低硬件和运营成本，并且简化运维降低管理成本，最终帮助用户把更多的时间和成本转移到对业务的投入上。随着云计算和虚拟化技术向构建新一代数据中心方向发展，关键以虚拟化为基础，实现管理以及业务的集中，对数据中心资源进行动态调整和分配，重点满足企业关键应用向X86 系统迁移对于资源高性能、高可靠、安全性和高可适应性上的要求，同时提高基础架构的自动化管理水平，确保满足基础设施快速适应业务的商业诉求，支持企业应用云化部署。云计算其实并不是一种新的技术，而是在一个新理念的驱动下产生的技术组合。在云计算之前，企业部署一套服务，需要经历组网规划，容量规划，设备选型，下单，付款，发货，运输，安装，部署，调试的整个完整过程。这个周期在大型项目中需要以周甚至月来计算。在引入云计算后，这整个周期缩短到以分钟来计算。IT 业有一条摩尔定律，芯片速度容量每 18 个月提升一倍。同时， IT 行业还有一条反摩尔定律，所有无法追随摩尔定律的厂家将被淘汰。 IT 行业是快鱼吃慢鱼的行业，使用云计算可以提升 IT 设施供给效率，不使用则会拖慢产品或服务的扩张脚步，一步慢步步慢。我们现在正处于一场几十年未见的企业级数据中心革命性转变中，究其核心，这一转变是由“软件”基础设施的崛起而驱动。虚拟机、虚拟网络和存储设备能够以高速自动化的方式分配与重新配置，不会受到非动态设置的硬件基础设施的限制，在“软件定义数据中心”的模型下，用户首先考虑的是应用，根据应用的模式便可灵活的调配其所需的IT基础架构资源，也就是通过软件化的方式实现硬件资源调配。深信服的超融合架构是软件定义数据中心下的一套非常成熟的解决方案，除满足上面所述的虚拟化，标准化和自动化诉求外，秉承深信服公司产品的优秀基因，向您提供简单易用，安全可靠的产品。1.2 白皮书总览本书介绍的内容大致如下：第一章、在前言部分，给您对云计算，云平台有一个概括性的认识，并对本文档的阅读给出指导。第二章、讲述超融合架构中的主要功能模块，各个功能模块的技术细节介绍。第三章、介绍深信服超融合架构涵盖的产品。第三章、向您介绍深信服超融合架构中的技术在为客户带来的核心价值。第四章、分享超融合架构在客户中的实际应用场景，并给出深信服超融合架构产品的体验途径，非常欢迎您来试用。2 深信服超融合技术架构2.1 超融合架构概述2.1.1 超融合架构的定义超融合基础架构，是一种将计算、网络和存储等资源作为基本组成元素，根据系统需求进行选择和预定义的一种技术架构，具体实现方式上一般是指在同一套单元节点（x86服务器）中融入软件虚拟化技术（包括计算、网络、存储、安全等虚拟化），而每一套单元节点可以通过网络聚合起来，实现模块化的无缝横向扩展（scale-out），构建统一的资源池。2.2 深信服超融合架构组成模块2.2.1 系统总体架构深信服超融合架构图深信服超融合架构在基于底层基础架构（标准的X86硬件）上将计算、存储、网络、安全软件化，通过这种软件化的方式，即计算虚拟化aSV、存储虚拟化aSAN、网络虚拟化aNet，构建了数据中心里所需的最小资源单元，通过资源池中的最小单元，提供了数据中心IT基础架构中所需的全部资源。后续章节，会针对超融合架构中的三大功能模块：aSV、aSAN、aNet所涵盖的产品技术来做详细说明。2.3 aSV计算虚拟化平台2.3.1 概述计算资源虚拟化技术就是将通用的 x86 服务器经过虚拟化软件，对最终用户呈现标准的虚拟机。这些虚拟机就像同一个厂家生产的系列化的产品一样，具备系列化的硬件配置，使用相同的驱动程序。虚拟机的定义：虚拟机 (Virtual Machine) 是由虚拟化层提供的高效、独立的虚拟计算机系统，每台虚拟机都是一个完整的系统，它具有处理器、内存、网络设备、存储设备和BIOS，因此操作系统和应用程序在虚拟机中的运行方式与它们在物理服务器上的运行方式没有什么区别。虚拟机与物理服务器相比：虚拟机不是由真实的电子元件组成，而是由一组虚拟组件（文件）组成，这些虚拟组件与物理服务器的硬件配置无关，关键与物理服务器相比，虚拟机具有以下优势:抽象解耦1.可在任何 X86 架构的服务器上运行；2.上层应用操作系统不需修改即可运行；分区隔离1.可与其他虚拟机同时运行；2.实现数据处理、网络连接和数据存储的安全隔离；封装移动1.可封装于文件之中，通过简单的文件复制实现快速部署、备份及还原；2.可便捷地将整个系统（包括虚拟硬件、操作系统和配置好的应用程序）在不同的物理服务器之间进行迁移，甚至可以在虚拟机正在运行的情况下进行迁移；深信服的超融合架构解决方案中的计算虚拟化采用aSV虚拟化系统，通过将服务器资源虚拟化为多台虚拟机。最终用户可以在这些虚拟机上安装各种软件，挂载磁盘，调整配置，调整网络，就像普通的 x86 服务器一样使用它。计算虚拟化是超融合的架构中必不可少的关键因素，对于最终用户，虚拟机比物理机的优势在于它可以很快速的发放，很方便的调整配置和组网。对于维护人员来讲，虚拟机复用了硬件，这样硬件更少加上云平台的自动维护能力，这样整个IT系统的成本显著降低。2.3.2 aSV技术原理2.3.2.1 Hypervisor架构Hypervisor是一种运行在物理服务器和操作系统之间的中间软件层,可允许多个操作系统和应用共享一套基础物理硬件，因此也可以看作是虚拟环境中的“元”操作系统，它可以协调访问服务器上的所有物理设备和虚拟机，也叫虚拟机监视器（Virtual Machine Monitor）。Hypervisor是所有虚拟化技术的核心。非中断地支持多工作负载迁移的能力是Hypervisor的基本功能。当服务器启动并执行Hypervisor时，它会给每一台虚拟机分配适量的内存、CPU、网络和磁盘，并加载所有虚拟机的客户操作系统。虚拟化技术架构Hypervisor，常见的 Hypervisor 分两类：Type-I（裸金属型）指 VMM 直接运作在裸机上,使用和管理底层的硬件资源，GuestOS 对真实硬件资源的访问都要通过 VMM 来完成，作为底层硬件的直接操作者，VMM 拥有硬件的驱动程序。裸金属虚拟化中Hypervisor直接管理调用硬件资源，不需要底层操作系统，也可以理解为Hypervisor被做成了一个很薄的操作系统。这种方案的性能处于主机虚拟化与操作系统虚拟化之间。代表是VMware ESX Server、Citrix XenServer和Microsoft Hyper-V，LinuxKVM。Type-II 型（宿主型）指 VMM 之下还有一层宿主操作系统，由于 Guest OS 对硬件的访问必须经过宿主操作系统，因而带来了额外的性能开销，但可充分利用宿主操作系统提供的设备驱动和底层服务来进行内存管理、进程调度和资源管理等。主机虚拟化中VM的应用程序调用硬件资源时需要经过:VM内核-Hypervisor-主机内核，导致性能是三种虚拟化技术中最差的。主机虚拟化技术代表是VMwareServer（GSX）、Workstation和MicrosoftVirtualPC、VirtualServer等。由于主机型Hypervisor的效率问题，深信服的aSV采用了裸机型Hypervisor中的Linux KVM虚拟化，即为Type-I（裸金属型）。KVM(Kenerl-based Virtual Machine)是基于linux内核虚拟化技术，自linux2.6.20之后就集成在linux的各个主要发行版本中。它使用linux自身的调度器进行管理，所以相对于xen，其核心源码很少。KVM是基于硬件虚拟化扩展（IntelVT-X）和QEMU的修改版，KVM属于Linux kernel的一个模块，可以用命令modprobe去加载KVM模块。加载了该模块后，才能进一步通过工具创建虚拟机。但是仅有KVM模块是不够的。因为用户无法直接控制内核去做事情，还必须有一个运行在用户空间的工具才行。这个用户空间的工具，我们选择了已经成型的开源虚拟化软件QEMU，QEMU也是一个虚拟化软件，它的特点是可虚拟不同的CPU，比如说在x86的CPU上可虚拟一个power的CPU，并可利用它编译出可运行在power上的CPU，并可利用它编译出可运行在power上的程序。KVM使用了QEMU的一部分，并稍加改造，就成了可控制KVM的用户空间工具了。这就是KVM和QEMU 的关系。如下图：一个普通的linux进程有两种运行模式：内核和用户。而KVM增加了第三种模式：客户模式（有自己的内核和用户模式）。在kvm模型中，每一个虚拟机都是由linux调度程序管理的标准进程。总体来说，kvm由两个部分组成：一个是管理虚拟硬件的设备驱动，该驱动使用字符设备/dev/kvm作为管理接口；另一个是模拟PC硬件的用户空间组件，这是一个稍作修改的qemu进程。同时，aSV采用KVM优势有：嵌入到Linux正式Kernel(提高兼容性) 代码级资源调用（提高性能）虚拟机就是一个进程（内存易于管理）直接支持NUMA技术（提高扩展性）保持开源发展模式（强大的社区支持）2.3.2.2 aSV的Hypervisor实现VMM (Virtual Machine Monitor)对物理资源的虚拟可以划分为三个部分：CPU 虚拟化、内存虚拟化和 I/O 设备虚拟化,其中以 CPU 的虚拟化最为关键。经典的虚拟化方法：现代计算机体系结构一般至少有两个特权级（即用户态和核心态，x86 有四个特权级Ring0 Ring3）用来分隔系统软件和应用软件。那些只能在处理器的最高特权级（内核态）执行的指令称之为特权指令，一般可读写系统关键资源的指令（即敏感指令）决大多数都是特权指令（X86 存在若干敏感指令是非特权指令的情况）。如果执行特权指令时处理器的状态不在内核态，通常会引发一个异常而交由系统软件来处理这个非法访问（陷入）。经典的虚拟化方法就是使用“特权解除”和“陷入-模拟”的方式，即将 GuestOS 运行在非特权级，而将 VMM 运行于最高特权级（完全控制系统资源）。解除了 GuestOS 的特权级后，Guest OS 的大部分指令仍可以在硬件上直接运行，只有执行到特权指令时，才会陷入到 VMM 模拟执行（陷入-模拟）。“陷入-模拟” 的本质是保证可能影响VMM 正确运行的指令由 VMM 模拟执行，大部分的非敏感指令还是照常运行。因为 X86 指令集中有若干条指令是需要被 VMM 捕获的敏感指令，但是却不是特权指令（称为临界指令），因此“特权解除”并不能导致他们发生陷入模拟，执行它们不会发生自动的“陷入”而被 VMM 捕获，从而阻碍了指令的虚拟化，这也称之为X86 的虚拟化漏洞。X86架构虚拟化的实现方式可分为：1、X86“全虚拟化”（指所抽象的 VM 具有完全的物理机特性，OS 在其上运行不需要任何修改）Full 派秉承无需修改直接运行的理念，对“运行时监测，捕捉后模拟”的过程进行优化。该派内部之实现又有些差别，其中以 VMWare 为代表的基于二进制翻译 (BT) 的全虚拟化为代表, 其主要思想是在执行时将 VM 上执行的 Guest OS 指令，翻译成 x86 指令集的一个子集，其中的敏感指令被替换成陷入指令。翻译过程与指令执行交叉进行，不含敏感指令的用户态程序可以不经翻译直接执行。2、X86“半虚拟化”（指需 OS 协助的虚拟化，在其上运行的 OS 需要修改）半虚拟化的基本思想是通过修改 Guest OS 的代码，将含有敏感指令的操作，替换为对 VMM的超调用 Hypercall，类似 OS 的系统调用，将控制权转移到 VMM，该技术因 VMM 项目而广为人知。该技术的优势在于 VM 的性能能接近于物理机，缺点在于需要修改 GuestOS（如：Windows 不支持修改）及增加的维护成本，关键修改 Guest OS 会导致操作系统对特定 hypervisor 的依赖性，因此很多虚拟化厂商基于 VMM 开发的虚拟化产品部分已经放弃了 Linux 半虚拟化，而专注基于硬件辅助的全虚拟化开发，来支持未经修改的操作系统。3、X86“硬件辅助虚拟化”：其基本思想就是引入新的处理器运行模式和新的指令，使得 VMM 和 Guest OS 运行于不同的模式下，Guest OS 运行于受控模式，原来的一些敏感指令在受控模式下全部会陷入 VMM，这样就解决了部分非特权的敏感指令的“陷入-模拟”难题，而且模式切换时上下文的保存恢复由硬件来完成，这样就大大提高了“陷入-模拟”时上下文切换的效率。以 Intel VT-x 硬件辅助虚拟化技术为例，该技术增加了在虚拟状态下的两种处理器工作模式：根（Root）操作模式和非根（Non-root）操作模式。VMM 运作在 Root 操作模式下，而 Guest OS 运行在 Non-root 操作模式下。这两个操作模式分别拥有自己的特权级环，VMM 和虚拟机的 Guest OS 分别运行在这两个操作模式的 0 环。这样，既能使 VMM运行在 0 环，也能使 Guest OS 运行在 0 环，避免了修改 Guest OS。Root 操作模式和Non-root 操作模式的切换是通过新增的 CPU 指令（如：VMXON,VMXOFF ）来完成。硬件辅助虚拟化技术消除了操作系统的 ring 转换问题，降低了虚拟化门槛，支持任何操作系统的虚拟化而无须修改 OS 内核，得到了虚拟化软件厂商的支持。硬件辅助虚拟化技术已经逐渐消除软件虚拟化技术之间的差别，并成为未来的发展趋势。l vCPU 机制vCPU 调度机制对虚拟机来说，不直接感知物理 CPU，虚拟机的计算单元通过 vCPU 对象来呈现。虚拟机只看到 VMM 呈现给它的 vCPU。在 VMM 中，每个 vCPU 对应一个 VMCS（Virtual-MachineControl Structure）结构，当 vcpu 被从物理 CPU 上切换下来的时候，其运行上下文会被保存在其对应的 VMCS 结构中；当 vcpu 被切换到 pcpu 上运行时，其运行上下文会从对应的 VMCS 结构中导入到物理 CPU 上。通过这种方式，实现各 vCPU 之间的独立运行。从虚拟机系统的结构与功能划分可以看出，客户操作系统与虚拟机监视器共同构成了虚拟机系统的两级调度框架，如图所示是一个多核环境下虚拟机系统的两级调度框架。客户操作系统负责第 2 级调度,即线程或进程在 vCPU 上的调度（将核心线程映射到相应的虚拟 CPU 上）。虚拟机监视器负责第 1 级调度, 即 vCPU 在物理处理单元上的调度。两级调度的调度策略和机制不存在依赖关系。vCPU 调度器负责物理处理器资源在各个虚拟机之间的分配与调度,本质上即把各个虚拟机中的 vCPU 按照一定的策略和机制调度在物理处理单元上可以采用任意的策略来分配物理资源, 满足虚拟机的不同需求。vCPU 可以调度在一个或多个物理处理单元执行（分时复用或空间复用物理处理单元）, 也可以与物理处理单元建立一对一固定的映射关系（限制访问指定的物理处理单元）。内存虚拟化内存虚拟化三层模型因为 VMM (Virtual Machine Monitor) 掌控所有系统资源，因此 VMM 握有整个内存资源，其负责页式内存管理，维护虚拟地址到机器地址的映射关系。因 Guest OS 本身亦有页式内存管理机制，则有 VMM 的整个系统就比正常系统多了一层映射：A. 虚拟地址(VA)，指 Guest OS 提供给其应用程序使用的线性地址空间；B. 物理地址(PA)，经 VMM 抽象的、虚拟机看到的伪物理地址；C. 机器地址(MA)，真实的机器地址，即地址总线上出现的地址信号；映射关系如下：Guest OS: PA = f(VA)、VMM: MA = g(PA)VMM 维护一套页表，负责 PA 到 MA 的映射。Guest OS 维护一套页表，负责 VA 到PA 的映射。实际运行时，用户程序访问 VA1，经 Guest OS 的页表转换得到 PA1，再由VMM 介入，使用 VMM 的页表将 PA1 转换为 MA1。l 页表虚拟化技术普通 MMU 只能完成一次虚拟地址到物理地址的映射，在虚拟机环境下，经过 MMU 转换所得到的“物理地址”并不是真正的机器地址。若需得到真正的机器地址，必须由 VMM介入，再经过一次映射才能得到总线上使用的机器地址。如果虚拟机的每个内存访问都需要 VMM 介入，并由软件模拟地址转换的效率是很低下的，几乎不具有实际可用性，为实现虚拟地址到机器地址的高效转换，现普遍采用的思想是：由 VMM 根据映射 f 和g 生成复合的映射 fg，并直接将这个映射关系写入 MMU。当前采用的页表虚拟化方法主要是 MMU 类虚拟化（MMU Paravirtualization）和影子页表，后者已被内存的硬件辅助虚拟化技术所替代。1、MMU Paravirtualization其基本原理是：当 Guest OS 创建一个新的页表时，会从它所维护的空闲内存中分配一个页面，并向 VMM 注册该页面，VMM 会剥夺 Guest OS 对该页表的写权限，之后 GuestOS 对该页表的写操作都会陷入到 VMM 加以验证和转换。VMM 会检查页表中的每一项，确保他们只映射了属于该虚拟机的机器页面，而且不得包含对页表页面的可写映射。后VMM 会根据自己所维护的映射关系，将页表项中的物理地址替换为相应的机器地址，最后再把修改过的页表载入 MMU。如此，MMU 就可以根据修改过页表直接完成虚拟地址到机器地址的转换。2、内存硬件辅助虚拟化内存硬件辅助虚拟化技术原理图内存的硬件辅助虚拟化技术是用于替代虚拟化技术中软件实现的“影子页表”的一种硬件辅助虚拟化技术，其基本原理是：GVA（客户操作系统的虚拟地址）- GPA（客户操作系统的物理地址）- HPA（宿主操作系统的物理地址）两次地址转换都由 CPU 硬件自动完成（软件实现内存开销大、性能差）。以 VT-x 技术的页表扩充技术 Extended PageTable（EPT）为例，首先 VMM 预先把客户机物理地址转换到机器地址的 EPT 页表设置到 CPU 中；其次客户机修改客户机页表无需 VMM 干预；最后，地址转换时，CPU 自动查找两张页表完成客户机虚拟地址到机器地址的转换。使用内存的硬件辅助虚拟化技术，客户机运行过程中无需 VMM 干预，去除了大量软件开销，内存访问性能接近物理机。l I/O 设备虚拟化VMM 通过 I/O 虚拟化来复用有限的外设资源，其通过截获 Guest OS 对 I/O 设备的访问请求，然后通过软件模拟真实的硬件，目前 I/O 设备的虚拟化方式主要有三种：设备接口完全模拟、前端后端模拟、直接划分。1、设备接口完全模拟：即软件精确模拟与物理设备完全一样的接口，Guest OS 驱动无须修改就能驱动这个虚拟设备。优点：没有额外的硬件开销，可重用现有驱动程序；缺点：为完成一次操作要涉及到多个寄存器的操作，使得 VMM 要截获每个寄存器访问并进行相应的模拟，这就导致多次上下文切换；由于是软件模拟，性能较低。2、前端后端模拟：VMM 提供一个简化的驱动程序（后端, Back-End），Guest OS 中的驱动程序为前端(Front-End, FE)，前端驱动将来自其他模块的请求通过与 Guest OS 间的特殊通信机制直接发送给 Guest OS 的后端驱动，后端驱动在处理完请求后再发回通知给前端，VMM 即采用该方法。优点：基于事务的通信机制，能在很大程度上减少上下文切换开销，没有额外的硬件开销；缺点：需要 GuestOS实现前端驱动，后端驱动可能成为瓶颈。3、直接划分：即直接将物理设备分配给某个 Guest OS，由 Guest OS 直接访问 I/O 设备（不经 VMM），目前与此相关的技术有 IOMMU（Intel VT-d, PCI-SIG 之 SR-IOV 等），旨在建立高效的I/O 虚拟化直通道。优点：可重用已有驱动，直接访问减少了虚拟化开销；缺点：需要购买较多额外的硬件。2.3.3 aSV的技术特性2.3.3.1 内存NUMA技术非统一内存访问（NUMA）是服务器CPU和内存设计的新架构。传统的服务器架构下把内存放到单一的存储池中，这对于单处理器或单核心的系统工作良好。但是这种传统的统一访问方式，在多核心同时访问内存空间时会导致资源争用和性能问题。毕竟，CPU应该可以访问所有的服务器内存，但是不需要总是保持占用。实际上，CPU仅需要访问工作负载实际运行时所需的内存空间就可以了。因此NUMA改变了内存对CPU的呈现方式。这是通过对服务器每个CPU的内存进行分区来实现的。每个分区（或内存块）称为NUMA节点，而和该分区相关的处理器可以更快地访问NUMA内存，而且不需要和其它的NUMA节点争用服务器上的资源（其它的内存分区分配给其它处理器）。NUMA的概念跟缓存相关。处理器的速度要比内存快得多，因此数据总是被移动到更快的本地缓存，这里处理器访问的速度要比通用内存快得多。NUMA本质上为每个处理器配置了独有的整体系统缓存，减少了多处理器试图访问统一内存空间时的争用和延迟。NUMA与服务器虚拟化完全兼容，而且NUMA也可以支持任意一个处理器访问服务器上的任何一块内存区域。某个处理器当然可以访问位于不同区域上的内存数据，但是需要更多本地NUMA节点之外的传输，并且需要目标NUMA节点的确认。这增加了整体开销，影响了CPU和内存子系统的性能。NUMA对虚拟机负载不存在任何兼容性问题，但是理论上虚拟机最完美的方式应该是在某个NUMA节点内。这可以防止处理器需要跟其它的NUMA节点交互，从而导致工作负载性能下降。深信服的aSV支持NUMA技术，使得hypervisor和上层OS内存互连，这样OS不会在CPU和NUMA节点之间迁移工作负载。2.3.3.2 SR-IOV通常针对虚拟化服务器的技术是通过软件模拟共享和虚拟化网络适配器的一个物理端口，以满足虚拟机的 I/O 需求，模拟软件的多个层为虚拟机作了 I/O 决策，因此导致环境中出现瓶颈并影响 I/O 性能。aSV虚拟化平台提供的 SR-IOV 是一种不需要软件模拟就可以共享 I/O 设备 I/O 端口的物理功能的方法，主要利用 iNIC 实现网桥卸载虚拟网卡，允许将物理网络适配器的 SR-IOV 虚拟功能直接分配给虚拟机，可以提高网络吞吐量，并缩短网络延迟，同时减少处理网络流量所需的主机 CPU 开销。技术原理：SR-IOV（Single Root I/O Virtualization）是 PCI-SIG 推出的一项标准，是虚拟通道（在物理网卡上对上层软件系统虚拟出多个物理通道，每个通道具备独立的 I/O 功能）的一个技术实现，用于将一个 PCIe 设备虚拟成多个 PCIe 设备，每个虚拟 PCIe 设备如同物理 PCIe 设备一样向上层软件提供服务。通过 SR-IOV 一个 PCIe 设备不仅可以导出多个PCI 物理功能，还可以导出共享该 I/O 设备上的资源的一组虚拟功能，每个虚拟功能都可以被直接分配到一个虚拟机，能够让网络传输绕过软件模拟层，直接分配到虚拟机，实现了将 PCI 功能分配到多个虚拟接口以在虚拟化环境中共享一个 PCI 设备的目的，并且降低了软加模拟层中的 I/O 开销，因此实现了接近本机的性能。如图所示，在这个模型中，不需要任何透传，因为虚拟化在终端设备上发生，允许管理程序简单地将虚拟功能映射到 VM 上以实现本机设备性能和隔离安全。SR-IOV 虚拟出的通道分为两个类型：1、PF(Physical Function) 是完整的 PCIe 设备，包含了全面的管理、配置功能， Hypervisor通过 PF 来管理和配置网卡的所有 I/O 资源。2、VF(Virtual Funciton)是一个简化的 PCIe 设备，仅仅包含了 I/O 功能，通过 PF 衍生而来好象物理网卡硬件资源的一个切片，对于 Hypervisor 来说，这个 VF 同一块普通的 PCIe网卡一模一样。通过SR-IOV可满足高网络 IO 应用要求，无需特别安装驱动，且无损热迁移、内存复用、虚拟机网络管控等虚拟化特性。2.3.3.3 Faik-raid一般情况下，当主机系统有多块硬盘时，通过组建Raid以提升磁盘性能或提供磁盘冗余，往往成为人们的首选考量。当今主流raid实现方案大致可分为三种：硬件raid(hardware raid)：通过购买昂贵的raid卡实现。软件raid(software raid)：通过操作系统内软件创建阵列，raid处理开销由CPU负责。主板raid(fake raid)：通过主板内建raid控制器创建阵列，由操作系统驱动识别。相对于昂贵的硬件，主板raid(fake raid)就成了我们不错的选择。Fake raid仅提供廉价的控制器，raid处理开销仍由CPU负责，因此性能与CPU占用基本与software raid持平。aSV 3.7 融入了对Fake-RAID的支持，现可支持Fake-RAID安装与使用Fake-RAID存储，目前可以使用intel模式的raid0，raid1，raid5，raid10，LSI模式的raid02.3.3.4 虚拟机生命周期管理aSV提供了虚拟机从创建至删除整个过程中的全面管理，就像人类的生命周期一样，虚拟机最基本的生命周期就是创建、使用和删除这三个状态。当然还包含如下几个状态：创建虚拟机虚拟机开关机、重启、挂起虚拟机上的操作系统安装创建模板更新虚拟机硬件配置迁移虚拟机及/或虚拟机的存储资源分析虚拟机的资源利用情况虚拟机备份虚拟机恢复删除虚拟机在虚拟机生命周期内，虚拟机可能会在某一个时间点经历上述这些状态。aSV提供了完善的虚拟机生命周期管理工具，我们可以通过对虚拟机生命周期的规划，可以想要最大化的发挥虚拟机的作用。2.3.3.5 虚拟机热迁移虚拟化环境中，物理服务器和存储上承载更多的业务和数据，设备故障时造成的影响更大。 aSV虚拟化平台提供虚拟机热迁移技术，降低宕机带来的风险、减少业务中断的时间。aSV虚拟机热迁移技术是指把一个虚拟机从一台物理服务器迁移到另一台物理服务器上，即虚拟机保存/恢复(Save/Restore)。首先将整个虚拟机的运行状态完整保存下来，同时可以快速的恢复到目标硬件平台上，恢复以后虚拟机仍旧平滑运行，用户不会察觉到任何差异。虚拟机的热迁移技术主要被用于双机容错、负载均衡和节能降耗等应用场景。 aSV虚拟化平台热迁移提供内存压缩技术，使热迁移效率提升一倍，可支持并发多达4台虚拟机同时迁移。功能价值：1. 在设备维护过程中，通过热迁移手动将应用迁移至另一台服务器，维护结束后再迁回来，中间应用不停机，减少计划内宕机时间。2. 可结合资源动态调度策略，例如在夜晚虚拟机负荷减少时，通过预先配置自动将虚拟机迁移集中至部分服务器，减少服务器的运行数量，从而降低设备运营能耗上的支出。2.3.4 aSV的特色技术2.3.4.1 快虚在实际的IT应用系统在部署虚拟化的时候，会存在虚拟化迁移的需求，为了实现将windows主机系统下的应用系统平滑的迁移至VM环境中，除了传统的P2V、V2V工具，深信服采用技术创新，基于Windows环境中，推出了独有的快虚技术。快虚技术实现原理为：在Windows环境下，先创建一个虚拟磁盘文件, 并使用Windows驱动程序对虚拟磁盘进行保护，保证虚拟磁盘文件占用的物理扇区不会被移动. 获取虚拟磁盘文件所占的物理簇信息，并保存到当前系统盘下的配置文件中, 安装aSV的引导程序以及内核到当前Windows系统盘下，安装系统引导程序，并向系统引导中添加aSV的引导项，默认引导到aSV系统. 当在aSV中向虚拟磁盘读写数据时，虚拟磁盘驱动根据读写的扇区位置重新定位到虚拟磁盘文件所对应的物理扇区，实现数据的存取，下次进入aSV系统后仍然可以读写已有数据。通过快虚技术，既实现了将应用环境迁移到了虚拟机环境中，同时在现有的物理主机服务器之上，快速的构建了虚拟化底层的hypervisor。2.3.4.2 虚拟机的HAHA全称是High Availability(高可用性)。在aSV环境中，如果出现部署了HA的虚拟机所在主机的物理口网线被拔出、或存储不能访问等出现的物理故障时，会将此虚拟机切换到其他的主机上运行，保障虚拟机上的业务正常使用。aSV存在后台进程，通过轮询的机制，每隔5s检测一次虚拟机状态是否异常，发现异常时，切换HA虚拟机到其他主机运行。下面任意一种情况发生，都会触发HA虚拟机切换主机，1、连续三次检测到，虚拟机所连接的物理网卡被拔出（不包括网卡被禁用情况）2、连续两次检测到，虚拟机当前主机无法访问虚拟机的存储通过aSV的HA技术，对业务系统提供了高可用性，极大缩短了由于各种主机物理或者链路故障引起的业务中断时间。2.3.4.3 动态资源调度在虚拟化环境中，如果生产环境的应用整合到硬件资源相对匮乏的物理主机上，虚拟机的资源需求往往会成为瓶颈，全部资源需求很有可能超过主机的可用资源，这样业务系统的性能也无法保障。aSV虚拟化管理平台提供的动态资源调度技术，通过引入一个自动化机制，持续地动态平衡资源能力，将虚拟机迁移到有更多可用资源的主机上，确保每个虚拟机在任何节点都能及时地调用相应的资源。即便大量运行对CPU和内存占用较高的虚拟机（比如数据库虚拟机），只要开启了动态资源调度功能，就可实现全自动化的资源分配和负载平衡功能，也可以显著地降低数据中心的成本与运营费用。aSV的动态资源调度功能其实现原理：通过跨越集群之间的心跳机制，定时监测集群内主机的CPU和内存等计算资源的利用率，并根据用户自定义的规则来判断是否需要为该主机在集群内寻找有更多可用资源的主机，以将该主机上的虚拟机通过虚拟机迁移技术迁移到另外一台具有更多合适资源的服务器上，或者将该服务器上其它的虚拟机迁移出去，从而保证某个关键虚拟机的资源需求。2.3.4.4 多USB映射当物理服务器部署虚拟化之后。其中类似金蝶等需要通过usb key进行应用加密的服务器，转化到虚拟化后，需要将插在虚拟化平台上的硬件key，映射给虚拟机，而且需要满足虚拟机热迁移、跨主机映射的需求。业界给出的方案有三种：一、采用主机映射：直接采用主机映射的方式来完成，缺点是不支持网络映射,无法支持热迁移、网络映射的需求。二、采用Usb Anywhere：通过使用中间设备，将中间设备IP化，然后在虚拟机上安装驱动并配置对端设备的方式进行的。缺点是需要guest虚拟机内部进行修改安装特定软件，与第三方应用进行配合才能完成。三、采用底层硬件虚拟化加网络代理：支持热迁移、网络映射、无需修改guest机内部。最终实现，物理设备迁移到虚拟化平台后，可以直接无缝的操作读取原usb硬件设备。同时解决上述两种方案中的缺陷，破除了在虚拟化推广中外设映射造成的阻碍。热迁移功能的实现机制：由于整体方案是基于网络代理处理，所以在迁移到对端设备，进行虚拟机切换时，发送消息，触发usb服务程序修改连接的目的端ip，然后发起网络重连。隧道一旦重连成功，usb设备通信随即恢复，对于guest上层来说，是无感知的。aSV采用上述的第三种方案，融入了对多USB的支持，带来的优势有：1、usb设备动态插入提示2、guest虚拟机无需安装插件；3、能支持热迁移，跨主机映射，适应VMP集群环境；4、虚拟机迁移完成可以自动挂载上原usb设备；5、可以简化集成为类似usb hub的小设备，与VMP配套，搭建usb映射环境；6、虚拟机故障重启、目标端usb设备网络中断等异常情况恢复后自动重映射。2.4 aSAN存储虚拟化2.4.1 存储虚拟化概述2.4.1.1 虚拟后对存储带来的挑战采用计算虚拟化技术给服务器带来更高的资源利用率、给业务带来更便捷的部署，降低了TCO，与此同时，服务器虚拟化的部署给存储带来以下挑战：相比传统的物理服务器方式，单个存储系统承载了更多的业务，存储系统需要更强劲的性能来支撑；采用共享存储方式部署虚拟机，单个卷上可能承载几十或上百的虚拟机，导致卷IO呈现更多的随机特征，这对传统的Cache技术提出挑战；单个卷承载多个虚拟机业务，要求存储系统具备协调虚拟机访问竞争，保证对IO吞吐要求高的虚拟机获取到资源实现性能目标；单个卷上承载较多的虚拟机，需要卷具有很高的IO性能，这对传统受限于固定硬盘的RAID技术提出挑战。2.4.1.2 分布式存储技术的发展业界典型的分布式存储技术主要有分布式文件系统存储、分布式对象存储和分布式块设备存储等几种形式。分布式存储技术ServerSAN及其相关产品已经日趋成熟，并在IT行业得到了广泛的使用和验证，例如互联网搜索引擎中使用的分布式文件存储，商业化公有云中使用的分布式块存储等。分布式存储软件系统具有以下特点：高性能：数据分散存放，实现全局负载均衡，分布式缓存；高可靠：采用集群管理方式，不存在单点故障，灵活配置多数据副本，不同数据副本存放在不同的机架、服务器和硬盘上，单个物理设备故障不影响业务的使用，系统检测到设备故障后可以自动重建数据副本；高扩展：没有集中式存储控制器，支持平滑扩容，容量几乎不受限制；易管理：存储软件直接部署在服务器上，没有单独的存储专用硬件设备，通过Web 页面的方式进行存储的管理，配置和维护简单。2.4.1.3 深信服aSAN概述aSAN是深信服在充分掌握了用户对虚拟化环境存储方面的需求基础上，推出以aSAN分布式存储软件为核心的解决方案， aSAN是基于分布式文件系统Glusterfs开发的面对存储虚拟化的一款产品，并作为超融合架构中的重要组成部分，为云计算环境而设计，融合了分布式缓存、SSD读写缓存加速、多副本机制保障、故障自动重构机制等诸多存储技术，能够满足关键业务的存储需求，保证客户业务高效稳定可靠的运行。2.4.2 aSAN技术原理aSAN基于底层Hypervisor之上，通过主机管理、磁盘管理、缓存技术、存储网络、冗余副本等技术，管理集群内所有硬盘，“池化”集群所有硬盘存储的空间，通过向VMP提供访问接口，使得虚拟机可以进行业务数据的保存、管理和读写等整个存储过程中的操作。2.4.2.1 主机管理aSAN需要基于VMP集群获取集群内主机信息，因此在构建aSAN时，首先会要求建立VMP集群，所以在aSAN的环境中，至少需要2台主机节点来构建aSAN。2.4.2.2 文件副本由于下一节磁盘管理的策略与副本设置有直接管理，因此在讲解磁盘管理前，我们要先介绍文件副本技术。所谓文件副本，即将文件数据保存多份的一种冗余技术。aSAN副本颗粒度是文件级别。例如两个副本，即把文件A同时保存到磁盘1和磁盘2上。并且保证在无故障情况下，两个副本始终保持一致。技术特点：存储池可用空间=集群全部机械磁盘空间/副本数（同构情况），因此副本是会降低实际可用容量的。底层管理的副本对上层服务是透明的，上层无法感知副本的存在。磁盘管理、副本分布由底层服务负责，副本颗粒度是文件级。在没有故障等异常情况下，文件副本数据是始终一致的，不存在所谓主副本和备副本之分。如果对文件A进行修改，如写入一段数据，这段数据会被同时写到两个副本文件。如果是从文件A读取一段数据，则只会从其中一个副本读取。2.4.2.3 磁盘管理aSAN磁盘管理服务根据集群内主机数和aSAN初始化时所选择的副本数决定集群内所有受管磁盘的组织策略。在多主机集群下，可采用两个副本或三个副本组建aSAN的磁盘管理，为了支持主机故障而不影响数据完整性的目标，复制卷的磁盘组的每个磁盘都必须是在不同主机上。即需要做到跨主机副本。跨主机副本的关键在于复制卷磁盘分组算法。以下面场景为列（两台主机，每台主机各三块磁盘组建两个副本）：当构建两副本，并且两台主机磁盘数相同时。主机间的磁盘会一一对应组成复制卷。逻辑视图如下：从逻辑视图上，可以看出来和前面提到的单主机逻辑视图并没有本质上的区别，只是最底层的磁盘分组时，保证了复制卷内下面的磁盘不在同一主机内，从而达到了文件跨主机副本的目标。2.4.2.4 SSD读缓存加速原理在aSAN里面，会默认把系统内的SSD磁盘作为缓存盘使用，下面介绍aSAN SSD读缓存原理。首先需要区分aSAN客户端和服务端概念。在aSAN里面，负责处理底层磁盘IO称为服务端；负责向上层提供存储接口（如访问的挂载点）称为客户端。aSAN SSD读缓存工作在客户端,（注意：aSAN的SSD写缓存则工作在服务端）。逻辑视图如下：下面抛开底层的分布卷、复制卷、磁盘分组等概念，仅在客户端上理解SSD读缓存的原理。 SSD读缓存的缓存颗粒度是按文件数据块缓存，不是文件整体。例如，A、B、C 三个文件，可以分别各缓存读过的一部分数据，没读过的部分不缓存。简单地看，SSD读缓存模块工作在文件访问入口和服务端通信层之间。所有对文件的IO动作都会经过SSD读缓存模块进行处理。下面分别针对首次文件读取、二次文件读取、文件写入3个过程说明工作流程。l 首次文件读取未缓存数据块的首次读操作步骤说明：1. 从上层下来一个针对A文件的区间块 A1，A2 的读操作，由于该数据块是首次读取，没命中SSD读缓存。该读操作会直接传递到下去，进入流程2。2. A1，A2的读操作继续传递到服务端，进行具体的读操作，完成后返回，进入流程33. 数据块A1，A2在流程3里面返回到SSD读缓存模块，进入流程44. SSD读缓存模块会把数据块A1，A2复制一份保存到SSD磁盘并建立相关索引，对应4.1。原数据块A1，A2继续往上返回到上层响应读操作，对应4.2。注意4.1、4.2是并发进行，因此这个缓存动作不会对原操作造成延时。5. 至此，数据块A1，A2就被保存到SSD磁盘内，以备下次读取直接从SSD磁盘读取。l 二次文件读取针对已缓存数据块的二次读取步骤说明：假设数据块A1，A2已经缓存到SSD磁盘内，1. 从上层下来一个同样是针对A文件的区间块 A1，A2 的读操作。2. 由于该数据块A1，A2已经有缓存，在SSD读缓存模块里面命中索引，从而直接向SSD磁盘发起读出缓存数据块A1，A2的操作。3. 缓存数据块A1，A2从SSD磁盘返回到SSD读缓存模块，进入流程44. SSD读缓存模块把缓存数据块A1，A2返回给上层。至此，对缓存数据块A1，A2的重复读取直接在客户端返回，避免了服务端通信的流程，从而减少了延时和减轻了底层磁盘的IO压力。l 文件写入虽然当前aSAN实现的读缓存，但对于读缓存模块对于文件写入操作，也需要做相应的处理，以保证缓存的内容始终和底层磁盘一致，并且是最新的，但这个针对文件写入的处理并不是写缓存。aSAN读缓存模块对写操作进行处理实质是基于最近访问原则，即最近写入的数据在不久的将来被读出的概率会比较高，例如文件共享服务器，某人传到文件服务器的文件，很快会其他人读出来下载。aSAN读缓存对写操作的处理从实现上分为首次写预缓存、二次写更新缓存。n 文件块首次写预缓存流程说明：假设数据块A1, A2是首次写入。1. 写操作写来经过SSD读缓存模块。由于是写操作，SSD读缓存会直接PASS到下层2. 写操作一直传递到服务端，写入到底层磁盘，操作完成后会返回结果，进入流程33. 返回结果经过SSD读缓存模块，如果返回结果是成功的，表示底层数据已经成功写入，则进入流程4。如果返回结果是失败，则不会进入流程4，而是直接返回结果到上层。4. SSD读缓存模块会把数据块A1，A2复制一份保存到SSD磁盘并建立相关索引，对应4.1。原返回结果继续往上返回到上层响应读操作，对应4.2。注意4.1、4.2是并发进行，因此这个缓存动作不会对原操作造成延时。至此，数据块A1, A2的写入也会保存到SSD磁盘上，以备下次访问。下次访问的流程与二次文件读取流程相同，从而提升了下次访问数据的速度。n 文件块二次写更新缓存SSD读缓存文件块写更新是指对SSD读缓存已缓存的数据块进行更新的动作。假设数据块A1, A2原来已经有缓存了，现在上层再次对 A1, A2 来一次写操作（例如更新内容）。1. 写操作写来经过SSD读缓存模块，由于是写操作，SSD读缓存会直接PASS到下层2. 写操作一直传递到服务端，写入到底层磁盘，操作完成后会返回结果，进入流程33. 返回结果经过SSD读缓存模块，如果返回结果是成功的，表示底层数据已经成功写入，可以更新SSD读缓存数据，进入流程4。如果返回结果是失败，则不会进入更新流程。4. SSD读缓存模块会把数据块A1，A2复制一份更新到SSD磁盘并建立相关索引，对应4.1。原返回结果继续往上返回到上层响应读操作，对应4.2。注意4.1、4.2是并发进行，因此这个缓存动作不会对原操作造成延时。2.4.2.5 SSD写缓存加速原理SSD写缓存功能在aSAN2.0开始支持。SSD写缓存工作在服务端。由于写缓存工作在服务端，也就是说在每个副本上都有写缓存，即SSD写缓存也是多副本的。即使有SSD磁盘突然损坏，也能在副本数范围内保证数据的安全。l SSD写缓存模块结构SSD写缓存原理是在机械硬盘上增加一层SSD写缓存层，见下图：SSD写缓存数据流分成蓝色和红色两部分。这两部分是同时在运行的，没有先后关系。蓝色部分是虚拟机有数据写入SSD缓存，红色部分是从SSD缓存读出数据回写到机械磁盘。流程如下：1. 上层写入数据请求到达SSD写缓存模块2. SSD写缓存模块把数据写入到SSD磁盘，并获得返回值。3. SSD写缓存模块在确定数据写入SSD磁盘后，即立即返回上层模块写入成功4. SSD写缓存模块在缓存数据累计到一定量后，从SSD磁盘读出数据5. SSD写缓存把从SSD磁盘读出的数据回写到机械磁盘。其中，第4、5步是在后台自动进行的，不会干扰第1、2、3步的逻辑。l SSD写缓存数据读命中从SSD磁盘回写到机械磁盘是需要累积一定数据量后才会进行触发的。这时如果来了一个读数据的请求，SSD写缓存模块会先确认该读请求是否在SSD写缓存数据内，如果有则从SSD缓存内返回；如果没有则透到机械硬盘去读取。流程说明：1. 上层下发读请

展开阅读全文

超融合技术白皮书超融合架构.docx

最新文档