超融合技术白皮书

资源描述

word深信服超融合架构技术白皮书深信服科技修订记录81 / 81第1章、前言8IT时代的变革8白皮书总览9第2章、深信服超融合技术架构11超融合架构概述11超融合架构的定义11深信服超融合架构组成模块11系统总体架构11计算虚拟化平台12概述12技术原理13的Hypervisor架构14虚拟化实现17的技术特性26存NUMA技术262728虚拟机生命周期管理29虚拟交换机30动态资源调度31的特色技术31快虚31虚拟机热迁移32虚拟磁盘加密33虚拟机的HA34多USB映射34存储虚拟化36存储虚拟化概述36虚拟后对存储带来的挑战36分布式存储技术的开展36深信服aSAN概述37技术原理37主机管理37文件副本38磁盘管理39读缓存原理46写缓存原理52磁盘故障处理机制55深信服aSAN功能特性68存储精简配置68私网链路聚合69数据一致性检查69网络虚拟化69网络虚拟化概述69网络虚拟化技术原理707071底层的实现72功能特性76分布式虚拟交换机76767777深信服aNet的特色技术77网络探测功能77全网流量可视78所画即所得业务逻辑拓扑78深信服超融合架构产品介绍79产品概述79产品定位79第3章、深信服超融合架构带来的核心价值81可靠性：81安全性81灵活弹性81易操作性81第4章、超融合架构最优实践82第1章、1.1 IT时代的变革20 世纪 90 年代，随着 Windows 的广泛使用与 Linux 服务器操作系统的出现奠定了 x86服务器的行业标准地位，然而 x86 服务器部署的增长带来了新的 IT 根底架构和运作难题，包括：根底架构利用率低、物理根底架构本钱日益攀升、IT 管理本钱不断提高以与对关键应用故障和灾难保护不足等问题。X86 服务器虚拟化技术的出现，通过将 x86 系统转变成通用的共享硬件根底架构，充分挖掘硬件的潜力，提高硬件的利用效率，降低硬件和运营本钱，并且简化运维降低管理本钱，最终帮助用户把更多的时间和本钱转移到对业务的投入上。随着云计算和虚拟化技术向构建新一代数据中心方向开展，关键以虚拟化为根底，实现管理以与业务的集中，对数据中心资源进展动态调整和分配，重点满足企业关键应用向X86 系统迁移对于资源高性能、高可靠、安全性和高可适应性上的要求，同时提高根底架构的自动化管理水平，确保满足根底设施快速适应业务的商业诉求，支持企业应用云化部署。云计算并不是一种新的技术，而是在一个新理念的驱动下产生的技术组合。在云计算之前，企业部署一套服务，需要经历组网规划，容量规划，设备选型，下单，付款，发货，运输，安装，部署，调试的整个完整过程。这个周期在大型项目中需要以周甚至月来计算。在引入云计算后，这整个周期缩短到以分钟来计算。IT 业有一条摩尔定律，芯片速度容量每 18 个月提升一倍。同时， IT 行业还有一条反摩尔定律，所有无法追随摩尔定律的厂家将被淘汰。 IT 行业是快鱼吃慢鱼的行业，使用云计算可以提升 IT 设施供应效率，不使用如此会拖慢产品或服务的扩脚步，一步慢步步慢。云计算当然还会带来别的好处，比如提升复用率缩减本钱，降低能源消耗，缩减维护人力本钱等方面的优势，但在反摩尔定律面前，已经显得不是那么重要。业界关于云计算技术的定义，是通过虚拟化技术，将不同的根底设施标准化为一样的业务部件，然后利用这些业务部件，依据用户需求自动化组合来满足各种个性化的诉求。云着重于虚拟化，标准化，和自动化。深信服的超融合架构是一款成熟的 Iaas 层的云计算解决方案，除满足上面所述的虚拟化，标准化和自动化诉求外，秉承深信服公司产品的优秀基因，向您提供简单易用，安全可靠的产品。本文档向您讲述深信服超融合架构解决方案中所用到的相关技术，通过阅读本文档，您能够了解到：云的虚拟化，标准化，易用性，易管理这些关键技术是如何在深信服的超融合架构解决方案中表现的；超融合架构解决方案是如何做到简单，安全可靠的；超融合解决方案所包含的部件，所涉与的主要技术领域，使用的主要的一些技术；针对超融合架构提供的各种技术选择，您怎样使用它们来满足您的业务诉求。1.2 白皮书总览本书介绍的容大致如下：第一章、在前言局部，给您对云计算，云平台有一个概括性的认识，并对本文档的阅读给出指导。第二章、讲述超融合架构中的主要功能模块，各个功能模块的技术细节介绍。第三章、向您介绍深信服超融合架构中的技术在为客户带来的核心价值。第四章、分享超融合架构在客户中的实际应用场景，并给出深信服超融合架构产品的体验途径，非常欢迎您来试用。第2章、1.1 超融合架构概述1.1.1 超融合架构的定义超融合根底架构，这是一种将计算、网络和存储等资源作为根本组成元素，根据系统需求进展选择和预定义的一种技术架构，具体实现方式上一般是指在同一套单元节点x86服务器中融入软件虚拟化技术包括计算、网络、存储、安全等虚拟化，而每一套单元节点可以通过网络聚合起来，实现模块化的无缝横向扩展scale-out，构建统一的资源池。1.2 深信服超融合架构组成模块1.2.1.1 系统总体架构深信服超融合架构图深信服超融合架构在基于底层根底架构标准的X86硬件上将计算、存储、网络、安全软件化，通过这种软件化的方式，即计算虚拟化aSV、存储虚拟化aSAN、网络虚拟化aNet，构建了数据中心里所需的最小资源单元，通过资源池中的最小单元，提供了数据中心IT根底架构中所需的全部资源。1.2.1.2 aSV计算虚拟化平台1.2.1.2.1 概述计算资源虚拟化技术就是将通用的 x86 服务器经过虚拟化软件，对最终用户呈现标准的虚拟机。这些虚拟机就像同一个厂家生产的系列化的产品一样，具备系列化的硬件配置，使用一样的驱动程序。虚拟化技术起源于大型机，最早可以追溯到上世纪六、七十年代大型机上的虚拟分区技术，即允许在一台主机上运行多个操作系统，让用户尽可能充分地利用昂贵的大型机资源。随着技术的开展和市场竞争的需要，虚拟化技术向小型机或 UNIX 服务器上移植，只是由于真正使用大型机和小型机的用户还是少数，加上各厂商产品和技术之间的不兼容，使得虚拟化技术不太被公众所关注。注：由于 X86 架构在设计之初并没有考虑支持虚拟化技术，它本身的结构和复杂性使得在其之上进展虚拟化非常困难，早期的 X86 架构并没有成为虚拟化技术的受益者20 世纪 90 年代，虚拟化软件厂商采用一种软件解决方案，以VMM(Virtual Machine Monitor, VMM 虚拟机监视器)为中心使 X86 服务器平台实现虚拟化。然而这种纯软件的“全虚拟化模式，每个 Guest OS客户操作系统获得的关键平台资源都要由 VMM 控制和分配，需要利用二进制转换，而二进制转换带来的开销使得“完全虚拟化的性能大打折扣。为解决性能问题，出现了一种新的虚拟化技术“半虚拟化，即不需要二进制转换，而是通过对客户操作系统进展代码级修改，使定制的Guest OS 获得额外的性能和高扩展性，但是修改 Guest OS 也带来了系统指令级的冲突与运行效率问题，需要投入大量优化的工作。当前，虚拟化技术已经开展到了硬件支持的阶段，“硬件虚拟化技术就是把纯软件虚拟化技术的各项功能用硬件电路来实现，可减少 VMM 运行的系统开销，可同时满足 CPU 半虚拟化和二进制转换技术的需求，深信服的超融合架构解决方案中的计算虚拟化采用aSV虚拟化系统，通过将服务器资源虚拟化为多台虚拟机。最终用户可以在这些虚拟机上安装各种软件，挂载磁盘，调整配置，调整网络，就像普通的 x86 服务器一样使用它。计算虚拟化是超融合的架构中必不可少的关键因素，对于最终用户，虚拟机比物理机的优势在于它可以很快速的发放，很方便的调整配置和组网。对于维护人员来讲，虚拟机复用了硬件，这样硬件更少，加上云平台的自动维护能力，这样整个IT系统的本钱显著降低。1.2.1.2.2 aSV技术原理服务器务器虚拟化前后的巨大差异，源于虚拟机与物理服务器的本质区别上：虚拟机的定义：虚拟机 (Virtual Machine) 是由虚拟化层提供的高效、独立的虚拟计算机系统，每台虚拟机都是一个完整的系统，它具有处理器、存、网络设备、存储设备和BIOS，因此操作系统和应用程序在虚拟机中的运行方式与它们在物理服务器上的运行方式没有什么区别。虚拟机的本质区别：与物理服务器相比，虚拟机不是由真实的电子元件组成，而是由一组虚拟组件文件组成，这些虚拟组件与物理服务器的硬件配置无关，关键与物理服务器相比，虚拟机具有以下优势：抽象解耦：1.可在任何 X86 架构的服务器上运行；2.上层应用操作系统不需修改即可运行；分区隔离：1.可与其他虚拟机同时运行；2.实现数据处理、网络连接和数据存储的安全隔离；封装移动：1.可封装于文件之中，通过简单的文件复制实现快速部署、备份与复原；2.可便捷地将整个系统包括虚拟硬件、操作系统和配置好的应用程序在不同的物理服务器之间进展迁移，甚至可以在虚拟机正在运行的情况下进展迁移；1.2.1.2.2.1 aSV的Hypervisor架构Hypervisor是一种运行在物理服务器和操作系统之间的中间软件层,可允许多个操作系统和应用共享一套根底物理硬件，因此也可以看作是虚拟环境中的“元操作系统，它可以协调访问服务器上的所有物理设备和虚拟机，也叫虚拟机监视器Virtual Machine Monitor。Hypervisor是所有虚拟化技术的核心。非中断地支持多工作负载迁移的能力是Hypervisor的根本功能。当服务器启动并执行Hypervisor时，它会给每一台虚拟机分配适量的存、CPU、网络和磁盘，并加载所有虚拟机的客户操作系统。虚拟化技术架构Hypervisor，常见的 Hypervisor 分两类：Type-I裸金属型指 VMM 直接运作在裸机上,使用和管理底层的硬件资源，GuestOS 对真实硬件资源的访问都要通过 VMM 来完成，作为底层硬件的直接操作者，VMM 拥有硬件的驱动程序。裸金属虚拟化中Hypervisor直接收理调用硬件资源，不需要底层操作系统，也可以理解为Hypervisor被做成了一个很薄的操作系统。这种方案的性能处于主机虚拟化与操作系统虚拟化之间。代表是VMware ESX Server、Citrix XenServer和Microsoft Hyper-V，LinuxKVM。Type-II 型宿主型指 VMM 之下还有一层宿主操作系统，由于 Guest OS 对硬件的访问必须经过宿主操作系统，因而带来了额外的性能开销，但可充分利用宿主操作系统提供的设备驱动和底层服务来进展存管理、进程调度和资源管理等。主机虚拟化中VM的应用程序调用硬件资源时需要经过:VM核-Hypervisor-主机核，导致性能是三种虚拟化技术中最差的。主机虚拟化技术代表是VMwareServerGSX、Workstation和MicrosoftVirtualPC、VirtualServer等。由于主机型Hypervisor的效率问题，深信服的aSV采用了裸机型Hypervisor中的Linux KVM虚拟化，即为Type-I裸金属型。KVM(Kenerl-based Virtual Machine)是基于linux核虚拟化技术，自linux2.6.20之后就集成在linux的各个主要发行版本中。它使用linux自身的调度器进展管理，所以相对于xen，其核心源码很少。KVM是基于硬件虚拟化扩展IntelVT-X和AMD-V和QEMU的修改版，KVM属于Linux kernel的一个模块，可以用命令modprobe去加载KVM模块。加载了该模块后，才能进一步通过工具创建虚拟机。但是仅有KVM模块是不够的。因为用户无法直接控制核去做事情，还必须有一个运行在用户空间的工具才行。这个用户空间的工具，我们选择了已经成型的开源虚拟化软件QEMU。QEMU也是一个虚拟化软件，它的特点是可虚拟不同的CPU，比如说在x86的CPU上可虚拟一个power的CPU，并可利用它编译出可运行在power上的CPU，并可利用它编译出可运行在power上的程序。KVM使用了QEMU的一局部，并稍加改造，就成了可控制KVM的用户空间工具了。这就是KVM和QEMU 的关系。如如下图：KVM 的实现模块有两个，分别是： kvm.ko是提供核心虚拟化的根底架构；特定于处理器的模块 kvm-intel.ko 和 kvm-amd.ko 。其设计目标是在需要引导多个未改动的 PC 操作系统时支持完整的硬件模拟。一个普通的linux进程有两种运行模式：核和用户。而KVM增加了第三种模式：客户模式有自己的核和用户模式。在kvm模型中，每一个虚拟机都是由linux调度程序管理的标准进程。总体来说，kvm由两个局部组成：一个是管理虚拟硬件的设备驱动，该驱动使用字符设备/dev/kvm作为管理接口；另一个是模拟PC硬件的用户空间组件，这是一个稍作修改的qemu进程。同时，aSV采用KVM优势有：l 嵌入到Linux正式Kernel(提高兼容性)l 代码级资源调用提高性能l 虚拟机就是一个进程存易于管理l 直接支持NUMA技术提高扩展性l 保持开源开展模式强大的社区支持1.2.1.2.2.2 Hypervisor虚拟化实现VMM (Virtual Machine Monitor)对物理资源的虚拟可以划分为三个局部：CPU 虚拟化、存虚拟化和 I/O 设备虚拟化,其中以 CPU 的虚拟化最为关键。经典的虚拟化方法：现代计算机体系结构一般至少有两个特权级即用户态和核心态，x86 有四个特权级Ring0 Ring3用来分隔系统软件和应用软件。那些只能在处理器的最高特权级核态执行的指令称之为特权指令，一般可读写系统关键资源的指令即敏感指令决大多数都是特权指令X86 存在假设干敏感指令是非特权指令的情况。如果执行特权指令时处理器的状态不在核态，通常会引发一个异常而交由系统软件来处理这个非法访问陷入。经典的虚拟化方法就是使用“特权解除和“陷入-模拟的方式，即将 GuestOS 运行在非特权级，而将 VMM 运行于最高特权级完全控制系统资源。解除了 GuestOS 的特权级后，Guest OS 的大局部指令仍可以在硬件上直接运行，只有执行到特权指令时，才会陷入到 VMM 模拟执行陷入-模拟。“陷入-模拟的本质是保证可能影响VMM 正确运行的指令由 VMM 模拟执行，大局部的非敏感指令还是照常运行。因为 X86 指令集中有假设干条指令是需要被 VMM 捕获的敏感指令，但是却不是特权指令称为临界指令，因此“特权解除并不能导致他们发生陷入模拟，执行它们不会发生自动的“陷入而被 VMM 捕获，从而阻碍了指令的虚拟化，这也称之为X86 的虚拟化漏洞。X86架构虚拟化的实现方式可分为：1、X86“全虚拟化指所抽象的 VM 具有完全的物理机特性，OS 在其上运行不需要任何修改Full 派秉承无需修改直接运行的理念，对“运行时监测，捕捉后模拟的过程进展优化。该派部之实现又有些差异，其中以 VMWare 为代表的基于二进制翻译 (BT) 的全虚拟化为代表, 其主要思想是在执行时将 VM 上执行的 Guest OS 指令，翻译成 x86 指令集的一个子集，其中的敏感指令被替换成陷入指令。翻译过程与指令执行交叉进展，不含敏感指令的用户态程序可以不经翻译直接执行。2、X86“半虚拟化指需 OS 协助的虚拟化，在其上运行的 OS 需要修改Para 派的根本思想是通过修改 Guest OS 的代码，将含有敏感指令的操作，替换为对 VMM的超调用 Hypercall，类似 OS 的系统调用，将控制权转移到 VMM，该技术因 VMM 项目而广为人知。该技术的优势在于 VM 的性能能接近于物理机，缺点在于需要修改 GuestOS如：Windows 不支持修改与增加的维护本钱，关键修改 Guest OS 会导致操作系统对特定 hypervisor 的依赖性，因此很多虚拟化厂商基于 VMM 开发的虚拟化产品局部已经放弃了 Linux 半虚拟化，而专注基于硬件辅助的全虚拟化开发，来支持未经修改的操作系统。3、X86“硬件辅助虚拟化：其根本思想就是引入新的处理器运行模式和新的指令，使得 VMM 和 Guest OS 运行于不同的模式下，Guest OS 运行于受控模式，原来的一些敏感指令在受控模式下全部会陷入 VMM，这样就解决了局部非特权的敏感指令的“陷入-模拟难题，而且模式切换时上下文的保存恢复由硬件来完成，这样就大大提高了“陷入-模拟时上下文切换的效率。以 Intel VT-x 硬件辅助虚拟化技术为例，该技术增加了在虚拟状态下的两种处理器工作模式：根Root操作模式和非根Non-root操作模式。VMM 运作在 Root 操作模式下，而 Guest OS 运行在 Non-root 操作模式下。这两个操作模式分别拥有自己的特权级环，VMM 和虚拟机的 Guest OS 分别运行在这两个操作模式的 0 环。这样，既能使 VMM运行在 0 环，也能使 Guest OS 运行在 0 环，防止了修改 Guest OS。Root 操作模式和Non-root 操作模式的切换是通过新增的 CPU 指令VMXON,VMXOFF 等来完成。硬件辅助虚拟化技术消除了操作系统的 ring 转换问题，降低了虚拟化门槛，支持任何操作系统的虚拟化而无须修改 OS 核，得到了虚拟化软件厂商的支持。硬件辅助虚拟化技术已经逐渐消除软件虚拟化技术之间的差异，并成为未来的开展趋势。1.2.1.2.2.2.1 vCPU 机制vCPU 调度机制对虚拟机来说，不直接感知物理 CPU，虚拟机的计算单元通过 vCPU 对象来呈现。虚拟机只看到 VMM 呈现给它的 vCPU。在 VMM 中，每个 vCPU 对应一个 VMCSVirtual-MachineControl Structure结构，当 vcpu 被从物理 CPU 上切换下来的时候，其运行上下文会被保存在其对应的 VMCS 结构中；当 vcpu 被切换到 pcpu 上运行时，其运行上下文会从对应的 VMCS 结构中导入到物理 CPU 上。通过这种方式，实现各 vCPU 之间的独立运行。从虚拟机系统的结构与功能划分可以看出，客户操作系统与虚拟机监视器共同构成了虚拟机系统的两级调度框架，如下列图是一个多核环境下虚拟机系统的两级调度框架。客户操作系统负责第 2 级调度,即线程或进程在 vCPU 上的调度将核心线程映射到相应的虚拟 CPU 上。虚拟机监视器负责第 1 级调度, 即 vCPU 在物理处理单元上的调度。两级调度的调度策略和机制不存在依赖关系。vCPU 调度器负责物理处理器资源在各个虚拟机之间的分配与调度,本质上即把各个虚拟机中的 vCPU 按照一定的策略和机制调度在物理处理单元上可以采用任意的策略来分配物理资源, 满足虚拟机的不同需求。vCPU 可以调度在一个或多个物理处理单元执行分时复用或空间复用物理处理单元, 也可以与物理处理单元建立一对一固定的映射关系限制访问指定的物理处理单元。1.2.1.2.2.2.2 存虚拟化图3-6 存虚拟化三层模型因为 VMM (Virtual Machine Monitor) 掌控所有系统资源，因此 VMM 握有整个存资源，其负责页式存管理，维护虚拟地址到机器地址的映射关系。因 Guest OS 本身亦有页式存管理机制，如此有 VMM 的整个系统就比正常系统多了一层映射：A. 虚拟地址(VA)，指 Guest OS 提供应其应用程序使用的线性地址空间；B. 物理地址(PA)，经 VMM 抽象的、虚拟机看到的伪物理地址；C. 机器地址(MA)，真实的机器地址，即地址总线上出现的地址信号；映射关系如下：Guest OS: PA = f(VA)、VMM: MA = g(PA)VMM 维护一套页表，负责 PA 到 MA 的映射。Guest OS 维护一套页表，负责 VA 到PA 的映射。实际运行时，用户程序访问 VA1，经 Guest OS 的页表转换得到 PA1，再由VMM 介入，使用 VMM 的页表将 PA1 转换为 MA1。页表虚拟化技术普通 MMU 只能完成一次虚拟地址到物理地址的映射，在虚拟机环境下，经过 MMU 转换所得到的“物理地址并不是真正的机器地址。假设需得到真正的机器地址，必须由 VMM介入，再经过一次映射才能得到总线上使用的机器地址。如果虚拟机的每个存访问都需要 VMM 介入，并由软件模拟地址转换的效率是很低下的，几乎不具有实际可用性，为实现虚拟地址到机器地址的高效转换，现普遍采用的思想是：由 VMM 根据映射 f 和g 生成复合的映射 fg，并直接将这个映射关系写入 MMU。当前采用的页表虚拟化方法主要是 MMU 类虚拟化MMU Paravirtualization和影子页表，后者已被存的硬件辅助虚拟化技术所替代。1、MMU Paravirtualization其根本原理是：当 Guest OS 创建一个新的页表时，会从它所维护的空闲存中分配一个页面，并向 VMM 注册该页面，VMM 会剥夺 Guest OS 对该页表的写权限，之后 GuestOS 对该页表的写操作都会陷入到 VMM 加以验证和转换。VMM 会检查页表中的每一项，确保他们只映射了属于该虚拟机的机器页面，而且不得包含对页表页面的可写映射。后VMM 会根据自己所维护的映射关系，将页表项中的物理地址替换为相应的机器地址，最后再把修改正的页表载入 MMU。如此，MMU 就可以根据修改正页表直接完成虚拟地址到机器地址的转换。2、存硬件辅助虚拟化存硬件辅助虚拟化技术原理图存的硬件辅助虚拟化技术是用于替代虚拟化技术中软件实现的“影子页表的一种硬件辅助虚拟化技术，其根本原理是：GVA客户操作系统的虚拟地址- GPA客户操作系统的物理地址- HPA宿主操作系统的物理地址两次地址转换都由 CPU 硬件自动完成软件实现存开销大、性能差。以 VT-x 技术的页表扩大技术 Extended PageTableEPT为例，首先 VMM 预先把客户机物理地址转换到机器地址的 EPT 页表设置到 CPU 中；其次客户机修改客户机页表无需 VMM 干预；最后，地址转换时，CPU 自动查找两页表完成客户机虚拟地址到机器地址的转换。使用存的硬件辅助虚拟化技术，客户机运行过程中无需 VMM 干预，去除了大量软件开销，存访问性能接近物理机。1.2.1.2.2.2.3 I/O 设备虚拟化VMM 通过 I/O 虚拟化来复用有限的外设资源，其通过截获 Guest OS 对 I/O 设备的访问请求，然后通过软件模拟真实的硬件，目前 I/O 设备的虚拟化方式主要有三种：设备接口完全模拟、前端后端模拟、直接划分。1、设备接口完全模拟：即软件准确模拟与物理设备完全一样的接口，Guest OS 驱动无须修改就能驱动这个虚拟设备，Vmware 即使用该方法。优点：没有额外的硬件开销，可重用现有驱动程序；缺点：为完成一次操作要涉与到多个存放器的操作，使得 VMM 要截获每个存放器访问并进展相应的模拟，这就导致屡次上下文切换；由于是软件模拟，性能较低。2、前端后端模拟：VMM 提供一个简化的驱动程序后端, Back-End，Guest OS 中的驱动程序为前端(Front-End, FE)，前端驱动将来自其他模块的请求通过与 Guest OS 间的特殊通信机制直接发送给 Guest OS 的后端驱动，后端驱动在处理完请求后再发回通知给前端，VMM 即采用该方法。优点：基于事务的通信机制，能在很大程度上减少上下文切换开销，没有额外的硬件开销；缺点：需要 GuestOS实现前端驱动，后端驱动可能成为瓶颈。3、直接划分：即直接将物理设备分配给某个 Guest OS，由 Guest OS 直接访问 I/O 设备不经 VMM，目前与此相关的技术有 IOMMUIntel VT-d, PCI-SIG 之 SR-IOV 等，旨在建立高效的I/O 虚拟化直通道。优点：可重用已有驱动，直接访问减少了虚拟化开销；缺点：需要购置较多额外的硬件。1.2.1.2.3 aSV的技术特性1.2.1.2.3.1 存NUMA技术功能描述非统一存访问NUMA是服务器CPU和存设计的新架构。传统的服务器架构下把存放到单一的存储池中，这对于单处理器或单核心的系统工作良好。但是这种传统的统一访问方式，在多核心同时访问存空间时会导致资源争用和性能问题。毕竟，CPU应该可以访问所有的服务器存，但是不需要总是保持占用。实际上，CPU仅需要访问工作负载实际运行时所需的存空间就可以了。因此NUMA改变了存对CPU的呈现方式。这是通过对服务器每个CPU的存进展分区来实现的。每个分区或存块称为NUMA节点，而和该分区相关的处理器可以更快地访问NUMA存，而且不需要和其它的NUMA节点争用服务器上的资源其它的存分区分配给其它处理器。NUMA的概念跟缓存相关。处理器的速度要比存快得多，因此数据总是被移动到更快的本地缓存，这里处理器访问的速度要比通用存快得多。NUMA本质上为每个处理器配置了独有的整体系统缓存，减少了多处理器试图访问统一存空间时的争用和延迟。NUMA与服务器虚拟化完全兼容，而且NUMA也可以支持任意一个处理器访问服务器上的任何一块存区域。某个处理器当然可以访问位于不同区域上的存数据，但是需要更多本地NUMA节点之外的传输，并且需要目标NUMA节点确实认。这增加了整体开销，影响了CPU和存子系统的性能。NUMA对虚拟机负载不存在任何兼容性问题，但是理论上虚拟机最完美的方式应该是在某个NUMA节点。这可以防止处理器需要跟其它的NUMA节点交互，从而导致工作负载性能下降。深信服的aSV支持NUMA技术，使得hypervisor和上层OS存互连，这样OS不会在CPU和NUMA节点之间迁移工作负载。1.2.1.2.3.2 SR-IOV功能描述：通常针对虚拟化服务器的技术是通过软件模拟共享和虚拟化网络适配器的一个物理端口，以满足虚拟机的 I/O 需求，模拟软件的多个层为虚拟机作了 I/O 决策，因此导致环境中出现瓶颈并影响 I/O 性能。aSV虚拟化平台提供的 SR-IOV 是一种不需要软件模拟就可以共享 I/O 设备 I/O 端口的物理功能的方法，主要利用 iNIC 实现网桥卸载虚拟网卡，允许将物理网络适配器的 SR-IOV 虚拟功能直接分配给虚拟机，可以提高网络吞吐量，并缩短网络延迟，同时减少处理网络流量所需的主机 CPU 开销。技术原理：SR-IOVSingle Root I/O Virtualization是 PCI-SIG 推出的一项标准，是虚拟通道在物理网卡上对上层软件系统虚拟出多个物理通道，每个通道具备独立的 I/O 功能的一个技术实现，用于将一个 PCIe 设备虚拟成多个 PCIe 设备，每个虚拟 PCIe 设备如同物理 PCIe 设备一样向上层软件提供服务。通过 SR-IOV 一个 PCIe 设备不仅可以导出多个PCI 物理功能，还可以导出共享该 I/O 设备上的资源的一组虚拟功能，每个虚拟功能都可以被直接分配到一个虚拟机，能够让网络传输绕过软件模拟层，直接分配到虚拟机，实现了将 PCI 功能分配到多个虚拟接口以在虚拟化环境中共享一个 PCI 设备的目的，并且降低了软加模拟层中的 I/O 开销，因此实现了接近本机的性能。如下列图，在这个模型中，不需要任何透传，因为虚拟化在终端设备上发生，允许管理程序简单地将虚拟功能映射到 VM 上以实现本机设备性能和隔离安全。SR-IOV 虚拟出的通道分为两个类型：1、PF(Physical Function) 是完整的 PCIe 设备，包含了全面的管理、配置功能， Hypervisor通过 PF 来管理和配置网卡的所有 I/O 资源。2、VF(Virtual Funciton)是一个简化的 PCIe 设备，仅仅包含了 I/O 功能，通过 PF 衍生而来好象物理网卡硬件资源的一个切片，对于 Hypervisor 来说，这个 VF 同一块普通的 PCIe网卡一模一样。客户价值：可满足高网络 IO 应用要求，无需特别安装驱动，且无损热迁移、存复用、虚拟机网络管控等虚拟化特性。1.2.1.2.3.3 Faik-raid一般情况下，当主机系统有多块硬盘时，通过组建Raid以提升磁盘性能或提供磁盘冗余，往往成为人们的首选考量。当今主流raid实现方案大致可分为三种：硬件raid(hardware raid)：通过购置昂贵的raid卡实现。软件raid(software raid)：通过操作系统软件创建阵列，raid处理开销由CPU负责。主板raid(fake raid)：通过主板建raid控制器创建阵列，由操作系统驱动识别。相对于昂贵的硬件，主板raid(fake raid)就成了我们不错的选择。Fake raid仅提供廉价的控制器，raid处理开销仍由CPU负责，因此性能与CPU占用根本与software raid持平。如果只有单个linux系统，使用software raid一般比fake raid更健壮，但是，在多启动环境中(例如windows与linux双系统)，为了使各个系统都能正确操作一样的raid分区，就必须使用fake raid了。Linux下最重要的raid管理程序为MD RAID。MD RAID是过滤不同文件系统比如说ext2和比拟低级的磁盘驱动比如说AHCI驱动和SAS驱动之间数据的块设备驱动程序。以Intel的主板为例，在BIOS中有一块可选的只读存储器元件或者光学只读存储器可以创建Intel 快速存储RAID卷并且在启动之前的环境中提供管理Intel 快速存储RAID卷的界面。在BIOS把控制权交给系统启动引导程序之前，这个只读存储在系统存中留下自己支持的RAID类型，比如RAID 5。RAID管理程序MD RAID会读到这份数据，并决定当创建Intel 快速存储RAID卷时该使用哪种RAID类型。aSV 融入了对Fake-RAID的支持，现可支持Fake-RAID安装与使用Fake-RAID存储，目前可以使用intel模式的raid0，raid1，raid5，raid10，LSI模式的raid01.2.1.2.3.4 虚拟机生命周期管理aSV提供了虚拟机从创建至删除整个过程中的全面管理，就像人类的生命周期一样，虚拟机最根本的生命周期就是创建、使用和删除这三个状态。当然还包含如下几个状态：创建虚拟机在虚拟机中安装操作系统创建模板更新虚拟机硬件迁移虚拟机与/或虚拟机的存储资源分析虚拟机的资源利用情况为虚拟机选择数量适宜的存或磁盘资源/调整资源数量虚拟机备份虚拟机恢复删除虚拟机在虚拟机生命周期，虚拟机可能会在某一个时间点经历上述这些状态。aSV提供了完善的虚拟机生命周期管理工具，我们可以通过对虚拟机生命周期的规划，想要最大化的发挥虚拟机的作用。1.2.1.2.3.5 虚拟交换机虚拟交换机是虚拟网络和物理网络的纽带，虚拟交换机运行在虚拟服务器的Hypervisor部，虚拟机之间的流量、虚拟机到物理网络之间的流量均通过vSwitch转发。如图：aSV提供了完善的虚拟交换机功能，包括：虚拟交换机端口Vlan的划分，二层端口的类型切换，广播风暴的抑制，端口流量的统计，端口的状态监控。1.2.1.2.3.6 动态资源调度在虚拟化环境中，如果生产环境的应用整合到硬件资源相对匮乏的物理主机上，虚拟机的资源需求往往会成为瓶颈，全部资源需求很有可能超过主机的可用资源，这样业务系统的性能也无法保障。aSV虚拟化管理平台提供的动态资源调度特性引入一个自动化机制，通过持续地动态平衡资源能力，将虚拟机迁移到有更多可用资源的主机上，确保每个虚拟机在任何节点都能与时地调用相应的资源。即便大量运行对CPU和存占用较高的虚拟机比如数据库虚拟机，只要开启了动态资源调度功能，就可实现全自动化的资源分配和负载平衡功能，也可以显著地降低数据中心的本钱与运营费用。aSV的动态资源调度功能通过跨越集群之间的心跳机制，定时监测集群主机的CPU和存等计算资源的利用率，并根据用户自定义的规如此来判断是否需要为该主机在集群寻找有更多可用资源的主机，以将该主机上的虚拟机迁移到另外一台具有更多适宜资源的服务器上，或者将该服务器上其它的虚拟机迁移出去，从而保证某个关键虚拟机的资源需求。1.2.1.2.4 aSV的特色技术1.2.1.2.4.1 快虚在实际的IT应用系统在部署虚拟化的时候，会存在虚拟化迁移的需求，为了实现将windows主机系统下的应用系统平滑的迁移至VM环境中，除了传统的P2V、V2V工具，深信服采用技术创新，基于Windows环境中，推出了独有的快虚技术。快虚技术实现原理为：在Windows环境下，先创建一个虚拟磁盘文件, 并使用Windows驱动程序对虚拟磁盘进展保护，保证虚拟磁盘文件占用的物理扇区不会被移动. 获取虚拟磁盘文件所占的物理簇信息，并保存到当前系统盘下的配置文件中, 安装aSV的引导程序以与核到当前Windows系统盘下，安装系统引导程序，并向系统引导中添加aSV的引导项，默认引导到aSV系统. 当在aSV中向虚拟磁盘读写数据时，虚拟磁盘驱动根据读写的扇区位置重新定位到虚拟磁盘文件所对应的物理扇区，实现数据的存取，下次进入aSV系统后仍然可以读写已有数据。通过快虚技术，既实现了将应用环境迁移到了虚拟机环境中，同时在现有的物理主机服务器之上，快速的构建了虚拟化底层的hypervisor。1.2.1.2.4.2 虚拟机热迁移虚拟化环境中，物理服务器和存储上承载更多的业务和数据，设备故障时造成的影响更大。 aSV虚拟化平台提供虚拟机热迁移技术，降低宕机带来的风险、减少业务中断的时间。aSV虚拟机热迁移技术是指把一个虚拟机从一台物理服务器迁移到另一台物理服务器上，即虚拟机保存/恢复(Save/Restore)。首先将整个虚拟机的运行状态完整保存下来，同时可以快速的恢复到目标硬件平台上，恢复以后虚拟机仍旧平滑运行，用户不会发觉到任何差异。虚拟机的热迁移技术主要被用于双机容错、负载均衡和节能降耗等应用场景。 aSV虚拟化平台热迁移提供存压缩技术，使热迁移效率提升一倍，可支持并发 8 台虚拟机同时迁移。功能价值：1. 在设备维护过程中，通过热迁移手动将应用迁移至另一台服务器，维护完毕后再迁回来，中间应用不停机，减少计划宕机时间。2. 可结合资源动态调度策略，例如在夜晚虚拟机负荷减少时，通过预先配置自动将虚拟机迁移集中至局部服务器，减少服务器的运行数量，从而降低设备运营能耗上的支出。1.2.1.2.4.3 虚拟磁盘加密在虚拟化环境中，虚拟机的磁盘文件是没有加密的，磁盘中的业务数据会存在泄漏的威胁。而对于数据程度要求较高的场景，可采用磁盘加密技术，保证即使磁盘文件被窃取了，也无法获取其中的数据。aSV提供了磁盘加密技术，保障用户业务的磁盘数据的安全防泄漏。aSV环境中，虚拟机镜像是Qcow2格式的，Qcow2自身就支持用户数据加密功能，VMP在其加密功能的根底上进展了修改，使其更加健壮。Qcow2只支持AES加密算法，VMP为其添加了RC4加密算法。VMP环境中仅支持对Qcow2格式的镜像文件进展加密，加密算法选用RC4，且不可以更换。虚拟机镜像文件的密钥以下简称密码由VDC管理，当VDC通过VMP接口操作虚拟机时，可以指定磁盘是否需要加密与对应的密码。如果一个虚拟机有多个磁盘需要加密，各磁盘可以分别指定密码。虚拟机一旦创建成功，密码不允许修改。VMP环境中使用密码时，会修改命令行参数中的密码字符串为“*，防止管理员通过ps命令查看到密码。前面提到的保存在镜像文件中的经过加密的密钥，为了防止使用密码字典或穷举等方式暴力破解加密的镜像文件，要求加密函数的执行时间不能太短，可以使用重复加密的方式来达到这个目的。1.2.1.2.4.4 虚拟机的HAHA全称是High Availability(高可用性)。在aSV环境中，HA虚拟机所连接的物理口网线被拔出、或存储不能访问时，会将此虚拟机切换到其他的主机运行，保障虚拟机上的业务正常使用。aSV存在后台进程，通过轮询的机制，每隔5s检测一次虚拟机状态是否异常，发现异常时，切换HA虚拟机到其他主机运行。下面任意一种情况发生，都会触发HA虚拟机切换主机，1、连续三次检测到，虚拟机所连接的物理网卡被拔出不包括网卡被禁用情况2、连续两次检测到，虚拟机当前主机无法访问虚拟机的存储通过aSV的HA技术，对业务系统提供了高可用性，极大缩短了由于各种故障引起的业务中断时间。1.2.1.2.4.5 多USB映射当物理服务器部署虚拟化之后。其中类似金蝶等需要通过usb key进展应用加密的服务器，转化到虚拟化后，需要将插在虚拟化平台上的硬件key，映射给虚拟机，而且需要满足虚拟机热迁移、跨主机映射的需求。业界给出的方案有三种：一、采用主机映射：直接采用主机映射的方式来完成，缺点是不支持网络映射,无法支持热迁移、网络映射的需求。二、采用Usb Anywhere：通过使用中间设备，将中间设备IP化，然后在虚拟机上安装驱动并配置对端设备的方式进展的。缺点是需要guest虚拟机部进展修改安装特定软件，与第三方应用进展配合才能完成。三、采用底层硬件虚拟化加网络代理：支持热迁移、网络映射、无需修改guest机部。最终实现，物理设备迁移到虚拟化平台后，可以直接无缝的操作读取原usb硬件设备。同时解决上述两种方案中的缺陷，破除了在虚拟化推广中外设映射造成的阻碍。热迁移功能的实现机制：由于整体方案是基于网络代理处理，所以在迁移到对端设备，进展虚拟机切换时，发送消息，触发usb服务程序修改连接的目的端ip，然后发起网络重连。隧道一旦重连成功，usb设备通信随即恢复，对于guest上层来说，是无感知的。aSV采用上述的第三种方案，融入了对多USB的支持，带来的优势有：1、usb设备动态插入提示2、guest虚拟机无需安装插件；3、能支持热迁移，跨主机映射，适应VMP集群环境；4、虚拟机迁移完成可以自动挂载上原usb设备；5、可以简化集成为类似usb hub的小设备，与VMP配套，搭建usb映射环境；6、虚拟机故障重启、目标端usb设备网络中断等异常情况恢复后自动重映射。1.2.1.3 aSAN存储虚拟化1.2.1.3.1 存储虚拟化概述1.2.1.3.1.1 虚拟后对存储带来的挑战虚拟机技术给服务器带来更高的利用率、给业务带来更便捷的部署，降低了TCO，与此同时，虚拟机应用给存储带来以下挑战：第一，相比传统的物理服务器方式，单个存储系统承载了更多的业务，存储系统需要更强劲的性能来支撑；第二，采用共享存储方式部署虚拟机，单个卷上可能承载几十或上百的虚拟机，导致卷IO呈现更多的随机特征，这对传统的Cache技术提出挑战；第三，单个卷承载多个虚拟机业务，要求存储系统具备协调虚拟机访问竞争，保证对QoS要求高的虚拟机获取到资源实现性能目标；第四，单个卷上承载较多的虚拟机，需要卷具有很高的IO性能，这对传统受限于固定硬盘的RAID技术提出挑战；第五，虚拟机的广泛使用，需要更加高效的技术来提高虚拟机的部署效率，加快新业务的上线时间。1.2.1.3.1.2 分布式存储技术的开展业界典型的分布式存储技术主要有分布式文件系统存储、分布式对象存储和分布式块设备存储等几种形式。分布式存储技术与其软件产品已经日趋成熟，并在IT行业得到了广泛的使用和验证，例如互联网搜索引擎中使用的分布式文件存储，商业化公有云中使用的分布式块存储等。分布式存储软件系统具有以下特点：第一，高性能：数据分散存放，实现全局负载均衡，不存在集中的数据热点，大容量分布式缓存；第二，高可靠：采用集群管理方式，不存在单点故障，灵活配置多数据副本，不同数据副本存放在不同的机架、服务器和硬盘上，单个物理设备故障不影响业务的使用，系统检测到设备故障后可以自动重建数据副本；第三，高扩展：没有集中式机头，支持平滑扩容，容量几乎不受限制；第四，易管理：存储软件直接部署在服务器上，没有单独的存储专用硬件设备，通过Web UI的方式进展软件管理，配置简单。1.2.1.3.1.3 深信服aSAN概述在充分掌握了用户需求的根底上，深信服的超融合架构中，推出以aSAN分布式存储软件为核心的解决方案，深信服虚拟存储简称aSAN是基于分布式文件系统开发的面对存储虚拟化趋势的一款产品。当前aSAN集成在虚拟化管理平台上面，通过网络整合管理集群所有服务器的硬盘系统盘除外。aSAN属于超融合解决方案中专门为云计算环境而设计、面向一体化市场应用的新一代产品，融合分布式缓存、SSD缓存加速、全局负载均衡、与多重数据保护等诸多存储技术，能够满足关键业务的需求，保证客户业务高效稳定运行。1.2.1.3.2 aSAN技术原理aSAN通过主机管理、磁盘管理、缓存技术、存储网络、冗余副本等技术，管理集群所有硬盘，“池化集群所有硬盘存储的空间，通过向VMP提供访问接口，使得虚拟机可以进展业务数据的保存、管理和读写等整个存储过程中的操作。1.2.1.3.2.1 主机管理aSAN需要基于VMP集群获取集群主机信息，因此在构建aSAN时，首先会要求建立VMP集群，所以在aSAN的环境中，至少需要2台节点来构建aSAN主机。1.2.1.3.2.2 文件副本由于下一节磁盘管理的策略与副本设置有直接收理，因此在讲解磁盘管理前，我们要先介绍文件副本技术。所谓文件副本，即将文件数据保存多份的一种冗余技术。aSAN副本颗粒度是文件级别。例如2副本，即把文件A同时保存到磁盘1和磁盘2上。并且保证在无故障情况下，2个副本始终保持一致。技术特点：1. 存储池可用空间=集群全部机械磁盘空间/副本数同构情况，因此副本是会降低实际可用容量的。2. 服务层是提供应上层服务的访问入口，以目录挂载点的方式提供。服务层看到的文件A实际是个被底层管理转化后的逻辑视图。3. 底层管理的副本对上层服务是透明的，上层无法感知副本的存在。磁盘管理、副本分布由底层服务负责，副本颗粒度是文件级。4. 在没有故障等异常情况下，文件副本数据是始终一致的，不存在所谓主副本和备副本之分。5. 如果对文件A进展修改，如写入一段数据，这段数据会被同时写到2个副本文件。如果是从文件A读取一段数据，如此只会从其中一个副本读取。1.2.1.3.2.3 磁盘管理aSAN磁盘管理服务根据集群主机数和aSAN初始化时所选择的副本数决定集群所有受管磁盘的组织策略。在多主机集群下，采用2副本或3副本组建aSAN的磁盘管理，为了支持主机故障而不影响数据完整性的目标，复制卷的磁盘组的每个磁盘都必须是在不同主机上。即需要做到跨主机副本。跨主机副本的关键在于复制卷磁盘分组算法。注意：下面的例子讨论的主机都属于同构情况，即可每台主机的磁盘个数、磁盘容量是一样的情况，主机磁盘数异构场景后文再另外表示。我们先从简单的场景开始，当主机数、集群磁盘数都可以被副本数整除时。如2主机，每主机3个磁盘共6个组建2副本aSAN为例：2副本下，2主机，主机磁盘数一样时。主机间的磁盘会一一对应组成复制卷。逻辑视图如下：从逻辑视图上，可以看出来和前文的单主机逻辑视图并没有本质上的区别，只是最底层的磁盘分组时，保证了复制卷下面的磁盘不在同一主机，从而达到了文件跨主机副本的目标。如果采用3主机建立3副本，分组方式也是类似的。1.2.1.3.2.4 SSD读缓存原理在aSAN里面，会默认把系统的SSD磁盘作为缓存盘使用。在aSAN1.X版本，SSD磁盘只作为读缓存使用，aSAN2.0开始支持SSD写缓存。下面介绍aSAN SSD读缓存原理。首先需要区分aSAN客户端和服务端概念。在aSAN里面，负责处理底层磁盘IO称为服务端；负责向上层提供存储接口如访问的挂载点称为客户端。aSAN SSD读缓存工作在客户端,而aSAN2.0的SSD写缓存如此工作在服务端。逻辑视图如下：下面抛开底层的分布卷、复制卷、磁盘分组等概念，仅在客户端上理解SSD读缓存的原理。简单地看，SSD读缓存模块工作在文件访问入口和服务端通信层之间。所有对文件的IO动作都会经过SSD读缓存模块进展处理。下面分别针对首次文件读取、二次文件读取、文件写入3个过程说明工作流程。SSD读缓存的缓存颗粒度是按文件数据块缓存，不是文件整体。例如，A、B、C 3个文件，可以分别各缓存读过的一局部数据，没读过的局部不缓存。1.2.1.3.2.4.1 首次文件读取未缓存数据块的首次读操作步骤说明：1、从上层下来一个针对A文件的区间块 A1，A2 的读操作，由于该数据块是首次读取，没命中SSD读缓存。该读操作会直接传递到下去，进入流程2。2、 A1，A2的读操作继续传递到服务端，进展具体的读操作，完成后返回，进入流程33、数据块A1，A2在流程3里面返回到SSD读缓存模块，进入流程44、 SSD读缓存模块会把数据块A1，A2复制一份保存到SSD磁盘并建立相关索引，对应4.1。原数据块A1，A2继续往上返回到上层响应读操作，对应4.2。注意4.1、4.2是并发进展，因此这个缓存动作不会对原操作造成延时。至此，数据块A1，A2就被保存到SSD磁盘，以备下次读取直接从SSD磁盘读取。1.2.1.3.2.4.2 二次文件读取针对已缓存数据块的二次读取步骤说明：假设数据块A1，A2已经缓存到SSD磁盘。1、从上层下来一个同样是针对A文件的区间块 A1，A2 的读操作2、由于该数据块A1，A2已经有缓存，在SSD读缓存模块里面命中索引，从而直接向SSD磁盘发起读出缓存数据块A1，A2的操作。3、缓存数据块A1，A2从SSD磁盘返回到SSD读缓存模块，进入流程44、 SSD读缓存模块把缓存数据块A1，A2返回给上层至此，对缓存数据块A1，A2的重复读取直接在客户端返回，防止了服务端通信的流程，从而减少了延时和减轻了底层磁盘的IO压力。1.2.1.3.2.4.3 文件写入虽然当前aSAN实现的读缓

展开阅读全文

超融合技术白皮书

最新文档