云容灾解决方案

上传人:m**** 文档编号:168994610 上传时间:2022-11-14 格式:DOCX 页数:11 大小:77.87KB
返回 下载 相关 举报
云容灾解决方案_第1页
第1页 / 共11页
云容灾解决方案_第2页
第2页 / 共11页
云容灾解决方案_第3页
第3页 / 共11页
点击查看更多>>
资源描述
云容灾系统解决方案目录第1章项目背景分析 31.1系统现状 错误!未定义书签。1.2需求分析 31.3灾备技术实现的目标 4第2章方案设计 62.1 数据保护和容灾系统总体架构 62.2 灾难发生时的接管和恢复 72.3 关键技术和优势 82.3.1精简复制技术 92.3.2 存储虚拟化技术 92.3.3 多策略远程replication技术 92.3.4 多时间点自动快照技术 102.3.5 连续I/O记录技术102.3.6 数据一致性保证技术 102.3.7 读/写优化技术 1 1第1章项目背景分析1.1 需求分析当前生产系统采用 Linux + Oracle RAC 的集群模式部署,针对以上描述的系统现状,该系统对连续数据保护需求可概括为以下几点:1. 总体原则:无论发生任何灾难都要在最短的时间内恢复业务,并且实现最小 的数据丢失。2. 为了防止各种逻辑灾难(如人为无删除等),需要有多个历史版本作为备份, 并且历史版本要与生产系统的数据格式相同,以保证瞬时恢复;为了提高恢 复的可靠性,历史版本要提前验证,不能直接覆盖生产卷。3. 在生产环境中,主机采用了冗余配置,但是存储是单点,所以数据保护系统 的关键任务是对生产存储进行保护,保证生产存储损坏的情况下业务系统仍 然正常工作。4. 对于站点级别的灾难,数据丢失量(RPO)和恢复业务时间(RTO)是重要 考核指标,考虑到业务系统数据的重要性和行业经验共识,RPO和RTO都 应该不高于 10 分钟。5. 为了最大可能的满足业务接续性,实施容灾系统的停机时间越短越好,因此 要求该容灾技术必须是在数据库或应用打开的情况下做初始数据同步,大大 缩短停机时间。6. 为了节约管理成本,数据保护系统应该集成在一个管理界面中,所有操作通 过图形化界面实现,并且可以实时监控状态。7. 为了满足系统的扩展性,该数据保护和容灾系统必须具备开放性,兼容所有 第三方主流存储以及前端应用主机的操作系统。1.2 灾备技术实现的目标本次数据保护和容灾系统要实现的目标有:实时镜像备份,无备份窗口不同于传统的备份技术,摆脱传统备份软件潜在的长备份窗口和按天进行备 份的弱点。 备份数据立即可用本灾备技术所获取的数据影像不是专用的备份格式,而是直接的数据原型, 因此数据的恢复是立即可用,无需任何恢复窗口。 多点快照,无需 1 分钟历史数据轻松获取数据持续性保护技术既是一种灾难发生时保护最新数据的灾难备份技术,也 是一种历史数据丢失时恢复原有数据的备份技术,由于自动产生数据的多个时间 点保存,因此即使丢失的数据已经过了几天,仍然可以轻松实现分钟级获取正确 的历史数据的能力。 任何 IO 的历史轨迹恢复在系统发生逻辑灾难(例如数据丢失时),灾备技术能够提供颗粒度达到10的历史轨迹恢复能力,追溯历史随心所欲,使灾难防御能力达到空前的高度。 一致性保证在本地连续数据保护和异地容灾两个层面都提供数据一致性机制,保证复制 到灾备端的数据立即可用(如瞬时打开数据库等)。 精简带宽复制技术保证异地容灾的实现支持在窄带环境下实现连续的数据传输,采用基于扇区的检测和传输可以大 大的节省带宽;复制过程中保证数据的一致性,灾备端可以瞬时打开数据库或启 动应用。 实现系统故障后的分层次快速恢复能力在本地生产端建立一套完整的自动化数据实时备份机制,随时完成本地端及 异地端数据备份。避免因发生天灾人祸后的数据丢失,导致营运系统停止运行, 严重影响到企业的服务质量。 实现灵活和方便的实时备份机制,管理简单能够对实时备份系统进行灵活的集中管理,提供良好的操作使用界面、事件 告警、与工作流程的管理等,将复杂的企业数据保护工作化繁为简,避免人为的 疏忽,降低维护人员的工作量。第2章方案设计在本章中先介绍方案整体架构,根据架构介绍连续数据保护的原理,最后详 细说明各种灾难下的恢复方法。2.1 数据保护和容灾系统总体架构本次针对Oracle RAC核心数据库系统的连续数据保护解决方案示意图和总体架构如下所示。1. 在原有生产系统中部署 2 台前置网关服务器,2 台前置网关做成集群模 式,对外提供 IO 服务响应主机 IO 请求,当任何一台出现故障,另一台可以无 缝接管,上层业务不会因此中断。2. 在灾备中心部署 1 台灾备服务器(可使用灾备中心的云主机和云存储), 与生产中心前置网关服务器的IP能够互相通信,通过TCP/IP协议接收生产中心 的数据。3. 2台前置网关服务器通过光纤接入用户的光纤交换机,利用FC协议与主 机进行10交互,实时接收到主机产生的10。通过FC协议对主机提供数据访问, 通过以太网进行管理。该方案在物理连接上不需线路改造。4. 部署在生产中心的前置网关服务器可配置多达 1000 份历史快照,即可保 留1000 份生产数据的历史版本,并利用多达 1000 个快照实现各种逻辑错误的瞬 间恢复。5. 前置网关服务器提供的数据卷可产生快照和录像,其中快照卷根据快照 策略定时保存快照副本,录像卷可以记录生产数据库服务器的I/O数据变化,提 供 I/O 级别的数据恢复。通过录像技术对现有数据进行连续保护,通过快照技术 对数据进行中长期保护。6. 在进行数据恢复时,使用 SED 方式在主数据中心接管生产系统数据,然 后重新分配给生产主机使用,整个过程不迁移数据,不对数据格式进行更改,安 全、快速的部署,使用对生产系统的影响降至最低。7. 存储高可用增强(可选),客户可以在生产中心新增一台集中存储设备, 利用前置网关服务器的镜像功能,将原生产存储和新购存储互为镜像,当其中任 何一台存储发生故障时,另一台存储可以无缝接管主机 IO 请求,生产系统不会 有任何感知,业务也不会中断,消除存储单点隐患。本方案是集磁盘镜像、数据连续保护和备份于一体的综合容灾解决方案。后 期可扩展为同城或异地容灾架构。2.2 灾难发生时的接管和恢复本节将详细说明各种灾难发生时,本方案如何对原有生产环境中的主机(包 括数据库和应用系统集群)进行接管和恢复。2.2.1 数据库表级别的丢失或损坏由于误操作或病毒入侵等原因,数据库会出现表的记录丢失或损坏情况。面 对这种灾难,需要在主机上挂载前置网关服务器提供的历史快照,该快照包含完 整的记录条目。然后再使用数据库命令将丢失或损坏的记录导入到生产数据库中 即可。2.2.2数据库和应用系统的文件丢失或损坏若是数据库文件丢失或损坏这类逻辑错误,可以采用提取历史快照的方法找 回历史数据。找到没有丢失的时间点提取快照,并分配给 Linux 主机,然后在 Linux 主机上扫描新增磁盘,完成后启动数据库将需要的表或数据库导出,再导 入到原来的数据库即可。如果情况十分紧急,前置网关服务器的快照是可读可写 的,可以直接使用前置网关服务器上的快照磁盘接管业务。2.2.3 数据库和应用系统无法正常启动当数据库或应用系统出现问题无法启动时,可以先使用前置网关服务器的快 照进行接管。具体操作流程是利用前置网关服务器的录像功能,找到数据库最后 的可用时间点(如下图所示),将历史快照提取出来,然后分配给 Linux 主机, Linux 主机上扫描新增磁盘,然后启动数据库或应用,之后验证数据库的时间点 或记录点是否为需要的时间点。验证之后,利用 ODS 的磁盘回滚功能,将磁盘 回滚到该时间点。2.2.4 生产存储发生故障当生产盘出现故障时,前置网关服务器的镜像盘会自动接管业务,数据库系 统根本感知不到中断和设备灾难,实现了 RPO=0和RTO=0的理想。如采用本地 存储镜像架构,当硬盘恢复时数据会在阵列中自动同步。2.2.5 站点级别的灾难当发生站点级别的灾难时,需要启动灾备中心的业务来接管。对于 Oracle 数据库来说,如果要实现应用级别的容灾备份,需要在灾备中心部署 Oracle 灾 备主机,数据来自与灾备中心的灾备服务器。整个应用在灾备中心启动的过程非 常简单,大幅降低 RTO 指标。当生产中心修复后,灾备中心的灾备服务器能以 增量的方式将数据同步回生产中心,实现 Failback。2.3 关键技术和优势本方案提供了一种数据的连续时间点的保护技术,其核心优势是能在故障瞬间完成任何时间点的故障恢复,达到业务的快速连续的作用,从根本上解决传统 备份中低恢复能力和非精细时间策略的先天弱点。方案中涉及到的关键技术包括:2.3.1精简复制技术在实际灾备系统中,往往异地备份受到带宽的限制。一般而言,2-4M的传 输带宽必须采用适合窄带的容灾技术(一个典型的2M网络,每小时传输的最大 字节数仅为720MB),否则容灾系统会出现数据的阻塞和溢出,导致无法正常工 作。本方案的容灾技术就提供了窄带传输的优化技术。一般的基于磁盘阵列等传统灾备技术中,传输单元以块 block 传输为基准,往往小的数据更新,远程传输需要最小4KB左右的传输数据(Block定义)。本 方案在 replication 模块中使用了微单元传输技术,将传输的最小数据单元缩小到 512字节,可以在极小的带宽传输较大的数据量,因此复制操作占用的带宽是磁 盘阵列容灾技术占用带宽的 1/50,是常规容灾技术占用带宽的 1/6。 2.3.2存储虚拟化技术本方案采用存储虚拟化技术,将后端存储设备进行抽象化统一管理,向服务 器层屏蔽存储设备硬件的特殊性,而只保留其统一的逻辑特性,从而实现了存储 整合和集中管理等功能,允许在一个集中化的管理介面下进行便捷操作。233多策略远程replication技术本方案提供远程复制组件,提供基于多种复制策略的异地传输服务,即将数 据从生产站点按一定的复制策略复制到灾备中心的存储设备中。远程数据复制管理可以自定义不同的策略来控制复制的过程,利用存储管理 源服务器内建的快照引擎和存储管理目标服务器的“接收”机制,确保复制进程 能够在瞬间内真正完成,从而获得最高级别的数据完整性。Replication 复制可供选择和调整的策略包括但不限于:基于连续IO的复制CDR; 一天中的特定时间点,如在每天晚上的24:00开始复制; 持续时间间隔,如每10分钟复制一次;容量的变化量,如新数据超过5MB就开始复制。以上策略可以单独使用或组合使用,为灾备管理提供灵活的策略触发机制,实现数据的保护而不受灾难的影响。2.3.4多时间点自动快照技术传统未采用连续快照技术的容灾体系,实际上无法解决概率最高的人工错误 型的灾难(称为软错误,也称动态RPO),由于远程数据传输会将数据完整的复 制到远方,被毁坏的数据也将被复制到远方,从而导致系统无法运转。因此,方 案中使用自动连续快照技术,不但满足主存储宕机时数据镜像(即硬错误)的功 能需求,同时也实现了对“软错误”的防范及纠错功能,将对系统的正常运转提 供有力保障。前置网关服务器中,一个重要的功能就是快照的多时间点快照技术,使得业 务系统能够实现较短时间间隔下的各时间段版本数据的保存。前置网关能够提供 多达每个应用卷 1000 个自动快照点的极高水准,高密度的快照可保证将系统的 RPO (动态及静态)降到最低范围。一旦发生任何一类数据丢失的错误,维护人 员都可以找到最近的版本立即恢复,且快照恢复与数据量无关。这种快照机制利 用快照缓存,对于时间点变化之后的数据块,将其原始时间点数据进行保存,一 旦需要系统会退到某一时间点,快照可以立即通过Time View的方式将历史点数 据的指针提取出来,从而实现历史数据的瞬间映射和恢复机制。235连续I/O记录技术前置网关服务器利用连续I/O记录技术,可以将数据恢复到任意历史轨迹(秒 级和 I/O 级均可)。前置网关会单独在磁盘上开辟一个区域,用于记录生产卷每 一个历史I/O。恢复时,通过时间点拉取将数据恢复到任意历史点,并且该历史 点数据可单独进行查询,不影响生产卷的状态。 2.3.6数据一致性保证技术数据库系统在进行远程复制时,具有一定的特殊性。传统存储设备的远程复 制技术,实现的是磁盘所存储的数据的远程同步,而某些时候数据库系统并未能 实时刷新到磁盘体系上。远程的数据库系统在启动时,往往需要通过日志的重演 来进行数据库的恢复,由于一致性的问题有可能导致数据库立即启动能力的缺 失,使得灾难发生时的快速恢复目标完全无法实现。本方案在远程复制技术中采 用了 DBagent 代理技术,能够在指定的快照点和复制点产生数据库的校验点刷 新,从而确保数据库日志与数据文件的一致性,实现快速启动数据库的目标。2.3.7读/写优化技术前置网关服务器具备高速写入技术,全面提高数据存储管理的磁盘写性能。 当磁盘性能无法满足主机的 I/O 需求时,使用 Cache 缓存配合高速磁盘设备可以 明显改善整体性能。主要技术实现原理是将高速磁盘设备置于“前端”,生产数 据可以先顺序的写入到高速磁盘设备中,然后按照 Cache 缓存设置的策略,将 Cache 中的数据再随机写入到后端存储中。前置网关服务器也具备高速读技术ReadZone。ReadZone功能可以全面提高 数据存储管理的磁盘读性能。使用ReadZone时,前置网关会将磁盘划分为容量 相等的多个区域,然后监控哪些区域经常会被读到,随之将该区域的数据块映射 到高速磁盘中,从而提高应用主机读取磁盘的速度。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 建筑环境 > 建筑资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!