写点什么

一文简述:容灾等级 & 保护程度

  • 2022 年 5 月 13 日
  • 本文字数:2767 字

    阅读完需:约 9 分钟

一文简述:容灾等级&保护程度

容灾系统是指在相隔较远的异地,建立两套或多套功能相同的系统,系统之间可以相互进行健康状态监视和功能切换,当一处系统因意外(如火灾、洪水、地震、人为蓄意破坏等)停止工作时,整个应用系统可以切换到另一处,使该系统可以继续正常工作。容灾系统需要具备较为完善的数据保护与灾难恢复功能,保证生产中心不能正常工作时数据的完整性及业务的连续性,并在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。

1. 容灾等级标准

容灾系统主要为了在灾难发生时业务不中断,那在系统建设时应该关注哪些方面呢?以下是国际通用的容灾系统的评审标准 SHARE 78(7 个层次、8 个原则),可以作为广大用户衡量和选择容灾解决方案的指标。


8 个原则如下

  1. 备份/恢复的范围。

  2. 灾难恢复计划的状态。

  3. 应用地点与备份地点之间的距离。

  4. 应用地点与备份地点如何连接。

  5. 数据是怎样在两个地点之间传送的。

  6. 允许有多少条数据丢失。

  7. 怎样保证备份地点数据的更新。

  8. 备份地点可以开始备份工作的能力。


根据以上 8 条原则,国际标准 SHARE 78 对容灾系统的定义有 7 个层次,下面是 0~6 级共 7 个层次的说明。

  • 0 级:无异地备份:仅在本地进行备份,没有在异地备份数据,未制订灾难恢复计划。这种方式是成本最低的灾难恢复解决方案,但不具备真正的灾难恢复能力。在这种容灾方案中,最常用的是备份管理软件加上磁带机,可以是手动加载磁带机或自动加载磁带机。

  • 1 级:实现异地备份:将关键数据备份到本地磁带介质上,然后送往异地保存,但异地没有可用的备份中心、备份数据处理系统和备份网络通信系统,未制订灾难恢复计划。灾难发生后,使用新的主机,利用异地数据备份介质(磁带)将数据恢复起来。

  • 2 级:热备份站点备份:将关键数据进行备份并存放到异地,制订相应灾难恢复计划,由具有热备份能力的站点进行灾难恢复。一旦发生灾难,利用热备份主机系统将数据恢复。它与 1 级容灾方案的区别在于异地有一个热备份站点,该站点有主机系统,平时利用异地的备份管理软件将运送到异地的数据备份介质(磁带)上的数据备份到主机系统。当灾难发生时可以快速接管应用,恢复生产。

  • 3 级:在线数据恢复:通过网络将关键数据进行备份并存放至异地,制订相应灾难恢复计划,有备份中心,并配备部分数据处理系统及网络通信系统。该等级方案的特点是用电子数据传输取代交通工具传输备份数据,从而提高了灾难恢复的速度。利用异地的备份管理软件将通过网络传送到异地的数据备份到主机系统。一旦灾难发生,需要的关键数据通过网络可迅速恢复,通过网络切换,关键应用恢复时间可降低到天或小时级。由于备份站点要保持持续运行,这一等级方案对网络的要求较高,因此成本有所增加。

  • 4 级:定时数据备份:在 3 级容灾方案的基础上,利用备份管理软件自动通过通信网络将部分关键数据定时备份至异地,并制订相应的灾难恢复计划。一旦灾难发生,利用备份中心已有资源和异地备份数据恢复关键业务系统运行。

  • 5 级:实时数据备份:在前面几个级别的基础上使用了硬件的镜像技术和软件的数据复制技术,也就是说,可以实现在应用站点与备份站点的数据都被更新。数据在两个站点之间相互镜像,由远程异步提交来同步,因为关键应用使用了双重在线存储,所以在灾难发生时,仅有很小部分的数据丢失,恢复的时间降低到了分钟级或秒级。由于该级别备份方案对存储系统和数据复制软件的要求较高,所需成本也大大增加。

  • 6 级:零数据丢失:灾难恢复中最昂贵的方式,也是恢复速度最快的方式。它是灾难恢复的最高级别,利用专用的存储网络将关键数据同步镜像至备份中心,数据不仅在本地进行确认,而且需要在异地(备份)进行确认(即数据强一致性)。因为数据是镜像地写到两个站点,所以灾难发生时异地容灾系统保留了全部的数据,实现零数据丢失。

2. 容灾保护程度

容灾的目标是在各种灾难发生时,还能为业务提供连续不中断的高可用服务。按照容灾系统对应用系统的保护程度可以分为数据级容灾、应用级容灾业务级容灾


数据级容灾,仅将生产中心的数据复制到容灾中心,在生产中心出现故障时,仅能实现存储系统的接管或数据的恢复。容灾中心的数据既可以是本地生产数据的完全复制(一般在同城实现),也可以比生产数据略微滞后,但必定是可用的(一般在异地实现),而差异的数据通常可以通过一些工具(如操作记录、日志等)手动补回。基于数据级容灾实现业务恢复的速度较慢,通常情况下 RTO 超过 24h,但是这种级别的容灾系统运行维护的成本较低。


应用级容灾,是在数据级容灾的基础上,进一步实现应用的高可用性,确保业务的快速恢复。这就要求容灾系统的应用不能改变原有业务处理逻辑,是对生产中心系统的基本复制。因此,容灾中心需要建立起一套和本地生产环境相当的备份环境,包括主机、网络、应用、IP 等资源均有配套,当生产系统发生灾难时,异地系统可以提供完全可用的生产环境。应用级容灾的 RTO 通常在 12h 以内,技术复杂度较高,运行维护的成本也比较高。


业务级容灾,是生产中心与容灾中心对业务请求同时进行处理的容灾方式,能够确保业务持续可用。采用这种方式,业务恢复过程的自动化程度高,RTO 可以做到 30min 以内。但是这种级别的容灾项目实施难度大,需要从应用层对系统进行改造,比较适合流程固定的简单业务系统。这种容灾系统的运行维护成本最高。本书中要介绍的容灾多活方案指的就是业务级容灾。


无论任何时候,备份都是非常重要的,要定期测试备份的可靠性。绝大部分数据库产品会提供本地主备复制的能力,主备复制主要为了主库出现故障时系统能自动切换到备库运行,这不在容灾的讨论范围内。根据容灾的距离,数据容灾又可以分成近程数据容灾(同城灾备)和远程数据容灾(异地灾备)两种方式。


  • 同城灾备:将生产中心的数据备份在本地的容灾备份机房中,同城主备两个中心机房的距离在 50km 以内,它的特点是速度相对较快。由于是在本地,因此建议同时做接管。但是它的缺点是一旦发生大灾难,将无法保证本地容灾备份机房中的数据和系统仍可用。


  • 异地灾备:通过互联网 TCP/IP 协议,将生产中心的数据备份到异地。备份时要注意“一个三”和“三个不原则”,即必须备份到 300km 以外,并且不能在同一地震带,不能在同地电网,不能在同一江河流域。这样即使发生大灾难,也可以在异地进行数据回退。当然,对于异地备份,如果想实现接管需要专线连接,一般需要在同一网段内才能实现业务的接管。


对于容灾架构设计时必须考虑两点:一是建立切实可行的应急机制,这主要包含一套基于充分且清楚地将风险予以分类定义的灾难数据恢复计划;二是在危机突然降临时,此计划能被有效地执行,这就要求系统在日常进行灾难演练,以验证数据备份的有效性。全面的异地容灾保护方案,意味着除了要实现本地的切换保护,更要实现数据的实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换。对于 IT 系统,除上述的灾难之外,与系统相关的计划外死机也可视作灾难。


发布于: 刚刚阅读数: 4
用户头像

InfoQ签约作者 2018.11.30 加入

热爱生活,收藏美好,专注技术,持续成长

评论

发布
暂无评论
一文简述:容灾等级&保护程度_容灾_穿过生命散发芬芳_InfoQ写作社区