【案例】星环科技原厂数据备份恢复软件,让大数据与 AI 应用有备无患
云与大数据时代,数据呈爆炸趋势增长,各行各业均在使用大数据技术挖掘数据价值并从中获益。随着 AI、大数据和容器云技术的完善,越来越多的客户将关键甚至核心的业务与数据放在 AI、大数据平台和容器云平台上。与此同时企业对数据可靠性和业务连续性保证的诉求也与日俱增,灾备刻不容缓。
在信息化系统中,灾备是指在灾难未发生前,利用 IT 技术对信息系统的数据和应用进行保护,包括本地及异地的数据备份、应用和场所的接管等,以确保系统在遭受灾难时数据的安全,以及业务的快速恢复,为企业的正常运行提供服务。
云数据管理备份解决方案提供商 Veeam Software 对全球企业 3000 多名 IT 决策者进行调研后于 4 月 15 日发布的报告显示,全球 14%的数据没有进行任何备份,58%的数据恢复失败,95%的组织在过去的 12 个月遇到过意外停机;2020 年有 1/4 的服务器至少出现过一次意外停机,停机和数据丢失的影响频繁上演。这一现状将企业的数据置于险地,当网络攻击导致系统停机时,数据将难以保护和恢复。超过一半的高管表示这可能导致客户、员工和利益相关者对组织失去信心。
灾备的需求与痛点
尽管数字化变革已经深入企业管理者的人心,数据备份与恢复在现代数据保护中扮演着不可或缺的角色,但是到 2021 年仍然有 16%的中国组织的数据没有进行备份,低于全球平均水平。
在星环科技服务的大数据与 AI 应用项目中我们发现,用户对数据备份恢复需求普遍存在,期望用原厂数据备份恢复软件,构建容灾方案,让大数据与 AI 数据与应用有备无患。
1)灾备的目标和重要性
星环科技技术专家徐杰介绍,在大数据与 AI 应用项目中,灾备的目标和重要性体现在两个方面:
一是保护用户的核心数据安全。企业用户越来越多的核心数据存储在星环科技大数据平台 TDH 中,也存在数据丢失的风险。假如数据一旦丢失,恢复成本会很高甚至无法恢复,给用户造成的损失可能是无法挽回的。
二是保障用户的核心应用安全。用户越来越多的核心应用运行在星环大数据、AI 平台上,有内部核心系统,有对客应用,这些应用一旦因为故障无法提供服务,损失也是不可估量的。
从目前来看,很多行业,尤其金融、政务、交通、制造等行业监管机构都明文要求行业企业系统具备容灾能力,这也体现了灾备的重要性。
2)大数据和 AI 平台灾备的现状和痛点
传统的 IT 系统数据备份技术通常自上而下分为四个层级:
应用层:应用开发商定制编写代码或者脚本完成数据备份。
数据库层:数据库厂商专供的数据备份恢复技术。
操作系统层:特有的系统内核字节级数据备份技术。
存储层:磁盘阵列厂商提供的数据块级别备份功能。
相较而言,存储层和操作系统层备份技术成熟,但是无法满足分布式系统数据一致性要求;在数据库厂商提供专供数据备份技术和产品之前,应用层定制是实现大数据平台灾备的唯一选择,但是定制开发实施和运维成本巨大,且随着平台应用数增加而线性增加,并且数据库上层数据备份通常需要通过数据抽取-数据传输-数据装载来实现,代价高,效率低,还会较大程度上影响系统性能和稳定性。
因此,用户期望大数据平台或数据库厂商可提供专有复制技术,降本增效,易用且不占或很少占用系统 I/O,用户无需大量定制业务应用,无需大量编写代码脚本,无需学习掌握各种数据存储路径存储原理,无需考虑平台版本兼容性。
星环大数据平台数据备份恢复软件 TBAK
1、产品定位
星环科技的大数据平台数据备份恢复软件 TBAK 属于原厂数据备份恢复软件产品,帮助客户在灾难发生前,利用 IT 技术对信息系统的数据和应用程序进行预先复制备份,以便可在一定时限内(RTO),完成特定时效(RPO)要求前的数据恢复,进而保证业务的正常开展。
星环大数据平台数据备份恢复软件 TBAK,可在配置完主备集群信息后,通过勾选需要同步的组件的表或目录信息后,即可按周期策略进行同步,用户不用再关注具体的应用、业务表类型和存储原理。
2、灾备产品的客户群
星环科技的大数据平台数据备份恢复软件 TBAK 的目标客户包括星环科技大数据平台、数据云平台、数据库产品、人工智能平台等的新老客户。
其中包括业务刚需客户:核心业务,尤其是对客提供服务,业务连续性要求高,需要有备份数据中心,以便故障切换。
数据刚需客户:核心数据,尤其是数据在集群中独一份,一旦丢失不可以恢复,或者恢复成本高。
政策刚需客户:政策要求做数据容灾,且要求每年必须做容灾演练。
另外,外部系统数据迁移、数据共享交换(跨集群数据复制)、集群升级改造、机房搬迁、大数据上云等需求,也是 TBAK 的目标客户。
3、应用场景
TBAK 的典型应用场景包括:
一是数据热备,对于在线数据库 Hyperbase,建设同等规模备份集群,保持备集群与当前应用系统数据的同步。一旦主集群出现故障,在规定的 RTO 时间内迅速切换业务。
二是数据温备,对于离线数据库 Inceptor 和 ArgoDB,建设同等或较小规模集群,主集群数据定期同步至备集群。当主集群出现故障时,使用定期备份数据,在规定的 RTO 时间以内恢复数据和业务。
三是数据冷备,不建设备份集群,以低成本方式将数据以文件形式备份到文件系统、文件服务器等,集群故障后,修复或新建集群,在规定的 RTO 时间恢复数据和业务。
四是数据迁移,数据备份能力的另一种用途,快速实现跨 CDH 与 TDH 产品、跨 TDH 版本、跨 TDH 与 TDC 平台数据迁移,用于机房搬迁、集群升级、数据云化、数据实验、数据交换等应用。
4、相对于竞品,星环产品的优势
目前为了满足客户日益增长的大数据和 AI 平台灾备需求,在市场上也有一些为星环大数据和 AI 应用提供灾备的软件产品,通过 HDFS 原生的数据跨集群复制命令 Distcp 和星环大数据平台提供的标准 JDBC 接口,用数据导出和导入方式做数据跨集群备份,本质上还是应用层定制,只不过提供运维界面,一定程度上提升了易用性。
相对于星环科技的 TBAK,这类产品和方案存在不少弊端:
作用有限,无法实现全产品组件支持,如 Sophon、Workflow、Transporter、Guardian 等很多数据和元数据无法备份,故障后无法切换应用保障业务连续性,也就无法真正实现容灾。
高本低效,有限的灾备作用下,将 Inceptor、Hyperbase、Search、ArgoDB 等表数据先复制一份到 HDFS,然后备份 HDFS 文件,代价极高,效率低,同时占用大量对主集群计算资源,造成性能下降甚至影响稳定性。
除此之外,平台兼容性不能保证,没有原厂服务支持等弊端也客观存在。
Transwarp Backup(TBAK)产品的优势明显:
原厂备份恢复软件,全组件支持,与平台高度兼容;
底层数据复制技术,文件块级别数据增量复制,代价小且效率高;
支持数据热备、温备、冷备多种备份需求,支持实时同步、周期调度、立即执行多种备份模式,支持全量备份、增量备份,满足所有大数据和 AI 平台备份需求;
低实施成本,界面配置同步模式,勾选需要同步的对象(文件、表、组件等)即可完成数据备份,开发负杂度非常低,上线周期非常短。
高可维护性,一站式可视化运维管理界面,提供告警、监控、日志运维、自动重试等功能的,运维成本非常低。
典型应用案例与效果
案例 1:影像平台实时同步
某银行主集群包含 18 个节点,部署了星环极速大数据平台 TDH,使用星环科技的 Transwarp Hyperbase 在线数据库搭建了一个影像平台。用户希望星环科技提供 Hyperbase 影像平台容灾方案,要求 RPO 和 RTO 都在 15 分钟以内。在备份上,要求按“存量数据,每日增量”的方式进行。
星环科技基于 TranswarpBackup(TBAK)提供建设方案,如下图,
按 2:1 部署灾备集群,部署 Transwarp Backup,创建 Hyperbase 准实时同步方案,开启同步:
该项目属于用户核心应用备份项目,用户 RTO 和 RPO 要求非常高。项目投入应用后,效果显著,RTO 小于 5 分钟,RPO 小于 5 分钟,方案落地周期小于 1 人月,创造了良好的经济和社会效益。
案例二:数仓双活
某客户希望提供跨数据中心的星环科技分布式闪存数据库 ArgoDB 数仓双活方案。两个数据中心资源配置存在差异,有主副之分,对数据、模型、用户权限等一致性有要求,对数据时效性(RPO)和运维难度等都有明确的要求。
在星环科技提供的灾备建设方案中,Transwarp Backup(TBAK)和 ArgoDB 产品内置数据同步组件 ArgoDBBAR(简称 ABAR)配合实现:ABAR 可以给待同步表的 schema 信息与表的物理数据文件和文件的元信息创建底层快照。ABAR 会在 ArgoDB 集群每个 tablet-server 节点上启动一个 executor,进行数据同步,并保证数据一致性。这个过程高效和快速。
ABAR 的优势是,数据同步操作都是并行的,每个 executor 节点同时在执行数据的传输同步。因此,BAR 的同步速度是线性可扩展的。ABAR 作为大集群的数据同步工具,完全可以实现上百 TB 甚至更大的集群数据同步。
TBAK 提供可视化界面,非常方便配置同步周期和需要同步的表,然后 TBAK 按照配置调度 ABAR 完成 ArgoDB 数据同步,TBAK 也支持将数据同步任务发布成 API,以便外部调度工具调用。
数仓双活是大数据应用中典型应用场景,非常具有代表性。从用户应用效果来看,RPO 受同步调度周期影响,调度策略可配置,满足用户的时效性要求;ABAR 与 TBAK 保证了数据的一致性;TABK 提供可视化界面,流程化任务进度,可视化日志分析,很大程度减少运维成本。
案例三:生产集群-实验集群 T+1 同步
某客户希望实现集群与生产集群的 T+1 的同步,以方便在实验集群进行业务探索实验。生产集群部署了星环科技的 TDH5.2.2,10 个节点;实验集群部署 TDH5.2.4,4 个节点。
TDH 数据存储的方式包括 HDFS、Text、ORC 事务表、Holodesk 表、ORC 表、Hyperbase、Searh 共 7 种类型。星环科技提供的建设方案如下图。
实施过程同样简单快速,创建 HDFS 和 Inceptor 两个存量数据备份方案,分别选择对应 HDFS 目录和 Inceptor 表,完成历史数据全量备份。配置增量数据同步策略,创建 HDFS 和 Inceptor 两个增量数据备份方案,分别选择对应 HDFS 目录和 Inceptor 表,完成增量数据 T+1 备份。
方案落地周期不到 1 人月。投入使用后,实现了全自动数据同步。
星环大数据平台数据备份恢复软件 TBAK 与方案还能根据客户的需求,提供了众多新的应用场景,如针对某大学上云需求提供的数据一键上云,针对某银行的数据中心搬迁、升级的机房搬迁改造等,可以为用户提供更好的体验,满足用户更多的需求。
评论