第二存储解决方案白皮书 | 专为非生产数据而设计的存储方案
QingStor 是 QingCloud 基于多年的大规模公有云实践,通过软件定义,为云而生、为核心业务打造的企业级分布式存储产品。QingStor 家族包括 NeonSAN、文件存储、对象存储等产品,服务数字化转型 2.0,提供全生命周期的数据存储和管理,用数据驱动企业决策,以更敏捷、易用、低成本的方案引领数字业务创新。
安钛飞(Active IO)简介,成⽴于 2015 年,专注于云和数据时代的新⼀代数据管理技术,通过⼀体化数据管理云服务平台,提供数据保护、数据利⽤、数据治理等服务,实现数据管理的全⽅位⾃动化服务,覆盖场景包含备份、容灾、测试数据管理、数据抽取、数据运维环境搭建等等,目前服务客户覆盖⾦融、移动、电信、联通、国家电⽹等。
序言
我们非常关注生产数据的安全性、空间、性能、可靠性等等,非常关注生产数据的存储架构来满足生产的要求。我们也非常关注非生产数据为生产数据提供的各种功能,比如备份时是否影响生产、恢复时是否能满足生产的要求,但却很少有人深入关注非生产数据本身的存储需求。
非生产数据的存储架构非常混乱,而且往往不能满足非生产数据对存储的各种要求,比如统一管理、空间、性能等等,因此也限制了其对生产的服务能力。
第二存储,是一种新型的存储系统,专为非生产数据而设计,满足非生产数据对存储的各种需求,并通过各种敏捷数据服务能力,为生产数据和整体业务提供服务。
[非生产数据] 是指所有从生产拷贝出来的所有数据的统称,如备份数据、容灾数据、开发测试所用数据。
现有非生产数据存储架构的现状
非生产数据的产生有多种原因,如数据备份、容灾等需要从生产获取数据,如 DBA 需要克隆库,如应用测试人员需要测试数据的环境。这些非生产数据都需要非生产存储来提供存储服务。
我们可以通过观察,很轻松得出结论:现有非生产存储的架构非常复杂和混乱。就存储种类来说,有备份一体机、磁带库、光盘、云存储等,其中很多都是封闭而专有的存储系统;就用途来说,有备份、容灾、开发测试等;就数据从生产系统获取的方式来说,有备份、数据库复制、存储复制、快照、逻辑导出等等。
这种混乱现状的由来也很复杂,有所用数据获取技术过于老旧的原因,比如传统备份技术实际上仍然是磁带备份的技术;有供应商提供的功能和硬件绑定的原因,比如备份一体机只提供备份功能并使用专用设备;有生产数据对数据保护、数据使用等方面的需求确实非常多而且复杂的原因。
这种架构造成了很大的问题,首先,由于各功能与设备各自为政,使得非生产数据无法复用,产生了大量的复制数据(Copy Data),据 IDC 统计,企业内普遍存在 10 到 20 份的复制数据,占据了大量的存储空间, 消耗了一半以上的企业存储预算。
其次,这种架构无法提供现代企业对数据服务的服务等级要求,反向拖累了生产系统。比如生产环境实现了云架构,所有资源已实现了敏捷化服务,分钟级提供存储、服务器等资源,存储或服务器故障时,可以不影响生产环境或分钟级恢复。但如果备份系统提供数据恢复,却需要几小时甚至几天的时间,显然,这个恢复的服务等级和生产环境完全不匹配。测试人员如需要更新测试数据用于应用的测试,往往需要花费几天甚至几周的时间,这显然拖累了企业业务应用迭代的效率。
从整体 IT 架构的发展来看,企业的生产环境基本上实现了 IT 架构的云化,包括服务器、存储、网络,为生产环境的成本、效率带来了极大的好处。但非生产环境却远远落后于这个云化进程,仍然是以采购专有设备为主要建设模式,比如备份一体机、虚拟带库、专有重删设备等等。
企业长期重点关注生产环境的建设,对非生产环境的投入和关注远小于生产环境,比如运维、人力、资金等方面,造成了二者之间的代差。如果从云化的角度去考察,非生产环境的架构要落后生产环境 10 到 20 年。其结果是,非生产环境成为了整体 IT 这一木桶中最短一块木板,制约了整体 IT 的能力。比如:
一个 10TB 的生产数据库出现逻辑故障,需要 1 天以上的时间去修复;
DevOps 建设中,应用从开发、测试到上线都实现了全流程自动化,但测试环境的搭建却仍然需要以周为单位;
业务连续性建设中,灾难事件可以在 2 小时内恢复(RTO 为 2 小时),但机房内的各种小故障,却需要以天为单位进行恢复,如误操作、勒索病毒等;
所有这些结果,都是因为非生产环境的服务能力远远落后于生产环境。
如何解决这些问题?这需要从非生产数据的整体存储架构入手,以云架构及数据时代对非生产数据的服务等级为目标,构建出全新架构的存储系统,这就是“第二存储”。
第二存储的定义
云架构下的存储系统分为块存储、NAS 存储、对象存储,这是从存储接口、适合的数据类型等角度来分类,但是,主要指存放的数据都是生产数据。
而从数据的生命周期的角度,企业内的存储可以划分成:第一存储和第二存储。
第一存储是指生产数据所用的存储,如生产数据库、应用服务器、生产文件系统等等所用的存储。这些存储可能是块存储、NAS、对象存储的一种或多种,第一存储对存储服务的需求主要在性能、可靠性、稳定性等。
第二存储是所有非生产数据所用的存储,覆盖备份、容灾、开发测试等等所用的存储。 第二存储是一种全新的存储类型,它可以用一个存储系统,取代现有的各种非生产数据所用存储,如备份一体机、磁带库、光盘库、快照等等。
作为一种新的存储类型,是为了解决上述非生产数据存储架构的各种问题,因此,第二存储必须有三个基础能力:
首先,第二存储必须是提供海量存储空间的存储系统。非生产数据的数据量要远高于生产数据,第二存储将为所有非生产数据提供存储服务,因此必须具备海量的存储空间,并能按需横行平滑扩展。
其次,第二存储必须是是一种功能性的存储系统。第二存储需要能提供备份、容灾、数据供给、数据抽取等等数据服务功能,从而可以替代原来的各种软硬件的功能;相比第一存储只需要提供性能、可靠性等基础能力,第二存储是一种提供数据服务功能的存储系统。
最后,第二存储必须能满足现代企业的数据服务等级的要求。第二存储需要能满足云架构及数据时代对数据服务等级的要求,如分钟级的数据恢复能力、分钟级的测试数据供给能力等。解决现有架构下数据服务等级远远落后于生产环境的要求的问题。
第二存储的架构
为了实现第二存储的三个基础能力,第二存储的架构体系和功能设计如下:
第一,必须采用分布式架构:解决海量数据的存储空间要求和扩展要求,在保证基础性能的前提下,至少能最大提供几 PB 甚至几十 PB 的存储空间。在目前三种基础的存储系统中:块存储、NAS 存储、对象存储,我们认为对象存储是最合适的存储类型,我们选择对象存储作为第二存储的底层存储系统。
第二,必须能覆盖所有非生产环境下的数据管理的功能:首先第二存储必须提供备份、恢复、复制、克隆、数据多副本使用等等功能。其次第二存储的用户必须包括备份管理员、容灾管理员、测试人员、DBA 等不同角色的数据消费者,所有的非生产数据的操作都集中在第二存储,由于这些用户的技术水平参差不齐,所以,第二存储提供的功能必须服务化,屏蔽底层数据操作的复杂性和专业性。
第三,数据的虚拟化功能:第二存储需要能实现数据的虚拟化,类似服务器的虚拟化、存储虚拟化等一样,一份非生产数据能提供多个副本使用,且不额外增加存储空间,从而将原有非生产环境中的 10-20 份 Copy Data,只需要占用 1-2 份存储空间,大幅减低存储空间和成本,充分体现集中统一的存储带来的成本优势。
第四,计算与数据分离:如果将数据管理各功能的服务视为计算,那么,在第二存储架构中,需要能做到计算和数据的分离。即数据可以被所有的服务节点所访问,多个服务节点也可以同时访问同一份数据。计算与数据的分离,实现了数据的分布式架构,而并不仅仅是资源的分布式架构。
第五,统一管理:在架构的基础之上,由于第二存储是为所有数据消费者服务的,因此,必须有统一的权限、数据、安全、资源管理。
综上所述,第二存储的架构必须实现数据的分布式架构,并能实现数据管理的功能并服务化。
第二存储的使用场景
第二存储可以适用于所有涉及非生产数据的使用场景,相比现有传统非生产数据的存储架构,第二存储在以下三个场景有立竿见影的效率及成本优势:
备份的现代化改造
从 1988 年 IBM 推出 TSM 开始,传统备份的架构延续的 30 多年,备份一直是以磁带技术为核心,即使是当前流行的备份一体机,仍然使用了磁盘作为存储介质,但备份数据的格式仍然是为磁带设计的。这存在二个问题,首先是架构问题,各种备份设备形成了一个个数据的孤岛;其次,从备份和恢复这二个最核心的功能来说,备份时间长、恢复时间长,远远落后于现代企业对备份的要求。
直到 2010 年业界推出第一款 CDM 技术为基础(Copy Data Management)产品,才真正有了充分利用磁盘特性的备份,CDM 技术技术利用了数据的原始格式,即备份数据保留了生产数据的原始格式,并将备份数据保存在磁盘上,它可以实现永久增量备份、分钟级挂载恢复、备份数据的直接使用等等功能。从而在底层的备份基础功能上实现了质的飞跃。
第二存储采用了 CDM 作为备份的技术,同时,也利用数据的分布式架构,实现了数据的统一存储、管理、恢复、使用等等,消除了传统备份的孤岛式架构。
利用第二存储实现备份现代化,可以实现三个主要目标,
第一:备份和恢复的效率的现代化,达到现代企业对数据保护的等级要求。第二存储采用了永久增量备份模式,消除了传统备份的定期全备模式,大幅减低了备份窗口及备份对生产服务器、网络等资源的消耗。在恢复效率上,无论数据量大小,第二存储都可以实现分钟级,消除了传统备份还原操作模式下、数据量越大恢复时间越长的效率问题。
第二:用一个通用设备构建的存储系统代替各种专有的设备,如备份一体机、虚拟带库、重删设备、磁带库等等,消除数据孤岛。第二存储采用通用的 x86 服务器,包括备份功能和对象存储的实现,都由软件实现,帮助用户实现 IAAS 层的云化。存储空间和数据备份恢复统一管理。
第三:备份数据的充分利用。传统备份的数据很难被使用,需要复杂的恢复环境(存储、网络、服务器等资源)并通过长时间的恢复,第二存储内备份数据可以实现多副本使用,一份备份数据可以分钟级虚拟化出多份数据,每份数据不占用实际存储空间,操作简单、环境要求低、效率高,用户可将很多生产环境的数据操作转移到第二存储,降低生产环境的压力。
业界现在有基于 CDM 技术的备份一体机,可以实现备份恢复效率的提升,但 CDM 一体机仍然是专有设备,并不能对整体存储架构带来什么好处。相比用 CDM 备份一体机这种专业设备来替代传统备份,基于第二存储实现的备份现代化改造,将更为彻底,为整体的存储架构的优化带来额外的价值。
测试数据管理
现代企业的数字化转型,需要应用的快速迭代开发,测试的工作效率制约着快速迭代的速度。
在测试环境中,基本需要 4-10 份测试数据,这些测试为了保证新鲜度(与生产数据在时间上的差异),需要定期更新。对于有上百个数据库的企业来说,这样的测试数据更新、多个测试数据环境的维护,需要消耗大量的人力、物力。
假定某用户有 100 个应用,每个应用 1 个数据库,每个应用在测试环境有 4 个测试数据库,测试数据的更新频率是每月 1 次。每个测试数据库假定为 1TB 数据量。那么,该用户在每个月需要销毁 400 个数据库并新生成 400 个数据库。 如果每个数据库的销毁和新生成需要一个人天,每个月需要 400 个人天。该测试环境的存储空间至少为 400 * 1TB= 400TB。
另外,由于传统备份技术过于复杂、成本过高,测试环境的数据在企业内往往是不做备份的,这造成了测试人员在测试过程中无法灵活的回退、移行、多分支并行测试等等,减低了测试效率。
第二存储能大幅提升测试数据在效率、成本上的提升。
第二存储可以实现数据的虚拟化使用,一份测试数据通过快照技术,可以虚拟出多份副本,而不增加额外存储空间,并且可以分钟级构建出测试环境。
第二存储可以利用快照技术,秒级实现测试数据的备份,并且只消耗增量数据的存储空间,而在恢复时,可以分钟级实现。通过这种低成本、高效率的备份恢复技术。为测试人员提供非常灵活的各种测试数据操作。
以上述用户环境为例。数据库销毁和新生成可以分钟级实现,假定为 10 分钟,每个月的 400 个库的更新,只需要 400 * 10 分钟约 66 小时。而且第二存储可以实现自动化的测试数据库销毁和新生成,无需人工操作。第二存储的虚拟多副本和本身存储空间压缩功能,400 个测试数据库的存储空间要求为: 100(基础测试数据)* 1TB/3(压缩率)= 33TB 左右。
通过第二存储实现的测试数据管理,在存储空间、效率、运维等方面都有非常明显的价值。
云容灾
长期以来,容灾系统的建设成本是非常高的。灾难发生时,容灾系统要能接管业务,并能在性能上有基本保证,容灾系统需要配备服务器、存储、软件、网络等等,除了配置级别上可以低于生产系统,但必须配置齐全。
容灾系统的维护成本也非常高,需要定期进行容灾演练,以保证容灾系统的可用性。
灾难事件的发生概率是非常小的,甚至几十年都不会发生。但如果发生灾难事件,却没有容灾系统,会造成巨大损失。这是一个巨大的矛盾。
公有云的发展为解决这个矛盾提供了可能。
公有云的资源可以临时租用,用完回收。因此,容灾系统可以实现:
灾难事发生或容灾演练时,通过租用公有云的各种资源(服务器、存储、软件、网络等),实现容灾切换或容灾演练。
在日常,用最低的成本维持容灾系统最基础的功能—数据复制和保存。
第二存储本身提供灾备一体化功能,并可充分利用公有云的特性来实现容灾,从而可以为用户提供低成本的、覆盖所有故障类型的业务连续性方案。
以下是第二存储可以实现的各种故障下的 RTO/RPO:
通过第二存储,可以完美解决业界一直存在的容灾建设在成本和效果之间的矛盾,各种机房内的高概率小故障,由本地的第二存储快速解决,无需切换到容灾端(当然,传统的容灾系统也无法有效的解决这些小故障)。在日常,云端只需要租赁对象存储资源,只有发生概率很小的整体机房故障时,才临时申请服务器、存储、网络等资源,实现容灾切换。
QingStor 和安钛飞联合推出第二存储解决方案
联合解决方案实现的效果
QingStor 和安钛飞通过深入的联合研发、测试,推出了第二存储解决方案。安钛飞提供基于 CDM 技术的、实现数据分布式架构的数据管理软件,QingStor 提供对象存储。
安钛飞提供了基于云架构的 CDM 数据管理软件,可实现永久增量备份。只需增量数据,系统内自动合成全量数据;备份数据原始格式,实现挂载方式的分钟级快速恢复。无论是存放于块存储还是对象存储,备份数据都可以快速挂载方式恢复;备份数据的多副本使用功能。通过指针式快照,实现备份数据的多副本使用,副本不占用存储空间;可将数据直接备份到对象存储;对象存储的挂载数据的性能可等同 SSD 磁盘的 IO 性能;计算节点(备份、恢复、数据挂载等功能节点)无状态化,实现计算节点的高可用及平滑横行扩展。
第二存储解决方案的整体架构可实现:
数据统一存储,消除数据孤岛,利用对象存储实现存储和计算分离。
基于对象存储可以存储结构化和非结构化数据,对象存储可以无限扩展。
计算节点实现无状态化,可以快速弹性扩展收缩。计算节点可以按性能需求进行配置。
统一的元数据管理。
所有分层相对独立,按需扩展, 易于管理。
可随时关闭不需要的计算资源。
任何计算资源都可以访问全部数据。
测试数据
测试环境拓扑描述
青云公有云环境部署安钛飞软件,保护青云上 oracle 数据库。
青云对象存储作为数据共享池。
直接从青云对象存储挂载 oracle 数据库。
测试环境
Oracle 备份结果
对象存储挂载 Oracle 结果
验证数据恢复场景,包括数据应急/快速恢复/数据服务能力。
利用时间版本管理和虚拟化技术,CDM 系统可以分钟级别发布任意时点的多副本全量虚拟库数据库, 通过虚拟库方式,高效的支撑敏捷运维,敏捷开发,敏捷运营需求。
从对象存储并行挂载 Oracle 结果
验证数据恢复场景,包括数据应急/快速恢复/数据服务能力。
利用时间版本管理和虚拟化技术,CDM 系统可以分钟级别发布任意时点的多副本全量虚拟库数据库, 通过虚拟库方式,高效的支撑敏捷运维,敏捷开发,敏捷运营需求。
从对象存储挂载 Oracle 数据库性能测试结果
本次测试数据对比
更多文章
版权声明: 本文为 InfoQ 作者【QingStor分布式存储】的原创文章。
原文链接:【http://xie.infoq.cn/article/9cf73571e2dba6f674a96ec00】。文章转载请联系作者。
评论