天翼云对象存储 ZOS 高可用的关键技术揭秘
对象存储是一种将数据作为对象进行管理的网络存储架构,早期常被用于数据备份归档等场景。
对象存储是一种将数据作为对象进行管理的网络存储架构,早期常被用于数据备份归档等场景。随着各行业数字化转型深入,非结构化数据呈现爆发式增长,对象存储作为能够提供可大规模扩展且经济高效的存储方案,其应用愈发广泛,逐渐深入政务、金融等客户的核心业务领域,这也对对象存储的可靠性、可用性提出了更高要求。
基于高可靠的底座、完备的安全防护、一体化的运维管理与容灾设计体系,天翼云对象存储 ZOS 为企业提供高可用、高可靠的存储服务,应对数据爆发式增长和快速查询需求,保障更多政企客户安全用云。
天翼云对象存储 ZOS 整体可用体系建设图
天翼云对象存储 ZOS 采用分布式系统架构设计,具有灵活伸缩的接入层和高可靠的分布式架构,可进一步提升存储服务可用性。
灵活伸缩的接入层
ZOS 能够支持海量的小文件访问和存储。高达 10 亿+数据量的单桶存储,是对对象存储产品前端接入网络高负载、高可用性的挑战。天翼云 ZOS 通过一整套基于 CStor-LVS 和 CStor-Nginx 的架构来满足这一需求。
如上图所示,ZOS 通过前端接入全互联高速网络,实现了各个节点在负载上的完美均衡。接入节点间通过 keepalived 的方式实现了 LVS 节点之间的高可用,在面对单节点故障的场景时,能够迅速做出切换,保证业务的连续性,服务可靠性高达 99.995%。同时,在 Router、LVS 和 Nginx 侧,分别实现了各自的一致性 Hash,在前端流量持续增长的同时,能够实现用户无感知的热伸缩。
高可靠分布式架构
当 ZOS 进行文件存储时,会以对象的方式将每个文件切片,并通过 Hash 计算保证这些分片均匀离散地映射到每个存储节点、每块硬盘上。在存储单元的选取上,可以根据每个硬盘所在服务器、机架、机房进行识别性选取,进而在多个物理层级上满足服务可靠性的要求。
在底层架构上,ZOS 支持多副本和 EC 纠删码的策略,在充分保证数据准确性、安全性的同时,可以根据需要灵活选择冗余的类型,在容量利用率、性能、可靠性上达到满足客户需求的平衡。
天翼云对象存储 ZOS 实现高可用还得益于一项关键技术:支持 3AZ 多活架构。
回顾数据存储的灾备技术发展,主要分为以下几个阶段:
离线备份:技术发展的早期,人们主要通过移动硬盘、光盘进行数据离线备份(也称为冷备份),实现简单,无需进行大规模的业务部署和改造,但也存在效率低下、安全性可靠性低且恢复困难等问题。随着行业内数据量的激增以及磁带库等备份介质的出现,市场涌现了大批的备份软件厂商,可实现大规模数据的自动化离线备份和恢复。
在线备份:由于离线备份需要中断在线业务,且恢复操作实现复杂,备份厂商结合应用侧研发出在线备份技术(也称为热备份)。在线备份实施时无需中断用户业务,结合快照能够便捷地为用户提供数据强一致性的备份和恢复能力。但是这种方式同样存在数据备份和恢复周期长的问题。
两站点双活 &复制:在备份技术发展的同时,数据存储领域也出现了跨站点的容灾技术,最先出现的是两站点的双活、异步 &同步复制技术,具有数据在线复制备份、故障恢复时间短等优势。
跨站点多活:伴随着业务可靠性要求的持续升高,多站点多活技术随之诞生,带来了比两站点容灾更高的可靠性能力。传统技术包括两站点构建双活+额外一站点复制等。
对比几种灾备技术特征可以发现,在业务恢复难度和时长方面,由于备份涉及多次的数据拷贝和回拷,恢复难度较高且耗时较长;在资源利用率方面,利用传统备份和复制技术,备份数据目的端通常不直接承载现网业务,会造成部分业务资源浪费;在运维成本方面,双活、多活技术故障场景业务感知小,切换迅速快捷,且无需人工设置备份/恢复规则,更方便客户侧运维人员操作和实施。
另外,备份和传统跨站点容灾技术实际上还是基于数据复制技术实现的,通常至少需要 1:1 的数据备份,借助压缩又会带来额外的开销,因此整体的存储空间利用率也不高。但在实际使用中,很多用户出于投资成本和可靠性要求等多方面考虑,也会将备份和跨站点容灾技术结合使用。
ZOS 为适应云上业务的极速发展和高可用要求,在跨站点多活技术的基础上,研发实现了 3AZ(Available Zone,云上架构下的可用区,通常为一个物理站点)多活的容灾架构能力,每个 AZ 存储节点融合为统一的存储系统,AZ 间实现数据自由流动,对外提供无差别的对象存储服务。
ZOS 在 3AZ 多活能力上具备以下几大技术优势,在保有传统跨站点多活技术高可靠性的基础上,为用户提供更好的资源可用性和运维体验。
业务无中断:三站点多活架构,任意一个站点整体故障业务不中断,满足生产系统业务稳定运行的高可靠要求。
故障无感知:站点故障后业务自动切换,上层应用无感知,体验更优。
恢复无干预:站点恢复后,无需人工干预自动重新上线,系统自动进行数据重构,应用正常平稳运行。
资源高可用:通过跨站点分布式纠删技术,充分利用各站点存储空间;3 站点多活同时承载业务,提供更优于双活 &复制的存储资源利用率。
可视化运维:云上可视化监控状态和告警,轻松实现远程运维。
目前,天翼云在华北、西安、苏州等全国多地实现了 3AZ 部署。
随着千行百业数字化转型进程的不断加速,云上业务连续性和可用性已成为企业深化信息化建设、保障业务可持续发展的重要着力点。天翼云对象存储 ZOS 可为企业提供低成本、高可用、易运维的对象存储服务,让企业数据存储无后顾之忧,在数字时代的博弈中稳中求胜。
版权声明: 本文为 InfoQ 作者【天翼云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/78ca4e0ee1d5f83c280daf36e】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论