“硬”核存储,等你来“盘”!
随着全面云化时代到来,越来越多政企单位将核心业务迁移上云。这些核心业务对运行环境的性能、可靠性等方面要求较为严苛,尤其是大型数据库、NoSQL 数据库、AI 训练、游戏渲染等业务场景,对数据读写性能(包括 IOPS 和时延)提出了较高要求。
作为云服务国家队,天翼云以用户需求为导向,积极推进科技创新与产业融合,基于自研高性能分布式存储引擎 LAVA,推出了百万级 IOPS 云硬盘 XSSD,在带宽、时延、IOPS 等指标方面,相较极速型 SSD、超高 IO 云硬盘,均提升了 2~10 倍。云硬盘各规格指标性能如下:
XSSD 云硬盘能力再升级
近期,XSSD 云硬盘能力再次升级,实现对云硬盘共享功能的支持。共享云硬盘功能通过允许多个云主机并发访问同一个云硬盘,促成多个实例之间的数据共享和协作。
共享云硬盘架构示例
共享云硬盘功能应用场景
高可用数据库
在基于 SAN 的数据库以及云原生高可用数据库等传统场景中,为保障故障情况下服务的业务连续性,通常采用主备模式配合共享存储来避免单点故障。使用共享云硬盘功能后,当主库故障时,可迅速切换到备库对外提供服务,实例切换后,通过 NVMe PR 命令释放旧实例对共享存储的写入权限,从而确保数据一致性。
分布式机器学习训练
在分布式机器学习训练中,训练数据通常需要被分发到集群所有节点上,造成带宽浪费并影响训练速度。共享云硬盘功能使得集群中的所有节点都能直接访问共享的存储资源,无需通过网络重复传输数据,为机器学习场景提供了一个高效、可靠的存储解决方案,尤其是针对需要高速且海量数据访问的大模型训练任务,能够显著提升整个集群训练的效率。
产品技术获业界权威认可
天翼云弹性存储创新实验室积极参与到了天翼云 XSSD 产品的预研工作中,基于 XSSD 共享盘功能的预研成果撰写了《RESD: High-Performance RDMA-enabled Control Plane for NVMe Shared-Disk Cluster》论文,近日被 The 43rd International Performance Computing and Communications Conference (IPCCC 2024) 长文收录。
IPCCC 是高性能系统领域较高水平的国际学术会议,也是中国计算机学会 CCF 推荐的国际会议之一,迄今为止已经成功举办 42 届,在国内外学术界享有较高声誉和广泛影响力。近两年,IPCCC 的论文接收率分别为 26%(2023 年)、23.9%(2022 年)。
此次被收录论文主要介绍了在 XSSD 共享盘场景下,团队对高性能控制平面的预研与探索,创新性地打造了 RESD 控制平面,通过实现分布式 QoS 能力和 I/O 围栏协议来保证产品的 SLO(服务等级目标)和数据一致性。RESD 借助 One-Sided RDMA 操作,实现将 QoS 令牌操作和 NVMe PR 指令卸载到 RDMA 网卡,在保证共享盘 QoS 准确性与数据一致性的前提下,有效地减少了共享盘控制平面对 I/O 延迟的影响,降低了服务器负载,增强了整体系统的可扩展性。RESD 原型的成功有效地助推了 XSSD 共享盘功能的技术迭代,为技术选型提供了明确的数据支撑。
RESD QoS 操作流程
天翼云 XSSD 云硬盘及自研 LAVA 引擎自上线以来备受行业瞩目。XSSD 云硬盘是业内首家通过“信通院百万 IOPS”认证的全国产化云硬盘;“极致性能 LAVA 存储项目”还成功入选 2024 数博会“优秀科技成果”。
科技创新是发展新质生产力的核心要素,关键核心技术攻关是科技创新的主战场。面向未来,天翼云将秉承国云使命,推进云存储等云计算技术攻关,为千行百业向新提质注入不竭动力。
评论