黄凯耀:深度解读 openGauss 架构创新与新特性
黄凯耀:深度解读 openGauss 架构创新与新特性
openGauss 2023-04-23 18:00
数字经济的稳步发展离不开先进的数字基础设施来高效处理爆炸式增长和积累的海量数据。而数据库作为关键基础软件,对于实现安全存储与可信计算,保障数字经济高质量发展有着十分关键的意义。拥抱开源,基于开源打开技术未来升级的大门正逐渐成为共识。
2023 年 4 月 8,openGauss 开源数据库首席架构师、社区技术委员会委员黄凯耀受邀参加 DTC 2023,并在【开源创新:开源数据技术】专题论坛发表了《openGauss 架构创新与新特性深度解读》的主题演讲,围绕关键行业核心客户场景为大家分享了 openGauss 最新发布的 5.0.0 版本的多项架构创新,并对其新特性进行了深度解读。
嘉宾简介
黄凯耀,负责 openGauss 生态产品的技术规划和产品设计工作,在数据库高性能架构、高可用架构、OLTP 性能优化、OLAP 性能优化、一体化架构、软硬协同等领域有丰富的理论、工程与实践经验。
一、数字时代下业界数据库架构逐渐标准化
在分享中,黄凯耀以时代趋势为引入点,并指出:“当前产业数字化带来丰富的应用场景与海量数据规模,金融、电力、教育、医疗等各个行业都有海量应用场景需要数据库架构与时俱进,协同创新。”
随着多样性计算演进,多样性应用场景和数据需要数据库支持多种算力。黄凯耀表示,过去以 CPU 为中心的架构,现已发展到多样性算力协同的对等计算架构,CPU、GPU、NPU 甚至包括为特定场景开发的计算单元等都要形成协同关系,从而更好地去处理数据。不仅如此,多模融合成为主流,多模数据需要协同处理以实现资源集约化管理。“从过去主要处理的是结构化数据,到现在处理非结构化数据例如图、时序、流、文档等的数据类型,这对数据整合处理和整合分析提出了更高的要求。”黄凯耀说道。
在对数据库架构进行了简单的介绍后,他又对数据库系统发展类别进行了分享。黄凯耀指出,过去 20 余年,数据库系统发展大致为两类:第一类系统是成熟的数据库内核先叠加分布式计算,再开发分布式存储和分布式内存的能力;第二类系统即可靠的分布式存储首先叠加数据库内核,再开发分布式计算和分布式内存能力。而提到刚刚发布不久的 openGauss 5.0.0,黄凯耀介绍其采用资源池化架构,通过数据库内核与存储层的 NDP 技术、内存层的多节点 MVCC 技术、计算层的多模多引擎技术等进行深度协同,可有效应对大规模数据库可靠性、性能、易用性的诉求。
二、openGauss 5.0.0 资源池化架构
伴随着业界数据库架构逐渐走向标准化,黄凯耀对 3 月 30 日正式发布的最新版 openGauss 的核心特性之一——资源池化架构进行了详细的解读。面向未来的 openGauss 资源池化架构由三层池化、一个平台和一个标准组成。
(一)三层池化
三层池化包括存储池化、内存池化和计算池化。
存储池化支持多种存储,如分布式存储、企业存储、对象存储,实现一份数据服务于多种计算,并通过 SQL 算子卸载的 NDP 技术,大幅提升了 SQL 处理效率、消减网络 I/O 流量。
内存池化实现计算节点间内存的互联,通过同步事务信息和数据库缓存,实现了多节点下的多版本快照一致性读能力,结合 RoCE 和 SCM 等硬件,实现极致的 Commit 加速和大容量内存访问等能力。
计算池化支持多样性算力,基于 X86、鲲鹏等算力,为应用提供 TP 行存加速、AP 列存加速、AI 训练推理等全方位的数据服务。
(二)一个平台
一体化平台的主要作用是给整个架构提供可靠的运行环境。黄凯耀强调了一体化平台的概念,即除了提供集群管理能力以外,还需要提供可观测可诊断、云边端协同、资源编排的能力,这是平台需要解决的问题。
(三)一个标准
不管是关系型、图或者时序数据库,都会通过 SQL 接口进行交互,因此订立一个全场景的 SQL 标准非常重要。制定 SQL 标准的目标是支持最新的系统标准与特性,同时向外扩展推出特定应用场景下的标准,包括全密态与 AI 标准。
随着应用场景的丰富,SQL 标准能够支持的系统越来越全面。黄凯耀在此也希望能够定义出全场景的 SQL 标准,既可以兼容现在的核心标准特性,也可以提供更多有针对性的特性能力。未来,他希望 openGauss 社区还能够与国内不同的友商及合作伙伴一起来定义更多标准。
三 、数据全生命周期生产力工具:openGauss DataKit
除了深入讲解 openGauss 5.0.0 资源池化架构外,黄凯耀还重点分享了社区全新升级的数据全生命周期生产力工具 DataKit。
他指出,社区共建以及从更宏观的层面实现产业链的共建,是 DataKit 最主要的发展思路。openGauss 的 DBV 伙伴通过 DataKit 平台实现了存储过程调试的功能,同时粤港澳大湾区国家技术创新中心也给 DataKit 贡献了三个插件,这三个插件可以实现数据库系统集群上的性能分析。不仅如此,华为还推出了“众智计划”,将插件的开发工作需求通过该计划发布,由外部更广泛的技术力量来承接联合开发。
四、产业链联合创新,打造最具创新力的 openGauss 技术生态
演讲尾声,黄凯耀也介绍了社区愿景,即实现产业链联合创新,打造最具创新力的 openGauss 技术生态。这里分别有两个方向的扩展,一个是垂直向上的场景扩展,一个是水平方向的能力扩展。
作为国内数据库研究的根技术平台,openGauss 社区的使命首先是服务好数据库厂商,其次是在提供数据库内核的基础之上进一步提升整个计算产业的多层协同,包括芯片、服务器、操作系统、编译器、上层应用等全栈能力。以“创新”“开放”“繁荣”为宗旨,黄凯耀在演讲的最后呼吁大家一同加入到 openGauss 的生态建设中来,让 openGauss 成为国内最好的根技术社区。
评论