当 HTAP 已成标配,什么才是制胜关键?
过去十五年来数据技术蓬勃发展,企业的 IT 系统变得越来越复杂。融合成为近年来数据技术发展的重要趋势,尤其在数据库领域,软硬融合、流批一体、HTAP、多模融合等逐渐落地。
随着供需关系的变化,数据库的竞争已经进入下一阶段,如何利用新技术简化架构复杂度,最大化利用 IT 资源,如何打造一款简单易用的数据库助力企业降本增效,这些都是企业和厂商共同的追求,很多企业在融合方面进行创新探索。
数据库竞争已进入下个阶段
技术细分与融合是一个不断变化的过程,会随着供给与需求的变化而动态调整。以 HTAP 数据库的发展为例:
关系型数据库的业务负载通常分为 TP 负载和 AP 负载,TP 一般是做交易型的业务,数据量小,但要求低时延、高吞吐,对安全、高可用、稳定性有较高的要求。AP 一般对历史数据进行分析,对系统资源开销大,主要面向数据量大、查询复杂以读为主的分析类业务。
早期数据量较小,数据库并不区分 TP 和 AP,所有业务都放在一个数据库上,比如 Oracle 既能支持 TP 负载,也能支持 AP 负载。随着时间的推移,数据量逐渐增大,受限于当时的技术,一套架构很难满足不同的负载需求,TP 和 AP 开始分开,交易型数据库处理 TP 负载,数据仓库处理 AP 负载,中间通过 ETL 工具将交易型数据库上的数据传输到数据仓库中,当时业务对时效性要求并不高,可以满足业务需求。
随着数字化深入,市场变化加快、竞争加剧,企业需要获得实时洞察指导经营决策。以前做分析需要将数据从 OLTP 库 ETL 到数仓再进行分析,实时能力弱,随着对更大规模、更复杂的数据集进行实时分析的需求不断上升,催生出了 HTAP 数据库。实际上,技术的变革是供给和需求双方共同推动的结果,在供给侧网络、硬件、软件等技术升级,在需求侧业务对实时性要求变高,企业追求降本增效,使得数据技术走向融合,TP 和 AP 的融合是数据技术走向融合的一大方向。
从需求侧来看,实时分析需求的提升为 HTAP 数据库提供了丰富的应用场景。
比如银行欺诈检测场景,检测不适当的访问以及防止身份盗窃等,这需要数据尽可能是最新的并且检测可以实时进行才会有效,HTAP 数据库可以支持银行欺诈检测这样的实时分析业务。
企业内部各类数据汇聚的数据中台场景,传统承载数据中台的解决方案都是基于 Hadoop 体系,但是 Hadoop 组件极为复杂,有较高的开发和运维门槛,对于很多企业来说成本太高。HTAP 数据库可以替换 Hadoop 体系,简化架构复杂度,降低开发和运维等方面的成本。
IoT 物联网场景。随着传感器和物联网技术的大量应用,海量 IoT 设备生产了大量的数据,比如制造业工厂生产线,新能源汽车,城市安防监控摄像头等等,数据规模大,可能轻易能达到数百 TB 甚至 PB 级别,这类偏时序的场景,提供实时监控、预警,精准实时的数据采集和数据分析是关键,需要具备可扩展能力的 HTAP 数据库提供支持。
HTAP 已经成为数据库的标配
HTAP 成为数据库技术发展的当红炸子鸡,在刚刚结束的 DTCC2023 大会上也可以看到越来越多的数据库产品支持 HTAP 混合负载,HTAP 已经成为新一代数据库的标配。
近两年,国内外各方都在积极布局 HTAP。比如:Snowflake 发布新的行存储引擎 UniStore,正式进军 HTAP 领域;谷歌云发布 AlloyDB,具备 HTAP 能力;openGauss 发布 3.1 版本,从原有的 OLTP 扩展到 HTAP;中兴通讯旗下金篆信科发布面向混合交易负载场景的 GoldenDB v7.0 年度新版;亚马逊在 re:Invent 2022 大会上提出了“Zero-ETL”,将 Aurora 和 Redshift 融合打通形成 HTAP 解决方案;今年 3 月,阿里云在瑶池数据库峰会上宣布将 PolarDB 和 AnalyticDB 打通融合,形成“云原生一体化”的 HTAP 解决方案;日前,矩阵起源发布了云原生 HTAP 数据库 MatrixOne1.0RC1 版;腾讯云发布 TDSQL 融合版,强化 HTAP 能力……
初创厂商对市场的变化、新技术的发展和应用往往比较敏感,关于 HTAP 为什么会成为标配,数据库初创厂商矩阵起源 Global CTO 田丰博士给出了他们的观察和思考,现在企业都有降本增效的需求,随着应用上云之后业务变得多样化,如果数据库不能够支持 HTAP,开发、运维的成本会非常高,HTAP 数据库在同一份数据上同时支持 AP 和 TP 的工作。从数据的一致性、开发效率、运维效率来看,HTAP 都是不可逆转的方向。
企业在进行 HTAP 数据库选型时,一方面会关注扩展性,随着业务和数据不断增大,数据库也需要能够灵活地扩容支撑其业务增长。另一方面会关注性价比,为企业带来降本增效。此外,资源隔离能力、自调优能力、性能等也是客户选型 HTAP 数据库时关注的因素。比如自调优能力,需要根据不同负载进行资源优化,最大化利用资源。
什么是数据库产品的制胜关键?
在需求较为明确时,各方都会争相布局,竞争也会变得激烈。创新的架构是避免同质化竞争,打造差异化优势的关键。 云无疑是 IT 技术的破坏性创新的代表,为数据库架构创新带来了新的机遇。
田丰博士介绍,当前众多的 HTAP 数据库,大概有以下几种技术路线。一是从 TP 走向 AP,在 TP 基础上增加 AP 能力。二是从 AP 走向 TP,在 AP 的基础上增加 TP 的能力。三是从一开始同时支持 AP 和 TP。其中有的方案是将一套 TP 系统和一套 AP 系统粘合起来,表面上看一套 HTAP 系统,但是粘合的方案在数据新鲜度和延迟方面难以把控,能力相对会弱一些。而且在一套系统的基础上增加额外的能力,在资源隔离、资源优化方面也会遇到挑战。
以自调优为例,自调优的过程最重要的是对存储进行优化,而存储的优化 AP、TP 都不一样,传统的数据库很难做好,云为自调优带来了新的机会,可以根据不同的负载任意选用不同的机型优化,更加灵活,云原生为资源利用提供了很好的落地基础。
实际上,用户对数据库的需求并不是简单的 TP 和 AP,用户真正的需求是让写得更好、更准,读得更多、更快,人为地做了很多应用之后就把 TP 和 AP 两个数据库分开。云使得资源颗粒度更细且能近似无限地扩展,这意味着对于用户需求的组合可以不像以前那样一定是 TP 和 AP 之分。 比如 MatrixOne 将存储、计算、事务三层解耦,通过完全容器化的设计来实现极致扩展,更细颗粒度地按照数据的操作混合,通过资源隔离优化,充分利用资源,这样的架构创新离不开云的支持。
随着数字化转型不断深入,业务负载会更加复杂多元。企业更愿意去使用能处理多种负载的数据库。未来,如何能够融合更多的负载,可能会是一个融合性数据库厂商获得更大胜利的一个方向。也许比别人多融合一种,在客户那里产生的价值就能多提升一倍甚至两倍。不过融合也会有其边界,世上并不存在所谓的皇帝数据库。融合性数据库需要考虑到环境的变化,数据库在 IT 基础设施中位于中间层,环境变化体现在供给和需求两个方面,底层的计算、存储和网络资源的供给发生了什么变化,应用侧用户的需求和痛点是什么,如何利用计算、存储、网络的一些新发展,更好地满足用户融合统一管理数据的需求,这些都非常关键。
小结
什么是数据库产品制胜的关键?简单来讲是要回答如何打造一款好用有价值的数据库,对市场的动态足够敏感,充分考虑供需环境的变化进行架构创新,比如融合,利用云的优势等,这些都很重要。然而,架构创新并不是好数据库的保障,世上也没有完美的架构。架构的创新需要好的工程实现 。在快速变化的时代,基础软件的创新发展需要长期主义,小步迭代快跑,毕竟好的数据库是用出来的,更是在工程上不断迭代优化出来的。
版权声明: 本文为 InfoQ 作者【MatrixOrigin】的原创文章。
原文链接:【http://xie.infoq.cn/article/97b21342acd7e69dad873579a】。文章转载请联系作者。
评论