写点什么

一文读懂|2021 年数据库领域精彩回顾

作者:yMatrix
  • 2022-12-02
    北京
  • 本文字数:4259 字

    阅读完需:约 14 分钟

一文读懂|2021年数据库领域精彩回顾

数据库网红、CMU 数据库课程掌舵人 Andy 老师的数据库 2021 总结,翻译原文以飨诸位。


原文链接:https://ottertune.com/blog/2021-databases-retrospective/


对于数据库行业来说,今年可以说是野蛮生长的一年:新来者超越了老一派,供应商为了争夺基准数字,以及令人瞠目结舌的的融资次数。我们不得不通过收购、破产或撤销的方式与我们的一些数据库朋友说再见。


随着年底的临近,在我们进入 2022 年时值得反思和评估,以下是一些亮点及我对数据库领域的一些想法。


01 PostgreSQL 的主导地位


开发人员的传统观念已经转变:PostgreSQL 已成为新应用程序的首选。PostgreSQL 是值得信赖的,不仅有丰富的功能,而且还在不断的迭代中。在 2010 年时,PostgreSQL 开发团队改用更激进的发布计划,每年发布一次新的主版本 (H/T Tomas Vondra)。当然,PostgreSQL 是开源的。


PostgreSQL 的兼容性是现在许多系统的显著特征。这种相容性通过支撑 PostgreSQL 来实现 SQL 方言(DuckDB),有线协议(QuestDB,数据 HyPer),或整个前端(亚马逊 Aurora,YugaByte,Yellowbrick)。大玩家纷纷加入。Google 也在 10 月份宣布他们在 Cloud Spanner 中添加了 PostgreSQL 兼容性。同样在 10 月,亚马逊宣布了 Babelfish 功能,用于将 SQL Server 查询转换为 Aurora PostgreSQL。


数据库透过 DB-Engine 的排名去衡量其受欢迎程度。排名并不完美,分数也有些主观,但是这个分数对于选出 top 10 的数据库管理系统而言较为合理。截至 2021 年 12 月,该排名显示,虽然 PostgreSQL 仍然是第四大最受欢迎的数据库(仅次于 Oracle、MySQL 和 MSSQL),但它在过去一年中缩小了与 MSSQL 的差距。


另一个需要考虑的趋势是 PostgreSQL 在在线社区中被提及的频率。这为人们在数据库中谈论的内容提供了另一个信号。我下载了 2021 年在 Database Subreddit 上发表的所有评论,并计算了数据库名称被提及的频率(当然在 PostgreSQL 中)。我从我的 Database of Databases 中交叉引用了我所知道的每个数据库的列表,清理了缩写(例如:Postgres → PostgreSQL、Mongo → MongoDB、ES → Elasticsearch),然后计算出最常提到的前 10 个 DBMS:


 dbms          | cnt ---------------+----- PostgreSQL    | 656 MySQL         | 317 MongoDB       | 266 Oracle        | 222 SQLite        | 213 Redis         |  88 Elasticsearch |  70 Snowflake     |  52 DGraph        |  46 Neo4j         |  42
复制代码


当然这个排名并不太科学,因为我不会对评论进行情感分析,但它清楚地表明,在过去的一年里,人们提到 Postgres 的次数比其他系统多。经常也有开发人员发帖询问他们的新应用程序应该使用什么 DBMS,而社区的回复几乎都是 Postgres。


Andy’s Take:

首先,关系数据库系统已成为新应用程序的首选是一件好事。这显示了 Ted Codd 的关系模型自 20 世纪 70 年代以来的持久力。第二,PostgreSQL 是一个很棒的数据库系统。它存在已知和未知的问题,就像每个 DBMS 一样。PostgreSQL 吸引了如此多关注,只会在未来几年变得更好。

02 基准测试战


今年,不同的数据库供应商之间对基准测试结果并没有什么好感。从 20 世纪 80 年代末开始,各大厂商就在试图证明自己的系统比竞争对手的系统快。而 TPC 的成立就是为了提供一个无党派论坛来主持这些较量。但随着 TPC 的影响在过去十年中逐渐减弱,我们发现自己陷入了新一轮的数据库基准战。


今年,围绕基准业绩,有三场主要的巷战愈演愈烈。

Databricks vs. Snowflake

Databricks 宣布,他们的新 Photon SQL 引擎在 100TB TPC-DS 方面创造了新的世界纪录。Snowflake 回击称,他们的数据库快了 2 倍,Databricks 错误地运行了 Snowflake。Databricks 反驳称,他们的 SQL 引擎提供了优于 Snowflake 的执行和性价比。

Rockset vs. Apache Druid vs. ClickHouse

ClickHouse 出现摇摆不定的情况,称与 Druid 和 Rockset 相比,它的成本效率更高, 但并没有那么快:暗示用一个新版本的 Druid 进行了测试并宣布胜利。Rockset 也加入竞争,称其实时分析性能优于其他两个。


ClickHouse vs. TimescaleDB

闻着池中的血,趁火打劫的 Timescale 加入了这场争斗。他们给出了自己的基准测试结果,并借此机会指出了 ClickHouse 的技术弱点。关于第三方基准测试的讨论在 Hacker News 上火了。


Andy’s Take:

在以前的基准地盘争夺战中,数据库社区流了太多的血[1][2][3]。我完全承认我曾经参与过这场比赛,但是我在这条路上失去了太多的朋友,甚至因为草率的基准测试结果和女朋友分手过一次。随着年龄的增长,我可以说不值得。现在比较系统就更难了,因为云数据库管理系统有太多的活动部件和可调选项,通常很难确定性能差异的真正原因。真正的应用程序不仅仅是一个接一个地运行相同的查询。接收、转换和清理数据时的用户体验与原始性能数据一样重要。正如我在这篇文章中告诉记者的 Databricks 的基准测试结果一样,只有古板的人关心 TPC 的官方数据。

03 Big Data, Big Money


自 2020 年下半年以来,价值至少 1 亿美元的风险投资数量一直在稳步增长。2020 年,大型交易中有 327 宗(仅不到 VC 交易总量的一半)。截至 2021 年 1 月,有 100 多轮风投支持的投资,价值 1 亿美元以上。有超过 100 家风险投资投资,价值超过 1 亿美元以上。


2021 年,大量投资投向数据库公司。对于运营数据库来说,融资排行榜上 CockroachDB 遥遥领先,年初就筹到 1.6 亿美元,后在 12 月又筹到 2.78 亿美元。Yugabyte 获得了 1.88 亿美元的 C 轮融资。PlanetScale 推出了价值 2000 万美元的 B 系列,用于其托管版 Vitess。相对较老的 NoSQL, DataStax 也在一轮风险投资中为其 Cassandra 业务筹集了 3760 万美元。


尽管这些数字令人印象深刻,但分析数据库市场更加火热。TileDB 在 2021 年 9 月提出了一个未批露的数额。Vectorized.io 为他们的兼容 kafka 的流数据处理平台筹集了 1500 万美元。StarTree 秘密宣布了其价值 2400 万美元的阿帕奇皮诺商业化计划。DBMS Materialize 上的 matviews-on-steroids 表明,他们的 C 系列产品获得了 6000 万美元的收入。这意味着他们为基于 ApacheDruid 的数据库服务筹集了 7000 万美元。2021 年 9 月,SingleStore 募集了 8000 万美元,离 IPO 更近了一步。年初,星暴数据公司(Starburst Data)为其 Trino 系统(前身为 PrestoSQL)筹集了 1 亿美元。Firebolt 是另一家秘密成立的 DBMS 初创公司,宣布他们为其基于 ClickHouse 分支的新云数据仓库筹集了 1.27 亿美元。一家新公司 ClickHouse,Inc.筹集了惊人的 2.5 亿美元,在该系统周围成立了一家新公司(并从 Yandex 获得了使用 ClickHouse 名称的权利),但是今年最大一轮融资是 Databricks,其在 2021 年 8 月筹集了 1.6 亿美元,所有人都大吃一惊。


Andy’s Take:

我们正处在数据库的黄金时代。如今有更多优选。投资者在寻找数据库初创企业,希望能像 Snowflake 一样实现 IPO。这些筹款金额比以前的数据库初创公司更多。例如,Snowflake 公司在推出 D 系列产品之前,其总市值没有超过 1 亿美元,而 D 系列产品是该公司成立五年后推出的。Starburst 在成立不到三年的时间内完成了一轮价值 1 亿美元的融资。现在有很多因素涉及到资金的筹措(例如,星爆团队在 TeraData 的 Presto 项目上钻研好几年才开始运作),但我认为近来有更多的资金投入。

04 告别过去


遗憾的是,在过去的一年里,我们告别了一些数据库朋友。


ServiceNow 收购了 Swarm64

该公司最初是一家 FPGA 加速器,用于在 PostgreSQL 上运行分析工作负载。然后,他们转而使用扩展成为 PostgreSQL 的纯软件加速器。但他们未能获得吸引力,尤其是与其他资金充足的云数据仓库相比。被 ServiceNow 收购之后,Swarm64 产品是否会继续存在仍然没有任何消息。


Splice Machine 破产了

Splice 正在推出一种混合 (HTAP) DBMS,它结合了 HBase 用于操作工作负载和 Spark SQL 用于分析。然后,他们推动为操作/实时 ML 应用程序提供平台。但是,由于专用 OLTP 和 OLAP 系统的主导地位,一体化混合系统未能进入数据库市场。


私募股权公司收购了 Cloudera

自从过去十年的后半阶段,世界逐渐远离 MapReduce 和 Hadoop 技术以来,Cloudera 未能在云数据仓库市场上拥有同样的吸引力。Impala 和 Kudu 的大部分原始工程团队已经离开公司,尽管这些项目仍在开发中并发布新版本。该股自 2018 年以来已跌至低于其 IPO 价格。其新投资者能否扭转公司局面仍有待观察。


Andy’s Take:

看到一个数据库项目或公司破产总是令人难过的,但这就是数据库行业的本质。开源可能有助于 DBMS 比创建它的公司更长寿,但并不总是如此。由于其复杂性,数据库需要全职工作人员来修复错误并添加新功能。移动源代码权限和将已失效的 DBMS 控制到开源软件基金会(如 Apache 基金会或 CNCF)并不意味着该项目将奇迹般地复苏。如在公司破产后,ReThinkDB 被捐赠给 Linux 基金会,但从 Github 上看,他们都是一潭死水(很少有人提交,PRS 没有被合并)。发生这种情况的另一个例子是 DeepDB:公司失败了,创建了自己的非营利性基金会,但没有人对此进行过研究。我预计,明年将有更多的数据库公司倒闭,无法与主要的云供应商和上述资金充足的初创公司竞争。

05 毅力证明


对许多人来说这场大流行病是一段艰难的时期。新闻报道了这么多可怕的事情,一个令人振奋的故事发生时总是好的。很多人都知道,甲骨文联合创始人拉里·埃里森最近几年一直运气不佳。早在 2015 年,拉里感觉良好,因为他是世界上第五富有的人。但时运不济,拉里在 2018 年亿万富翁排行榜上跌至第 10 位。


但在 2021 年 12 月,Larry Ellison 超越了谷歌创始人 Larry Page 和 Sergey Brin,成为了世界上第五位最富有的人。Larry Ellison 在 2021 年 12 月的一天里赚了 160 亿美元,因为甲骨文的股票那一天在过去的 20 年里呈第二快增长速度,原因是公司业绩比预期要好。新闻媒体将其归因于投资者对甲骨文向云计算的转变正在奏效的信心增强。


Andy’s Take:

Larry Ellison 和我是老朋友了,这对于数据库届和整个人类来说无疑是一个温暖感人的故事。当他作为世界上第 10 大富豪的运气不佳时,他可能会感到有点忧郁。但我很高兴看到他能够摆脱困境并重新回到他所属的队伍中。

06 结语


除了家庭,数据库是我生命中最重要的东西。

我们期待着迎来新的一年。数据库是一个具有韧性和创新能力的行业,我们很高兴能成为其中的一员。

祝您和您的小伙伴在 2022 年健康快乐!

PS:不要忘记在假期跑ANALYZE


作者信息

Andy Pavlo

文章原标题:《Databases in 2021: A Year in Review》

由 YMatrix 团队组织翻译

本文资料链接请点击原文进入查看

发布于: 刚刚阅读数: 7
用户头像

yMatrix

关注

MatrixDB 超融合时序数据库 2021-10-28 加入

全球超融合时序数据库开创者,专为物联网、车联网、工业互联网和智慧城市提供一站式数据平台。

评论

发布
暂无评论
一文读懂|2021年数据库领域精彩回顾_yMatrix_InfoQ写作社区