2023,不一样的数据库
新年开工,祝大家开工大吉,事业都兔飞猛进!
2022 年是魔幻年,2.24 号,在外面爬雪山团建,谈着刚刚打响的俄乌战争。4 月招聘一位上海员工,但因为疫情管控只能远程报到,杭州亚运会也被迫推迟,随后几个月大家都笼罩在阴影中,唯有世界杯带来了快乐,但原计划 12.18 号一起看决赛,没想到公司瞬间阳了一半,看球活动也被迫取消。好在疫情快速消停,和家人度过一个大团圆春节。
2022 也是我们创业完整的第一年,团队、产品和技术都突飞猛进,特别感谢所有支持我们的朋友(客户、老朋友、投资人和业务伙伴),也结识了很多创业的前辈,向各位学习。
作为数据领域 20 年的从业者,曾负责过阿里云数据库产品的整体规划,经历了不一样的 2022,想谈谈 2023 年可能会不一样的数据库。
一、百仓大战,一触即发
2020 年 Snowflake 上市,市值冲高到 1000 亿美金,数据仓库市场重新被点燃,要知道,二十年数仓王者 Teradata 市值也不到 50 亿美金。
2010 以后,数据仓库也一直被大数据概念碾压,仿佛是落后技术代表,但是经过 10 年发展,人们逐渐认识到大数据困境,一般的企业投入大、落地难、技术架构复杂,大数据巨头 Cloudera 在 2021 年黯然退市。而数据仓库是更成熟的理念,也是企业核心需求。
2020 年开始,谁会是中国的 Snowflake,这个是投资人和技术创业者最关心的事情。中国做数据技术的大牛们开始陆续投身到创业浪潮里,并且拿到不少的启动资金,前期有积累的公司产品陆续面世,虽然很多还在孵化期,但参与者谁都知道,百仓大战,一触即发。
Snowflake
不管是 OLAP 还是 HTAP 都在面向同样的业务场景,避免不了兵戎相见。如果是在大公司内部孵化,还可以有稳定的公司内部业务支撑,但是在外部市场就大相径庭。外部市场是充分竞争的,并且是有时机的,不容许创业公司慢慢研发,如果市场被瓜分完了,并且还有生态优势,那后发者会更难突破,需要投入更多的资金并且更考验公司的业务能力。市场竞争是残酷的,软件技术产品竞争和互联网产品类似,将来都会是赢者通吃,也许只有前三能活好。
二、基础软件国产化浪潮
达梦 IPO
中国软件技术蓬勃发展,在互联网领域基本上实现了自主可控,这里面使用了大量的开源技术和自主研发的平台,但是在传统 IT 领域,尤其是大型政企市场,核心基础软件仍然由国际巨头占领。
大家都清楚,国产化浪潮是大趋势,这不只是因为政策导向,而是中国基础软件技术已经蓄势待发,只要大力发展市场经济,政策决策不犯错误,国产化是必然趋势。有如中国的电视、手机、汽车等领域,中国企业不仅是看中国,而是已经开始走出国门。
基础软件国产化浪潮
再回到数据库领域,2022 年,达梦已经提交了上市申请,预计是 500 亿人民币的市值,大家都非常期待能成功 IPO。达梦是我非常敬佩的公司,如果中国数据库只留下一款产品,那达梦数据库是强力竞争者。不管是产品的成熟度还是对核心技术的掌控以及市场的影响力,我认为达梦都是国内的领导者。
2023 年,希望达梦能够成功上市,这将极大增强中国企业发展核心技术的信心。要知道,很多中国企业对基础技术是极度缺乏信心的,甚至不惜走盗版、仿冒、贴壳包装这种低劣操作。
三、分布式与 HTAP 融合
数据库号称是计算机软件的明珠,而分布式一直是数据库领域大难题,OceanBase、Spanner、TiDB、CockroachDB、PolarDB-X、Vitess 都是领域的先行者。中国在这个领域已经处于全球领先的水平,但是从市场需求来看,分布式是面向海量数据的问题,是大型系统需求,导致市场拓展压力大。Oracle 和 MySQL 这些数据库也推出过分布式数据库功能,但并没有得到市场的认可。从技术角度来看,分布式技术是复杂的,运维会更复杂,基本是要专业团队才能搞定。
市场需求和技术的复杂度,导致分布式虽然有技术的制高点,但是业务拓展非常困难,可能 80%的场景都很难发挥分布式数据库价值。分布式数据库必须要能挖掘更普遍的业务场景。
一般系统的并发和数据没有那么大,核心需求是在线业务办理和报表分析,数据量普遍在 1TB 以内,甚至没有数据库管理员,所以大部分企业级软件(ERP、CRM)要考虑规模化推广,都支持使用了单个数据库来解决在线业务和报表查询需求,数据仓库也暂时不建。所以在企业级软件里 HTAP(OLTP+OLAP)是数据库的默认需求,Oracle、DB2、SQLServer 几大数据库在 OLTP 和 OLAP 方面都是领导者,这个足以证明 HTAP 在通用市场的重要性。
我们看见 TiDB 和 OceanBase 两大分布式数据库都在发力 HTAP 能力,虽然大家的技术方案完全不同,但是要解决的问题是相似的,HTAP 核心是要同时具备 TP 和 AP 能力,并且 AP 不能影响 TP 的响应时间。TiDB 使用了不同的引擎来解决 OLTP 和 OLAP 需求,通过内置的数据传输来解决数据同步问题。OceanBase 与 Oracle 等传统数据库类似,使用了一套引擎来实现,没有数据同步问题,通过增强资源隔离能力来解决 AP 对 TP 的干扰。我感觉技术难度都非常大,TiDB 的方案会更适合互联网公司,而 OceanBase 的方案更适合企业级市场。
在企业级市场核心数据库场景里 HTAP 是标配,HTAP 实际是部分数据库在补足与主流商业数据库差距提出的问题,我印象中曾经 HANA 宣传过比较多。Oracle、DB2、SQLServer 等数据库在 TP 和 AP 方面都非常强,这些产品在复杂 SQL 多维查询能力是非常优秀的,不管是执行优化、诊断分析、资源隔离都是业界领先,但是在分布式扩展性方面落后了,因为互联网企业在分布式方面有更高的性价比要求,所以才有了今天分布式数据库、大数据的新格局。
HTAP 能力在中小型系统(数据量不到 TB 级,数据采集来源单一)里是非常有竞争力,这也是很多企业使用了 Oracle、SQLServer,在数据量还没有增长起来不需要建设数据仓库的原因。不管是企业日常运维还是简单 BI 分析,如果能在单一数据库里完成,对于业务软件研发效率和运维都是巨大的优势,很多商场、医院、工厂都是这么解决的,有些互联网早期产品也是不用 AP 发展起来的。
HTAP 对于大型核心系统的价值在慢慢下降,核心原因是大型系统数据量大、并发高,所以资源隔离更加复杂,数据来源也有多个渠道甚至是多个供应商。所以企业使用单独的 AP 系统可以有更好的性价比,这样也能保障 TP 业务的稳定性。第二个原因是大型企业要具备更强大的数据分析挖掘能力,需要保留大量历史数据做趋势分析和预测,如果使用原始的 TP 或者 HTAP,一份数据是很难满足的,所以更需要单独的 AP 系统。
我理解今天很多 TP 产品在增强 AP 能力是合理的,不管是在单一引擎做还是通过数据复制多种引擎做都是有价值,也是成长为未来企业核心数据库必须要具备的能力,但是也要看到企业大型场景使用单独 AP 是更合理的数据规划。
四、迈向云数据库 3.0
迈向云数据库 3.0
云数据库是近 10 年来数据库领域最大的变化,依然会是未来 10 年的主线,结合云计算做数据库已经是海内外基本共识。我把云数据库发展分为三个阶段,每个阶段不是说提一个架构就行,而是需要在市场上等到验证,一款产品要能获得全球 10 亿美金或者中国 10 亿人民币的收入,这里 RDS、Aurora、PolarDB、DynamoDB 都得到了市场验证。
第一阶段是以 RDS、EMR 这类托管服务为代表云数据库 1.0,这个阶段核心技术是构建云管控平台,具备基础的开源数据库内核修改能力,确保内核能即时更新并且发现重大 bug 时可以快速修复,对客户最大价值是提升了数据库运维效率和稳定性。
第二阶段是以 AWS Aurora、阿里云 PolarDB 引领的存储计算分离架构为代表的云数据库 2.0,这个阶段需要对数据库 IO 架构深入理解,充分发挥云平台的优势,结合分布式存储,把数据库做成面向云的存储计算分离架构,需要对数据库的 IO 模型彻底改造,第二阶段相比第一阶段的 RDS 最重要是提升了数据库弹性扩展能力。
第三阶段是指在云上构建 Serverless+HTAP 的云原生数据库,称为云数据库 3.0。这需要对数据库做更彻底的重构,要融入到云架构骨髓,会涉及到数据库的计算引擎重构,并且要面向云建立新的商业模式,甚至要重新定义面向数据库的开发模式,这将是更难的突破。在 NoSQL 和数据仓库已经走在前面,尤其是云厂商全新构建的产品,如 AWS 的 DynomoDB,阿里云的 MaxCompute 和 Google 的 BigQuery,但是在云数据库最重要的关系型模型还没有完全突破,海外也还是探索中,Serverless 是难点,HTAP 是刚需,我觉得今天大家都还有时间和机会去引领这个创新。
这三个阶段的产品会共存,毕竟云计算还没有完全普及,随着云计算的全面普及,云数据库 3.0 的竞争力将大幅增强。
五、新数据爆发
计算机让人类有了第二个大脑;互联网让你我远在天边,近在咫尺;移动互联网让人们的生活更加便利、美好。
我们来到了数据时代,新数据在不停的产生,数字、文字、语音、图片、视频已经充满了世界,IDC 预测 2025 年全球数据量将达到 175ZB,随着物联网和 AIGC(AI Generated Content)的成熟,数据又将迎来大爆炸。
IDC 预测 2025 年全球数据量将达到 175ZB
物联网虽然没有当初人们想象对家庭带来巨大变革,但是我们已经感受到智能车联网、机器人时代就要来临,这必将带来海量的新数据处理需求。
我们看到面向物联网设计的时序数据库在蓬勃发展,国内有 TDEngine、DophinDB、YMatrix、GreptimeDB、IoTDB、Lindorm 等等,国际上的 InfluxDB、TimescaleDB、OpenTSDB、Prometheus,虽然国际的产品起步早,但是中国的产品发展迅速,物联网场景也更加丰富,很有机会引领时代。
在图片、视频充满屏幕的时代,面向新媒体数据的识别分析会有更多场景,尤其是与 AI 结合,Milvus、Pinecone 等产品都在这个领域探索。AIGC 概念会给数据库带来新的变数,今天数据库是用来采集、存储、分析数据,如果将来数据库也具备了 AIGC 的能力,那就可以自己产生并存储数据,我们已经领教了 ChatGPT 的威力,数据和 AI 的结合会带来无限想象。
当时序数据库在面向海量数据场景发展时,而另外一个创业热潮是图数据库。图数据库是 NoSQL 浪潮的重要分支,也是最需要创新的领域。文档、时序等数据库本质上是关系型数据库的特殊场景优化,而图数据库是在彻底重构数据存储与检索模型,图数据库更像人脑思考模型,而今天大量的数据组织是按计算机模型准备的,所以这是巨大的挑战,必须要在输入和输出侧都发生变化才可能成功。我们也看到 Neo4j、TigerGraph、Nebula、Galaxybase、Neptune 等产品在不停探索,目前主要是场景化突破,期待能在新数据爆发时代发力。
六、现代数据栈 MDS
Modern Data Stack,简称 MDS。
这是 2020 年圈子里开始探讨的理念,早期是 dbt 和 Fivetran 提出来的,Modern Data Stack 翻译过来是现代数据栈,随着新数据爆发,结合当前数据需求和技术特征,本质是云原生的实时多源数据管理产品体系。
图片摘自 substack
从技术和市场的角度看,单一数据库已经无法满足各种客户场景,所以客户需要各种数据源统一管理,面对业务竞争,客户会要求数据能更实时的传输和处理,同时要能简洁易用、安全可靠,另外云数据库是大方向,所以 MDS 本质是云原生的实时多源数据管理产品体系。
Snowflake,Fivetran 是具备了一些 MDS 特征,提供了简洁易用的云服务,并且能够实时处理各种数据,在国际市场得到了广泛的应用。另外阿里云 DTS,AWS 的 DMS 是云厂商推出的数据传输类产品,玖章算术 NineData(www.ninedata.cloud)是新一代云原生数据管理服务,这些产品都是面向云时代设计的解决多种数据源实时数据管理问题,包括存储、开发、传输、备份等等,是 MDS 的落地实践。MDS 的思想在持续酝酿,相信很快会在领域内绽放,非常期待。
写在最后
2023 年,我们会走出疫情,国家对平台和民营经济的支持,信心逐渐回归,一切都在向好的方向发展。创业是艰难的,但是创业者一定是乐观的,虽然看见了遍地的机会,但是我们更需要脚踏实地,在产品技术和商业模式上不断突破,我相信中国基础软件很快会在中国崛起并服务全球市场。
评论