华为云 GaussDB 首席架构师冯柯:摘取皇冠上的明珠,华为云数据库的创新与探索
文分享自华为云社区《华为云GaussDB首席架构师冯柯:摘取皇冠上的明珠,华为云数据库的创新与探索》,作者:华为云社区精选。
在国内做数据库,是一件很具挑战性的事情,因为这是基础软件皇冠上的明珠,是卡脖子的关键技术。
从海外厂商攻城略池的垄断到国产数据库厂商的艰难成长,从去 IOE 浪潮下的国产替代再到如今的百花齐放的市场局面,国产数据库产业一路走来,背后都是一批批企业和个人的信念与坚守。
冯柯便是其中的一员,在 20 年的技术一线工作中,他见证了国产数据库的蹒跚前进,也亲身参与到互联网和云时代,由市场主导的分布式数据库建设浪潮中。
作为华为数据库领域科学家、华为云数据库 GaussDB 首席架构师,冯柯正在推动着数字化转型下国产分布式数据库在关键行业的深入应用。本期的 《云享人物·大咖面对面》,华为云开发者社区将以这位数据库行业领军人物的视角,去探索数据库产业冰山之下的世界。
那些年,与国产数据库共沉浮
上个世纪 90 年代,以 Oracle、DB2 为代表的国际商业数据库进入国内市场,拿下电信、金融、政务等重要行业的大单,应用于各类核心系统和周边系统。
彼时的国内数据库产业刚刚起步,在国家政策主导下,最早一批成立的数据库公司主要由高校和科研院所主导,技术上也以跟随国际厂商为主。
也正是在这样的时代背景下,当时在浙大研究数据存储的冯柯,加入到了学校和企业联合的数据库产品化项目中,自此踏上数据库研发生涯,一直到今天。
冯柯强调,“在这个时期,国内的数据库完成了初始的技术和产业积累,更重要的是,它给我们这个行业培养了一大批骨干人才。”如果没有这些人,高技术壁垒的数据库产业会如同无源之水,无本之木。于国内数据库产业来说,地利与人和均已就位,就差天时了。
进入互联网时代,当人们的衣食住行都转向在线服务化,传统的商业数据库愈发显得力不从心。与此同时,国产数据库的产品在广度和深度都有了新的变化,关系型、非关系型、图数据库、时序数据库……百花齐放。
而云计算的发展,好似平地一声雷,将数据库产业推入了一个新的浪潮里。
当前,千行百业都在向数字化转型,应用上云已经是大势所趋,而云也成为数据库部署的主要形态。Gartner 的统计显示,2022 年云数据库在整个数据库市场中的占比首次达到 50%;在中国,到 2025 年,81%的数据库将会跑在云平台之上。
随着数据库和云的理念深度结合,华为也将早年为解决电信领域数据问题而研发的华为数据库进行全面战略升级,打造了涵盖关系型与非关系型数据库在内的 GaussDB 系列全场景云服务。冯柯和其团队当前的工作重点,就是华为云 GaussDB 数据库的研发和产业化应用。
冯柯认为“云计算拉低了数据库行业的应用门槛,单点的技术已经不再是市场发展的绝对性瓶颈,数据库的技术壁垒开始松动。比如对云上数据库的评价更多的是集中在服务能力,也就是说如何让用户能像使用云资源一样随时随地可获得数据库服务。”
云的发展推动了整个国产数据库市场的快速崛起,冯柯感慨道:“我们看到金融行业的头部客户,以及一些互联网头部厂商,在他们的核心业务中开始落地使用国产数据库,这是在过去 10 年无法想象的事情。“
他表示,这些变化也意味着国产数据库已经从政策驱动转向了产品市场主导。 而行业的嬗变也不断地重塑着他对技术的理解,尤其是分布式数据库这个具有代表性的技术产业赛道。
厚积薄发,分布式数据库的春天
互联网及云化时代的到来,使得企业业务架构产生巨大变化。过去的集中式数据库已经无法满足越来越多的业务场景,市场的需求推动了底层数据库的分布式改造。另一方面,企业对自身 IT 架构的开放性和自主诉求也越来越高,这进一步牵引了分布式数据库的普及应用。
虽然去 O 呼声高涨,但是打破这种传统商业数据库的“垄断”局面又谈何容易。想要冲出传统数据库的包围圈,冯柯指出数据库产品要能回答这三个核心问题:
一是解决高可用问题,如何打消客户对系统可用性可靠性的疑虑;
二是解决性能问题,如何解决客户对数据库、以及构建其上的应用性能的疑虑;
三是业务的平滑迁移,如何降低整个过程的实施成本和风险。
而以上种种又都可以从技术层面解决,这也是冯柯带领的 GaussDB 在实际业务实践中给客户带来的价值所在。
目前,GaussDB 立足创新与自研,基于同一架构,一方面拥抱并兼容主流关系型数据库生态如 MySQL 及非关系型数据库 MongoDB、Redis 等生态,另一方面围绕自身开源的 openGauss 生态,打造面向政企客户,强调高性能、高可靠、高安全的产品。
冯柯认为,由于分布式数据库经历了一个相对混乱的时代,导致整个产品和解决方案的边界模糊不清。
“有的客户虽然没有应用分布式数据库,但他们在业务架构上做过分布式改造和落地。就产生一个后果:在很多场景下,大家对于分布式数据库应该解决什么问题,哪些问题应该通过数据库来解决,哪些应该通过业务或者中间件层来解决,其实不是非常清楚。”
所以,分布式数据库行业标准的落地,打造重点行业典型应用场景的标杆案例,帮助市场清晰界定应用解决方案与产品的边界显得至关重要。
业内不乏这样成功的案例,比如刚刚过去的 4 月,中国邮政储蓄银行新一代个人业务分布式核心系统全面投产上线。该系统是大型商业银行中首家同时采用企业级业务建模和分布式微服务架构,基于鲲鹏硬件底座、openGauss 开源数据库与 GaussDB 分布式云数据库共同打造。系统上线后可具备为全行 6.37 亿个人客户、4 万个网点提供日均 20 亿笔,峰值 6.7 万笔/秒的交易处理能力。
海量交易数据的背后,也标志着国内的分布式数据库产品在性能和产品成熟度上,逐渐能与国际商业数据库持平甚至超越。
揭秘 GaussDB 冰山下的能力
GaussDB 之所以能够支撑邮政储蓄银行的个人业务分布式核心系统上线,成功实现对国外商业数据库的取代,很关键的一点在于它“集成”了华为自身的三大优势:
首先是高研发投入带来的高收益和技术领先,华为布局了全球 7 大研究所来构建数据库研发能力,汇聚了全球 1000+的数据库专家人才。
其次是完整的软硬技术栈,涵盖芯片、服务器、存储、网络、操作系统、数据库全栈软硬件,具备数据库软硬性能调优的独特优势。
最后是独具一格的生态建设,华为把生态当做业务来做,会去平衡生态中的商业利益共享,去跟伙伴分享市场机会。
在此基础上结合对客户业务和需求的理解,GaussDB 实现了国产数据库在性能和产品上的突破。以高可用为例,GaussDB 两地三中心的高可用解决方案已经在国有大行,从边缘到核心系统全类业务进行了验证,满足金融监管的要求。
在全栈能力方面,GaussDB 垂直整合华为软硬件资源,比如将华为在存储上的优势,深入融合到数据库的存算分离架构上,包括 NDP(Near Data Processing)近数据处理,让数据库的计算逻辑充分利用下面整个存储池的能力,并且更进一步,将 NDP 与 PQ(Parallel Query)相结合,提高复杂查询处理能力。
同时,通过全密态加密技术来保证保护敏感数据的全生命周期安全。并将 AI 技术融入到数据库内核中,实现参数自调优和智能索引推荐,降低运维侧的复杂度和成本。
冯柯总结了 GaussDB 的六大竞争点:高可用、软硬深度协同、企业级混合负载、云原生多主、数据安全与可信、AI-Native(智能运维与调优)。 具体可以参考阅读《华为云数据库战略启示录》。
在冯柯看来,所有的技术问题来自于你解决什么样的诉求。 对于一些需要云原生数据库的企业来说,GaussDB 通过软硬协同、架构的融合、混合负载和智能化运维,让数据库的使用和水电资源一样简单易得。而面向政企,GaussDB 在上述基础之上会更强调高可用、安全方面的考量,像使用单机集中式数据库一样可靠可用。
比如在工商银行核心交易系统分布式改造中,他们将贵金属交易系统、渠道类业务、商密公文系统等核心业务从传统封闭的集中式商业数据库平滑切换到华为云 GaussDB 分布式数据库之上,在高可用方面,实现了同城单 Region 多 AZ 互联,支持同城双活,金融级支持三层组网的管控高可用部署方案,支撑日均业务量 10 万+。
与此同时,工商银行还通过华为云数据库和应用迁移(UGO)与数据复制服务(DRS)一站式迁移工具顺利迁移了数千个实例,单个业务存储过程量就接近两千,节省了 80% 的人工工作量。
五环理论,生态胜出才是最后赢家
对于企业来说,在经历了封闭、集中式数据库的痛苦之后,他们也愈加关注基础软件的开源开放和生态建设,没有人想从一个封闭的生态走向另一个封闭的生态。
谈及开源数据库和商业数据库,乃至当下的国内数据库生态建设,冯柯提到了 “五环理论”,这是他对数据库生态认知的自创概念:
最核心的二环是数据库的技术内核,三环是数据库的工具,包括迁移、开发、管理工具等;四环是服务能力;最外面的五环就是生态。
“产品外延能力越强,参与主体的多样性越丰富,生态也就越成熟,当然投入的成本也会越高。不过现在大多数厂商都处在二环和三环之间,即还停留在产品技术的层面。”
冯柯认为只有 ORACLE 和 MySQL 这两款数据库真正走到了五环,所以整个国内数据库产业的生态建设都是道阻且长,需要明确自身在哪些环节上是可以去做自我演进和发展。 “走到五环是需要一个过程的,而数据库的开源生态建设尤为艰难,我们面临着巨大的挑战。”
早在 2019 年,华为宣布将其在数据库领域的积累——GaussDB 单机主备内核能力开源,并命名为 openGauss。2020 年 6 月底,openGauss 数据库源代码正式向开发者开放。
冯柯说,“过去我们可能是为了开源而开源,而且以技术的使用为主,但现在诸如 openGausss 这样的开源,是把产品作为生态建设的载体,产品本身就是开源生态的一部分。 同时在这生态中,也在不断长出更多的数据库产品。”
目前,除了华为云的分布式数据库 GaussDB(for openGauss),已经有 12 家 DBV 基于 openGauss 社区版发布了自己的品牌数据库,100+头部企业参与社区共建。
同时,华为积极投入人才培养,与教育部联合建设“智能基座”基地,GaussDB 已与 72 所国内双一流高校建立合作关系,并在教育部“新工科”项目的 80 多所高校中开设 GaussDB 数据库课程;在高职、专科院校,通过实践实训培养面向社会的应用型人才。开课之外,定期开展师资培训,联合多所顶尖高校教授出版 GaussDB 数据库教材、教辅,持续完善 GaussDB 数据库的人才培养体系,保障数据库产业未来人才供给。点击链接申请华为云高校合作,共育云时代数据库人才。
最后冯柯强调,能否建立一个实现共赢的商业利益分享机制,是整个生态的基础。“这个赛道上,最终能够在生态上胜出的才是真正赢家。”
结语
从政策层面到市场需求,今天对于国内数据库厂商来说,可以称得上是最好的时代。
作为基础软件“皇冠上的明珠”,国产数据库的崛起,像梦想照进现实的一道光,每一个在这个产业沉沉浮浮的技术人,通过“创造”出类似 GaussDB 这样的产品,来承载着他们对基础软件的坚持和梦想,支撑起这个由数据构成的大千世界。
华为伙伴暨开发者大会 2022 火热来袭,重磅内容不容错过!
【精彩活动】
勇往直前·做全能开发者→12 场技术直播前瞻,8 大技术宝典高能输出,还有代码密室、知识竞赛等多轮神秘任务等你来挑战。即刻闯关,开启终极大奖!点击踏上全能开发者晋级之路吧!
【技术专题】
未来已来,2022 技术探秘→华为各领域的前沿技术、重磅开源项目、创新的应用实践,站在智能世界的入口,探索未来如何照进现实,干货满满点击了解
版权声明: 本文为 InfoQ 作者【华为云开发者社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/ea1c9eb0854fb008d766bd90d】。文章转载请联系作者。
评论