【YashanDB】演讲实录|樊文飞院士:中国软件:自强、自立、自信
本文为“2024 国产数据库创新生态大会”深算院及崖山科技首席科学家樊文飞院士的演讲实录分享,主题为《中国软件:自强、自立、自信》,欢迎阅读。
尊敬的各位来宾,感谢大家到来和支持!今天想跟大家分享一些我对中国软件的见解与思考。
自强:国产基础软件亟待创新和标准化
我们不得不面对一个严峻的现实:中国上市软件公司的总体利润已经连续三年下滑,今年上半年同比下滑了 91.62%。这表明我们正面临着激烈的价格战和内卷化竞争。
放眼国际,Oracle、微软、亚马逊等美国头部软件公司的市值已经超越了许多传统行业龙头,一跃成为全球最有价值的公司之一,也远远超过 G20 国家中巴西、澳大利亚、土耳其、南非等国 GDP。但与此同时,中国软件行业头部公司与国际头部公司的差距却在逐渐拉大。四年前,中国排名前五的龙头互联网公司市值之和与微软市值的差距是 600 多亿美元;四年后,中国排名前 45 名的互联网和软件公司市值之和与微软的差距扩大到 2 万多亿美元。软件行业是一个国家软实力的重要体现,我们还有很大的提升空间。
软件行业存在一个微笑曲线(Smiling Curve)定律,在曲线左端是以技术专利为核心的高端软件,如基础软件,代表企业是微软;右端是以品牌服务为核心的高端服务,以 IBM 为代表,曲线两端的附加值最高;中端是解决方案和高端软件外包,底端的是低端软件外包,以定制性交付、分片式外包为主。
基础软件有些难点,一是高成本,需要大量的人员、时间、资金投入,例如 Oracle 开发第一个商业系统花了 7 年时间,二是高难度,涉及根技术、大工程、跨专业的系统性开发,三是高风险,功能性能、稳定安全、生态推广缺一不可,但随之而来的核心价值亦不容小觑,包括基础使能、标准化供给、持续性迭代需求等等。
从全球基础软件领域市场份额来看,中国软件行业任重道远。目前芯片受制于人,未来如果开源软件使用受限,国产基础软件将面临更严峻的挑战。中国软件亟待自强,需要创新,需要标准化的基础软件。
自立:自研创新内核 迈向自强自立
在数据库领域,国产数据库系统虽然实现了从 0 到 1 的突破,但与国际巨头软件产品相比仍有不足。国产数据库系统历经三代发展——第一代是自研数据库,但当初条件所限,国产数据库整体能力与开源产品对比竞争力不强;第二代主流产品是基于国外开源软件研发,一方面是受开源协议制约,无法完全保证安全可控,另一方面核心性能仅为 Oracle 单机的 40%;第三代是自研的分布式数据库,理论上可用多台机器替代甲骨文一体机,但在替代过程中,业务软件需要重做,代价巨大,替换困难。
信通院 2020 年的分析显示,71.4%的产品是基于 PostgreSQL 或 MySQL 二次开发完成。基于开源二次开发的架构受限于其技术路线,在稳定可靠、性能、单机容量以及最重要的安全性方面存在不足,难以在金融等核心场景规模替代。
另一方面,国产数据库寄希望于分布式技术路线弯道超车,而分布式架构也并非“银弹”。分布式架构源于互联网场景,与银行等金融业的基础需求存在一定差异,在金融数据库选型中选择分布式可能会带来更高的硬件成本、维护成本和改造方面成本。
根据第一新声调研及不完全统计结果,八大行业目前整体替换率依然不高。金融行业非核心系统处于 40%左右,但即使在政策和市场的加持下,我国整体银行业国产数据库替代仅为 20%,国外数据库在银行核心系统的占比仍在 80%以上。能源行业不足 15%,医疗、制造、教育等多个行业甚至不足 5%。距离 2027 年党政与八大行业完成 100%国产替代,我们还有长的一段路要走。
再看国际巨头软件企业甲骨文的成功经验,我们可以发现,把握技术变革的理论先机、坚持自主可控的系统研发、以及政府对市场的引导,这三者缺一不可。这也是打造世界级一流软件企业必备的要素。
自信:原创理论实现技术与产品的超越
当下大模型是热点,AI 对数据库系统提出了新的挑战和需求,包括混合查询、数据高维问题、计算可拓展性等。比如,AI 技术发展提高了向量数据维度,需应对存储效率和高性能相似度计算挑战;另外,向量数据快速增长,需维持稳定性、高性能以及计算可扩展性。
近期,OpenAI 收购了数据库系统 Rockset,原因是大模型通过重新训练实现更新知识成本巨大,GPT-4 每 1 次训练需 2.5 万张 A100 卡,耗时百日,花费达 6300 万美元;且 OpenAI 需要将外部知识库中信息注入大模型,解决大模型高效实时更新问题,而 Rockset 能为它提供这些功能。
面向新场景、新技术,崖山也在积极布局,比如我们已经支持基于语义连接实现多模态异构数据的跨模计算,也提供向量数据管理能力,并支持关系 &向量混合查询;同时,我们也在探索数据尺度无关的确定性查询方法,兼顾查询性能和准确度,这都是自研数据库带来的优势,掌控最底层的每一行代码,可以加入新的知识和技术。
我知道有不少银行的朋友已经用了开源数据库来应对 AI 带来的挑战,如果有新的需求,有没有可能直接改开源数据库?可以,但非常难。首先,基于开源不能完全掌控源代码,难以快速应对多模态原始数据和向量数据的统一管理以及高性能查询的新需求;其次,当前开源向量数据库多采用开源组件“组装”、“拼接”路线,难以完全融合适配,性能受开源组件向量检索库、关系数据库或其他组件限制。
大模型训练需要海量原始数据和向量数据。理论上讲,用分布式技术路线来应付大规模数据增长是走不通的。我们从两方面来看,一是计算复杂性,二是通讯复杂性。如果我们不断增加节点,貌似可以降低计算的复杂性,但随之带来的是通讯复杂性逐渐升高,且计算效率随集群增长而下降,无法满足数据持续增长要求的算力增长。
针对行业面临的传统计算瓶颈、多模“间接计算”的实时性难题,深算院融入了有界计算、跨模计算、近似计算、混合查询等前沿原创理论。我们希望在基础理论创新之上形成自主可控的技术系统,才能在关键领域从国际对标走向国际超越,从自强、自立走向自信。
首先是有界计算。通俗来讲,有界计算理论就是把大数据变小,用聪明的方法找到大数据中满足需要的那一部分小数据集,并且满足查询结果的精确解要求,实测通信数据查询速度提升 25-10 万倍(5 个数量级);其次是异构计算、跨模态查询。通过拓展传统 SQL 构建统一的查询语言,进行关系数据和图数据的统一查询;第三是近似计算。数据驱动的近似查询处理,通过有界进行近似收敛,确保不失真;最后是向量与关系混合查询,基于有界理论,针对不同的查询精度需求,我们可以提供有理论保证且高效的混合查询结果,更好地兼顾性能与准确度。
最后,给大家说说崖山这个名字。崖山数据库系统命名源于发生在广东省江门市的历史著名战役——崖山海战。战役中十万南宋军民舍生取义,宁死不降,知其不可为而为之。以“崖山”为名,意在赓续崖山的风骨、气节与坚守。我们做崖山数据库也是秉承着这股“知其不可为而为之”的精神。软件行业要真正自强、自立,达到自信,在基础软件系统方面从追赶到平替、到超越、到引领,这是我希望中国软件行业所做的事。谢谢大家!
版权声明: 本文为 InfoQ 作者【YashanDB】的原创文章。
原文链接:【http://xie.infoq.cn/article/ce14518961cd45eed6a052bd3】。文章转载请联系作者。
评论