抽丝剥茧!为您揭秘 ChatGPT 背后的数据库
OpenAI 最近发布的 AI 驱动的智能聊天机器人 ChatGPT 在互联网上掀起了一阵风暴,热衷于尝试这一新 AI 成果的网民不在少数。ChatGPT 针对网友广泛的问题提供了非常有针对性的回答,其不可思议的能力成为各大媒体平台的头条新闻,其应用内部的算法模型、应用领域、实现原理也被大家广泛谈论和探索,小编作为数据库从业者,自然也想探秘一番,让我们一起往下看吧。
狂野的发文
最初是领英上的一篇发文引起了大家的关注,北美数据库公司 DataStax 的开发者与 Cassandra 数据库开发者帕特里克在 Linkedin 上发文说到,这是一个非常狂野与充满想象力的消息,ChatGPT 承认了自己背后使用的数据库是 Cassandra!
简要来说,帕特里克问 ChatGPT 能否给出一些使用 Cassandra 进行 AI 模型训练的例子,这时 ChatGPT 竟直接回答 OpenAI 就是使用这一数据库来储存训练数据和模型节点的。为了实现这一目的,OpenAI 对于 AI 开发流程很可能还打造了自己与 Cassandra 交互使用的一套工具链,命名为 Cassio。对于上述信息,回答中还给出了工具链的源码与文档链接,最后还生成了一段代码示例。
这一回答让人感觉十分真实,不禁让人怀疑是否真的如 ChatGPT 所说,火爆全网的 AI 应用背后使用的数据库就是 Cassandra 呢?小编对于这个问题也是十分感兴趣,所以进行了一番求证,让我们往下看。
根据网上的资源,也有人尝试对 AI 领域使用 Cassandra 相关的问题询问 ChatGPT,得到了如下的回复。
ChatGPT 承认 Cassandra 作为分布式数据库,在实时 AI 储存中很有竞争力,在企业级应用中也占有大量份额,已被证实为一个实时 AI 应用的可靠选择。同时支持的多种数据类型,在 AI 应用中有广泛使用前景。但是,我们需要更加直接的证据来证明 Cassandra 和 ChatGPT 的联系!
灵魂的拷问
有资源的相关人士,通过正在内测的新必应,尝试问出 OpenAI 使用 Cassandra 的真相。新必应内置增强版的 ChatGPT,其对于对话内容获取与问题解答的能力相较于公开版更为强大。在这里我们直接拷问新必应 OpenAI 是否使用了阿帕奇 Cassandra 数据库。
新必应的回答先是夸赞了 Cassandra 一番,随后也没有直接肯定 OpenAI 使用了 Cassandra 数据库,但是也提供了一些 OpenAI 历史上可能应用过这一数据库的证据。同时我们看到,回答中显示有油管视频展示了如何使用 GPT-3 来操作这一数据库,OpenAI 的高级工程师 David Greenbery 也曾是阿帕奇基金会下 Cassandra 项目的代码提交者。当然,这一回答并不能满足我们对于 OpenAI 是否使用了 Cassandra 的疑问,所以我们更加直接地追问新必应,ChatGPT 是否真的使用了 Cassandra 数据库。
这一次的回答提供了更多的新信息,但是还是没有直接承认 ChatGPT 使用 Cassandra 数据库。但是在夸赞 Cassandra 的同时,也提供了三个在 AI 领域具体应用的例子,例如帮助编写数据查询语句与生成相关数据图表等。这一深入的回答不禁让人想到,是否这样的应用已经存在于 OpenAI 内部,只是没有得到公开承认。
同时,目前必应的 ChatGPT 版本尚未是最终发布版本,后续回答是否会改变我们不得而知。在新必应最终发布时,会不会使用 Cassandra 做业务支撑,始终还是一个未知数。不过我们可以确定的是,在这个 AI 应用场景下,Cassandra 数据库应是不二选择。
存在是否真实
DataStax 的员工在更深入的探索与交互中,发现 ChatGPT 提供了更多不存在的链接。这一证据也可能表明相关应用证据和工具链曾经存在于网络上,只是已经被移除了。但是非常多的证据可能还散布在网络上。世界上最大的工业自动化公司之一 Rockwell Automation 也曾发文介绍 AI 在工业需求预测上的应用。这么多关于 OpenAI 把 Cassandra 应用于 AI 领域的消息,十分明确地指明了这一可能的应用方向与相关前景。至此,我们可以相信,即使 OpenAI 没有公开承认其使用的技术栈与数据库,Cassandra 也有相当的概率已经被其应用于相关服务。
真实世界的解决方案
ChatGPT 对于 Apache Cassandra 的介绍已经覆盖了其非常多的特性,对于应用场景也有了充分的描述,其分布式、高可用、低时延、高容灾的特点描述也十分准确。AI 的大规模应用离不开海量的数据储存和处理,一个高效的数据库在 AI 模型的训练和部署阶段显得尤为重要,具备更快的读取速度、更优越的架构、更强的一致性,才能为人工智能模型的训练和应用保驾护航。
例如,有着 1750 亿参数的 ChatGPT 模型,在训练过程中需要海量数据。这些数据在分布式训练的环境下,要怎么解决诸如读取速度与一致性等问题呢? 同时,面对全球上亿用户,如何支持 ChatGPT 所有业务的并发呢?
我们的解决方案是,使用一款高效稳定、大容量的 Cassandra 数据库,比如 GaussDB(for Cassandra)。
华为云 GaussDB(for Cassandra)是一款基于华为自研的计算存储分离架构的分布式数据库,100%兼容 Cassandra 生态,相比较开源的 Cassandra 版本,具备高可靠、高性能、高安全、极致弹性、便捷管理、强一致性等系列优势,十分适用于海量并发、流量热点等场景。
GaussDB (for Cassandra)在 AI 领域的应用探究
分布式难题
GaussDB(for Cassandra)的分布式强一致性特点和华为云支持的计算节点扩容和秒级储存扩容,为 AI 模型训练提供强大支持。多节点同时存取数据时,相比开源 Cassandra 的最终一致性,GaussDB(for Cassandra)提供的强一致性特征保证每个训练节点实时获取数据的一致,为训练过程输入的数据提供可靠性保障。
数据结构
Cassandra 的宽表结构,提供了灵活的数据定义。在储存原始数据输入时更具优势,也适用于多变的 AI 训练场景,适合 AI 模型的下游细粒度优化与 fine-tuning 任务。
长时间训练
对于长时间训练的大模型项目,数据库的高可用异常关键,数据库的波动将会极大地影响模型训练进度。对此,GaussDB(for Cassnadra) 采用了三副本形态,数据安全可靠,无丢失风险。同时支持大容量 PB 级数据存储,存储容量秒级扩容,对线上业务无干扰,无中断。
复杂查询
针对模型的下游针对性训练与鲁棒性检验,需要提取部分具有特殊属性的数据。GaussDB(for Cassandra)对大数据量查询性能进行了优化,引入视图增强特性,并对表结构进行优化设计,满足了信息流、内容搜索等业务的查询需求。同时,Lucene 引擎全新解决方案已经上线测试,支持更多的文本复杂内容查询场景,完美弥补 NoSQL 数据库弱查询的短板。
超高并发
对于全球亿级用户访问 ChatGPT 的局面,GaussDB(for Cassandra)也能对大流量提供很好的支撑。使用的 LSM tree 储存引擎,对于高写入场景有很好的效果,既能高效储存用户数据,又支持快速离线导出分析,为超高并发业务提供支持,还支持数据变更捕获和实时分析。
综上所述,我们抽丝剥茧探秘了 ChatGPT 背后使用的数据库,也探索了 GaussDB(for Cassandra)在 AI 领域的应用实践,相信大家对 ChatGPT 和 GaussDB(for Cassandra)已经有了初步的了解,其实 GaussDB(for Cassandra)早已拓展到了社会服务的各个方面,更多的应用场景等待着大家的探索。
所以,支持 ChatGPT 后台的数据库,为什么不能是 GaussDB(for Cassandra)呢?
版权声明: 本文为 InfoQ 作者【华为云开发者联盟】的原创文章。
原文链接:【http://xie.infoq.cn/article/d514d309c4d8041fb2559e3aa】。文章转载请联系作者。
评论