OpenAI 最新收购实时分析数据库 Rockset 释放出什么信号?
6 月 21 日(上周五),OpenAI 官方发布一则消息:宣布收购实时分析数据库开发商 Rockset,该数据库允许用户对快速移动的数据进行实时分析和 AI。作为交易的一部分,Rockset 客户需要寻找新平台。据了解,该公司客户包括 JetBlue、Allianz Direct、Seesaw 和 Facebook 的母公司 Meta。
据不完全数据显示,截至去年 8 月 29 日,Rockset 公司共获得的融资总额在 1 亿美金左右,投后估值 5 亿-10 亿美元。也就是说,OpenAI 收购 Rockset 的交易价值可达 5 亿美金(约合人民币 36.30 亿元)以上。那么 OpenAI 的这笔重金收购都出于哪些关键原因呢?一起来看:
LLM+向量数据库≈实时人工智能?
Rockset 首席执行官兼联合创始人 Venkat Venkataramani 称,伴随大语言模型和向量数据库铺平通往企业人工智能的道路,我们突然进入了实时人工智能系统的时代。
1.为大模型补足实时数据分析
从大模型优化角度出发,大模型存在一个天然劣势是实时数据感知弱,OpenAI 基于历史数据训练,在数据新鲜度上有短板。Rockset 一直致力于使用户能够对大量新传入的数据持续运行 SQL 查询。这是高级分析领域的圣杯,从传统数据仓库供应商到实时流处理器厂商,无数大数据开发人员一直在努力。值得注意的是,AI 数据云厂商质变科技,其创始团队是全球最早从事实时全索引数据仓库产品研发的团队(VLDB 论文:https://www.vldb.org/pvldb/vol12/p2059-zhan.pdf),该团队早在 2011 年就开始自研应用于在线分析领域的实时数据仓库产品,并于 2018 年全球首发向量数据库(VLDB 论文: https://www.vldb.org/pvldb/vol13/p3152-wei.pdf)。
今年 4 月份,Rockset 增加了向量数据类型和向量搜索功能,使客户能够使用他们的数据库向 ChatGPT 等大型语言模型提供数据。这些新功能将为客户解锁实时数据分析用例,特别是产品推荐、个性化和欺诈检测场景。
2.全索引辅助大模型实现任意维度组合检索、校验、计算
全索引可辅助大模型,支持低成本的任意维度组合检索、检验、计算。同时辅助数据校验,提高大模型输出准确性。Rockset 实时分析数据库,可自动在任何数据(包括结构化,半结构化,地理和时间序列数据)上构建 Converged Index,以进行大规模的高性能搜索和分析。
Rockset 技术负责人陈博玚曾提到,Rockset 提出了一个概念叫 " 多维索引 ",即 Rockset 选择暴力建索引,比如,数据库有 20 个不同的 column,即有 20 个不同的这个信息在里面,Rockset 把每个信息都直接建立索引,这样不管用户按什么维度去查效率都比正常的数据库要快 5 到 10 倍。但是显然暴力建索引是有代价的,它带来的问题就是存储成本迅速增加。这个问题上云原生的优势就可以体现出来,在现在这个时代的存储成本其实没有计算成本高,我们完全可以靠这个空间去换时间。
3.云原生架构支撑低成本、按需付费
据了解,Rockset 应该是最早基于云原生架构实现的实时分析引擎,云原生架构最大的好处是低成本,尤其是面向未来的 API 化场景,将支持按需按量付费,也意味着基于大模型的数据分析型消费,可以做的更具成本优势。
由 LLM 到 LCLM 的范式转变,大模型进化需要 Data Infra 加持
谷歌近日发表论文《Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?》,也验证了大模型的进化需要外部 Infra 的加持,并非大模型提高 context window 就可以解决的。
论文指出,“长上下文语言模型 (LCLM) 有可能彻底改变我们传统上依赖外部工具(如检索系统或数据库)完成任务的方法。利用 LCLM 本地提取和处理整个信息语料库的能力可以带来许多优势。它通过消除对工具专业知识的需求来增强用户友好性,提供强大的端到端建模以最大限度地减少复杂管道中的级联错误,并允许在整个系统中应用复杂的提示技术。为了评估这种范式转变,我们引入了 LOFT,这是现实世界任务的基准,需要多达数百万个标记的上下文,旨在评估 LCLM 在上下文检索和推理方面的表现。我们的研究结果表明,尽管从未针对这些任务进行过明确的训练,但 LCLM 具有令人惊讶的能力,可以与最先进的检索和 RAG 系统相媲美。然而,LCLM 仍然面临着 SQL 类任务所需的组合推理等领域的挑战。值得注意的是,提示策略对性能有显著影响,这强调了随着上下文长度的增加,需要继续研究。总体而言,LOFT 为 LCLM 提供了一个严格的测试场地,展示了它们在模型能力扩展时取代现有范式和解决新任务的潜力。”
质变科技创始人兼 CEO 占超群(离哲)谈到,OpenAI 对 Rockset 的收购和谷歌最新 LCLM 评测论文都可以看出,一个好的 Data Infra 是 AGI 走向更智能、更低容错率、更高性能服务的基础,能够更好的扩展 dataset、减少 hallucination、优化 prompt、优化 pipeline。
云原生领域资深技术人士陆元飞提示市场,“OpenAI 基于历史数据训练,在数据新鲜度上有短板,收购 Rockset 后通过 RAG 的方式,利用 Rockset 的多维索引能力快速补齐这块短板,产品整合后,我们预测可以看到一个全新的 ChatGPT,留给基于 agent 的创业公司的空间不多了。而对于 Data Infra 而言,紧贴 AI 迎来了全新的场景和机会。”
AI 数据云厂商质变科技,为企业客户提供经生产验证的一体化 AI 数据云服务,支持以一份数据为中心的离在线一体化、向量数据存储检索、内容检索/排序/召回/评估等 AI 数据基础设施解决方案,助力客户实现数据驱动和 AI 驱动的业务升级。
作为全球最早从事实时全索引数据仓库产品研发的团队,质变科技服务于某大型在线传媒企业的实时舆情、实时内容校验、实时多维度分析等多元业务分析场景,稳定支撑客户每日 2 亿次查询,3000 万写入,平均 6000QPS,2000 峰值 TPS,平均延迟 10ms。
质变科技由前阿里云、微软中国核心管理成员创立,获高瓴资本、光速创投等顶级投资机构投资,具备长期可持续服务能力。团队包括前阿里云 OLAP 产品部总经理、前阿里云 CFO 以及多名资深技术专家和来自国内外顶尖高校的研发人才,团队核心成员曾经连续多年在权威机构 TPC 的 TPC-DS、TPC-H 评测上获得全球第一的成绩。目前已在美国、新加坡设立分公司,服务于世界五百强消费科技企业等企业客户以及近百万全球专业用户。
AI 数据云 Relyt 在服务客户的实践中性能和性价比全球领跑,提供结构化数据和非结构化数据融合的全局一份数据,以传统数据平台 1/10 的总拥有成本为您提供 99.9% 的查询级别可用性、多云(Multi-Cloud)、多地域 (Multi-Region),以及任意查询负载( RAG、数据仓库、数据湖、大数据、数据科学等)的 AI 数据云服务。(官网:https://data.cloud )
版权声明: 本文为 InfoQ 作者【AI数据云Relyt】的原创文章。
原文链接:【http://xie.infoq.cn/article/fd92c7539598869391a0b0323】。文章转载请联系作者。
评论