写点什么

被 ChatGPT 点燃的向量数据库们

作者:Bytebase
  • 2023-05-09
    上海
  • 本文字数:1795 字

    阅读完需:约 6 分钟

被 ChatGPT 点燃的向量数据库们

在 AIGC 革命大爆发的日子,一个特别的挑战是大规模存储和查询非结构化数据(比如图像、视频、文本)的能力。

为了快速搜索和理解非结构化数据,现在的普遍解法是使用向量数据库(vector database)。在向量数据库中,向量是一等公民,所有的功能都是围绕着它建立的。

向量数据库可以让开发者以向量嵌入的形式处理非结构化数据(两个向量之间的距离代表了它们的关联性),这对于使用和扩展大型语言模型(LLM)尤为重要,比如 OpenAI 的 Retrieval 插件就依靠向量数据库帮助用户从他们的数据源获得相关文件片段。

这个领域很新,连 OpenAI 自己都搞不太清楚,Milvus 和 Zilliz 是同一家🤣。

几乎所有由 LLM 驱动的 AI 产品或技术都使用了向量数据库,随着 ChatGPT 和 AI 的流行,VC 也都涌向了这条赛道 。我们收集了一些近期向量数据库融资的消息:

  • Pinecone: 4.27 宣布 $100M B 轮

  • Weaviate: 4.23 宣布 $50M B 轮

  • Qdrant: 4.20 宣布 $7.5M 种子轮

  • Chroma: 4.6 宣布 $18M 种子轮

  • Zilliz: (去年) 8.20 宣布 $103M B 轮

已经挤起来了,不过每家都有不同的功能、性能和价格,我们来了解一下。

Pinecone

https://www.pinecone.io/

Pinecone 是个全托管的 SaaS 向量数据库厂商(支持 GCP & AWS),团队分布在纽约,三藩和特拉维夫。2021 年 1 月公开了 Beta 版和 $10M 种子轮融资;同年 9 月,发布了 Pinecone 2.0,也宣布了他们全新基于使用的定价方案,其中包括免费版、标准版和企业版。

2022 年间他们用 Rust 重写了一遍(过去是 C/C++ 和 Python 写的),虽然过程无比艰辛,但是结局很美好:产品性能和开发速度都得以提高。

Milvus / Zillliz

https://milvus.io/

Milvus 创建于 2019 年,是一个为可扩展的相似性搜索而建立的开源向量数据库,它基于 Facebook AI Similarity Search (Faiss), Non-Metric Space Library (NMSLIB) 和 Annoy,并额外扩展了它们的功能。

Zilliz Cloud 是基于 Milvus 的 SaaS 服务,有 30 天免费试用和 credit。

Weaviate

https://weaviate.io/

Weaviate 总部位于荷兰,一个开源的向量数据库,可以同时存储对象和向量,开发者可以很容易地创建自己的语义系统或向量搜索引擎。

Weaviate 前几天刚宣布了他们的 Cloud Service 进入了公测,大家可以去试用(Sandbox 版有 14 天免费)!

Qdrant

https://qdrant.tech/

Qdrant 于 2021 年在柏林成立,使用 Rust 编写,是一个为 AI 开发者打造的向量搜索引擎和非结构化数据的数据库。Qdrant 是开源的,用户可以直接下载使用,今年年初起推出了云服务 Qdrant Cloud,已经有超过 1000 个 Qdrant 集群正在提供服务了。

Chroma

https://www.trychroma.com/

Chroma 是一个开源的向量嵌入存储。虽然 2023 年 2 月才正式推出,在过去的一个月已经有 35K 次下载了,它现在只有免费的开源版使用,应该很快会推出托管版本。

看了一下 Chroma 种子轮的投资人,除了几大 VC,还有不少 startup 创始人和业内名人的投资,应该是人气最佳选手了。

pgvector

https://github.com/pgvector/pgvector

对于现有数据库解决方案,储存向量通常只是一种附加功能,没有经过优化,也缺乏基本的功能。不过,pgvector 是 PostgreSQL 的插件,允许你在数据库中存储和查询向量嵌入。如果你用 PostgreSQL,或者 pg 生态圈的产品比如 Neon,Supabase,bit.io,可以试试这个插件。

Redis

https://redis.com/solutions/use-cases/vector-database/

大多数人用 Redis 应该都只是作为一个缓存来使用,不过它有一个 use case 是向量数据库,其实就是通过一些扩展模块,比如 RediSearch,Vector Similarity Search (VSS),来实现向量存储和查询(不过只有企业版才能用这些功能)。

总结一下

AIGC 的爆发带动了许多附属产品和生态的增长,向量数据库就是其中一员。此情此景,也让人不禁想起当年 Web 2.0 所引发的 NoSQL 革命。谁能成为向量数据库领域的 MongoDB,DynamoDB?而哪些则会像 Couchbase,NuoDB,Riak,RethinkDB 退出历史的舞台?让我们拭目以待吧。

参考

  • https://platform.openai.com/docs/guides/embeddings/

  • https://innerjoin.bit.io/why-you-should-care-about-vector-databases-1760186b5bf1

  • https://analyticsindiamag.com/why-are-investors-flocking-to-vector-databases/

发布于: 刚刚阅读数: 3
用户头像

Bytebase

关注

Database CI/CD for DevOps teams. 2020-08-16 加入

Bytebase是一款聚焦在团队协作场景下的数据库变更和版本管理的开源工具,主要解决研发工程师和DBA在变更数据库结构时的协同问题。

评论

发布
暂无评论
被 ChatGPT 点燃的向量数据库们_人工智能_Bytebase_InfoQ写作社区