写点什么

CLIP-as-service 0.8.0 版本发布:新增支持大型 ONNX 模型文件

作者:Jina AI
  • 2022-10-25
    中国香港
  • 本文字数:668 字

    阅读完需:约 2 分钟

CLIP-as-service 0.8.0 版本发布:新增支持大型 ONNX 模型文件

J-Tech Talk

由 Jina AI 社区为大家带来的技术分享

工程师们将深入细节地讲解具体的问题

分享 Jina AI 在开发过程中所积累的经验


针对海量向量数据的搜索,无论是工业界还是学术界都做了大量的研究。由于精确的向量搜索在海量数据的场景下搜索时间过长,所以目前的常见做法,是在向量上建立近似搜索索引。学术上我们称之为近似最近邻搜索 ANN (Approximate Nearest Neighbor Search) 问题,通常都是通过牺牲搜索精度来换取时间和空间的方式,从大量样本中获取最近邻。

根据 Benchmark 上 ANN 算法的基准测试结果,基于图结构的 HNSW 算法在查询速度和精度上优于其他 ANN 算法。但是 HNSW 算法本身的主要问题就是对内存占用较大,限制了其可以索引的数据大小。

目前 Jina AI 的开源向量索引产品 AnnLite 的核心近似搜索算法是基于 HNSW 来实现,并在此基础上提供了更加丰富的功能(例如支持前置过滤近似查询)。为了使得 AnnLite 能够具备更强的竞争力和实际应用价值,我们对 HNSW 算法进行了改进和优化。

本期 J-Tech Talk 邀请到了负责本优化项目的叶坚白,来分享《近似最近邻搜索算法 HNSW 的改进与优化》。

分享内容

1. Annlite 的介绍和使用

AnnLite 是一款 Jina AI 开发的多模态向量索引产品,旨在和 DocArray 一起使用。

2. HNSW 算法、 PQ 算法的简介

在 Annlite 中结合 PQ 算法和 HNSW,以降低内存占用和延迟

3. 为什么要在 Annlite 中引入 HNSW PQ backend

4. 在 Jina AI 社区的收获总结

关于讲师

叶坚白 Jina AI 开源社区 AnnLite 贡献者

本硕就读于中国科学技术大学大数据学院

活动时间

2022 年 10 月 26 日 周三晚 19:00 - 19:45


用户头像

Jina AI

关注

神经搜索生态开创者 开源技术社区贡献者 2022-06-07 加入

Jina AI 成立于 2020 年 2 月,是一家业内领先的开源企业,连续两年上榜全球“AI100”榜单。致力于通过人工智能和深度学习技术,打造下一代云原生神经搜索框架,帮助开发者和企业打造跨模态和多模态应用。

评论

发布
暂无评论
CLIP-as-service 0.8.0 版本发布:新增支持大型 ONNX 模型文件_开源_Jina AI_InfoQ写作社区