阿里云 Milvus 2.5:支持全文检索,1 次查询实现文本 + 向量双精度匹配
随着大模型时代带来的各种新型应用探索,结合传统基于文本匹配的精确检索与语义检索所带来的增益日益显著,尤其在一些深度依赖关键字词匹配的场景中,这种需求变得尤为关键。目前,阿里云向量检索服务 Milvus 版(简称阿里云 Milvus)集成开源 Milvus2.5 版本内核,在支持向量检索的基础上,新增支持原生全文检索、基于特定词汇的精准文本匹配等功能,在 RAG、多模态搜索等场景下搜索精度明显提升,使用体验大幅优化。
阿里云 Milvus 是一款全托管向量检索引擎,100%兼容开源 Milvus,提供大规模 AI 向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,成为多样化 AI 应用场景的理想选择。本次 2.5 版本的上线,使得阿里云 Milvus 能够实现从文本输入到向量检索的端到端流程,在电商、法律、新闻等多行业搜索场景中发挥多模态融合和场景化增强的价值。
全文检索(Full Text Search)
全文检索能力基于内置的 Sparse-BM25 算法,首次实现原生全文检索功能,与现有的语义搜索能力形成完美互补。
核心能力:
内置分词器,无需额外预处理:通过内置分词器(Analyzer)与稀疏向量提取能力, 可直接接受文本输入,自动完成分词、停用词过滤与稀疏向量提取,无需依赖外部模型(如 BGE-M3 等)。
实时 BM25 统计:数据插入时动态更新词频(TF)与逆文档频率(IDF),确保搜索结果的实时性与准确性。
混合搜索性能增强:基于近似最近邻(ANN)算法的稀疏向量检索,性能远超传统关键词系统,支持亿级数据毫秒级响应,同时兼容与稠密向量的混合查询。
典型应用场景:
法律文档库中的快速定位特定条款中的专业术语等罕见词。
电商平台结合商品描述的关键词与语义特征,提升搜索相关性,兼顾召回率与精确性。

全文检索
实现全文检索功能主要步骤:
创建 Collections:设置带有必要字段的 Collections,并定义一个将原始文本转换为稀疏向量的函数
插入数据:将原始文本文档插入 Collections
执行搜索:使用查询文本搜索你的 Collections 并检索相关结果
代码示例如下:
文本匹配(Text Match)
支持基于特定词汇的精准文本匹配搜索,可结合标量过滤进一步细化查询结果,满足精确检索的需求。
核心能力:
词项预处理:利用分词器与索引技术,对文本进行标准化处理(如大小写转换、词干提取)。
混合查询模式:在向量相似性搜索的基础上,叠加标量条件过滤(如“日期 > 2023”),实现多维度精准检索。
性能优化:索引构建与查询执行效率提升,满足高并发场景下的低延迟需求。
典型应用场景:
新闻平台中按标题关键词+时间范围过滤,快速定位相关报道。
企业知识库中结合员工 ID 与文档关键词,实现权限内的精确检索。
实现本文匹配的代码示例如下,如若配置文本分析器后续便可结合标量过滤功能做文本匹配过滤以细化查询结果:
启用文本匹配
可选:配置分析器
使用文本匹配搜索
使用文本匹配查询
此外,阿里云 Milvus 2.5 新增支持分页查询和标量过滤模板等功能,进一步提升了产品的易用性和性能。
阿里云向量检索服务 Milvus 版,将持续打磨产品,不断优化产品的功能、性能和使用体验,为用户提供更加专业、灵活、高效的向量搜索引擎服务,助力企业轻松应对海量非结构化数据管理挑战,实现业务价值最大化,欢迎大家前往产品控制台购买体验!
评论