写点什么

腾讯云大数据 ES:结合 AI 大模型与向量检索的新一代云端检索分析引擎

  • 2023-08-10
    广东
  • 本文字数:1704 字

    阅读完需:约 6 分钟

腾讯云大数据ES:结合AI大模型与向量检索的新一代云端检索分析引擎

引言

信息化技术的飞速发展使得海量数据爆发式增长。一方面,越来越多的数据可以为我们的生活带来便利,但另一方面,也给软件开发带来巨大的挑战——图片、声音、视频等不同结构的数据越来越多地出现,为搜索分析带来巨大的挑战,传统的关键词搜索,搜索结果局限于输入的关键词,用户体验较差。向量检索的出现,给我们提供了一个新的思路,向量数据库将非结构化、半结构化甚至是结构化等数据以向量形式存储,实现相似度搜索、聚类、降维等操作,结合机器学习模型,为用户更加智能的搜索服务。

然而,集文本搜索➕向量检索➕AI 能力于一身,且成熟稳定、值得信赖的云端搜索引擎,在业内屈指可数,腾讯云大数据 Elasticsearch Service 近期首发上线的 ES 8.8.1 版本,提供了强大的云端 AI 增强与向量检索能力,支持在端到端搜索与分析平台中实现自然语言处理、向量搜索以及与大模型的集成,10 亿级向量检索平均响应延迟控制在毫秒级,助力客户实现由 AI 驱动的高级搜索能力,为搜索与分析带来全新的前沿体验。


强大的 AI 增强搜索引擎

结合 AI 的最佳实践和 Elastic 的文本搜索,Elasticsearch 为开发人员提供了一整套将复杂的检索算法与大型语言模型(LLM)集成的能力,其特性参考如下:


01

自定义 Transformer 模型

开发人员可在 Elastic 中管理和使用自己的 transformer 模型来完成各种自然语言处理任务,以适应特定的业务场景。


02

Elastic 训练的优化搜索模型

使用 Elastic 训练的开箱即用的 Learned Sparse Encoder 机器学习模型来优化搜索,可在各种领域提供更好相关性、语义化的搜索。


03

与第三方 Transformer 模型集成,提取直观摘

通过 API 与大语言模型集成(如 OpenAl 的 GPT- 3 和 4),从 Elasticsearch 数据源中提取摘要。


04

充分应用各种自然语言处理(NLP)任务和

模型

通过强大的自然语言处理能力,处理各种 NLP 任务和模型,使得搜索结果更加符合自然语言的语义。


05

第三方工具集成,构建复杂的数据管道和生成式 AI 应用程序

通过强大的自然语言处理能力,处理各种 NLP 任务和模型,使得搜索结果更加符合自然语言的语义。


原生向量搜索引擎

企业可以将腾讯云 ES 作为向量数据库使用,有效地创建、存储和搜索密集向量,为用户提供更加智能的搜索功能。例如,企业可在腾讯云 ES 上传自定义大数据模型来做 Embedding,如词嵌入模型(Word Embeddings)或深度学习模型(如 BERT),在读写过程中实时将图片、文本等数据转换为向量,然后存入 Elasticsearch 构建索引并进行相似度召回。同时,在召回后,可选择将 TOP 结果传入 LLM 大语言模型,对信息进行对话式结果整合,最终返回给用户,实现对话式搜索。相关特性参考如下:

01

提供图索引,通过 HNSW 实现高效的最近邻

搜索


02

支持端到端的向量生成、向量索引、向量相似性比较,无需额外的平台进行向量推理


03

一体化的搜索体验:多路召回混合打分、Faceting 聚合分析能力、基于角色的访问控制

04

提供向量类型,将向量存储为字节而不是浮点,同时,应用主成分分析 PCA 等方法降低向量维度,节省存储空间


05

持续优化的向量索引和查询性能


全新混合排序算法

Elasticsearch 8.8.1 版本使用最新的 Reciprocal Rank Fusion (RRF) 混合排序算法,可同时支持全文检索和向量搜索,让开发人员更好地优化 Al 搜索引擎,实现语义和关键字的组合查询。


客户案例介绍

以使用腾讯云 ES 的某知名新媒体网站客户为例,客户通过腾讯云 ES 提供的强大搜索能力,实现文本搜索+向量搜索的混合搜索,精准的对用户上传的图文内容进行违规检测,进而降低业务风险。其相关实现如下:

1)相关数据通过自定义的模型进行 Embedding 之后,转换成向量,存储在索引里面。

2)APP 的用户用户发表评论或者上传文章等操作,相关数据将实时的进行 Embbdding,并与索引内的向量进行相似性比对,结合文本搜索能力,实现多路召回。

3)如相关内容涉嫌违规,将会被驳回,并予以警告。


写在最后

腾讯云大数据 Elasticsearch Service 近期首发上线的 ES 8.8.1 版本,提供向量检索和 AI 增强功能,支持在单一端到端搜索与分析平台中实现自然语言处理、向量搜索以及与大模型的集成,结合腾讯云 ES 提供的丰富的云原生能力,支持高达十亿级向量检索,平均响应延迟控制在毫秒级。

使用该服务,您可以轻松便捷地创建集群、部署 NLP 模型,并进行搜索和推理任务,快来体验吧!

用户头像

还未添加个人签名 2020-06-19 加入

欢迎关注,邀您一起探索数据的无限潜能!

评论

发布
暂无评论
腾讯云大数据ES:结合AI大模型与向量检索的新一代云端检索分析引擎_ES_腾讯云大数据_InfoQ写作社区