写点什么

ES Serverless 8.17 王牌发布:向量检索「火力全开」,智能扩缩「秒级响应」!

  • 2025-06-09
    陕西
  • 本文字数:3068 字

    阅读完需:约 10 分钟

——原生 ANN 引擎,QPS 飙升数十倍,成本新低,开发体验「真香」!

开通入口>> Elasticsearch Serverless服务_全托管云搜索_智能化运维_大数据计算-阿里云

随着生成式 AI 与实时数据分析需求激增,开发者亟需兼顾高性能、低成本且免运维的检索服务。阿里云 Elasticsearch Serverless 基于官方 8.17 版本,深度融合无服务器架构与分层扩展能力,面向信息检索、向量搜索、语义分析等通用场景,提供全托管服务。

一、Serverless 服务简介

阿里云 Elasticsearch Serverless 采用读写分离架构与智能资源调度策略,自动监控 CPU、内存、网络等关键指标,动态调整计算资源,消除手动扩缩容与集群配置负担,是企业轻量化搭建搜索应用的高性价比选择

与 2024 年 7 月发布的检索通用型 7.10 版本相比,本次推出的检索增强型 8.17 版本在最新特性扩展、自动扩缩性能、资源成本优化三大维度实现全面跃升。本文将深度解析该版本通过工程优化带来的核心能力升级。

升级一:向量检索性能飞跃

基于 Elasticsearch 8.17 版,发布最新向量能力,实现检索性能、开发体验的跨越式升级

  • 高效 KNN 检索:相较于 7.10 版依赖 script_score 自定义脚本进行暴力检索,8.17 版原生支持高效的 KNN 检索,查询速度实现了质的飞跃。

  • 资源优化:在高召回的同时,默认 int8 量化能力将内存占用降低 75%,bbq 量化进一步降低资源消耗。同等资源下,百万级向量检索 QPS 提升数十倍

  • 灵活组合查询:8.17 版原生支持 knn 向量查询与传统 query 子句的灵活组合,并结合 RRF(Reciprocal Rank Fusion)实现多元召回结果的智能融合与统一排名,显著提升复杂场景下的搜索相关性与用户体验。

升级二:智能化弹性调度架构

全面升级智能化弹性调度架构,保障服务稳定的同时 1 秒内资源拓展到位,扩缩更丝滑

ES Serverless 服务底层采用弹性架构,基于应用 CU 等水位观测,高效调度底层机器资源,实现低成本承接高用量的业务效果。相比检索通用型(7.10 版)应用,检索增强型(8.17 版)不但大幅缩短了弹性响应时效,同时放开了低峰期突增流量限流的限制

真实案例对比:

  • A 场景-流量逐渐稳定增长:8.17 版能够瞬时响应并正常承接增加的用户请求量,几乎没有触发限流;整体 RT 平稳度和耗时更有优势,扩容期间服务稳定、性能有保障。

  • B 场景-流量瞬时突增:8.17 版能够稳定承接流量突增,而 7.10 版需要一定时间缓冲,初期成功率较低。8.17 版在整体 RT 平稳度、稳定性与无感扩容体验上更优。

如下图,某真实电商网站在下午 18:00-21:00 时间段开展品类大促活动,搜索流量能达到平时的 3 倍,并且会有突增 6 倍的秒杀活动,本文将模拟【A 场景-流量逐渐稳定增长】与【B 场景-流量瞬时突增】两种不同趋势,对比分析检索通用型(7.10 版)应用与检索增强型(8.17 版)应用的体验差异(下文简称为 7.10 应用、8.17 应用)。

A-场景流量逐渐稳定增长:三小时流量分别是一小时稳定增流,一小时稳定高峰,一小时稳定减流。其中高峰为低峰的 3 倍流量。



深度解读:

稳定承接增加的用户请求量

  • 7.10 应用受限于弹性机制的限制。在启动增压时,若增压过程较快(如上),会出现因弹性反应时间过长导致的限流;

  • 8.17 应用完成了瞬时响应,正常承接了增加的用户请求量,没有触发限流。具体可见:失败请求数统计图表。


扩容期间服务稳定、性能有保障

  • 8.17 应用较 7.10 应用在整体 RT 平稳度、RT 耗时上都更有优势,可见流量增长过程中 8.17 的 RT/took 都很稳定。具体可见:平均 RT 统计图表。



  • 8.17 应用与 7.10 应用均表现出优秀的稳定性体验,8.17 应用扩容更加无感、几乎未出现重试操作。具体可见:成功率、重试率统计图表。



严格贴合资源调度核算计量 CU

  • 在 CU 统计上,8.17 应用更线性更稳定;7.10 应用在初期弹性和高峰期会有波动。具体可见:消耗 CU、应用请求 QPS、总请求数统计图表。



B 场景-流量瞬时突增低峰期流量突增 6 倍场景


深度解读:

稳定承接增加的用户请求量

  • 8.17 应用能够稳定承接流量突增;较「A-流量逐渐稳定增长」, 该 case 更可见 7.10 应用受限于弹性机制的限制需要一定的时间缓冲。在刚突增时,成功率维持在 42%左右,7 分钟后恢复至 95%以上;下一区间的七分钟后整体恢复。具体可见:消耗 CU、应用请求 QPS、总请求数统计图表。


Tips:使用 8.17 应用时,需保证突增后的流量在 CU 上限以下,CU 上限默认取值为固定 CU 额度的 3 倍,可根据流量情况选择合适的固定 CU 额度配置。7.10 应用在突增初期 QPS 更高是因为客户端重试机制在限流时触发了重试,在弹性完成后恢复正常。

扩容期间服务稳定、性能有保障

  • 8.17 应用较 7.10 应用在整体 RT 平稳度、RT 耗时上都更有优势,可见流量增长过程中 8.17 的 RT/took 都很稳定。具体可见:平均 RT 统计图表。



  • 8.17 应用较 7.10 应用在稳定性与无感扩容体验更优,始终保持更优的成功率与重试率。具体可见:成功率、重试率统计图表。



严格贴合资源调度核算计量 CU

  • 在 CU 统计上,8.17 应用由于完成了秒级响应,贴合实际应用请求 QPS 调度资源;7.10 应用也根据实际调度情况统计出计量 CU,但在初期弹性和高峰期会有波动,8.17 应用更线性更稳定。具体可见:消耗 CU、应用请求 QPS、总请求数统计图表。


Tips:如果您已经使用了 7.10 应用,因版本或排期限制暂无计划使用 8.17 应用,针对周期性流量场景,您可通过工单形式提交分时弹性需求,为您的应用开启分时弹性功能后,将追平 8.17 应用的弹性响应效果。


最终对比结论:综上所述,8.17 应用弹性扩容性能提升明显,可做到无感升配,能有效承接突增、平稳趋势下的流量增长,提供流畅、稳定的服务体验。

升级三:资源成本优化

通过预留+弹性 CU 模式灵活调度资源,CU 单价再调低,资源成本再优化

为进一步优化资源成本,提升资源扩缩体验。检索通用型 8.17 版采用了预留固定 CU 配额+按需使用的弹性 CU 用量收费的模式,预留固定 CU 的单价调整至更低。


综上所述,阿里云 Elasticsearch Serverless 8.17 版在向量检索性能、智能化弹性调度架构及资源成本优化方面实现了全面升级,为开发者提供了高性能、低成本且免运维的检索服务解决方案。

二、使用指南

公测说明

检索增强型应用(8.17版)_检索分析服务 Elasticsearch版(ES)-阿里云帮助中心

检索增强型应用(8.17 版)于2025年4月25日起已陆续在华东 2(上海)、华北 2(北京)、华南 1(深圳)、华东 1(杭州)地域开启公测,在此期间,您无需申请即可免费试用。预计公测将于2025年6月16日结束,届时,使用服务将按照相关计费项收取相应费用


三、开通检索增强型应用(8.17 版)

步骤一、开通服务

第一次使用 ES Serverless 服务时,需要进行服务开通。

1. 登录Elasticsearch Serverless服务控制台

2. 在 ES Serverless 服务页面,单击立即开通

3. 进入服务开通页面,选中服务协议,单击立即开通

步骤二、创建应用

1. 进入创建Serverless应用的页面,选择创建实例的区域。

2. 单击应用管理

3. 进入应用管理页面,单击创建应用,配置应用的基本信息。

4. (示例)本示例选择应用选型为检索增强型(8.17 版),其他参数保持默认或自定义。

配置应用的访问设置。

a. (示例)本示例选择网络访问方式公网访问,在公网访问白名单中添加本地设备的 IP 地址,以便使用本地设备访问 Serverless 应用的 Kibana。

配置应用公网访问私网访问,请参见配置Serverless应用公网或私网访问

b. 输入用户密码,登录时需要。

5. 单击立即创建

您可以在应用管理页面查看已创建的应用列表。请等待应用状态变为运行中,这表示应用已成功创建。随后,您可以根据个人需求,尝试体验更多功能。

四、产品答疑 &用户支持


有任何疑问都可以在评论区留言!

开通入口>> Elasticsearch Serverless服务_全托管云搜索_智能化运维_大数据计算-阿里云


用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
ES Serverless 8.17王牌发布:向量检索「火力全开」,智能扩缩「秒级响应」!_大数据_阿里云大数据AI技术_InfoQ写作社区