写点什么

🏆 阿里云大数据 AI 平台登顶 NL2SQL 权威榜单 Spider 2.0

  • 2025-08-29
    浙江
  • 本文字数:2096 字

    阅读完需:约 7 分钟

🏆 阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0

背景

在数字化时代,企业数据呈爆炸式增长,但大多数业务人员因不懂 SQL 语言而无法直接获取数据洞察。近年来,随着 AI 技术的飞速发展,基于大语言模型强大的自然语言理解和代码生成能力的 NL2SQL 技术应运而生——它能将"查询上个月销售额最高的产品"这样的自然语言,自动转换为复杂的 SQL 查询语句。


然而,现实企业环境中的数据库结构复杂、SQL 方言多样、查询逻辑深度嵌套,单纯靠大模型能力的 NL2SQL 方法往往力不从心。

权威认证:Spider 2.0 榜单第一

面对这些挑战,阿里云 PAI 与 DataWorks 团队共同研发了  NL2SQL Agent,该 Agent 使用 PAI 团队首创的面向真实业务场景的端到端 NL2SQL 框架 DB-Surfer,能够在自然语言转换为 SQL 场景中具有优越表现。在被誉为"最接近真实企业场景"的 Spider 2.0-Snow (https://spider2-sql.github.io/)评测中,以 59.78%的执行准确率荣获榜单第一,超越了多个顶尖竞争对手,展现了阿里云大数据 AI 平台在 Agentic NL2SQL 技术领域的领先实力。这一结果也表明,NL2SQL 技术在复杂真实场景中的落地正逐步成为可能。



来源:Spider 2.0 官网


Spider 2.0 是面向 企业级复杂场景 的文本到 SQL(Text-to-SQL)评估基准,旨在突破传统评测对简单单表查询的局限性。其基于 632 个真实企业数据库工作流问题 构建,覆盖金融、医疗、电商等 18 个垂直领域,要求模型在多表关联、长上下文理解、复杂逻辑推理等维度展现工业化级能力,被誉为"最接近真实企业场景"的 Text-to-SQL 评测。

DB-Surfer Agent:NL2SQL 技术框架新范式

DB-Surfer,一个面向复杂真实场景的 NL2SQL 框架,采用“总—分—总”的协同架构,专为超大规模、高复杂度的数据库查询任务设计。系统整体分为三个核心阶段:查询意图预处理、代码智能体执行 和 多源路径后处理,在任务规划的引导下,实现对复杂数据库环境的高效、可控探索,最终生成用户所需的 SQL 查询语句。



DB-Surfer 的核心突破可归纳为以下三点:


在公开基准上取得了最先进的性能。 DB-Surfer 在 Spider 2.0-Snow 基准[1]上取得了 59.78%的执行准确率,截至 2025 年 8 月 27 日,位列该榜单第一,证明了该方法的有效性,能在真实、复杂的场景下解决用户数据库查询问题。


DB-Surfer 通过联合的任务规划与元数据链接,为 Agent 提供了明确的执行指引。这种“先规划、后执行”的机制显著提升了 Agent 探索的效率与目的性,证明了有指导的 Agent 是解决复杂 NL2SQL 任务的一条可行技术路线。


为构建具备持续进化能力的 NL2SQL 系统提供了可扩展范式。DB-Surfer 的模块化设计与数据飞轮知识沉淀机制,为系统的长期优化奠定了基础。其分阶段架构便于未来集成多样化的外部工具。这为 NL2SQL 技术从单一的查询生成工具,向更具挑战性的、能在开放场景下泛化的数据分析助手演进,提供了一个可迁移的系统化解决方案。


为了进一步验证 DB-Surfer 的有效性,我们将其与一系列当前最先进的方法在 Spider 2.0-Snow 数据集上进行了全面对比。这些基线方法代表了 NL2SQL 领域的主流技术路径,涵盖了从静态提示到动态交互式智能体的不同范式。其中包括基于 ReAct 框架的基线方法 Spider-Agent、当前榜单排名靠前的闭源 Agent 方法 WindAgent 与 ByteBrain-Agent、基于硬编排工作流和自洽性的 ReFoRCE 框架,以及提示工程方法的代表工作如 Dail-SQL 。


在与众多基线方法的对比下,DB-Surfer 取得了 59.78% 的执行准确率,达到了该基准上当前的 SOTA。这一成绩不仅超越了 WindAgent (59.05%) 等基于商业大模型的 Agent 方法,更显著优于基于固定工作流的 ReFoRCE (37.11%) 和基线智能体方法 Spider-Agent (31.08%)。超过 20 个百分点的巨大性能优势充分证明,在处理极端复杂的数据库环境时,DB-Surfer 的动态、自适应交互框架远比固化的流程或简单的“思考-行动”循环更为有效。

产品落地:DataWorks Copilot 体验升级

目前,Agentic NL2SQL DB-Surfer 技术已深度集成至大数据开发治理平台 DataWorks 的 Copilot, Copilot 作为 DataWorks 平台的智能助手,能够根据上下文快速理解业务需求,帮助开发者通过自然语言高效完成多种代码相关操作及 DataWorks 产品操作。用户通过在 DataWorks 界面的顶部导航栏点击 Copilot 图标即可开始体验,点击查看指导手册


现在,DataWorks Copilot 已累计生成并被采纳的代码行数超 3200 万,覆盖分析师和开发者超 60000 人,数据开发分析效率平均提升 35%。

DataWorks Copilot - Agent 模式演示

总结

从登顶 Spider2.0 的技术突破,到 DataWorks Copilot 体验的深度升级,DB-Surfer 的出现与落地不仅是阿里云  PAI 在 NL2SQL 技术领域的一次里程碑式跨越,更标志着 DataWorks 企业级数据开发交互进入 “智能体驱动” 的全新时代。当复杂 SQL 查询转化为自然语言对话,当数据洞察从 “技术特权” 变为 “业务标配”,阿里云大数据 AI 平台将持续通过技术与场景的双轮驱动,助力每一家企业轻松驾驭数据浪潮。


[1] Lei F, Chen J, Ye Y, et al. Spider 2.0: Evaluating language models on real-world enterprise text-to-sql workflows[J]. arXiv preprint arXiv:2411.07763, 2024.


用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
🏆 阿里云大数据AI平台登顶 NL2SQL 权威榜单 Spider 2.0_阿里云_阿里云大数据AI技术_InfoQ写作社区