写点什么

瓴羊发布《数据分析 Agent 白皮书》|一文读懂 DATA✖️AI 技术路线、落地方案与未来方向

  • 2025-12-22
    浙江
  • 本文字数:5068 字

    阅读完需:约 17 分钟

瓴羊发布《数据分析Agent白皮书》|一文读懂DATA✖️AI技术路线、落地方案与未来方向

导语

站在 2025 年年末回望企业 AI 实践,我们观察到 AI 正从技术热点全面迈向基础设施,越来越多的企业正在加大投入,构建“AI+数据”的完整生态系统。下一个十年,谁能掌控数据,谁就能定义未来生产力。

阿里云集团旗下的瓴羊收集上千条真实用户问题,历经数月深度调研与精心打磨,重磅发布国内首份数据分析 Agent 系统性解读报告《数据分析 Agent 白皮书:AI 重构数据消费》,聚焦数据分析 Agent 的技术路线、落地方案与未来方向,希望能将 Quick BI 团队多年积累的认知与思考传递给所有关心数据领域技术和应用发展的用户。

一、AI 时代下数据分析的发展趋势

2023 年,LLM 突破自然语言理解瓶颈,使对话取数成为可能,智能问数(ChatBI)成为数据分析业界的普遍方向;2025 年,Agent 技术的发展赋予了 AI 系统自主规划、执行、反思的能力,数据分析 Agent 也成长为能够理解业务需求、自主处理数据、生成专业洞察的企业级智能助手。

源于技术浪潮的推动、企业分析的需求、数据产品突破的探索,这些种种因素,让 AI 对数据分析的重构成为了一种必然。

大模型打通了自然语言与数据语言之间的鸿沟,让数据分析展现出智能搭建(Copilot)、智能问数(ChatBI)、洞察分析(Insight)、决策智能(Decision Intelligence)等多种可能性。从数据连接到洞察决策,事实上数据分析的每一个环节都具备用 AI 技术重塑的价值。

  • 搭建助手(Copilot):用户只需要输入简单的指令或描述,Colpilot 就能辅助用户完成连接数据源、构建数据模型、搭建报表等工作,大大降低了数据产品的使用门槛和使用成本,让没有经验的产品小白也可以更快上手。

  • 智能问数(ChatBI):通过自然语言交互,允许用户像和人类对话一样向系统提问,由系统即时理解并返回准确的分析结果,所有人都可以随时随地的获取数据。

  • 洞察分析(Insight):基于数据、业务知识,通过大模型让使用传统算法的洞察分析脱胎换骨,实现更精准的总结、诊断、归因,能够自动发现数据中隐藏的价值。

  • 决策智能(Decision Intellegence):随着数据量的爆炸式增长和分析技术的不断进步,例如多模态、多元信息整合、多 Agent 技术的发展,人们不再仅仅满足于单一功能的设定,产品形态可能从被动式服务向主动式服务、信息来源从单一到多源,将数据与人和事连接,进一步解释问题为什么会发生、未来会怎么样,为用户提供更高阶的决策支持。

总结来说,在智能化时代,AI 加持的对话式分析凭借自然语言灵活响应需求、端到端数据洞察的自动化输出以及数据开发工作的简化等优势特征,带来了全新的、端到端的交互体验,打破了传统分析对专业技能的强依赖,推动数据产品从“人人都是数据分析师”转向“人人都是数据消费者”。

二、数据分析 Agent 技术方案解析

1、技术名词解析

基于 Quick BI 当前的经验及沉淀来看,在数据分析 Agent 相关领域,以下技术名词可以多加关注。

  • NL2SQL一种将自然语言转换为 SQL 获取数据代码的技术方案,与之相关的概念还有 NL2DSL、NL2Data 等。

  • ChatBI一类对话式分析的 BI 产品工具,但是现阶段一般泛指 AI 问数类产品。NL2SQL 或 NL2DSL 等技术方案是 ChatBI 产品内的关键技术组成部分。

  • DataAgent本意是在数据领域具备思考规划及行动能力的智能体。但是遗憾的是,由于一方面场景定义不够聚焦(定位于所有和数据相关的智能体应用,包括智能分析,智能营销等等),另一方面产品化程度及企业级能力考虑不足,所以市场上大部分的 DataAgent 基本沦为单点交付实施的项目,其能力可复制性、价值确定性及持续可维护性面临较大挑战。

  • 分析 Agent聚焦于数据分析领域的智能体,具备“数据获取-分析结论-策略输出-报告撰写”的全流程自动化能力。NL2SQL 类的技术能力是其组成部分之一。目前市场上多以具备智能问数、智能报告等综合能力的产品形态提供服务。

  • Agent 搭建平台类似于 Dify、LangChain、LangGraph、百炼、Coze 等,都是支持自定义智能体构建的平台,通常支持流程编排能力,流程节点可以调用大模型的接口进行推理服务,很多也有配套的知识库构建和管理能力。部分企业和组织用智能体搭建平台来完成逻辑较为明确且复杂度相对较低的智能体搭建。但对于逻辑较为复杂的业务,从专业性及可维护性等角度出发,选择垂直聚焦的 Agent 产品是更多企业的选择。


2、数据分析 Agent 技术框架

Agent 有很多工作模式,我们在此介绍一种典型的 Agent 工作模式,将其概括为以下核心环节:

  • 任务规划 (Task Planning)

  • 工具选择 (Tool Selection)

  • 工具调用 (Tool Invocation)

  • 子任务递归执行 (Recursive Execution of Subtasks)

  • 最终反馈生成 (Final Response Generation)

当大模型需要根据说明完成一个自身推理无法(准确)完成的复杂问题时,Agent 会负责选择对应工具,告诉模型应该使用哪个工具以及对应参数。


数据分析 Agent 就是根据上述的工作模式进行设计。基于数据分析领域的独特性与复杂性,可以将数据分析 Agent 内核拆解为多个不同能力组合的 Agent,具体为:

  • QueryAgent:准确的数据获取及统计的能力,这是基础,我们称之为取数

  • DocumentAgent:非结构化数据分析的能力,这是扩展,我们称之为理解

  • DeepAnalyzeAgent:复杂问题理解并输出分析报告的能力,这是升阶,我们称之为分析

在不同的数据分析场景,需要使用的能力及 Agent 也有所差异。

面对取数类问题,比如“今年我们公司各大区销售目标完成情况?”、“这个月的总订单量及已处理订单量?”,我们可以通过 QueryAgent 完成对问题的理解、找到数据出处、生成取数代码、执行代码生成数据、调用可视化图表组件进行展示。

面对复杂分析类问题,比如生成经营分析报告。模型自身是无法直接进行总结的,它需要对问题进行理解和规划(基于 DeepAnalyzeAgent),先调用取数工具(如 QueryAgent)获取每个月的销量情况,再调取非结构化数据分析工具(如 DocumentAgent)理解不同月份的经营动作及策略变化,再将相关内容整合在一起后进行分析、归纳和总结,并最终形成分析报告。

整体来看,数据分析 Agent 会涉及到模型、知识、语义及数据的交互,所以领域内公认的较为完整的数据分析 Agent 内核框架基本如下。


3、数据分析 Agent 核心环节:智能问数(ChatBI)技术路线

取数是数据分析 Agent 的基础核心环节,直接决定了分析的准确性与整体效率,同时也是 ChatBI 问数能力的关键。具体到问数的技术实现层面,NL2SQL、NL2DSL、NL2Code/NL2Python 等成为了行业高频提及的技术方案。

NL2SQL、NL2DSL、NL2Code/NL2Python 的共同目标都是用自然语言取到数据,也就是将自然语言转化为 SQL、DSL 或代码,再进一步通过代码执行完成数据的获取。

当前主流的智能问数技术路线是 NL2SQL 和 NL2DSL,同时有技术实力的团队进入到更具融合性的阶段,也被统称为 NL2Data 技术路线。

  • NL2SQL:通过大模型将用户的自然语言问题转换为结构化查询语言(SQL),使数据库能够理解并返回数据查询结果。

  • NL2DSL:通过大模型将用户的自然语言问题转换为 BI 领域结构化语言(DSL),然后由 BI 分析引擎转换为结构化查询语言(SQL),使数据库能够理解并返回数据查询结果。因此也有 NL2DSL2SQL 的说法。

  • NL2Data:通过大模型将用户的自然语言问题进行转化,使用混合技术模式最终转换为 SQL 结果。混合技术模式包括将问题转换为单步或多步,并在每一步选择 NL2SQL 或 NL2DSL 或 NL2Python。



NL2SQL 能快速借力大模型的 SQL 生成能力,所以成为了较多团队的选择。但是,NL2SQL 会面临复杂分析局限及不同数据库的方言适配限制,同时需要构建行列级数据权限管控等能力,因此个人或小型团队使用较多,稍大规模的团队则会通过模型训练等方式来缓解部分存在的问题。具体来说,NL2SQL 路线面临着以下局限性。

  • 语义理解准确性:由于缺乏数据模型的抽象定义,直接对接物理表,大模型难以理解问题并映射到具体的物理表,需要另外补足语义模型管理的能力

  • 生成数据库特定方言 SQL 的准确性与可执行性:生成准确且可执行的 SQL 是一项非常难的事情,需要大模型深入理解 SQL 语法、数据库特定方言,目前的大模型还难以支持各种丰富的数据库类型

  • 难以应对复杂业务分析:例如多表关联/合并、嵌套查询等场景,复杂的业务分析问题要求模型具备强大的语义理解和逻辑推理能力

  • 不确定的性能问题:大模型生成的 SQL 很难保持稳定不变,且性能最优

  • 数据安全风险:缺乏对上层应用和用户的权限管控,需要另外补足数据行列权限管控能力

相较于 NL2SQL 直接转化为通用 SQL 语句,NL2DSL 先将自然语言转化为适配各 BI 产品的特定领域语言,更具备数据分析领域的场景适配性,能够最大化复用成熟的 BI 技术体系,相对来说会具备较高的准确性、时效性、安全性。但正因如此,NL2DSL 路线需要依赖 BI 技术体系,同时需要通过训练的方式让大模型具备对 DSL 语言的理解,所以 NL2DSL 路线一方面对团队的技术要求比较高,另一方面查询的复杂性会受限于 BI 引擎的能力边界。

总结来说,NL2DSL 路线是有 BI 产品基础的厂商首选的技术路径,因为过去大量的分析能力的积累、数据语义构建的基础、数据权限的管控、丰富数据源类型的兼容、海量数据查询加速、可视化展示与交互,所有这些数据产品的关键能力都能马上复用,带来极好的用户体验。

在实践过程中,为了达到更好的数据准确性、场景覆盖度以及用户体验,有技术资源的团队,会在以下两方面进一步优化:一方面,采用混合路线,比如加入 NL2Code/NL2Python 而非单纯依赖 NL2DSL 路线;另一方面,混合采用 Plan-and-Act 及 ReAct 进行规划,基于分析问题和场景选择合适的模式。以 Quick BI 的 QueryAgent 为例,支持开启规划模式,可对歧义性问题进行澄清、发散性问题进行任务编排、收敛性问题自主判断哪些能力范围内的任务、超纲类问题进行拒识,同时也支持混合特定场景的算法小模型调用。所以在国际数据技术领域中,逐步将这样的技术路线统一定义为 NL2Data 路线,也是目前 Quick BI 智能小 Q 的 QueryAgent 比较赞同和践行中的路线



事实上技术创新从无捷径可走。既没有一步到位就完美实现的技术路线,也没有放之四海皆准的技术路线,不同团队的技术厚度、具体需求、可投入资源及对当下领域内的技术边界的认知,决定了到底需要用什么样的路线达到什么样的能力,最终能实现什么样的场景价值。


4、数据分析 Agent 应用框架

要解决取数类问题、分析类问题并实现广泛落地,必备一个强大的端到端应用作为支撑。因此,除了夯实分析 Agent 的内核能力,还需配套构建面向用户级交互体验的工程化能力,比如数据可视化展示与交互、企业级加速引擎、数据安全的管控及稳定性保障。这正是 Quick BI 的核心优势所在。

通过复用多年积累的全链路数据能力与企业级服务经验,Quick BI 推出的数据分析 Agent 智能小 Q 深度嵌入了现有 BI 体系并作为智能化中枢助力产品突破瓶颈,实现快速复用数据连接、权限管控、可视化图表等成熟模块,形成了开箱即用的落地优势。




三、数据分析 Agent 未来展望

站在 2025 年的节点回望,数据分析 Agent 既有巨大的能力飞跃,又依旧面临着数据准度、分析深度、消费广度的考验,而这些挑战也正是数据分析 Agent 正在不断突破和演进的方向。

数据准度是一切可能性的前提,因为所有数据结论都建立在数据准确性的基石之上。当前基础的数据质量问题、面向 AI 的数据语义清晰度问题、模型尚且存在的幻觉概率等问题共同导致了数据分析 Agent 输出结果的准确性风险。我们认为,解决准确性问题的落点依旧在于综合性的方案,比如选择合适的模型甚至进行专项模型训练、建立高质量的基础数据集、构建完备的数据语义及知识库。

在分析深度方面,数据知识化是必然趋势。数据知识化包含两个方面,首先是将结构化的数据通过理解解读为非结构化的知识,在此基础上观测趋势、识别异常、洞见原因进而形成有效行动策略的知识。我们不能仅仅寄希望于大模型对更大量级数据的理解力提升,而是需要在面向 AI 的数据预计算与拆解适时选择小模型对结构化数据深加工高质量非结构化数据构建这三方面采取行动并积累实践经验。具体来说,以下这些方面值得我们关注:

  • 如何连接企业高频数据,让数据更好更高效地转化为知识

  • 如何构建行业分析模型,内化企业知识,快速构建多种分析场景 Agent

  • 如何提升洞察归因能力,围绕业务场景降低使用门槛,围绕核心指标实现沙盘推演

  • 如何覆盖多种报告场景,从非结构化数据中萃取高质量知识

在消费广度方面, 想要真正实现从“人找数”到“数找人”的进化,甚至到真正的“智能行动”,不管是数据信息的架构、数据与人员组织的关联还是数据与业务流的关联,都必定会面临巨大的变革。就当下而言,一方面需要主动识别目标人群及价值场景;另一方面,也必须注重在产品系统层面结合 OA 与各种应用系统,同时对安全及权限管控、订阅推送等重点企业级能力进行储备

白皮书领取方式

洞见 Data x AI 未来,驾驭数据分析新变革。扫码回复“数据分析”,免费获取白皮书。


发布于: 刚刚阅读数: 7
用户头像

还未添加个人签名 2019-07-09 加入

还未添加个人简介

评论

发布
暂无评论
瓴羊发布《数据分析Agent白皮书》|一文读懂DATA✖️AI技术路线、落地方案与未来方向_阿里云_瓴羊企业智能服务_InfoQ写作社区