写点什么

我们和人大 DeepAnalyze 团队聊了聊智能体、数据科学与人的未来

作者:ModelWhale
  • 2025-12-03
    上海
  • 本文字数:3157 字

    阅读完需:约 10 分钟

我们和人大DeepAnalyze团队聊了聊智能体、数据科学与人的未来

如果你的 AI 助手能自动完成数据准备、分析、建模、可视化,甚至生成研究报告……你会用它来做什么?​

中国人民大学开发的 DeepAnalyze 能够像数据科学家一样自主完成各项数据科学任务,解放研究人员精力,让数据分析、数据研究报告全流程自动生成。为实现这一目标,研究团队提出了“课程式 Agentic 训练方法”。该方法模拟人类学习路径,在真实环境中以“从单一能力到复合能力”的方式对大模型进行渐进式训练,逐步提升大模型各项能力。此外,团队还提出了面向数据的轨迹合成框架,自动化构建超过 50 万条数据科学推理与环境交互数据,在庞大的搜索空间中为大模型提供正确路径的指导。


11 月 27 日,和鲸社区特邀 DeepAnalyze 团队核心成员张绍磊博士进行直播分享,并分享了其核心原理、应用场景与未来展望,吸引了众多数据科学与 AI 领域的从业者与爱好者参与。张邵磊围绕观众最关心的问题展开了深入交流。和鲸特别整理了本次直播中具有代表性的问题与张绍磊博士的详细解答,希望能帮助更多 AI 爱好者更深入地了解这款自主数据分析 AI 智能体。

分享嘉宾

张绍磊中国人民大学信息学院青年教师,RUC-DataLab 团队骨干

博士毕业于中国科学院计算技术研究所,导师为冯洋研究员。他的研究方向涵盖大语言模型、多模态大模型、AI for Data Science。相关研究成果在 NeurIPS、ACL、ICLR 等国际人工智能与自然语言处理会议发表论文 30 余篇,开源的多语言大模型、多模态大模型、数据科学大模型在 GitHub 社区累计获得 5000+星标。他长期担任 CCF-A 类国际会议 ACL ARR 的领域主席和责任编辑。

个人主页:zhangshaolei1998@github.io


一、从“工具”到“伙伴”,DeepAnalyze 如何重塑数据分析?

Q1: DeepAnalyze 和 Jupyter Notebook、Pandas 等传统工具有什么本质不同?

A: DeepAnalyze 本质上是一个“面向数据科学的代理型大模型”。传统工具需要数据分析师一步步写代码、看反馈、再优化,而 DeepAnalyze 的核心是完全模拟数据科学家的操作,自主完成从原始数据源到最终分析报告的全链路任务。它不再是一个被动工具,而是一个能够自主规划和执行的智能伙伴。


Q2: DeepAnalyze 与市面上其他的 AI 编码助手或自动化 ML 平台最关键的区别是什么?

A: 关键区别在于两点——

  • 数据科学思维: 通用编码模型可能在单轮代码生成上很强,但它并不理解自己正在执行一个“数据分析任务”。DeepAnalyze 经过专门训练,它清楚地知道数据分析的典型流程(如先观察数据、再清洗、再分析),能够根据数据本身自主编排每一步操作。

  • 作为数据科学基座模型: DeepAnalyze 可以被视为一个面向数据科学的基座模型。用户可以直接使用它,也可以基于开源代码和训练数据,在特定领域(如金融、医疗)数据上对它进行微调,让它更懂你的行业。此外,它也可以作为核心分析引擎,被嵌入到更大的定制化工作流中。


二、 如何应对真实分析场景

Q3: 面对表格、JSON、TXT 研报等多模态数据,DeepAnalyze 如何实现融合分析?

A: 这正是 DeepAnalyze 的亮点之一。它的分析过程与人类相似:并非一次性读入所有数据,而是先了解每个数据源的基本信息(如表结构),然后通过自主编写代码(包括 SQL)与这些数据进行交互,根据交互结果不断调整和优化分析策略,最终实现跨数据源的融合分析与深度洞察。


Q4: DeepAnalyze 对开放问题的分析思路是固定的吗?

A: 不是固定的。 整个开放数据的分析流程完全由 DeepAnalyze 根据输入数据的形态自主编排决定。给它不同的数据,它会产生不同的分析思路和报告,从而更加适配各个特定领域。


Q5: DeepAnalyze 生成的分析报告的风格和结构支持自定义吗?如果对生成报告中的某部分不满意,可以让它局部修改吗?

A: 支持。 我们在训练中强化了模型的指令遵循能力。用户可以在输入的指令中指定生成报告的目录结构、分析方法等,模型最终生成的报告会严格遵循用户的提纲和要求。在我们的前端界面中,用户可以手动修改模型生成的任何一段代码并重新执行。同时,用户也可以通过多轮自然语言交互,指导模型对特定部分进行重新生成或修改。


Q6: DeepAnalyze 能生成 SQL 查询数据库吗?准确率如何?

A: 可以。模型会通过编写 Python 代码来执行 SQL 查询。我们在训练时特意强化了写 SQL、从数据库查数的能力。经过测试,其 SQL 准确率相较于同等规模的通用模型表现更好。当然,对于特别复杂或涉及特定领域名词的 SQL,可能仍需通过 Prompt 等方式给予一些指导。


Q7: DeepAnalyze 能生成 BI 图表吗?图表能插入文档吗?

A: 在 BI 和可视化方面完全没问题。至于将图表插入文档,这更多是通过前端或后处理技术来实现的,模型本身产出的是代码和图表结果,集成到文档中的环节可以由外部技术轻松实现。


三、 如何让 AI 学会“思考”?

Q8: 大模型是如何学会自主进行数据洞察和规划分析路径的?

A: 核心是我们提出的“课程式智能体训练”方法。这模拟了人类学习的过程:先让模型掌握基础能力,然后在真实环境中从简单任务开始,逐步学习如何运用这些能力解决复杂任务。模型通过与环境的交互(执行代码、查看结果)并获得评估反馈,不断修正和优化,从而逐步掌握了如何自主规划和分析。


Q9: DeepAnalyze 中“analyze”和“understand”这两个 Token 在设计上有什么不同? A: 我们为这两个 Token 分配了不同的角色。analyze更侧重于规划推理,而understand是专门为理解底层数据结构化信息(如 Schema)而设计的。我们做过消融实验,如果去掉understand,模型对结构化数据的理解能力会受到明显影响。


四、让每个人都能用起来

Q10: DeepAnalyze 如何保障数据安全?支持本地部署吗?

A:数据安全是首要考虑。 我们开源的核心目的之一,就是为了满足数据不能出域的私有化场景需求。我们强烈推荐企业或处理敏感数据的用户进行本地化部署。和鲸 ModelWhale 上提供的公有云体验版本,主要是为了方便大家快速尝鲜和评估效果。

*本地部署的具体教程和问题,欢迎至文末加入交流群深入讨论。


Q11: DeepAnalyze Web UI 是开源的吗?

A: 是的,完全开源。我们坚持全面开放,包括模型权重、训练代码、50 万条训练数据以及所有相关的前后端代码。社区的力量非常强大,已经有贡献者为我们添加 了 Jupyter UI 交互模式等特性,我们都已合并,欢迎大家继续在 GitHub 上共同完善,


Q12: DeepAnalyze 未来有哪些优化方向?

A: 未来我们主要关注几个方向:

  • 领域特定微调:帮助用户在垂直领域打造更专业的分析模型。

  • 融入更大工作流:探索如何将 DeepAnalyze 作为引擎,与企业级数据库和更复杂的数据管道无缝集成。

  • 社区共创:我们希望借助整个和鲸社区的力量,共同探索和拓展 DeepAnalyze 的能力边界。

篇幅所限,如果您有更多疑问,欢迎加入 DeepAnalyze 交流群,与开发者和其他用户一起深入探讨。

DeepAnalyze 资料包

  • 项目主页:https://ruc-deepanalyze.github.io

  • 论文链接:https://arxiv.org/pdf/2510.16872

  • 代码仓库:https://github.com/ruc-datalab/DeepAnalyze

  • 模型权重:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B

  • 数据集:https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K


理论与问答之外,实践才是检验价值的唯一标准。


现在,你也可在 ModelWhale 平台上免费体验 DeepAnalyze:

只需 填写问卷 申请 API Key,即可在 Notebook 或专属 Web 界面中亲身尝试这一自主数据分析智能体,体验从数据到报告的一键生成!填写完问卷还可获取整场活动回放。我们坚信,开源与社区共创是技术进步的引擎。期待你的体验反馈,更期待你的智慧能融入 DeepAnalyze 未来的发展。让我们一起,重塑数据科学的工作方式。


【实战活动预告】

参与实战,深度解锁:和鲸社区将联合各领域专家,举办系列 “ModelWhale X DeepAnalyze 动手学”活动。首场医学数据分析主题 Workshop 将于 12 月 11 日 举行,由神经生物学博士刘岳鹏老师手把手教学,通过真实案例带你玩转 DeepAnalyze。

用户头像

ModelWhale

关注

个人数据分析工具,组织数据科学协同平台 2022-07-29 加入

ModelWhale 将数据管理、建模分析、模型训练管理、算力资源管理等功能深度整合,通过逐级开放的数据基础设施、 Jupyter Notebook 和 Canvas 两种分析界面、即开即用的云端分析环境,使数据驱动的研究更便捷高效。

评论

发布
暂无评论
我们和人大DeepAnalyze团队聊了聊智能体、数据科学与人的未来_人工智能_ModelWhale_InfoQ写作社区