写点什么

开源国内首个财富管理 AI 智能体评测集 FinMCP-Bench,附主流大模型测试结果

  • 2025-12-15
    广东
  • 本文字数:1695 字

    阅读完需:约 6 分钟

开源国内首个财富管理AI智能体评测集FinMCP-Bench,附主流大模型测试结果

金融 AI 进入 Agent 时代。2025 年,AI 浪潮汹涌澎湃,正在深刻改变我们每一个人的生产和生活方式。在金融领域,AI 的发展已经从生成式 AI 迈入 Agent AI 的深水区。

而技术竞争的焦点,不再是模型参数的堆砌或者工具提效,而是谁能将 AI 转化为可信赖、可执行的金融专家,实现真正的业务落地与场景赋能。

01

财富管理 AI 面临的挑战

面对财富管理领域复杂多变的客户需求,传统的通用大模型往往力不从心。一个合格的投资顾问智能体,必须具备以下"实战"能力:

  • 复杂多步推理:像真人专家一样将复杂任务分解为多个步骤。

  • 专业工具调用:精准协同调用海量的金融工具和数据服务。

  • 多轮对话记忆:在持续交互中始终保持专业性和上下文连贯性。

盈米基金高级副总裁、且慢业务负责人林杰才表示,“随着 AI 大模型在财富管理领域的深化应用,财富管理公司都很关心自己的 AI 应用给客户提供的财富管理服务到底可以打几分,FinMCP-Bench 评测集正是为了解决这个问题而面世的。”

在今年 9 月的 2025 云栖大会上,盈米基金与阿里云联合发布了国内首个财富管理领域的理财智能体评测集——FinMCP-Bench。(盈米基金与阿里云联合重磅发布:行业首个理财智能体评测集和投顾智能体模型

作为一套权威且贴近真实财富管理业务场景的评测体系,FinMCP-Bench 可以客观衡量 AI 在“金融服务实战”中的表现,并且对外开源共建、不断进化。

02

FinMCP-Bench 有何特点?

不同于通用的评测集,FinMCP-Bench 是首个聚焦财富管理(投资顾问)领域,针对复杂多轮、多步骤工具调用场景的评测基准。核心特点包括:

  • 数据源于投顾实战:评测数据基于且慢 APP “AI 小顾” 上 10000+条真实生产环境的交互记录,结合多名专家注释和 LLM 增强策略的高难度案例构建。


  • 真实工具链:整合了 65 个真实的金融 MCP 工具(Model Context Protocol,模型上下文协议),涵盖股票趋势分析、基金持仓查询、市场研判等金融服务场景需求。


  • 核心场景覆盖:覆盖 10 大主要核心场景(如市场分析、投资规划、投资者教育等)和 33 个子场景,精准还原金融服务的用户画像。


(图|FinMCP-Bench 的覆盖场景)

03

FinMCP-Bench 评测什么?

FinMCP-Bench 重点考察模型在复杂金融场景下的 Agentic(代理)能力:

  • 工具调用:模型能否从 MCP 工具中精准识别并准确调用的能力。


  • 多步推理与规划:面对“先查市场,再看持仓,最后给建议”的复杂指令,模型能否处理顺序调用与并行调用的能力。


  • 多轮对话维系:在平均 5.95 轮的对话中,模型能否不丢失上下文,保持逻辑连贯的能力。


  • 容错与修正:当遇到模糊的指令或错误指令时,模型能否自我修正的能力。


(图|基于工具链的多工具样本合成)

(图|基于投资顾问角色扮演的多轮样本合成)

评测结果

我们选取了 Qwen3 系列、DeepSeek-R1、GPT-OSS-20B 等 6 个主流大模型进行同台竞技。

评测结果发现,模型参数大小与金融工具调用性能并非简单的正相关。这也进一步证明了专业垂直评测集对于优化金融垂类模型的必要性。

(图|主流大模型的 FinMCP-Bench 评测结果)

04

欢迎加入 FinMCP-Bench,共同探索 AI+财富管理的新可能

我们始终相信,AI 的未来在于开放与连接。

目前,FinMCP-Bench 现已全面开源,我们诚挚邀请行业伙伴加入这场技术革新。

如果你是:

  • 金融机构与科技公司业务人员,可以利用评测集评估模型的实战水平,优化 AI 业务落地能力。


  • AI 研究人员与模型/Agent 开发者,可以基于评测集和 MCP 高质量的金融标注数据,探索金融 Agent 开发的新路径。


  • 高校与学术机构,可以利用该评测标准,助力推动金融大模型的前沿研究。

开源地址

1、魔搭社区:

https://modelscope.cn/datasets/tongyi_dianjin/FinMCP-Bench

2、Huggingface:

https://huggingface.co/datasets/DianJin/FinMCP-Bench

3、ResearchGate(完整论文):

https://www.researchgate.net/publication/396371996_FinMCP-Bench_Benchmarking_LLM_Agents_for_Real-World_Financial_Tool_Use_under_the_Model_Context_Protocol

(注:另外,需要您开通盈米且慢 MCP,获取 API Key。)

盈米且慢 MCP 免费开通地址

https://qieman.com/mcp

FinMCP-Bench 的开源发布只是一个开始。

盈米相信,AI 将重新定义金融服务的深度与广度。我们期待与您携手,用更精准的代码、更智能的 Agentic 模型和应用,去更好、更高效地服务好每一位投资者。

发布于: 刚刚阅读数: 4
用户头像

让每个人都能轻松构建专业级的金融AI应用 2023-10-29 加入

还未添加个人简介

评论

发布
暂无评论
开源国内首个财富管理AI智能体评测集FinMCP-Bench,附主流大模型测试结果_LLM_盈米AI开放平台_InfoQ写作社区