商汤大装置 AI Agent Infra 实践,加速智能时代创新效能

“AI Agent 是 AI 实现商业化的关键路径之一,尤其在 2025 年被视为商业化元年。”商汤大装置事业群 CTO 宣善明在近日举行的【中国软件研发创新科技峰会】上讲到。在此次大会《AI Agent 智算生产 Infra 实践》主题演讲中,宣善明全面分享了商汤大装置 AI Agent Infra 端到端体系搭建及场景实践成果。

Agent:操作系统级的智能入口
宣善明认为,Agent 不再是单一任务工具,而是“操作系统级别的入口”。Agent 既是人与 AI 交互的统一接口,还能进行组织、编排及自我进化。可以想象一下,未来我们可以依托 Agent 体系,一个人即可组建公司,通过编排 AI 员工形成团队,甚至进一步扩展成复杂的 AI 组织。
与传统 AI 模型不同,Agent 的核心挑战在于其不确定性。我们无法完全预设 Agent 行为,系统必须具备发散性评估与自我优化能力,在持续反馈中实现自主进化。
这要求 Agent 具备四大核心能力:统一入口、可扩展性、自我进化能力和评估体系等。
智能中枢:Agent Infra 的底层支撑
2030 年,经济体将演变为一个 Agent 经济体,其中每个 Agent 像神经网络的节点一样互联协作,通过统一入口分发任务并与其他 Agent 交互完成工作。这样的体系高度复杂、动态且自组织,无法完全依赖人工手工搭建,因此需要系统化的 Agent Infra 来支撑。
首先,需要构建智能中枢。
商汤大装置 Agent Infra 智能中枢体系由公共能力组件、外部工具接入以及自我进化机制共同组成的体系,使 agent 能通过持续进化不断扩展自身能力。

· 公共能力组件是 Agent Infra 智能中枢体系中支撑 Agent 高效运行的核心基础模块。它通过提供统一的 Memory、Agent 元数据管理、沙盒环境、规划器和摘要器等公共能力,使 Agent 能够高效地管理自身知识、跟踪任务状态、进行安全隔离的实验等,以及在复杂任务中实现智能规划与决策。
· 在外部工具接入能力方面,体系引入经过遴选与验证的工具和 MCP,确保 Agent 在面对自身无法解决的问题时能够调用外部资源,同时通过开放搜索 MCP 发现和评估新的功能资源,从而拓展任务覆盖范围并提升问题解决能力。
· 自我进化机制是支撑智能体持续提升能力的核心环节。该机制依托 MCP Builder 和 Agent Builder 两个关键组件构建。MCP Builder 主要用于快速构建基础功能。相比之下,Agent Builder 面向更复杂的智能体需求,它不仅仅生成一段代码逻辑,而是赋予生成的智能体自我验证、自我迭代、自我思考的能力。通过 Agent Builder,智能体可以在实际应用中不断反思与优化自身行为,从而实现能力的自主扩展与进化。
除此之外,Agent Infra 智能中枢 Memory 体系承担着智能体感知、决策与自我迭代的功能。我们基于多模态解析构建了统一的 Knowledge Graph,将文本、图像、视频等多源信息进行结构化存储与索引,以实现高效检索与使用。此外,Memory 还用于智能体的自我迭代,每次执行任务后,成功与失败路径都会被记录于 Knowledge Graph,供下一次 Planning 参考,使 Agent 能够低成本、高效地沿用成功经验、规避失败路径,实现自主进化。
Agent Infra 端到端实践:闭环验证与产业落地
在商汤大装置的 Agent Infra 实践中,端到端构建流程涵盖从 Agent 生成、离线验证到灰度上线的完整闭环。
· SRE-Agent:商汤作为业内领先的 AI 基础设施厂商,SRE-Agent 是保障其大规模算力集群稳定运行的重要工具。宣善明现场演示了 SRE-Agent 进行故障排查的过程。当一个 2000P 集群中的任务无法启动时,SRE-Agent 能自主完成故障排查。它对接日志与监控系统,结合知识库生成排查计划,并在执行中动态调用检索工具,最终产出根因分析与解决方案。与人工数小时的排查相比,分钟级即可完成,大幅提升运维效率并减少人力投入。
· 具身智能 Agent:另外在具身智能领域,商汤大装置开发了具身仿真数据生成 Agent,来为客户提供高效的数据生成能力。该 Agent 基于已有的仿真平台(如 NVIDIA 仿真环境),通过 Agent 系统进行全流程规划与任务拆解,进行场景素模构建和场景集成,并能够进行光影调整与参数优化等来形成大量高质量数据集。可以看到,Agent 在数据生成环节的自主规划与智能执行能力,能够从数据多样性与场景覆盖等角度,帮助客户快速获取可用于训练和验证的具身智能数据。
· 行业性 Agent:商汤大装置在某大型项目中,实现了以唯一业务入口统一管理和调度超过 100 个 Agent,大部分由顶层 Agent 自主生成,系统覆盖 30 余内部业务系统、4000 余工具及十多个垂类模型,实现了 AI 自主定位与任务执行,成功验证了 Agent Infra 在行业级项目落地中的可扩展性和高效性。
“我们正在见证一个完整闭环的逐步成型。商汤大装置的 AI Agent Infra 实践,正通过基础设施与智能体模板、开放生态社区以及 Marketplace 等层层推进,支撑起繁荣的 Agent 经济生态。这不仅实现了从技术落地到产业化的闭环,更展现了商汤在 AI Agent 时代的战略远见。” 宣善明总结道。
评论