写点什么

AI 原生应用架构

作者:陈一之
  • 2025-10-14
    广东
  • 本文字数:2959 字

    阅读完需:约 10 分钟

所为何来

大模型技术的飞速发展正在深刻重塑应用的构建模式,催生出新一代的 AI 原生应用

传统应用以业务规则为核心,通过编写代码的方式实现预定义的工作流,其输入与输出具有高度的可预期性,业务目标通常表现为既定输入下的确定性结果。而 AI 原生应用则以 AI 智能为核心,强调由模型主动理解用户意图、自主调用外部工具,依托其处理复杂问题的能力实现业务目标,但输入与输出之间往往存在一定不确定性,从而对传统业务评估体系构成挑战。就二者关系而言,AI 原生应用在逻辑组织上仍延续传统应用的基本模式,但其业务流程并非通过代码预先编排,而是由 AI 动态驱动。

从设计模式来看,传统应用通常基于数据流与状态机进行构建,注重结构化的数据访问与存储、模块化/服务化的功能边界,以及基于 API 的能力扩展;而 AI 原生应用则围绕认知过程与交互流展开设计,聚焦于如何以自然语言有效引导 AI 理解意图、供给数据以突破 AI 静态训练的限制,以及拓展 AI 与外部环境交互的工具集合。

在需求实现层面,传统应用通常围绕明确的业务规则清单展开,按领域职能划分模块,业务规则与代码实现之间高度对应、精确匹配。AI 原生应用则构建与模型交互的数据管道及工具协同框架,其本身与具体业务解耦。面对实际需求时,开发重点首先在于评估模型能力,选定合适的 AI 基座,进而判断所需的数据与工具,以支持 AI 达成业务目标。业务规则在此过程中常作为模型的输入信息,而模型的输出结果未必与业务需求完全匹配。因此,如何有效引导 AI 实现业务目标,而非直接编码实现规则,是 AI 原生应用与传统应用在开发模式上的显著差异

架构演进

对于传统应用,无论是单体、微服务还是云原生的弹性架构,核心还是以应用服务为中心的“接入层(负载均衡)-应用层(业务逻辑)-数据层(数据存储)”三层架构,其他组件均可视为对逻辑或数据进行补充的非必需中间件。

AI 原生应用从流量路径来说与传统应用一样都是分层架构,关键组件有所不同。AI 原生应用的业务逻辑由模型驱动,此时应用层的重心不是业务逻辑的直接实现,而是对 AI 调用的编排。自然地,以最基础的 AI 问答类应用为例,AI 原生应用是一个“接入层-AI 编排层-AI 能力层-数据层”四层架构,如下图所示。

严格意义上讲,这种模式还不能算是 AI 驱动的应用,只能算是 AI 的工具集成。此时的大语言模型像某个 RPC 服务,在特定的业务流程中被业务代码调用,只不过调用参数不是静态的,而是由提示词工程(Prompt Engineering)拼接。AI 驱动的应用也就是将业务诉求委托给 AI 处理,而大模型就像是一个只能踢一下动一下的“脑袋”,还需要给它装上“手脚”,让它自己能“跑”起来。故此,编排层将增加 AI 代理框架,负责任务规划和工具调用,如 SpringAI 和 MCP Client,外部工具则以 MCP Server 的方式提供。

大模型的基础预训练数据存在明确的时间截止点,导致模型天然无法获取截止点后的时效性知识与领域新增知识,进而出现知识过时和知识盲区问题。为了让 AI 能够正确理解业务领域的知识,并将知识持续保鲜,需要给 AI 外挂知识库,检索增强生成(Retrieval-Augmented Generation,RAG)技术正当其时。进一步地,AI 能力层增加 RAG 引擎,数据层增加向量数据库,如下图。

有了 RAG 的加持,AI 有了“知识”,但还没有“个性”。在面向用户的应用系统中,业务逻辑围绕用户行为构建,AI 不单纯是扮演系统,而是扮演每一位用户。让 AI 具有个性是对 AI 数据供给的不同层次,不同于 RAG 补充的业务领域知识和增量语料,个性的塑造材料是记忆类的数据:

  • 短期记忆:会话级存续跨度,让 AI 在交互流中能保持连贯的认知,如当前会话前后问答的上下文;

  • 长期记忆:用户级/应用级存续跨度,让 AI 在应用内能模拟用户的习惯,如行为偏好、历史观点等。

记忆不仅仅是存储,而是对信息价值的生命周期维护,主要有:

  • 记忆检索:根据当前对话,从长期记忆中找出最相关的信息;

  • 记忆更新:决定哪些新信息值得保存,以及如何保存;

  • 记忆压缩:将多个相关记忆合并、摘要,避免信息爆炸;

  • 记忆排序:基于使用频率和重要性对记忆排序。

基于前面的架构,增加“记忆管理器”,提示词工程将扩展成由“当前查询+RAG 结果+用户记忆”构成丰富上下文的上下文工程(Context Engineering)

去向何方

当 AI 原生应用的基本架构尘埃落定,其技术焦点便从“如何构建”转向“如何稳健运营”。一个由动态、非确定的智能体驱动的系统,对其可观测性、能力评价、治理能力和工具生态提出了前所未有的要求。未来的技术与架构演进,不可避免地将围绕以下几个方面展开:

AI 可观测性:在传统微服务中,可观测性关注请求在服务间的流转路径,而在 AI 原生架构中,这还远远不够。AI 可观测性需要穿透大模型这个黑箱,揭示其内部的决策逻辑。

  • 提示词与上下文的录制与回放:每一次 AI 调用所使用的精确提示词、注入的上下文(来自 RAG、记忆等),都必须被完整记录和版本化。这是诊断回答质量、优化问题输入的基石。

  • 思维链的追溯:对于使用链式思维或复杂代理规划的场景,系统需要能记录并可视化 AI 的整个推理过程、工具调用的顺序与结果。这为排查幻觉或逻辑错误提供了依据。

  • 成本与性能的精细化度量:将 Token 消耗、模型延迟、计费成本等指标与具体的业务请求、用户会话关联起来,实现成本的可追溯与可优化。

评估与对齐:所有技术设施都要服务于一个目标——确保 AI 的行为与业务目标持续对齐,这需要一个自动化的评估与优化闭环。

  • 基于规则的自动化评估:对 AI 的输出进行自动化校验,例如,检查代码调用格式是否正确、回答是否包含敏感词、是否按要求输出了 JSON 等。

  • 基于模型的评估:利用更强的模型作为“裁判”,评估其他模型或 AI 代理输出结果的质量、相关性与安全性。

  • 持续反馈与微调:将评估结果、用户反馈与生产中的交互数据,形成一个持续的反馈环,用于优化提示词策略、调整 RAG 检索逻辑,乃至驱动模型的小规模微调。

AI 网关:随着应用内 AI 调用点激增且分散,一个统一的 AI 网关成为架构的必选项,它不仅是流量的入口,更是治理策略的执行点。

  • 路由与版本控制:根据请求内容、成本或性能要求,将流量智能路由到不同的模型供应商或特定版本。支持 A/B 测试与灰度发布,实现模型升级的无感平滑。

  • 限流、缓存与降级:对 AI 调用实施精细化的速率限制,防止成本失控。对常见问答实现响应缓存,大幅降低延迟与开销。在模型服务不可用时,具备优雅降级的能力。

  • 安全与审计:作为统一关口,实施敏感信息过滤、输出内容审核,并记录所有 AI 交互日志以满足合规性要求。

MCP 服务生态:当 AI 代理的能力取决于其可调用的工具(MCP Server)时,这些工具的动态管理就成为了系统弹性的核心。

  • 服务的注册与发现:MCP Server 需要向一个中心的注册中心上报其能力描述(Schema)。AI 代理或编排层通过查询注册中心,动态发现并调用当前可用的工具,实现工具的热插拔。

  • 可用性与健康检查:注册中心需要持续对 MCP Server 进行健康检查,并将不可用的服务从可用列表中剔除,确保代理规划任务时不会因工具故障而失败。

  • 版本管理与契约治理:管理 MCP Server 的多个版本,确保工具接口的变更不会破坏现有 AI 代理的调用,实现工具生态的平滑演进。

AI 原生应用的架构,正从解决“有无问题”的功能性组装,迈向解决“优秀问题”的系统性工程。前方之路,是构建一个高度自动化、透明可观测、且具备自我优化能力的智能系统基础设施。在这场竞赛中,比拼的将不再仅仅是模型的强弱,更是对这套复杂系统进行精细治理与运营的能力。

发布于: 刚刚阅读数: 5
用户头像

陈一之

关注

靡不有初,鲜克有终 2017-10-19 加入

让时间流逝

评论

发布
暂无评论
AI原生应用架构_大模型_陈一之_InfoQ写作社区