AI 原生应用架构

2025-10-14
广东
本文字数：2959 字
阅读完需：约 10 分钟

所为何来

大模型技术的飞速发展正在深刻重塑应用的构建模式，催生出新一代的 AI 原生应用。

传统应用以业务规则为核心，通过编写代码的方式实现预定义的工作流，其输入与输出具有高度的可预期性，业务目标通常表现为既定输入下的确定性结果。而 AI 原生应用则以 AI 智能为核心，强调由模型主动理解用户意图、自主调用外部工具，依托其处理复杂问题的能力实现业务目标，但输入与输出之间往往存在一定不确定性，从而对传统业务评估体系构成挑战。就二者关系而言，AI 原生应用在逻辑组织上仍延续传统应用的基本模式，但其业务流程并非通过代码预先编排，而是由 AI 动态驱动。

从设计模式来看，传统应用通常基于数据流与状态机进行构建，注重结构化的数据访问与存储、模块化/服务化的功能边界，以及基于 API 的能力扩展；而 AI 原生应用则围绕认知过程与交互流展开设计，聚焦于如何以自然语言有效引导 AI 理解意图、供给数据以突破 AI 静态训练的限制，以及拓展 AI 与外部环境交互的工具集合。

在需求实现层面，传统应用通常围绕明确的业务规则清单展开，按领域职能划分模块，业务规则与代码实现之间高度对应、精确匹配。AI 原生应用则构建与模型交互的数据管道及工具协同框架，其本身与具体业务解耦。面对实际需求时，开发重点首先在于评估模型能力，选定合适的 AI 基座，进而判断所需的数据与工具，以支持 AI 达成业务目标。业务规则在此过程中常作为模型的输入信息，而模型的输出结果未必与业务需求完全匹配。因此，如何有效引导 AI 实现业务目标，而非直接编码实现规则，是 AI 原生应用与传统应用在开发模式上的显著差异。

架构演进

对于传统应用，无论是单体、微服务还是云原生的弹性架构，核心还是以应用服务为中心的“接入层（负载均衡）-应用层（业务逻辑）-数据层（数据存储）”三层架构，其他组件均可视为对逻辑或数据进行补充的非必需中间件。

AI 原生应用从流量路径来说与传统应用一样都是分层架构，关键组件有所不同。AI 原生应用的业务逻辑由模型驱动，此时应用层的重心不是业务逻辑的直接实现，而是对 AI 调用的编排。自然地，以最基础的 AI 问答类应用为例，AI 原生应用是一个“接入层-AI 编排层-AI 能力层-数据层”四层架构，如下图所示。

严格意义上讲，这种模式还不能算是 AI 驱动的应用，只能算是 AI 的工具集成。此时的大语言模型像某个 RPC 服务，在特定的业务流程中被业务代码调用，只不过调用参数不是静态的，而是由提示词工程（Prompt Engineering）拼接。AI 驱动的应用也就是将业务诉求委托给 AI 处理，而大模型就像是一个只能踢一下动一下的“脑袋”，还需要给它装上“手脚”，让它自己能“跑”起来。故此，编排层将增加 AI 代理框架，负责任务规划和工具调用，如 SpringAI 和 MCP Client，外部工具则以 MCP Server 的方式提供。

大模型的基础预训练数据存在明确的时间截止点，导致模型天然无法获取截止点后的时效性知识与领域新增知识，进而出现知识过时和知识盲区问题。为了让 AI 能够正确理解业务领域的知识，并将知识持续保鲜，需要给 AI 外挂知识库，检索增强生成（Retrieval-Augmented Generation，RAG）技术正当其时。进一步地，AI 能力层增加 RAG 引擎，数据层增加向量数据库，如下图。

有了 RAG 的加持，AI 有了“知识”，但还没有“个性”。在面向用户的应用系统中，业务逻辑围绕用户行为构建，AI 不单纯是扮演系统，而是扮演每一位用户。让 AI 具有个性是对 AI 数据供给的不同层次，不同于 RAG 补充的业务领域知识和增量语料，个性的塑造材料是记忆类的数据：

短期记忆：会话级存续跨度，让 AI 在交互流中能保持连贯的认知，如当前会话前后问答的上下文；
长期记忆：用户级/应用级存续跨度，让 AI 在应用内能模拟用户的习惯，如行为偏好、历史观点等。

记忆不仅仅是存储，而是对信息价值的生命周期维护，主要有：

记忆检索：根据当前对话，从长期记忆中找出最相关的信息；
记忆更新：决定哪些新信息值得保存，以及如何保存；
记忆压缩：将多个相关记忆合并、摘要，避免信息爆炸；
记忆排序：基于使用频率和重要性对记忆排序。

基于前面的架构，增加“记忆管理器”，提示词工程将扩展成由“当前查询+RAG 结果+用户记忆”构成丰富上下文的上下文工程（Context Engineering）。

去向何方

当 AI 原生应用的基本架构尘埃落定，其技术焦点便从“如何构建”转向“如何稳健运营”。一个由动态、非确定的智能体驱动的系统，对其可观测性、能力评价、治理能力和工具生态提出了前所未有的要求。未来的技术与架构演进，不可避免地将围绕以下几个方面展开：

AI 可观测性：在传统微服务中，可观测性关注请求在服务间的流转路径，而在 AI 原生架构中，这还远远不够。AI 可观测性需要穿透大模型这个黑箱，揭示其内部的决策逻辑。

提示词与上下文的录制与回放：每一次 AI 调用所使用的精确提示词、注入的上下文（来自 RAG、记忆等），都必须被完整记录和版本化。这是诊断回答质量、优化问题输入的基石。
思维链的追溯：对于使用链式思维或复杂代理规划的场景，系统需要能记录并可视化 AI 的整个推理过程、工具调用的顺序与结果。这为排查幻觉或逻辑错误提供了依据。
成本与性能的精细化度量：将 Token 消耗、模型延迟、计费成本等指标与具体的业务请求、用户会话关联起来，实现成本的可追溯与可优化。

评估与对齐：所有技术设施都要服务于一个目标——确保 AI 的行为与业务目标持续对齐，这需要一个自动化的评估与优化闭环。

基于规则的自动化评估：对 AI 的输出进行自动化校验，例如，检查代码调用格式是否正确、回答是否包含敏感词、是否按要求输出了 JSON 等。
基于模型的评估：利用更强的模型作为“裁判”，评估其他模型或 AI 代理输出结果的质量、相关性与安全性。
持续反馈与微调：将评估结果、用户反馈与生产中的交互数据，形成一个持续的反馈环，用于优化提示词策略、调整 RAG 检索逻辑，乃至驱动模型的小规模微调。

AI 网关：随着应用内 AI 调用点激增且分散，一个统一的 AI 网关成为架构的必选项，它不仅是流量的入口，更是治理策略的执行点。

路由与版本控制：根据请求内容、成本或性能要求，将流量智能路由到不同的模型供应商或特定版本。支持 A/B 测试与灰度发布，实现模型升级的无感平滑。
限流、缓存与降级：对 AI 调用实施精细化的速率限制，防止成本失控。对常见问答实现响应缓存，大幅降低延迟与开销。在模型服务不可用时，具备优雅降级的能力。
安全与审计：作为统一关口，实施敏感信息过滤、输出内容审核，并记录所有 AI 交互日志以满足合规性要求。

MCP 服务生态：当 AI 代理的能力取决于其可调用的工具（MCP Server）时，这些工具的动态管理就成为了系统弹性的核心。

服务的注册与发现：MCP Server 需要向一个中心的注册中心上报其能力描述（Schema）。AI 代理或编排层通过查询注册中心，动态发现并调用当前可用的工具，实现工具的热插拔。
可用性与健康检查：注册中心需要持续对 MCP Server 进行健康检查，并将不可用的服务从可用列表中剔除，确保代理规划任务时不会因工具故障而失败。
版本管理与契约治理：管理 MCP Server 的多个版本，确保工具接口的变更不会破坏现有 AI 代理的调用，实现工具生态的平滑演进。

AI 原生应用的架构，正从解决“有无问题”的功能性组装，迈向解决“优秀问题”的系统性工程。前方之路，是构建一个高度自动化、透明可观测、且具备自我优化能力的智能系统基础设施。在这场竞赛中，比拼的将不再仅仅是模型的强弱，更是对这套复杂系统进行精细治理与运营的能力。

发布于: 刚刚阅读数: 5

原文链接:【http://xie.infoq.cn/article/c42c19c8fe427fef5cd8ee09c】。文章转载请联系作者。

陈一之

关注

靡不有初，鲜克有终 2017-10-19 加入

让时间流逝

发布

暂无评论

创作场景

AI 原生应用架构

所为何来

架构演进

去向何方

陈一之

评论