第三章 感知、思考与行动的闭环
世界的结构:智能体为什么需要“循环”?
如果你站在城市高楼上向下看,会发现所有生命都以某种循环方式存在:人群流动、天气变化、车辆起停、光影往返……这些都是由感知、判断、反馈构成的自然节律。
生命不是线性的,生命是循环性的。
当我们开始构建 Agent,我们真正面对的问题不是:
如何让 AI 更聪明?
而是:
如何让 AI 活起来?
一个能够完成任务的智能体,其行为从来不是直线,而是不断重复、不断修正的循环:
感知(Perceive) → 思考(Think) → 行动(Act) → 再次感知(Observe) → 再次思考……
这个循环,就是智能体的“心跳”。本章将围绕这一生命机制展开,解释它如何形成、如何运作,以及为什么它是 Agent 的本体核心。
一段故事:当 AI 第一次“意识到”世界在变化
让我们从一个案例说起。
有个人让 AI 帮他监控某款相机的价格。AI 很聪明:它会每天执行一次查询,把结果记录到一个表格里,并自动推送给他。
但有一天,AI 没有推送更新。他以为 AI 出错了。
但事实不是——AI 并没有“坏掉”。它只是“判断”昨天与今天的数据一样,于是:
“无需重复推送。”
再后来,他让 AI 帮他跟踪货物配送路径。AI 又一次“跳过”了提醒:
“包裹今天没有移动,我不想打扰你。”
更神奇的是有几次 AI 会主动发消息给他说:
“今天包裹的状态变化频繁,我建议你关注一下。”
这时他突然意识到:
AI 正在以“行为体”的方式理解世界。它不再是执行一个固定指令,而是在实时感知环境、判断必要性、自动调整行为。
这是智能体与传统脚本最大的区别。
脚本执行的是任务。
Agent 执行的是“对环境的回应”。
这就是循环的力量。
PEAS:智能体世界观的基础地图
在构建 Agent 之前,有一个经典框架必须介绍,那就是 PEAS:
P (Performance):任务成功的指标
E (Environment):Agent 所处的环境
A (Actuators):它能够采取的行动
S (Sensors):它能够获得的信息
这是智能体行为学最基本的概念。但 LLM Agent 让这个模型第一次变得“贴近现实”。
例如,一个“旅行规划 Agent”的 PEAS 可能是这样的:
Performance:路线清晰、预算合理、风险最低
Environment:网上的旅行数据、天气、交通、你的偏好
Actuators:搜索信息、调用 API、撰写报告、发送通知
Sensors:你给出的目标、网站信息、工具返回值
这个结构非常重要,因为它告诉我们:
智能体的行为不是由模型决定,而是由它所在的“世界”决定。
如果你给 Agent 一个简单世界,它就简单行动;
如果你给它一个复杂世界,它就会表现出复杂的行为。
而智能体的循环,就是让 AI 与世界持续互动的方式。
现代智能体循环:Thought → Action → Observation
让我们把智能体的循环拆成三部分。
1. 思考(Thought)
“我现在知道些什么?我应该做什么?要不要查验上一步的结果?目前的计划是否需要调整?”
2. 行动(Action)
调用工具
搜索信息
操作文件
发送请求
执行任务
3. 观察(Observation)
工具返回了什么?
出现错误了吗?
需要根据新信息重新规划吗?
这三个步骤形成闭环,周而复始。
举一个极简例子:
任务:帮我查明天东京的天气
循环如下:
Thought:需要查询天气 → 选择工具
Action:调用 weather API
Observation:收到天气数据然后再进入
Thought:是否需要进一步解释?
Action:整理结果
Observation:输出
这就是 Agent 的“呼吸节奏”。
而这一节奏,是 Agent 与传统应用最大的差别。
传统应用是“执行完就结束”。
Agent 是“持续活着”。
为什么智能体必须“感知”环境?
在没有感知的世界里,AI 的行为是静态的。无论外界变化,它都执行同样的指令。
但有了感知之后,它的行为出现了质变:
1. 能自动判断复杂情况
例如:
“这个酒店价格波动太大,我等一天再订。”
“这个数据不可信,我需要换一个来源。”
2. 能主动提醒而不是被动响应
“你昨天修改的文档被他人也改了,我建议你看看。”
“你今天摄入的热量过多,建议减少晚餐。”
3. 能形成长期的任务意识
今天价格下降
明天价格回升
后天价格稳定
AI 能“理解趋势”,而不是理解单点数据。
4. 能在世界变化时改变计划
如果你告诉它:
“帮我订一张去北京的票。”
它能根据:
机票余量
价格
天气
高铁是否延误
你过去的出行偏好
做出不同的行动策略。
这样的智能不来自于模型,而来自于“环境反馈”。
环境越复杂,Agent 越有生命感。
任务,不是问题:智能体的“行为单位”
我们常常觉得 AI 是“回答问题”的工具。
但 Agent 的行为单位不是“问题”,而是“任务”。
问题(Question)是静态的。
任务(Task)是动态的。
例如:
你问:
“帮我查 5 家便宜的酒店。”
这是一个“问题”。
但如果说:
“帮我规划北京 5 日游的全部住宿,根据当天活动选择最方便的酒店,并结合预算、位置、评分、过往偏好动态调整。”
这就是“任务”。
任务是:
可分解的
可执行的
可观察的
有反馈的
有目标的
涉及时间与状态的
而智能体正是以“任务”为单位运作。
任务本身就需要一个循环去完成。这也是为什么 LLM Agent 必须有循环。
没有循环,它永远只能回答问题,而无法完成任务。
环境驱动行为:AI 的“行为生态学”
行为科学中有一个概念叫“生态位(niche)”,指一种生物在环境中的适应方式与行为模式。
智能体其实也有“数字生态位”。
举例来看:
搜索 AI 的生态位
环境:海量网页
行为:抓取 → 对比 → 总结
财务 AI 的生态位
环境:账单、预算、交易历史
行为:分析 → 预测 → 建议
行程规划 AI 的生态位
环境:地点、路线、天气、交通、价格
行为:优化 → 决策 → 输出
AI 的行为完全受环境定义。
模型提供能力,
环境提供“意义”,
循环提供“生命”。
当你改变它的环境,你就改变了它的行为方式。
一个智能体不是“放在那里就能用”,它需要“在环境中存在”。
这就是“行为生态学式 AI”的核心思想。
AI 开始具备“对比”与“后悔”的能力
智能体循环出现后,有一种新的行为悄然诞生:AI 会后悔。
什么意思?
例如:
你让它完成一个写作任务,工具返回错误。它会说:
“这一步写得不够好,我需要重新生成。”
这不是预设脚本,而是循环中自发的决策。
“后悔”意味着:AI 能进行对比。
对比意味着:AI 能意识到标准。
意识到标准意味着:AI 有一个“行为评价体系”。
这在计算机史上是第一次。
过去的软件没有“后悔”的概念,它只有“失败”或“成功”。
但智能体有了“偏差”与“修正”。
这是一种行为学能力,而不是语言能力。
为什么 Agent 是“活在循环里”的?
智能体真正存在的地方,不是模型内部,而是“循环的过程”中。
一个 Agent 的“存在”包含:
状态
上下文
目标
真实世界反馈
工具结果
动态变化的环境
连续的推理链
它不是“一次生成”,而是“多次生成”;
不是“静态推理”,而是“动态反思”;
不是“一次写作”,而是“长期陪伴”。
智能体不是文件,不是对话,不是一次输出,它是一种持续的行为。
就像火只能存在于燃烧中,Agent 只能存在于循环里。
案例:一个简单指令如何变成一个复杂行为系统?
让我们模拟一个完整示例。
你给 Agent 一个指令:
“帮我写一篇北京 5 日游攻略。”
传统 AI 会直接写文章。
但 Agent 会这样运行:
步骤 1:感知环境(Perceive)
你的位置
天气
预算暗示
你历史偏好
旅行时间
旅行人数
步骤 2:思考(Thought)
是否需要分日规划?
是否需要查天气?
是否需要查交通?
是否需要查景点开放时间?
Agent 自己决定。
步骤 3:行动(Action)
调用天气 API
查询景点开放情况
根据你偏好筛选路线
计算通勤时间
生成初版规划
步骤 4:反思 Observation
路线是否逻辑合理?
花费是否超预算?
是否需要多个版本?
步骤 5:再次行动 Action
调整路线
优化预算
输出两版规划
写成攻略
步骤 6:主动问你
“你更喜欢文化体验还是美食?要不要我帮你预订门票?”
这才是真正的智能体行为。
这是一条完整的生命周期(Lifecycle)。
而不是“生成一篇文章”。
小结:循环是 Agent 的灵魂
本章你已经看到:
模型提供“能力”
工具提供“手段”
环境提供“意义”
任务提供“方向”
循环提供“生命”
Agent 是在循环中“活着”的。
循环让它:
具备目的性
具备场景理解
能适应变化
能纠错
能持续成长
能处理长期任务
这就是为什么一个真正的 Agent 必须被设计为一个“行为系统”,而不是一个“对话模型”。
版权声明: 本文为 InfoQ 作者【愚夫】的原创文章。
原文链接:【http://xie.infoq.cn/article/23ad88982eea13c07739c4462】。文章转载请联系作者。







评论