AI Agent：未来高效螺丝钉，谁用得好，谁先赚到钱

2024-12-13
北京
本文字数：1755 字
阅读完需：约 6 分钟

随着大语言模型的日益火爆，各行各业都想把 AI（人工智能）接入自己的业务场景，但“AI+行业”这条路该如何走？现有的大语言模型虽然能力很强，能理解的知识面也很广，但它就像一个光杆司令，只能回答人们提出的问题，无法实际执行各项任务。与之相反，AI 工具（当然也包括其他软件、程序等）虽然可以执行各项任务，但其并不是 Agent，通常需要人们预先定义好参数、设置好流程，然后才能执行实际的任务。

总之还需要人参与到实际任务中，并不是真正意义上的全流程自动化。那么能否将大语言模型与 AI 工具结合在一起，让大语言模型自己使用各种各样的外部工具来完成任务呢？（就像人一样，不仅拥有大脑，还具备双手来使用各种工具，从而完成不同业务场景的任务。）目前的答案只有一个词，那就是 Agent。

Agent 又被称为“代理”或“智能体”，顾名思义，Agent 可以作为一个具有智能的实体完成一些工作，以类似人类的智慧解决一些常见的问题。截至目前，Agent 仍在不断发展进化，有人认为它是人类某种能力的化身，也有人认为它是某个专家系统的知识输出。

例如，当我们工作繁忙时，需要有一个助理帮忙收集每条消息，并将消息汇总后告诉我们其中的重要事项；它还可以是写作专家，指导我们撰写专业领域的文章。吴恩达教授在分享 Agent 的最新趋势和洞察时，表示 Agent 的工作流程与传统基于大语言模型的 Agent 工作流程不同，该工作流程具有更强的迭代性和对话式，所以现阶段主流趋势的 Agent 是结合专家工作流程的工程体系，如图 1-1 所示。在具体的业务中，Agent 想要完成具体的事务，需要通过感知、思考、动作、记忆这 4 种能力形成工程体系。

感知：能获取周围环境的信息，如用户输入的数据、上传的照片，或者一个网页链接，感知就是能够理解用户的输入。

记忆：Agent 做过什么事，得到过什么样的反馈，中间经历了哪些过程，Agent 都需要记住，后面在做决策的时候还会参考之前的记忆，人类能“吾日三省吾身”，它也可以！

决策：现在 Agent 配置了很多工具，它需要知道什么时候用什么工具，通过调用不同的工具来完成用户交给它的任务。

反馈：这一次跌倒，下一次还要再跌倒吗？既然有记忆，就要根据记忆进行反思，接下来做这件事的时候是不是该优化一下了。

工具调用：常见的方式就是使用 API，让 Agent 具备各种各样的能力，并且可以让它根据感知和记忆的信息来填写其中的参数，从而实现自动化。

大语言模型：Agent 是如何完成感知、记忆和决策的呢？这些事都需要交给“大脑”，也就是大语言模型。

多 Agent 协作：单兵作战是可以完成一些工作的，但是面对复杂业务，就需要多个角色通过交互和分析来一起完成相应工作。

Agent 框架理念

在 Agent 框架中，代理模块是核心部分，负责接收和处理外部系统发送的指令，并根据这些指令执行相应的操作。同时，它作为系统的“大脑”，负责协调系统内部的各个模块，确保整个系统的正常运行。通信模块则负责系统内部各个模块之间，以及内部系统与外部系统之间的通信。它可以被视为系统的“神经系统”，负责传递消息，确保系统内部各个模块之间的协调和合作。

Agent 框架的核心理念是通过 AI 和机器学习技术来简化开发过程。开发人员只要提供一些基本的指令或规则，Agent 框架就能够根据这些指令或规则自动构建应用程序，从而极大地提高开发效率。

以 AutoGPT 为例，该框架通过集成 GPT-4 等大语言模型，实现了强大的自然语言处理（Natural Language Processing，NLP）能力，能够理解和解析复杂的指令，并根据这些指令自动拆解相应的任务来执行。在这个过程中，Agent 可以独立访问和处理信息，理解和应用复杂的规则，甚至生成具有创意和渲染力的文本，如图 1-4 所示。