AI Agent:未来高效螺丝钉,谁用得好,谁先赚到钱
随着大语言模型的日益火爆,各行各业都想把 AI(人工智能)接入自己的业务场景,但“AI+行业”这条路该如何走?现有的大语言模型虽然能力很强,能理解的知识面也很广,但它就像一个光杆司令,只能回答人们提出的问题,无法实际执行各项任务。与之相反,AI 工具(当然也包括其他软件、程序等)虽然可以执行各项任务,但其并不是 Agent,通常需要人们预先定义好参数、设置好流程,然后才能执行实际的任务。
总之还需要人参与到实际任务中,并不是真正意义上的全流程自动化。那么能否将大语言模型与 AI 工具结合在一起,让大语言模型自己使用各种各样的外部工具来完成任务呢?(就像人一样,不仅拥有大脑,还具备双手来使用各种工具,从而完成不同业务场景的任务。)目前的答案只有一个词,那就是 Agent。
Agent 又被称为“代理”或“智能体”,顾名思义,Agent 可以作为一个具有智能的实体完成一些工作,以类似人类的智慧解决一些常见的问题。截至目前,Agent 仍在不断发展进化,有人认为它是人类某种能力的化身,也有人认为它是某个专家系统的知识输出。
例如,当我们工作繁忙时,需要有一个助理帮忙收集每条消息,并将消息汇总后告诉我们其中的重要事项;它还可以是写作专家,指导我们撰写专业领域的文章。吴恩达教授在分享 Agent 的最新趋势和洞察时,表示 Agent 的工作流程与传统基于大语言模型的 Agent 工作流程不同,该工作流程具有更强的迭代性和对话式,所以现阶段主流趋势的 Agent 是结合专家工作流程的工程体系,如图 1-1 所示。在具体的业务中,Agent 想要完成具体的事务,需要通过感知、思考、动作、记忆这 4 种能力形成工程体系。
感知:能获取周围环境的信息,如用户输入的数据、上传的照片,或者一个网页链接,感知就是能够理解用户的输入。
记忆:Agent 做过什么事,得到过什么样的反馈,中间经历了哪些过程,Agent 都需要记住,后面在做决策的时候还会参考之前的记忆,人类能“吾日三省吾身”,它也可以!
决策:现在 Agent 配置了很多工具,它需要知道什么时候用什么工具,通过调用不同的工具来完成用户交给它的任务。
反馈:这一次跌倒,下一次还要再跌倒吗?既然有记忆,就要根据记忆进行反思,接下来做这件事的时候是不是该优化一下了。
工具调用:常见的方式就是使用 API,让 Agent 具备各种各样的能力,并且可以让它根据感知和记忆的信息来填写其中的参数,从而实现自动化。
大语言模型:Agent 是如何完成感知、记忆和决策的呢?这些事都需要交给“大脑”,也就是大语言模型。
多 Agent 协作:单兵作战是可以完成一些工作的,但是面对复杂业务,就需要多个角色通过交互和分析来一起完成相应工作。
Agent 框架理念
在 Agent 框架中,代理模块是核心部分,负责接收和处理外部系统发送的指令,并根据这些指令执行相应的操作。同时,它作为系统的“大脑”,负责协调系统内部的各个模块,确保整个系统的正常运行。通信模块则负责系统内部各个模块之间,以及内部系统与外部系统之间的通信。它可以被视为系统的“神经系统”,负责传递消息,确保系统内部各个模块之间的协调和合作。
Agent 框架的核心理念是通过 AI 和机器学习技术来简化开发过程。开发人员只要提供一些基本的指令或规则,Agent 框架就能够根据这些指令或规则自动构建应用程序,从而极大地提高开发效率。
以 AutoGPT 为例,该框架通过集成 GPT-4 等大语言模型,实现了强大的自然语言处理(Natural Language Processing,NLP)能力,能够理解和解析复杂的指令,并根据这些指令自动拆解相应的任务来执行。在这个过程中,Agent 可以独立访问和处理信息,理解和应用复杂的规则,甚至生成具有创意和渲染力的文本,如图 1-4 所示。
在应用层面,Agent 框架不仅可以改变人们处理重复和单调流程的方式,提高工作效率,还可以帮助企业进行市场研究,理解用户需求和竞争对手的动态。更重要的是,它能够帮助人们生成关于各种情况的假设,为决策提供有力支持。
咱们不仅要从概念上理解 Agent,还要动手做一些实际业务场景的应用,如果你想亲手打造一个属于自己的智能小助手,那么这本《AI Agent 应用与项目实战》绝对能成为你的实战手册!
书中内容包括使用各种 Agent 框架实现实际的业务需求,以及外部工具的调用、大语言模型的微调、本地知识库的搭建,从而理解构建 Agent 的全流程。接下来就一起动手来构建 Agent 吧!
评论