智能体进化发展了一年,现在的 RPA Agent 迭代到什么程度了?
智能体进化发展了一年,现在的 RPA Agent 迭代到什么程度了?
抓取豆瓣信息、自己制作 PPT,这款 AI Agent 真的实现了流程全自动化
AI Agent 构建到执行全自动化,持续进化 RPA Agent 再次降低智能体应用门槛
C 端 AI Agent 构建与应用实现端到端,这个智能体构建平台真的不一般
文/王吉伟
智能体的爆发,意味着大语言模型的快速落地与应用。所以它一经提出便如泄洪之水一发而不可收,直至现在如火如荼。
尤其是在智能体工作流(Agentic Workflow)的加持下,智能体表现出了更强的易用性和适应性。除了解决简单工作流的自动化,也在积极融合进入更多的传统业务流程和应用场景。
吉伟频道在《Agentic Workflow 新范式,基于大语言模型的工作流、业务流程、智能体大融合》一文中提到过,广义上的 Agentic Workflow 是包含传统软件(工具、解决方案)、大语言模型、AI Agent 等在内的新型业务流程的集合,其中用 RPA 等超自动化工具将轻量化 LLM 工作流与传统工作流相连接的工作流,将会成为企业业务流程的重要形式。
当前的 AI Agent 构建平台所构建的 AI Agent 通过各种插件和工作流已经可以做到较长的流程,但仍然无法操作没有 API 接口和没有开放 API 的大型以及遗留的企业级应用程序,并且 API 接口也不能保障绝对的稳定。
因此在智能体的应用上,用 RPA 来连接多种应用系统以保障数据的流通是不可或缺的,这对于已将 RPA 应用于企业运营人机交互层的组织来说则更加重要。
在企业级智能体的解决方案上,基于 RPA 构建的或者以 RPA 为 tools 的 RPA Agent 越发受到广大组织重视,原因正是它能够弥补单纯的 API 类智能体的不足,可以通过“API+UI”双重自动化极大提升智能体的应用潜力。RPA 已经成为智能体的重要技术,也是实现基于 LLM 的智能自动化的必要技术之一。
从去年 LLM 爆发以来,RPA\超自动化厂商们也都在持续进化,完成了 RPA Agent 的产品化进阶。那么它们进化到什么程度了?在王吉伟频道写这个选题期间,恰好实在智能发布了最新产品实在 Agent 7.0。这篇文章,我们就以这款产品为例,透视国产 RPA Agent 产品的发展情况。
先来看两个例子
在详细介绍实在 Agent 之前,先来看几个实际操作案例。
案例 1:采集豆瓣新片排行榜发送给同事
这是一个娱乐类的案例。如果你想为同事推荐最新的十部电影,过去需要打开豆瓣电影的新品排行榜,逐个复制电影名称,通过微信或者钉钉发送给朋友。现在使用实在 Agent,只需要打开软件,输入 「采集豆瓣电影片排行榜前十(电影名、评分)」,它就能自动分析你的需求并拆解成执行步骤,然后点一下 执行 ,它就会自动采集相关数据并把数据填入到钉钉,发送给你的同事。
案例 2:在腾讯文档制做年终汇报幻灯片
这是一个办公应用的案例。按照正常步骤操作这个业务流程,需要打开腾讯文档,搜索相关文档,再制作成 PPT。使用实在 Agent 智能体,只需要告诉它 「明天要去汇报,去腾讯文档里做一个叫年中汇报的幻灯片 」,它就会把你的需求拆解成相应的执行步骤,然后点击 执行 按钮,几分钟后就能在腾讯文档走出一个幻灯片。
除了这两个案例,实在智能还给王吉伟频道展示了获取百度贴吧前 10 个热门贴吧相关信息、京东关注商品降价通知发送、京东购物车商品结算等案例。
王吉伟频道还实际测试了 12306 查询车次、给微信好友添加标签及发送信息等应用案例,都能一一完成。实在 Agent 智能体预制了很多代表性案例,感兴趣的朋友可以亲自尝试。
据悉,目前实在 Agent 已经能够对钉钉、微信、企业微信等集成办公软件进行精确操作,并能通过屏幕识别技术对淘宝、京东、携程及 12306 等网站进行精确识别。
实在智能正在对更多的软件系统进行适配,以后大家需要操作的工作、生活及学习等业务流程,都能通过使用自然语言与实在 Agent 智能体交流实现相应业务流程的自动化,且这些 Agent 流程都是可以复用的,一次创建多次使用。
实在 Agent 7.0.0 有什么特点?
以上两个实操案例,来自于实在 Agent 7.0。新版 Agent 7.0 具备以下几个特点:
自然对话交互:“All in One”式助理工作体验;
意图理解、流程规划:更为强大的意图理解+流程精准拆解规划能力;
多代产品能力集成:实现一代 RPA、二代 IPA 数字员工元素拾取、组件、流程编排等全部能力集成;
软件界面精准操作:Agent 多模态屏幕语义理解,屏幕扫描识别,界面精准操作;
实在智能千亿参数训练的底层 TRAS 大模型也再次进化,训练参数量更大,支持自然语言沟通工作、科普知识,高效执行任务完成工作,对话工作两不误。
在智能问答方面,基于实在智能文档系统(IDP),能够给实现文件的精确问答及处理。
此外,该公司已经继续深入探索企业大模型、数字员工运营管理平台、RAG 和 Agentic Workflow 等技术和产品整合研究,实在智能创始人孙林君曾在 2024 年世界人工智能大会上提到“企业大脑”解决方案。
目前它们正在逐步推出企业知识库定制训练服务,通过 RAG 让 Agent 能够回答企业内部专属的知识内容和流程内容,让知识和流程资产创新价值。
之所以能做到这些,在于其对于技术和产品研发的执着,并且产研投入量极大。此次版本大更新花费近一年时间,深入更新迭代了底层较多技术架构、功能架构、RPA 组件等。
实在智能在 RPA 有 6 年技术沉淀,在 AI 有 6 年能力、人才等的积累,多年的技术沉淀、对市场需求的准确把握以及对技术走向的前瞻性预判,使得他们能够在 LLM 与 AI Agent 爆发之后先一步扛起 RPA Agent 的行业大旗。
作为国内首家发布明确意义上的 AI Agent 智能体的公司,实在智能的系列产品已经先一步实现依据个人诉求生成工作流程、识别工作环境(浏览器、网页、通讯软件、工作软件等)、自主执行任务及流程,在保证智能体能够在 B 端为广大组织提供企业级服务的同时,也用标准化、易用化的产品进入 C 端市场服务更多个人用户。
与 Coze 等 Agent 平台有什么区别?
看了上面两个案例,是不是感觉使用实在 Agent 超级简单?
没错,使用实在 Agent 智能体的全部流程仅是 「输入需求-点击执行-收到结果」 这么简单,完全不用考虑其他操作,实现了软件使用上的端到端。理论上,随着软件的不断迭代,这种端到端的方式可以做到任何业务流程的自动化创建和自动化执行。
提及智能体,目前大家更熟悉的可能是 Coze、Dify、GPTs 等平台上用户所创建的各种智能体。从上面的案例大家应该能够体会到,实在 Agent 与它们最大的区别是在智能体构建上几乎不需要人为参与(流程中断时需要人为干预),都由实在 Agent 自行完成。
其他平台的 Agent 构建方式是:人力构建智能体,智能体自动化执行任务。实在 Agent 的构建方式则是:自动化构建智能体,智能体自动化执行任务。这种方式,实现了从构建到执行的全自动化。
所以,在使用实在 Agent 智能体时,用户不用再像在 Coze 等平台一样通过输入提示词、选择插件、搭建工作流等操作去构建一个智能体,极大地节省了用户构建应用的时间(自动化构建可以让用户忙其他事情),并进一步降低了智能体的构建门槛,真正实现了一句话构建智能体,所想即所得。
此外,想要在智能体平台构建能够深度操作钉钉、微信等智能体,没有相应的 API 接口是无法实现的,且平台生态之间的 API 还存在着一定的连接安全性、限制性等问题,通过 RPA 模仿人类操作的形式则完成杜绝了此类问题的发生。
端到端这个术语经常应用于 B 端企业级技术解决方案,主要强调技术、方案、流程及系统的完整性,也更强调产品应用的易用性和广泛性。
实在智能的端到端,一方面可以理解为从 B 端到 C 端。因为实在智能要做的,不仅是能在 B 端为企业提供专业级的 Agent 数字员工解决方案,更要在 C 端为个人用户带来解决长尾低频自动化需求的智能助理。从全新的实在 Agent 7.0 来看,他们做到了。
另一方面,还可以理解为 C 端的技术实现。实在 Agent 把“端到端”的技术特点和便捷特性赋予了智能体的 C 端构建与应用,把“RPA 人人可用”的愿景进一步拓展为”Agent 人人可用”。在 LLM 的加持下,这个愿景将会快速变为现实。
2023 年 8 月,随着实在 Agent 智能体的面世,实在智能成为国内首家发布 AI Agent 智能体的 AI 科技公司。2024 年 8 月,实在 Agent 7.0 发布后,实在智能再次成为 RPA 业界首家推出 Agent 产品形态的 AI 科技企业。
而这个进程,仅用了 1 年。
【王吉伟频道,关注 AIGC 与 IoT,专注数字化转型、业务流程自动化与 AI Agent,欢迎关注与交流。】
版权声明: 本文为 InfoQ 作者【王吉伟频道】的原创文章。
原文链接:【http://xie.infoq.cn/article/c3eff6ca07ffbd9504d44dd68】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论