写点什么

AIGC 如何借 AI Agent 落地?TARS-RPA-Agent 破解 RPA 与 LLM 融合难题

作者:王吉伟频道
  • 2023-08-23
    山东
  • 本文字数:7234 字

    阅读完需:约 24 分钟

AIGC如何借AI Agent落地?TARS-RPA-Agent破解RPA与LLM融合难题


  • 融合 LLM 的 RPA 进化到什么程度?

  • AIGC 如何借 AI Agent 落地?

  • 像生成文本一样生成流程的 ChatRPA,能够提升 RPA 新体验?

  • 边探索边创建的 ChatRPA,能否破解 RPA 与 LLM 融合难题?

  • AI Agent 模式的 TARS-RPA-Agent,对超自动化有什么意义?


文/王吉伟


大语言模型(LLM,Large Language Model)的持续爆发,让 AIGC 一直处于这股 AI 风暴最中央,不停席卷各个领域。

在国内,仍在雨后春笋般上新的大语言模型,在持续累加“千模大战”大模型数量的同时,也在不断填补垂直大语言模型在各个领域的空白。

每个领域都会有自己的大模型,每个领域都会有厂商推出自有模型。更多的 LLM,让 AIGC 以更迅猛的速度进入并影响更多业务场景。

AIGC 并不只有 C 端用户所看到的用 AI 工具生成文字、图画、视频等各种内容,还有 B 端的用 AI 直接生成以及驱动管理系统生成各种可执行的业务流程。


相对于 C 端产品直接引入生成式 AI 或者部署开源模型就能搞定,B 端产品要在引入、部署及自研 LLM 的基础上做更多的训练、微调与优化等,才能保证 LLM 能够与已有产品更好的融合,以更好地发挥各自所长。

一旦 LLM 与企业管理软件融合好,便意味着大模型的顺利落地。而大语言模型的私有化部署能力,往往意味着厂商们更大的商机。

这样,LLM 与企业管理软件的融合成了重中之重。发布领域大模型与提供私有化部署,也成了广大 B 端厂商主流做法,更使得能够代替用户和大模型进行交互的 AI Agent ,在 Prompt 系统工程之后成了香饽饽。

当前,AI Agent 已是公认大语言模型落地的有效方式之一,它让更多人看清了大语言模型创业的方向,也让投资者们更加看好 LLM、Agent 与已有企业管理软件的融合应用。

在这其中,因为 RPA、低代码等技术在自动化方面的天然属性,并且自然语言交互能够为其带来相当的质变,能够为客户端到端自动化的超自动化如何与 AI Agent 融合,也成了很多投资机构重点关注的领域。


说到这里,有人可能会问:超自动化与 LLM 的融合进展到了什么程度?有没有厂商在做 AI Agent 方面的尝试?产品体验如何?

恰好最近实在智能正式发布了 TARS 大模型,并在业界首发了基于大模型的 Agent 产品 TARS-RPA-Agent。同时为了搞明白这款产品,发布会后王吉伟频道还做了专访。

本文就以这款产品为例,跟大家聊聊上面的几个问题。

基于大模型的产品级 Agent:TARS-RPA-Agent

看到 Agent,很多人会想到 AI Agent 及其代表作 AutoGPT。

AutoGPT 是一个基于 ChatGPT 的工具,能帮你自动完成各种任务,比如写代码、写报告、做调研等等。只需要告诉它要扮演的角色和要实现的目标,它就能利用 ChatGPT 和谷歌搜索等工具,不断“思考”如何接近目标并执行,还可以看到它的思考过程。


AutoGPT 会根据用户提出的目标制定并自动化执行完整计划,解决了被大多数人所诟病的“与 LLM 交互过程中的无效提问及反馈”等诸多问题。

AutoGPT 的火爆,也让 AI Agent 快速出圈。

AI Agent 是指人工智能代理(Artificial Intelligence Agent),是一种能够感知环境、进行决策和执行动作的智能实体。它通常基于机器学习和人工智能技术,具备自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。

LLM 擅长处理和生成文本,但只有给它输入才会产生输出,仍然是一种被动使用模式。AI Agent 则提供了更广泛的功能,尤其是在与环境的交互、主动决策和执行各种任务方面。

AI Agent 以 LLM 为大脑,再赋予任务规划能力、长短期记忆力、工具使用能力,即可实现自动化处理更复杂的任务。简单来说,AI Agent 基于 LLM 驱动 Agent 实现对通用问题的自动化处理。


AI Agent 具备独立的思考和认知功能、拥有记忆,能进行思考、逻辑推断和自我反思,可以阅读和在线学习,擅长利用适当的工具处理问题,还能策划并根据实际情况调整任务的优先级。

可以说,AI Agent 为 LLM 提供了行动能力,真正释放了 LLM 的潜能。

那 RPA 与 AI Agent 结合,会有什么样的化合反应呢?

这次实在智能业界首发的 TARS-RPA-Agent,正是一款 AI Agent 类 RPA 产品。

但需要说明的是,与 AutoGPT 只提供智能体框架不同。实在智能创始人兼 CEO 孙林君(阿宝)告诉王吉伟频道,TARS-RPA-Agent 是一个真正的产品级 Agent,是普通用户不需要部署就能方便使用的大语言模型智能体。经过技术优化以后的 Agent 产品,不会在使用时陷入逻辑上的死循环,也不会过度消耗 tokens。

前文讲过 AI Agent 的核心是 LLM,TARS-RPA-Agent 所依赖的 LLM 是实在智能基于通用大模型基座的自研垂直“塔斯(TARS)”大模型。

TARS 大模型具备优异的文本生成、语言理解、知识问答、逻辑推理等主流能力。

其中,实在智能与湘财证券共建的“自研、有效、安全、可信任、可落地”的财经行业大模型 TARS-Finance-7B,保留了生成式大模型的通用技能,并在金融财经领域得到了显著的加强和提升,在多个中英文的通用基准测评集和财经领域基准测评集上均取得良好成绩。

简单来讲,TARS-RPA-Agent 是一个基于“TARS+ISSUT(智能屏幕语义理解)”双模引擎、有“大脑”,更有“眼睛和手脚”的超自动化智能体,是能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验的 RPA 全新模式产品。

TARS-RPA-Agent 采用以 TARS 大模型和 ISSUT 智能屏幕语义理解为基座的技术框架。该技术框架分为两层结构:底层是包括通用基础模型和各个垂直行业基础模型在内的 TARS 系列大模型和智能屏幕语义理解技术;上层是依托这两项关键技术完成全面升级和改造的超自动化产品。

能够在 AI Agent 盛行不久便能打造出 AI 智能体产品,得益于长期的技术沉淀与经验积累。自推出 RPA 产品至今天发布 TARS-RPA-Agent,实在智能的产品体系已经历三次重要迭代:

2018-2021 年,实在第一代专家模式 RPA,实现可视化拖拉拽构建数字员工。

2021-2022,实在第二代简易模式 IPA,基于首创 ISSUT 智能屏幕语义理解技术,跳出 IDE 技术模式,开启全球首个点选用模式 RPA。

2022-2023,实在第三代对话模式 RPA(ChatRPA),结合大语言模型基础,实现超自动化 Agent,打造业界首款计算机视觉与大语言模型结合的智能体产品,以全新体验人机交互开启对话式流程创建时代。


正是因为多年的持续创新与不懈努力,使得实在智能 TARS-RPA-Agent 模式 ChatRPA,成为国内首个基于大语言模型和智能屏幕语义理解的产品级 Agent,真正实现流畅的对话式生成业务流程,因此一经发布就得到了业内外的广泛关注。

说了这么多,产品体验如何呢?不要急,下一节就会讲到。

像生成文本一样生成流程

在采访中,实在智能演示了几个案例。

其中一个是 web 端案例,演示如何通过与 TARS 对话,ChatRPA 自动创建在京东查询商品数据的流程。

在新建流程的对话窗口输入“查询京东中最畅销的电视机”,提交以后塔斯反馈了流程创建的两个执行计划。在计划详情中可以查看每个计划的执行步骤,还可以通过多轮对话修改以创建更复杂的流程。点击执行后,ChatRPA 就会进入 IPA 模式按计划的详情步骤开始执行。


遇到不能执行的步骤,只需要人工通过继续对话或者按照提示点击相应页面元素,流程就能持续创建,全流程基本都是自动化创建,人工参与的部分已经很少。

并且,还可以在流程执行完毕的基础上,通过对话继续增加新的执行计划以完善流程。

在演示中,最后增加了一轮对话:将商品名保存到桌面 TXT 文件中。提交以后,ChatRPA 会按照新的计划继续执行。

实在智能产品专家拓海告诉王吉伟频道,最后这个计划看起来简单,实则体现了 ChatRPA 的两个能力:一是逻辑推理能力,它能够将之前各个组件变量的逻辑关系进行串联;二是代码生成能力,在没有基础组件的流程步骤中它可以直接生成一段代码,并把这个代码封装成为自建组件。

重点在于,这个组件是可以复用的,以后在流程创建中有需要的时候可以随时调用这个组件。


在王吉伟频道看来,对于没有编程能力的普通用户而言,之前只能围绕已有组件去做各种形式的流程实现,确实比较复杂。现在基于大语言模型的 ChatRPA 具备了“遇河搭桥”的能力,在没有组件可调用的情况下直接生成一个组件,进而保证流程的创建与执行。

这就相当于用户在创建流程的时候身边有个具备业务能力的程序员在做指导,总能以最简单最优化的方式帮助用户去实现各种流程的创建与执行。所以,理论上已经没有任何流程的创建能够难住 ChatRPA。并且随着不断的数据喂养与加强学习,以后它还能生成更复杂的组件以创建复杂的长流程。

组件是可以复用的,流程也是一样的。

阿宝告诉王吉伟频道,流程并不是一下就生成的,TARS-RPA-Agent 会不断修改用户意图,不断完善流程,流程可以越做越复杂,最后会变成一个高可用的标准流程。


简单地讲,让基于大语言模型的 RPA 自动创建流程主要分为两步:第一步是分析操作对象界面元素,第二步是在流程步骤中填充需要被操作的元素。

在阿宝看来,大语言模型本质上是一个语言模型,它能够分析逻辑,却看不到要操作的对象。而通过计算机视觉告诉 LLM 操作对象在哪里,它就可以进一步去操作各种对象驱动 RPA 去创建各种流程。

所以,TARS-RPA-Agent 与其他 Agent 的不同之处在于,目前大多数 AI Agent 产品仍是基于语言模型的综合应用,而 TARS-RPA-Agent 是计算机视觉和大模型的结合。这在全球 Agent 领域也是不多见的,更是 RPA 领域的首创。

能够实现这一点,更得益于实在智能很久之前就布局的智能屏幕语义理解技术。

拓海告诉王吉伟频道,过去的 IPA 模式,用户可能还得根据 AI 推荐去找一些需要被操作的对象元素。TARS-RPA-Agent 则更进一步,不需要去指定元素,只需要告诉模型要操作的目标是什么,它刷一下当前的屏幕,就能根据屏幕语义理解意思,直接命中目标元素。

如果没有命中的话,则需要一些人机协助填充目标。并且在协助过程中,TARS-RPA-Agent 能够记住这些元素及操作,逐步优化语义理解,让流程及组件复用性更高。


此外,TARS-RPA-Agent 还实现了语音流程创建的体验大提升。

通过对话机器人+RPA 进行语音对话式 RPA 流程创建,已经是比较常见的解决方案。现在市面上不乏接入天猫精灵、小度等语音机器人调用 RPA 的产品。但这种应用需要建立在已经创建好的流程基础之上,需要先以人工方式创建好流程,才能实现以对话机器人调用流程。

TARS-RPA-Agent 的不同之处在于,用户只需要对机器人说出需求,机器人即可完成即时的流程搭建和执行,而不再需要提前创建流程,真正实现即时场景的“你说机器人做”。

整体演示下来,给王吉伟频道的感觉是,结合 AI Agent 及屏幕语义理解技术的 ChatRPA,真的实现了像生成文本一样生成流程,使用体验得到倍数级提升。尤其是通过语音即时创建与执行流程,已经初步有了《钢铁侠》中托尼使用 AI 助理塔维斯即时执行任务的感觉。

“边探索边创建”流程生成方式

ChatRPA 能够实现流畅的对话生成自动化流程,也体现了实在智能对于产品的几点思考:

首先,入口要好找,方便进入,可根据场景需要可随时唤起;

其次,使用要灵活,不仅能将一个任务完整的自动化流程规划生成出来,还能应对复杂特殊的场景,能够生成代码组件,也能保持和发挥大模型的特色,具有广阔知识的查询和建议生成能力。

再者,所生成的流程要能够工业化应用,就需要容忍模型的不完整,必须支持人机协同,也就是可对流程进行修改、增加、删除,当然最基本的要求,可直接运行。


正是这些思考,使得实在智能没有走“全流程一次生成”的路子,而是采取了一种“边探索边创建”的递进式流程生成方式。

要知道,流程中的各种元素是时刻在变的,所以流程创建也应该以一种更灵活的方式实现中途修改,需要每一步都结合用户的意图去探索性的操作,不然就会出现一次生成完整流程而不能使用或者经过大量修改才能使用的情况。

在这个基础上,TARS-RPA-Agent 不但实现了单步寻优,还做到了把每一步的执行过程和结果都展示和反馈出来。

事实证明,只有“边探索边创建”的模式,才能让 RPA 真正融合 LLM 并发挥真正的作用。

而为了开发一款真正意义上的 RPA/超自动化 Agent,实在智能至少克服了包括打造“边探索边创建”模式在内的四重挑战。

“你说,TArs 做”背后的四重挑战

这次发布会的主题是:RPA 新境界—你说 TArs 做。

这个主题,也映射了实在智能在 TARS-RPA-Agent 的终极目标是“你说,PC 做”,要真正实现包括流程创建等各种业务处理的“所说及所得”。

我们已经知道,TARS 大模型在语义理解、内容生成、多轮问答、信息抽取等方面具有独特优势和强大能力。要实现这个目标,是不是把 TARS 的能力接入到 RPA 中就够了?是不是大模型就能直接为生成流程、完成工作?

经过一系列论证与测试,在实在智能看来,想要实现“你说,TArs 做”这个目标,并不是简单结合就可以的。


想要让 TARS 听得懂人话并完得成各种任务,至少面临四重挑战:

挑战一:不能自主拆解任务。实际场景中的复杂指令往往蕴含在简洁的语句当中,想要 TARS-RPA-Agent 既能接任务又能做任务,无法依靠大模型生成一段 Python 代码或简单调用几个 RPA 组件就能实现,而是需要它理解指令并拆解成可执行的子任务和步骤。

挑战二:无法感知当前环境。TARS-RPA-Agent 必须对周边的环境有充分的认知、理解和交互,知道它是谁以及它在哪。

在 RPA 领域中,TARS-RPA-Agent 所处的周边环境也就是运行流程的那台电脑,以及所要操作的各种网页、软件和电脑屏幕等。单纯依靠一个大语言模型做不到这一点,它需要超越语言大模型技能之外的、真正人类视角的操作对象理解能力。

挑战三:不能边执行边反馈。任务执行应该随地关注任务的进度如何,有无风险,并通过不断的“执行-反馈-修正”来确保任务正常运行。

TARS-RPA-Agent 面临同样问题,一次性生成但无法成功执行的整段流程是没有意义的,它需要保证每一步操作的正确性,不会因为领会错了意图,或者前一步操作失误,而导致当前步骤点错按钮、输错账号或者发错邮件。

挑战四:无法记忆历史经验。大语言模型一直存在一个很大的问题是缺乏长时记忆,TARS-RPA-Agent 需要学习历史经验,并通过历史案例不断提升决策能力。但如果不能长时记忆,显然就无法胜任与学习各种能力,因此它需要超出一般大模型的自主迭代能力。


针对上述四重挑战,实在智能采取了不同的技术、设计和方法来应对,最终将 TARS-RPA-Agent 打造成为一个有大脑眼睛和手脚的能够自主拆解任务、感知当前环境、执行并且反馈和记忆历史经验的 IPA 全新模式和超自动化智能体。

有了对 AI Agent 类 RPA 产品的深度认知、全新理解,基于“ISSUT 智能屏幕语义理解+TARS 垂类大模型”架构的 ARS-RPA-Agent 模式 ChatRPA,也具备了“三智三可”的特色优势。

“三智”即智能理解、智能分析和智能生成:

■ 智能理解:能智能理解对话内容,理解所描述的任务、指令;

■ 智能分析:能分析并拆解任务,规划任务过程和动作;

■ 智能生成:能映射成自动化组件,智能填充好属性、对象等。

“三可”为可以执行、可以解释及可以修改:

■ 可以执行:不只是生成过程规划,而是可执行的自动化流程;

■ 可以解释:不仅是任务拆解过程说明,还可查看每个动作参属性数;

■ 可以修改:不仅可执行,还可随意插入、修改和删除的动作。


“三智三可”体现了实在智能 ChatRPA“真实实用”的宗旨,也让其产品真正实现了“像生成文本一样生成流程”的超易用性体验。

后记:TARS-RPA-Agent 的未来

TARS-RPA-Agent 能够在哪些领域获得长足的发展,一定程度上取决于 TARS 大模型在哪些领域有更强的能力。目前 TARS-Finance-7B 在金融领域的能力是有目共睹的,在多个大模型评测中的综合评分都远超行业平均分数。

对于为何要优先选择金融领域,阿宝告诉王吉伟频道,首先在于金融领域的公开数据、权威数据比较多且相对规范,其次在于金融是 RPA 市场份额增长比较快的领域。

除了金融领域,实在智能也正在训练和微调塔斯大模型在其他领域的能力。并且实现起来也比较简单,只要把诸如法律、人力资源等领域的语料加入并进行持续训练和微调,就能打造面向这两个领域垂直行业模型。

TARS-RPA-Agent 之所以备受瞩目,在于它是业界首个大语言模型与计算机视觉有机结合的 Agent,这是国内厂商在 AI Agent 领域初步尝试的成果,为超自动化厂商以及 To B 领域产品的未来发展提供了一个方向,对 RPA 行业的发展具有里程碑的意义,也必将成为大语言模型落地的典型 AI 智能体案例。


在 TARS 大模型+ISSUT 的后续发展上,实在智能早已制定计划。

首先,会在充分评估和修正(模型性能、安全性等方面)后,对的 TARS-Finance-7B 模型进行开源,以促进生成式大模型方向的学术研究和应用发展;

其次,会继续扩大 TARS 垂直大模型的参数规模,让更多模型能力在更大的参数尺度上涌现,目前一个 70B 的行业大模型已经在训练和优化当中;

第三,面向 RPA 领域的全新 TARS-RPA-Agent 功能则将在未来 2 个月内随着功能、性能等测试的进一步完善,随着新版本的发布而开放试用。

可以预见,有了这些发展计划,TARS+X 的全新模型及全新产品将会有更多可能。


除此之外,TARS-RPA-Agent 的组件自动生成,也有更大的想象空间。

对话式 RPA 的易用性前所未有,任何人都能通过简单对话就能实现业务流程创建。

用户只需通过简单的自然语言指令,便能在自动化或者人机协作构建业务流程的过程中生成可复用的业务流程组件。

这意味着,普通用户在使用 ChatRPA 的同时也将成为组件开发者,大量组件都将伴随着他们的流程创建而生成,而不再依靠各领域的专业开发者去做组件开发,由此组件的开发速度和量级将会产生翻天覆地的变化。

未来这些业务流程和组件还可以上传到应用市场,所适配的应用场景也会越来越丰富。随着更多组件被置入公共组件库,对话式生成流程的精准度、适配度以及用户体验也会越来越好。

这种流程及组件生成的 UGC 模式,将会真正改变流程构建自动化以及超自动化行业的未来。


从 TARS-RPA-Agent 来看,TARS+ISSUT 这样的技术组合,大语言模型加上智能屏幕语义理解,大概率能够让 RPA 行业喊了多年的“RPA 人人可用”愿景成为现实,也使得“人人拥有一个智能助理”进一步成为可能。

阿宝透露,TARS 大模型的名字来源于科幻电影《星际穿越》中的 TARS 。

影片中的 TARS 是男主身边的智能助理机器人,精通各个领域的知识,能够自动处理各项事务,并多次在关键时刻帮男主化险为夷。

在未来计划中,实在智能将会持续推出更多的 TARS+X 的模型及产品。

相信假以时日,在更多的厂商的努力之下,电影中的“你说 TARS 做”应用场景也将在现实中无处不在。


全文完


【王吉伟频道,关注 AIGC 与 IoT,专注数字化转型、业务流程自动化与 RPA,欢迎关注与交流。】

发布于: 刚刚阅读数: 3
用户头像

还未添加个人签名 2020-11-11 加入

王吉伟频道,关注数字化转型,专注业务流程管理与RPA。

评论

发布
暂无评论
AIGC如何借AI Agent落地?TARS-RPA-Agent破解RPA与LLM融合难题_RPA_王吉伟频道_InfoQ写作社区