AI Agent 涌向移动终端,手机智能体开启跨端跨应用业务连接新场景
AI Agent 涌向移动终端,手机智能体势不可挡
还没搞清楚什么是 AI Agent,手机 Agent 就已经横空出世
AIGC 为何涌向移动端?背后有哪些逻辑?什么是手机智能体?一文看明白
科技大厂、手机厂商、企服领域都在发力,手机智能体成 AI Agent 新趋势
AI Agent 迎来移动端大爆发,手机智能体将成企业 AIGC 新标配
AI Agent 移动应用大升级,手机智能体开启跨端跨应用业务连接新场景
文/王吉伟
春节期间 OpenAI 推出的 AI 视频模型 Sora 火出天际,到处都是文生视频模型如何厉害如何改变真实世界的信息,以至于 OpenAI 在 AI Agent 方面的最新动向都被掩盖了。
春节前的 2 月 8 日,科技媒体 The Information 报道 OpenAI 正开发两款革命性的 Agent 软件,其中一款能够有效接管客户的设备来自动执行复杂的任务。
据说,这个 Agent 能够自动执行点击、光标移动、文本输入等操作,与人类操作软件无异。例如,把文档中的数据传输到电子表格中进行分析,或者自动填写费用报告并将其输入会计软件,或者根据一定的预算制定行程或预订机票。
这个能够直接操纵个人电脑自动完成各种任务的智能体,现在被更多媒体称作 AI Agent 2.0。
这些报道没有具体说明这款 Agent 所接管的设备是 PC 还是手机,不过 ChatGPT 有移动端,能够在手机或者平板上调用这个 Agent 是迟早的事。
想要在移动端构建 AI Agent 的大语言模型(LLM,Large Language Models)厂商,远不止 OpenAI 这一家。
去年 12 月,腾讯与德州大学达拉斯分校合作推出了一个名为 AppAgent 的项目。该项目可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务。
项目地址:https://github.com/mnotgod96/AppAgent
论文地址:https://arxiv.org/abs/2312.13771
包括在社交媒体上发帖、帮助用户撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑。AppAgent 在 50 个任务上进行了广泛测试,涵盖了 10 种不同的应用程序。
2 月初,阿里巴巴与北京交通大学联合推出了一款全新的手机操作智能体框架 Mobile-Agent。该框架的核心优势在于其纯视觉解决方案。传统的手机操作方式往往需要依赖 XML 等标记语言以及系统元数据,而 Mobile-Agent 则完全摒弃了这些需求。
项目地址:https://github.com/X-PLUG/MobileAgent
论文地址:https://arxiv.org/abs/2401.16158v1
这意味着,用户无需进行复杂的设置或修改,只需通过直观的视觉指示即可完成操作。
除了科技大厂,LLM 创业团队也推出了相应的 Agent 项目。比如在去年 12 月,清华 &智谱 AI 团队推出的 CogAgent-Chat。CogAgent 是一个基于 180 亿参数规模的视觉语言模型(VLM)的图形用户界面(GUI)智能体,专注于 GUI 图形交互界面的理解和导航。
CogAgent 使用屏幕截图作为输入,在 PC 和 Android GUI 导航任务上超越了基于语言模型的方法,如 Mind2Web 和 AITW,引领了 GUI 理解领域的最新技术发展。
论文:https://arxiv.org/abs/2312.08914
代码:https://github.com/THUDM/CogVLM
Demo:http://36.103.203.44:7861/
如今的大语言模型在具体应用方面都是多端通用,MAS 和 SaaS 模式使得 LLM 厂商推出的 AI Agent 构建平台及个体能够应用于手机端也是必然。
AI 智能体涌向移动端,已经成为 AIGC 行业发展的必然趋势。
AI Agent 趋势:涌向移动端
系统厂商与终端厂商的步子,甚至比大模型厂商迈得还要大。毕竟他们更贴近用户,了解市场需要什么,也知道自己在哪里突破。
这些厂商对于 AI Agent 的探索比我们预想得要早很多,且已经拿出初步成果。
也是在春节前夕,微软推出了名为 UFO 的 Windows Agent。这是一款用于构建用户界面(UI)交互智能体的 Agent 框架,能够快速理解和执行用户的自然语言请求。
项目地址:https://github.com/microsoft/UFO
技术报告:https://arxiv.org/abs/2402.07939
UFO 可以在 Windows 内自主回答用户查询,可在单个或者跨多个 App 中无缝导航和操作来满足 Windows 操作系统上的用户请求。可以更加智能地理解用户的意图,不用人工干预,自动执行相应的操作。
如果你想从一份 Word 文档中提取文本、对照片应用程序中的图像进行观察、以及总结 PowerPoint 中的内容,利用所有这些信息撰写一封深度的电子邮件内容并完全自主发送时,你只需要借助一个 UFO 框架就可以完成。
这意味着,以前需要大量手动工作的跨应用程序工作流程,现在可以直接简化为针对 UFO 的简单自然语言指令。
UFO,或许会成为下一代 Windows 系统的核心。以后搭载 windows 系统的笔记本电脑等移动终端,将会因 UFO 而开启全新用户体验。
重点在于,其他系统也会效仿 Windows,AI Agent 将会成为各个系统的标配。
把 LLM 以及 AI Agent 装入 PC 或者移动终端,硬件厂商将其称作 AI PC 或者 AI 手机。
自从 LLM 能够在端侧部署之后,硬件厂商们就开启了狂飙模式,而 LLM 的落地应用主要途径的 AI Agent 模式也首先进入其法眼。
在 2024 CES 上,联想首次提出“智能终端 AI OS”,即在 AI 技术驱动下,智能终端将内嵌个人 Agent(智能体)、个人大模型、本地知识库、应用接口,形成下一代 AI OS。并认为,AI 技术的突破将在 PC、手机、AIoT 等所有智能终端产品领域掀起第三次技术革命浪潮,重塑终端体验及产业生态。
据悉,联想个人 Agent 或将在 4 月份与用户见面。
面对新生代 AI 硬件设备 AI pin 和 Rabbit R1 所展现的“准 AI Agent”属性,手机厂商们早已经坐不住,强势展开了对 AI 智能体的角逐。
1 月份,小米、华为、vivo、理想等几家公司联合清华大学智能产业研究院(AIR)共同发布了一篇个人 LLM 智能体综述论文(也是一个标准),该论文梳理了个人 LLM 智能体所需的能力、效率和安全问题,收集并整理了领域专家的见解,还开创性地提出了个人 LLM 智能体的 5 级(L1—L5)智能水平分级法。
论文地址:https://arxiv.org/abs/2401.05459
文献库:https://github.com/MobileLLM/Personal_LLM_Agents_Survey
今后各家的智能体处于什么水平,参照这个标准便会一目了然,也为移动终端的 Agent 构建提供了更多参考方向。当然,这个标准的推出也意味着厂商们对于移动终端智能体的积极探索与更大的市场需求。
OPPO 等推出的 AI 手机,用户实测后的感触是越来越像 Agent,至少已经能够达到上述标准的 L2 级。
OPPO 与 IDC 在联合发布的《AI 手机白皮书》中,还给 AI 手机下了一个明确的定义。
OPPO 还公布 1+N 智能体生态战略,核心包括 OPPO AI 超级智能体和 AI Pro 智能体开发平台。
其中 1 指的是 AI 手机的智能 OS,扮演 AI 时代操作系统的角色,具备传统智能手机不支持的自学习感知能力、长期记忆能力和工具调用能力。它可以与用户专属的智能体、第三方智能体的交互和信息统筹。N 指的就是前面所述的用户智能体和第三方智能体等构成的全新智能体生态。
理想汽车参与这份标准的研究,则映射的是 AI Agent 适配人车交互场景的广阔市场。国盛证券在一篇报告中指出,AI Agent 面向复杂任务处理,充分适合人车交互场景,是数字人的核心演进方向。
座舱智能化时代,用户在驾乘中会有各种个性化需求,数字人被赋予更多的施展能力的空间,其使命是通过 AI Agent 实现 AGI 向汽车座舱渗透,实现三屏互动(手机屏、车载屏和家用屏)。
而 Meta 与雷朋合作推出的第二代智能眼镜,接入多模态 AI 后,也开始向 AI Agent”靠拢。不必再为不同任务选用不同应用程序,只需用日常用语告诉设备需求,眼镜就能基于软件获取的信息,为用户作出量身回应。
企服的爆发:Agent 渐成标配
科技巨头公司及企业服务厂商,也早在 AI Agent 移动终端的应用方面下足了功夫。
字节跳动在 2 月初正式推出了「Coze 扣子」AI Bot 开发平台。任何用户都可以快速、低门槛地搭建自己的 Chatbot,且平台支持用户将其一键发布到飞书、微信公众号、豆包等渠道。
除了可以创建自己的 Chatbot,Coze 官方还提供了 Bots 商店和插件。插件的使用,可以让用户构建的机器人更加强大。
通过 Coze 构建的机器人,与 OpenAI 的 GPTs 类似,主要用于交互并能够实现一定的业务流程操作,可以算是初级智能体。
其更早推出的豆包,也是一个构建智能体的平台。
钉钉在 1 月发布的钉钉 7.5 版本,也是全量上线 AI Agent 产品“AI 助理”。钉钉平台上的 Agent,能够通过钉钉内的企业协同场景,迅速将 AI Agent 用起来,积累数据。这个助理拥有真正的执行能力,并非停留在和用户的交互层面,可以进行信息摘要、写工作总结、写文档等通用的办公工作。
用友发布的 YonGPT,也能通过上下文记忆、知识/库表索引、Prompt 工程、Agent 执行、通用工具集等扩充大模型的存储记忆、适配应用和调度执行能力,再结合财税、人力、供应链、研发等领域的知识和最佳实践扩充大模型专业能力,从而形成体系化的企业服务大模型。
以上这些平台的 Agent,凭借 SaaS 属性,都可以在手机端丝滑使用。
除了以上公司,一些创业公司以及专注超自动化的厂商,也陆续推出了能够应用于移动端的 Agent 产品。
比如实在智能也推出了手机 Agent 智能体,只需一句话直接传达自己的意图,就可以帮你操作所有电脑、手机的软件完成各类工作和生活的目标任务,通过自主学习和模仿人类的点击和滑动手势,可以在手机上操作 App 执行各种任务。
背后的逻辑:发展趋势使然
在很多人还没有弄懂什么是 AI Agent 的时候,大部分人以为 Agent 更适合在 PC 端执行各种任务的时候,厂商们已经在悄然布局 AI Agent 在移动端的应用了。
王吉伟频道认为,厂商们之所以急于将 AI Agent 拓展至移动端,大概有以下几点原因:
用户需求:随着技术的发展,用户对智能手机和设备的期望越来越高,他们希望设备不仅仅是工具,还能成为日常生活的助手。Agent 能够理解用户的需要,并为他们提供个性化服务,改善用户体验。
增强粘性:通过提供 Agent 服务,可以让用户更频繁地与设备互动,增加用户对品牌的忠诚度和设备的使用频率。
竞争优势:随着市场竞争的加剧,厂商需要不断创新以保持竞争力,集成先进的 Agent 技术可以作为卖点,吸引消费者购买。
商业模式创新:AI Agent 可以开辟新的收入渠道和商业模式,比如通过智能推荐系统促进销售,或者通过订阅服务提供高级功能。
开拓新的收入流:智能 Agent 往往能够与其他服务或产品相结合,为厂商创造新的收入渠道,如智能家居控制、电子商务购物、内容订阅等。
提高工作效率:在企业服务领域,AI Agent 可以帮助员工处理日常任务,提高工作效率,减少重复劳动,让员工有更多时间专注于更有价值的工作。
客户服务改善:AI Agent 可以提供 24/7 的客户服务,不仅提高了响应速度,还能够处理大量的客户咨询,提升客户满意度。
除了以上几点原因,还有重要的一点便在于 AI Agent 行业发展趋势。
毕竟,按照比尔盖茨的观点,AI Agent 将彻底改变人们线下和线上的生活方式,改变每个人与计算机的互动方式,还将颠覆软件行业。
就智能手机而言,Gartner 在相关报告中的观点认为,生成式 AI 智能手机配备了硬件和软件功能,能够无缝集成和高效执行智能手机上的 Gen AI 驱动功能和应用程序。它们能够在本地运行基础或微调的人工智能模型,产生新的衍生版本的内容、策略、设计和方法。
无疑,这对于提升用户体验以及使用手机提升生产力有着莫大的帮助。
Forrester 在相关报告中给出的两组预测数据,也很好地说明了这个趋势。
到 2027 年,超过 60%的个人电脑微处理器将集成设备上的人工智能功能。随着设备上的人工智能成为标准要求,这一比例将从 2023 年的 10%上升。
同时,到 2027 年,智能手机中超过 70%的其他应用处理器将集成设备上通用功能,而 2023 年这一比例为 5%,设备上通用将成为一项标准要求。
处理器集成 LLM,将会极大地拓展 AI Agent 的存在空间,并会进一步提升用户体验。
按照 OpenAI CEO 奥特曼的说法,Open AI 的愿景是让 ChatGPT 化身“超级智能工作个人助理”,为全能的 AGI(通用人工智能)铺路。
显然,包括 GPTs 在内的 AI Agent 将会承载这个使命,而移动端 Agent 才是变革过往生产效率的真正开始。
手机智能体:跨端跨应用场景开启
前文我们不只一次提到了手机上的 AI 智能体。能够在手机上应用并执行各种任务的 Agent,都可以视作手机 Agent\手机智能体。
而 AI 手机本身,也是一个 Agent。在 OPPO AI 中心产品总监张峻看来,AI 手机不仅有底层硬件的需求,也有 OS 层面 AI 化和交互体验的革新,它更像是一个超级智能体。
手机智能体不仅是智能助手的升级版,更是一种新的互动方式。它们能够感知用户的需求、自主决策执行,甚至学会用户的习惯,为用户提供更为个性化的服务。这种技术的发展将为我们带来更加智能化、便捷和高效的手机体验。
与 PC 端的 Agent 类似,目前的手机 Agent 一般分为两种:一种是被钉钉称作交互式的 Agent,主要用于各种文字、图片等的生成以及各种问答;另一种是能够直接操作部分生态内业务应用的业务类 Agent。在表现形式上,它们都是软件机器人。
但手机 Agent 的构建并不一定在手机端,也可以在 PC 端。
手机 Agent 的目的是通过在手机上运行 Agent 程序或者软件去执行各种对于手机的操作,以完成各种办公场景中的任务,所以这个 Agent 的形态可能就是一个应用,或者是通过 APP 去调用的某个打包的可执行文件。
事实上,受限于手机访问屏障门槛越发变高的趋势,从 PC 端构建 AI 智能体是目前 TO B 领域的主流移动 Agent 解决方案。从电脑端触发手机智能体会有更大的优势,更能满足 B 端客户移动业务实现的需求,并能兼顾用户的工作与生活细节。
在王吉伟频道看来,我们日常工作中的大部分业务流程会分散到多端设备上,构建一个能够跨终端的 Agent 去处理跨端、跨软件、跨部门的业务流程是非常必要的,也是所有企业及办公人员的刚需。
手机智能体最强的能力展现就是调用手机端的一切应用,一边满足企业用户工作+生活并兼顾用户在各场景中的便利,另一边让个人用户一句话就畅享专属手机智能体助理的贴心服务。
此外,由企业服务厂商推出的企业级手机 Agent 能够做到足够的安全级别,不用担心隐私数据泄露等安全隐患。
以实在智能推出“手机+Agent”结合的手机智能体为例,它可以打破手机 App 的界限,跨应用操作任何手机软件完成任务。
手机 Agent 能够通过模仿人类的直观动作来与手机应用程序交互,就像一个真人用户一样,可以查询天气订机票、预约餐厅订位、进行在线购物、编辑图片或制作视频,也可以操作办公软件发送邮件、采集业务数据和处理表格、提交工作流程审批单等等,只需一个指令,手机 Agent 智能体在瞬息间即可帮你完成。
例如,春节开工期间,您正忙于工作,无暇分身向客户发送开工问候,类似于此的重复性工作,在手机智能体的帮助下就可以自动完成,只需对手机说出“向标签为客户的好友发送开工问候”的需求,它就可以识别您的微信标签备注,向该标签下所有客户发送专属问候语,成为你的手机办公助理。
与传统的 Siri 等智能语言助手不同的是,这个手机智能体不是简单的命令执行者,而是规划、决策和执行的多面手,通过 ISSUT(智能屏幕语义理解技术)视觉能力进行整个操纵过程,无侵入接口,也不需要系统后台访问用户的隐私、敏感数据来实现操作。
此外,PC 智能体已经生成的业务流程跟踪,也已经在手机端实现。比如,企业的高管通过手机智能体就可以轻松获取当日最新控制台业务分析数据,掌握第一手业务动态,及时将需要关注的动态发送给技术或支持人员等,提高工作的灵活性和信息反馈效率。
这个逻辑,是用手机去控制 PC 端智能体去执行相关的业务操作,这种跨系统、跨终端的连接型操作是基于手机 Agent 平台构建的 Agent 所无法实现的。
这也意味着,在 B 端的具体业务应用上,AI Agent 已经完成从原来的 “你说,PC 做”到“你说,手机做”的跨越,并实现了“你说,PC+手机一起做”。
短短几个月时间,AI Agent 就已经涌向移动终端,手机智能体实现了跨端跨应用、场景联动。国产厂商对于 AI Agent 的应用探索,一直处于潮流前端,真的是难能可贵。
从 PC 端智能体无缝切到手机智能体,以及用手机操作 PC 智能体的应用场景丝滑转换,可以说是继 PC 智能体后的又一智能体的突破性落地范例。
实在智能推出的手机 Agent 智能体,验证了 AI Agent 的实用性,在移动 Agent 领域做出了一个很好的应用示范,其未来有更多创新的多模态框架探索。
手机智能体未来:终端 Agent 智能革命
手机智能体将会为大家带来新的互动方式与个性化服务,并带来更加智能化、便捷和高效的手机体验。
未来,随着手机智能体的不断发展,它将会成为更加强大、智能化的存在,成为我们生活的一部分。当然手机智能体崭露头角,也预示着手机和移动终端行业新纪元的到来。
比尔·盖茨认为,AI 智能体最令人兴奋的影响是它们将使当今对大多数人来说过于昂贵的服务民主化。并指出,智能体不仅会改变每个人与计算机交互的方式,还将颠覆软件行业,带来自我们从键入命令到点击图标以来最大的计算革命。
现在看来,手机智能体带来的终端 Agent 智能革命,大概率会承载这一重要的历史使命。
【王吉伟频道,关注 AIGC 与 IoT,专注数字化转型、业务流程自动化与 RPA。】
版权声明: 本文为 InfoQ 作者【王吉伟频道】的原创文章。
原文链接:【http://xie.infoq.cn/article/03d0bfe201f36e8b199f2b9bd】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论