FORCE 大会开发者论坛演讲实录|吴一帆:边缘智能在 Agent 上的探索与实践
在火山引擎冬季 FORCE 原动力大会开发者论坛上,火山引擎边缘智能技术总监吴一帆分享了边缘智能在 Agent 上的探索与实践,详细介绍了火山引擎边缘智能平台能力,结合边缘智能在 Agent 开发上的实践经验,探讨边缘智能联合扣子打造的创新解决方案如何帮助大模型拓展使用边界,加速大模型应用落地实践。
演讲内容主要包括了四部分:火山引擎边缘智能简介;边缘智能 Agent 探索实践;边缘智能与扣子联合实践;未来展望与思考。
以下为演讲实录:
大家上午好,我是火山引擎边缘智能技术总监一帆,很高兴今天能在这里跟大家分享边缘智能在 Agent 开发上的探索与实践经验。
火山引擎边缘智能简介
首先简单介绍边缘智能。边缘场景有自己鲜明的特点。
第一是设备接入,边缘存在各种异构设备和传感器,同时还有丰富的数据协议,其中又以视频、时序数据为主;
第二是算力受限,绝大部分端侧设备或边缘设备算力受限,被称为微算力或小算力,通常需要端边云协同来完成 Agent 的算力需求;
第三是模型能力边界,在当前技术阶段,小尺寸大模型,特别是多模态大模型,基础模型能力有待进一步提升;
第四是数据安全,这是边缘的一大特点,对于一些企业来说,数据必须保留在本地,不能上云;
第五是不可靠性,断网弱网可能是边缘的常态,需要保证异常情况下的边缘自治能力;
第六是性价比,相比中心,边缘有着就近接入、低成本带宽的优势,可以满足部分客户关于性价比的要求。
以上几个条件互相作用,会导致边缘 Agent 在落地时,对大模型或者 Agent 的部署地点有灵活多变的需求。比如数据有强隐私的要求,那么模型和 Agent 只能部署在边缘;边缘设备算力受限,跑不了大模型,那模型只能部署在中心云;边缘网络不太稳定老是需要自治,那在边缘也必须有一定的模型推理能力来完成闭环。由此可见,我们需要一整套更灵活的端边云协同框架和平台应用开发工具来帮助边缘 Agent 在各种业务场景下的落地。
我们来看 Agent 几种不同的部署形态。这里所说的 Agent ,是一种更加泛化的 AI 应用,并不是严格按照感知、规划、决策、执行的概念。根据目前接触到的案例,按照 Agent 和模型的部署地点做了一个总结,大致可以分为以下 5 种:第一种和第二种,Agent 部署在端侧,模型在边和云;第三种和第四种,Agent 部署在边上,模型在边和云;第五种是 Agent 和模型都在云上。
那怎样才能支持多种、不同的部署形态以及业务场景需求呢?向大家介绍一下火山引擎边缘智能,它是一个面向边缘领域的能力中台和解决方案的孵化平台,基于边缘计算、人工智能、IoT、大模型等技术能力,为客户提供一整套端边云协同框架和平台应用的开发工具,帮助各行各业以低成本来构建边缘原生的智能体。火山引擎边缘智能主要分成三个产品,边缘智能平台、边缘大模型网关以及物联网平台。
边缘智能平台以边缘云原生操作系统为基座,提供设备接入、AI 推理、应用构建等多维度产品能力,连通中心云和边缘计算节点服务,实现云边和边边协同;
边缘大模型网关允许用户通过一个统一的 API 接口访问豆包系列大模型及其他第三方提供商的大模型,在端侧基于遍布全球的边缘计算节点就近接入。通过语义缓存减少回源,显著提高模型访问速度,为终端用户提供更快速、更可靠的 AI 服务体验;
物联网平台提供异构网络、异构协议的物联数据接入能力,统一纳管物联设备及数据,和边缘大模型网关一起通过 one Credential,one SDK,one Solution 提供一整套工具组件和解决方案,赋予大量端侧设备新的智能,产生新的交互方式,拓展新的功能边界。
边缘智能 Agent 探索实践
Agent 部署在端智能上的实践
随着大模型技术的飞速发展,即便是计算能力有限的端侧设备也能够被赋予更高的智能水平。我们看到很多类别,比如玩具、乐器、可穿戴设备、家用电器,还有一些想象不到的,比如手机壳,实际上,它不仅仅是一个保护套,而是一块可连接手机的附加屏幕,连接手机后,可以通过手机来访问人工智能生成内容(AIGC)的服务,进而创作出图纸,这张图纸可以用来作为手机的屏保或墙纸。
但这些端侧设备由于受限于算力、电量等,无法在本地运行模型,在这种情况下,边缘大型模型网关便成为了一种理想的基础设施,能够有效地利用 AI 技术赋能端侧设备。
首先,各种端侧设备通过 GTM 流量调度服务,可以就近接入离它最近的边缘大模型网关,利用火山引擎的边缘加速网络,选择最优路径,回源中心大模型服务;
其次,各种设备通过物联网平台、边缘大模型网关的 one credential、one SDK ,可以很方便地解决设备接入、设备认证、系统 OTA 升级、就近接入、API 加速、边缘推理等一系列功能。
另外介绍一下边缘大模型网关的实操步骤,只需要简单三步。
第一步创建密钥,填入名称,选择你想要访问的大模型。可以看到平台预置了很多模型,包括豆包全系列大模型以及第三方大模型;
第二步配置策略,可以先编辑一组你想要访问的大模型列表,并设置合理的顺序。当前面的大模型服务发生故障时,会自动切换到后面的大模型。同时支持设置语义缓存、缓存时长等参数,在特定业务场景下,可以有效帮助节省推理开销;
第三步访问网关,边缘大模型网关提供兼容 OpenAI 的 API 接口,降低接入和改造成本。
第一步创建密钥
第二步配置策略
第三步访问网关
推理在端边云协同上的实践
当 Agent 在端上,模型分别跑在端边云上时,应该怎么实现推理在端边云上的协同呢?下面介绍的案例中应用方是字节系的一个手机应用,这个 APP 需要判断游戏中的某个时刻是否是高光时刻,所以需要在游戏视频流中不断抽帧并利用模型来实现推理。
如果想在端上实现推理,首要问题是算力可能不够,即使够,推理过程也会严重影响手机电量。如果放在云端实现,延时较长,也无法满足业务需求。经过我们不断地探讨和尝试,最终的解决方案是通过边缘智能平台和边缘大模型网关,把推理请求引流到离客户端最近的边缘机房,并在那里用模型做推理。同时,在端侧和边侧,我们还用到了决策器,决策器是利用类似规则引擎的方式来泛化推理请求,并对推理请求做分类,根据类别,自动引流到最适合的算力基础上。后续我们考虑专门训练一个模型,用模型来决策推理请求应该是在端上、边上还是云上推理。
Agent 部署在边智能上的实践
第三是 Agent 在边智能上的实践案例。这是一个智慧园区的案例,智慧园区应用运行在边缘,模型也运行在边缘,客户希望对收集到的时序和视频数据应用一些算法,完成像停车管理、照明管理等管理功能。对于此类标准的 AI 业务场景,边缘智能提供了低代码编排功能,可以以低成本的、拖拽的方式来实现时序或者视频数据流的业务逻辑处理。
我们知道,每做一个新的 AI 项目实施,成本居高不下是一个老大难问题。一来我们需要重新编写业务逻辑代码,二来免不了做场景数据收集、模型训练、现场调优等等工作。我们希望,通过低代码平台,第一是可以以简单标准的方式快速实现业务逻辑;第二是在实践过程中,我们发现了小尺寸的多模态大模型在处理某些分类场景时非常有效,实际上也希望通过多模态大模型的通用性,来降低 AI 项目的实施成本。
这里再简单介绍一下低代码编排,它提供可视化的流程编排能力。
在第一张图里可以看到,我们预置了不少官方模板,包括单源多源输入、单源多源输出、时序数据流等等;
第二张图是一个单源单输出的具体模板,图中蓝色是输入算子,来自于 RTSP 的视频流,紫色是输出算子,最后输出是 Kafka 消息,中间绿色都是各种视频处理算子,包括解码器、物体检测、对象跟踪、图像分类等等,最后输出到 Kafka。
如果预置模板不能满足你的需求,你还可以自定义模板。如第三张图所示,中间是空白的画布,左边是输入、输出、处理算子列表,可以自由拖拽算子到画布上,并在算子之间用箭头进行连接。右边则是每个算子的详情,在这里配置算子的具体参数。
最后一张图列举了平台现在支持的一些预置视频处理算子,包括现在大模型相关的推理算子,比如多模态大模型的分类算子等。
第一张图:预置的官方模板
第二张图:单源单输出的具体模板
第三张图:支持自定义模板
第四张图:支持的预置视频处理算子
Agent 与模型都部署在边上的实践
第四个案例也是关于边智能的一个场景,智能座舱的 POC 。由于座舱内的对话、视频都涉及到个人隐私,客户要求不能使用云端大模型,所以 Agent 和大模型都部署在边缘。
具体是怎么实现的?我们使用了车载本地的多模态大模型,参数大概是 7B 左右,跑在一个本地的高性能芯片上,模型自身做了一定的量化,来自摄像头的视频流数据经过抽帧,会不停地进入到车载智能体中,同时来自麦克风阵列的声音对话数据,经过本地 ASR 之后变成文本数据,也会不停地送入到车载智能体之中。车载大模型会对车厢截图以及文本数据不停地进行推理,来识别座舱内乘客的意图,并调用相应的工具,把结果输出在屏幕上,通过本地的 TSS 转化,播放给乘客听。
这里分享一下实践中的体验:
第一是场景数据和质量非常重要,定向化调优模型能够有效提升模型的意图识别能力;
第二是在实际落地过程中,prompt 调优、模型调优、RAG 等一系列能想到的工程优化方法可能都得用上,每一样方法都能改善最终的落地效果;
第三是语音对话上如何去噪声、回声?如何实现精准的识别?实现低延迟、可打断的语音通话功能是一个难点,这对模型能力以及工程优化能力有综合要求;
第四是随着车载推理芯片算力的增强,小尺寸的多模态大模型在准确率和延时上,还有进一步提升的空间。
边缘智能与扣子联合实践
第三部分大家介绍一下边缘智能和扣子联合实践的案例。我们知道扣子是一个开发新一代 AI 智能体的应用开发平台,它有一系列灵活好用的组件和工具。对于边缘智能来说,我们对边缘设备通过物模型建模有着深刻的理解,支持和兼容边缘设备绝大部分数据协议,可以操控边缘绝大部分设备,所以两个平台之间,通过插件的形式能够很好地结合起来。
在落地的智能工厂以及智能园区的案例中,通过扣子快速搭建了 AI 应用来完成部分业务功能,对于边缘智能来说,扣子提供了低成本以及丰富组件的 PaaS 平台能力,为边缘提供了强大的"大脑";对于扣子来说,边缘智能可以很好地理解和操作边缘丰富的设备,帮助大模型更好地连接物理世界。
这是一个利用扣子平台开发智能工厂管理助手的案例。
首先,在 prompt 人设中,我们告诉大模型:你是一个专业且高效的智能工厂管理助手,你可以全面精准地采集工厂各类设备以及传感器信息,来实现智能高效的管理。
同时,我们还开发了几个插件,这些插件可以方便地调用边缘设备的某个 API 接口,比如列举所有设备名称,你可以获取某个设备、某个时间段的值等等。
此外,我们还编写了定时巡检的工作流,这个工作流会依次获取不同产线上指定设备的温度、良品率等等,并给出相应的建议。
未来展望与思考
展望未来,未来可能会呈现出以下趋势:
第一,小尺寸大模型:我们认为大模型能力对于 Agent 的落地来说非常重要。因为边缘算力受限,我们尤其关注小尺寸大模型能力的完善。这里又分为两个方向,一是多模态大模型,边缘数据有相当一部分来源于视频流,这次 Force 大会上,火山引擎也发布了视觉理解大模型,非常期待拥有这些听觉/视觉能力的边缘小脑能出现在边缘场景中。二是推理能力增强,也就是小尺寸模型能够很好地帮助分解泛化的任务,这对各行各业自动化分解业务流程会非常有帮助。
第二,边缘小脑和云端大脑:我们认为最终在不同程度的算力设备上都会形成一定的智能,端上微脑、边缘小脑、云上大脑,这些不同程度智能之间需要有一套完整的框架来互相协同,并且需要有一种完善的方式来判断推理请求应该落在哪个范围的算力上。
第三,分布式推理网络:随着推理需求的大量普及,我们判断最终在边缘会形成一张大的分布式推理网络,基于边缘分布广、数量多的基础设施之上,就近接入或按需提供,并在端、云之间互相协同,成为下一个 AI 时代的基础设施之一。
第四,多 Agent 云边协同:当单个 Agent 能力逐渐完善以后,多 Agent 互相协同会是下一个发展趋势。我们期待不同 Agent 能有一套标准的发布、查询、调用、协同的机制,来完成万物智联。
最后,我们庆幸能够身处在这场人工智能技术的革命浪潮之中,也庆幸能够亲身参与到这个社会变革的洪流之中,期待我们的工作能够对大家产生实实在在的价值,进一步推动社会的进步和创新,谢谢。
以上为演讲实录全部内容。
评论