KubeEdge SIG AI 产业革新与应用:跨越边界,迎向未来
摘要:KubeEdge SIG AI 关于云原生边缘智能产业发展相关文章刊登于中国自动化学会主办的《自动化博览》边缘计算 2024 特辑。文章指出,人工智能正在跨越两大领域的技术边界,一方面人工智能在大模型加持下性能大幅超越历史,另一方面云原生边缘计算使得人工智能离所有用户更近。这两者的有机融合促使云原生边缘智能爆发新的价值增长点。
本文基于历年实践,介绍了云原生边缘智能的核心变化,同时总结出最佳实践:
在指导理念方面:针对四大挑战解决实践问题,基于标准化范式推动多种技术突破;
在实现路径方面:以基准测试孵化算法,以统一框架开发服务,以生态社区发展产业。
文章最后介绍了近十个场景二十项应用案例,并以开源社区生态 KubeEdge SIG AI 子项目标准化统一框架 KubeEdge-Sedna 和基准测试 KubeEdge-Ianvs 为基石,深入分享了云原生边缘智能产业应用经验。
一、核心变化与最佳实践
业界正身处前所未有的信息技术产业变革,其核心变化在于两大领域技术边界的跨越。
1、第一个技术边界跨越,来自人工智能领域。2016 年 AlphaGo 多次击败了围棋顶尖人类选手;2022 年 ChatGPT 成为爆款,是真正意义上的多任务助手,上线 5 天用户就超过百万,2 个月用户超过 1 亿,成为历史上增长最快的消费者应用程序。人工智能开始在应用性能和人机交互方面大幅超越历史,更接近人类。
2、第二个技术边界跨越,来自云原生边缘计算领域。2006-2010 年各大云厂商主要依赖超大规模数据中心, 光缆高速互联的传统公有云,2010-2020 年业务逐步发展到企业私有云与公有云专线互联的混合云,2020 年后开始过渡到公有云为中心、边缘节点与中心专线或公网互联的边缘云。云原生边缘计算使硬件设备和软件生态能力下沉,离用户更近。
由于两个技术边界跨越的影响,首先,应用性能、人机交互、硬件设备和软件生态都在离用户越来越近。更重要的是,在大模型和行业应用的加速下,人工智能和云原生边缘计算这两大边界跨越技术正在有机融合为云原生边缘智能,爆发新的价值增长点,产生新产品服务。云原生边缘智能产品跟常见的公有和私有两大类人工智能产品相比,带来的新价值包括:
云原生边缘智能服务与公有云智能服务相比,由于在边侧能访问边侧数据,有机会个性化适应边缘场景。因设备在边侧的缘故,也能降低响应时延与带宽、保护数据隐私。
云原生边缘智能服务与私有云智能服务、边缘智能服务对比,能够:
联动云端算力降低边侧建设与维护成本。比如将边缘节点纳管之后,将大规模边缘节点运维工作交给云提供商,将人力物力投入到更高层面技术中。
协同云原生软件生态。大型公有云提供商提供的服务数量往往都在数千级别,可帮助减少重复造轮子成本,尤其当希望快速上线或者避免陷入到低价值辅助服务开发时。
实现跨边知识融合。现在数据烟囱和数据孤岛现象非常严重,需要重复采集、标注数据,需要重复建设软硬件系统。在可见的未来,各个边侧倾向于保留属于自己的数据,在数据交易和交换还不成熟当下,云可在云原生边缘智能中作为桥梁,使边侧知识共享成为可能。打通数据烟囱、联接数据孤岛。
图 1 云原生边缘智能服务的新价值
对于云原生边缘智能服务,本文在近年来数十项案例验证和实践过程中,梳理下述最佳实践:
➤ 指导理念:面向四大挑战解决实践问题,基于标准化范式推动多种技术突破;
➤ 实现路径:基准测试孵化算法、以统一框架开发服务、以生态社区发展产业。
▍最佳实践 1
指导理念:面向四大挑战解决实践问题,基于标准化范式推动多种技术突破
理论工作需要在认知并解决实践问题的指导下开展,才能在当下或未来产生价值。在经历过数十个商业项目后,本文总结了在不同项目中反复出现的四个挑战。如果能解决这四大挑战,将从根上解决云原生边缘智能服务的规模复制难题和稳定生产难题。
1、边缘资源碎片化:在边侧环境首先计算、网络、存储资源有限,同时智能硬件成本高、软硬件异构严重,需要人力和物力成本适应多种多样的设备环境。
2、边缘数据孤岛:由于隐私、网络瓶颈等,边侧数据天然地理分布,传统的数据汇聚假设不复存在。
3、边缘小样本:由于数据孤岛、标注成本高、数据采集周期短等,单个边缘局点样本少,需要打破传统大模型训练的大数据假设,会有比较大的性能影响甚至没法训练收敛。
4、边缘数据异构:不同边缘数据在时间和空间统计分布不一致,包括学界提及 Non-IID、OOD issue。导致同一模型在不同节点不同情况性能不稳定。
从产业整体看,云原生边缘智能产业呈现需求森林化,相关场景可覆盖交通、工业、能源、航天、媒体、机器人、园区等 10+行业,进一步考虑硬件和环境,最终使得其需求、算法和服务千差万别。关键问题在于,在需求森林化面前,学界和业界已有的各项工作却还停留在小作坊阶段的一体化设计,导致各类系统形成烟囱和孤岛,带来大量重复建设工作,使得产业难以形成集聚和规模化发展。
一体化设计的特点,包括黑盒和强耦合。黑盒是指将整体方案打包,不进行流程模块化,虽然降低了初期成本,但分工近乎不可能。强耦合则是指模块间有大量强依赖,像是某方法各个模块只能用于特定神经网络模型,一旦替换模型算法则整个分布式系统需要重新设计。
一体化设计会阻碍边云协同的模块分配等架构设计工作,使得在多个应用甚至单个应用内跨场景迁移变得非常困难,最终导向数据重复处理、算法重复开发、系统重复投入,提升产业方案的总体建设成本,难以重复利用和规模复制。
应对一体化设计的方式的破局之道在于反其道而行,以标准化范式实现云原生边缘智能系统。在标准化范式的统一基石上,流程模块化对抗黑盒化、算法模型插件化对抗强耦合,针对多样需求开展多种技术演进,从而在应对需求森林化同时,推动产业集聚和规模化发展。
▍最佳实践 2
实现路径上,以基准测试孵化算法应用、以标准化统一框架开发多样服务、以生态社区加速产业发展
1、KubeEdge SIG AI:以生态社区加速产业发展。KubeEdge SIG AI 于 2020 年 12 月创立,专注于云原生边缘智能领域,致力于探讨和推进云原生边缘智能架构设计、技术实现乃至标准方案。为面向四项技术挑战并形成产业标准化范式,至少需要三类角色的配合,也即算法开发者研制算法、服务开发者推动服务上线、生态建设者提升产业认知。除了领先厂商推动工作外,还需要更多单位参与到产业中来,才能打造蓬勃的云原生生态和社区。云原生边缘计算社区 KubeEdge 在 19 年开源后,已经成为顶尖级别业界云原生边缘计算开源方案,将 K8S 的容器编排能力无缝衍生到边缘。
KubeEdge SIG AI 创立后为各成员提供大量资源,包括工业质检、机器人感知等开源数据集、Linux 基金会、开源之夏等资助孵化课题、云原生边缘计算线上培训、高校课程与教材等学习资料、云计算开源产业联盟标准和国家标准等产业标准、华为世界难题火花奖、KubeEdge 学术奖和学术奖项。KubeEdge SIG AI 发布了两个子开源项目:云原生边缘智能服务框架 KubeEdge-Sedna 和基准测试套件 KubeEdge-Ianvs。
2、KubeEdge-Sedna:以标准化统一框架开发多样服务。2021 年 1 月 KubeEdge SIG AI 发布,基于 KubeEdge 提供的边云协同能力,在标准化统一服务框架下帮助开发者实现跨云边的协同训练和协同推理不同类型的服务,例如联合推理、增量学习、联邦学习、终身学习等。
KubeEdge-Sedna 可以让现有的 AI 类应用无缝迁移,从而降低成本、提升模型性能、保护数据隐私等。近年来在多边协同重识别、星地协同卫星等案例上也备受瞩目。
KubeEdge-Sedna v0.3 版本发布了业界首个边云协同终身学习开源特性。
图 2 KubeEdge-Sedna 整体架构
3、KubeEdge-Ianvs:以基准测试孵化算法应用。2022 年 7 月 KubeEdge SIG AI 在 KubeEdge Submit 2022 正式发布的云原生边缘智能基准测试套件 KubeEdge-Ianvs,可以提供开源数据集、基线算法、测试指标和单机测试能力,帮助算法开发者快速评估协同 AI 算法的性能,将 PoC 时间缩短到 1 个月,研发效率提升 5 倍。
该套件有以下优势:
开箱即用。开源数据集与 10+配套算法,覆盖预处理、预训练、训练、推理、后处理全流程,零改造开箱即用。
全场景灵活切换:测试用例管理统一不同场景及其 AI 算法架构与接口,能够用一套工具同时兼容增量、终身、联邦等多种 AI 范式。
可扩展开放工具链:测试环境管理实现自定义动态配置测试数据集、测试指标,告别封闭守旧的测试环境。
低代码生成测试用例:测试用例管理基于网格搜索等辅助生成测试用例,比如一个配置文件即可实现多个超参测试,降低超参搜索时的繁琐重复编程。Ianvs 于云边协同大会 2022 获优秀云边 X 项目荣誉。
图 3 KubeEdge-Ianvs 整体架构
二、云原生边缘智能应用案例
本文从 7 类场景 20+项目案例出发,以 KubeEdge 社区 SIG AI 生态的标准化统一框架 KubeEdge-Sedna 和基准测试 KubeEdge-Ianvs 为基石,分享云原生边缘智能产业化应用经验。
▷ 行人轨迹追踪系列案例。比如在安防场景中,管理人员需了解特定园区人员在特定时间的特定位置,传统安防系统需要安保人员在实时监控大屏下或者数百小时的监控录像中,根据个人信息逐图像进行查找,需投入大量人力而且效率低下。行人轨迹追踪服务借助计算机视觉模型对监控视频进行智能分析,通过人员识别、跟踪、检索三个主要功能块实现自动化的人员查找。行人重识别是整套体系下的核心能力,是“利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术”,使系统能够通过“以图搜图”的方式自动化地实现特定人员在监控视频中的筛查。系统构建过程,首先有跨摄像头数据异构的挑战,摄像头拍摄场景复杂,包括光照变化、遮挡严重、追踪目标数量多等,单点的目标跟踪算法无法得到较好的效果;同时也有边侧资源受限的挑战。
图 4 行人重识别流程与效果
KubeEdge Sedna 联合边缘节点多点算力,实现边缘节点的资源充分利用;支持基于特征提取的协同推理,实现数据隐私的保护;支持边侧数据的过滤,实现边缘传输数据量的减少。开发层面上,KubeEdge Sedna 给出详尽应用 API 模板以及边缘智能案例,KubeEdge Ianvs 承载相关流程、数据和算法的基准测试,为本次行人 Re-ID AI 系统提供了重要底座与解决方案参考,其对主流 AI 工具的支持也降低 AI 算法开发与部署成本大大降低。结合其本身的高可靠性、大规模节点纳管能力,满足行人轨迹追踪实际业务需求。目前已在北京、广东等区域的 BJXA 园区、SZZC 机关落地应用。应用过程,多目标跟踪准确度(MOTA)平均提升 23.22%,推理时延平均降低 12.74%。
图 5 行人重识别案例架构
▷ 焦炭质量预测系列案例。该服务背景是,地底发掘出的原料煤需要经过一系列流程进行焦化,提炼成焦煤才能在生产生活中使用。焦化配煤过程可类比开药方抓中药,难点在于配方行业经验,数字化后关键在于焦炭质量预测功能:输入不同煤种配比的配煤单,预测产出焦炭质量。只要能预测出焦炭质量,配煤工作开展就能有的放矢。
该场景面临的挑战主要包括数据异构和小样本:
由于不同工厂中存在不同煤种、工艺等场景下,部分情景预测准确率用传统人工智能方法不易达到生产要求,预测平均准确率>0.95。
考虑大模型时,由于初始样本不足,模型难以建立。
模型部署一段时间后,由于煤源、工艺等场景变化,预测准确率逐步下降,影响业务生产。
图 6 焦炭运输与焦化流程
在焦炭质量预测系列案例中,KubeEdge-Ianvs 和 KubeEdge-Sedna 研发边云协同终身学习特性应对的,首先面向小样本问题,边云协同终身学习通过增量和迁移机制、小样本学习算法、层级化架构处理小样本问题。同时,面对边缘各节点数据异构问题,通过在不同工况调用不同任务模型解决。KubeEdge-Ianvs 所孵化的算法,结合 KubeEdge-Sedna,在 2022 年上线到 Huawei Cloud ModelArts Pro 工业智能中枢、盘古矿山大模型,应用到河南、山东、内蒙古等省份的 SDEN 集团、ANST 集团、HXGK 企业、MFAN 企业、DTHE 企业和 HAMI 企业。本案例在时间推移下实现模型持续更新,使得性能维持稳定乃至持续提升。在过程中,平均预测精度 97%,开发周期缩短 90%,每年每项目节约超过 2000 万人民币。
图 7 配煤优化系统
▷ 卫星遥感应急系列案例。以遥感、应急、灾害预警为代表的需求迫切需要通过在轨计算处理,提高响应时间和预测精度。卫星以前主要是负责通信,但从 2000 年以后,随着轨道上不同的卫星数目和种类增加, 2020 年后全球在轨卫星产生的数据量已超过卫星通信所产生的数据量。需要卫星进行在轨实时处理并丢弃冗余数据,提升响应时间,减少网络传输消耗。识别卫星观测图像,其中挑战主要在于回传时间窗每天仅有十分钟,并且卫星上计算、网络资源受限,极大影响星载推理效果。KubeEdge Sedna 的边云协同推理,针对边缘资源需求大,或边侧资源受限条件下,基于边云协同的能力,降低推理任务到云端卸载,提升系统整体的推理性能。方案已上线到 Huawei Cloud Operator Service Center 华为云云原生服务中心,应用到湖南、四川等省份的 TSXZ 计划、CDHT 航天集团。应用过程推理精度提升 50%,卫星回传数据降低 90%,实现星载资源/应用的统一管理、分布式应用协同、在轨 AI 推理。
图 8 卫星遥感应急案例流程及架构
▷ 安全帽识别系列案例。该场景在工地中在不同位置部署边侧摄像头采集视频图片, 识别未戴安全帽人员, 标记并报警。看似简单的场景却蕴含挑战。首先是小样本挑战,场景样本量小难以支撑高性能模型训练,在某工地案例中仅有 241 张样本,微调甚至无法收敛。还有数据异构挑战,同一安全帽检测模型用于不同视角、背景和远近,效果差别巨大。比如:舞台与工地。更有资源受限挑战,基于视频数据的目标检测对于算力、网络与存储等资源要求更高。KubeEdge Ianvs 和 Sedna 应用边云协同增量和终身学习应对上述挑战。相关方案应用到华为云 ModelArts Edge(原 Hilens)服务,在中国、印度等国家 CNCS 园区、IDST 园区等开展验证,并发表到人工智能数据挖掘领域顶级会议 ACM CIKM 2022 上。验证方案与基线相比,F1 平均高出 9.2%,并且在部署新摄像头时需要的样本减少 43.1%。
图 9 安全帽检测系列案例示例和架构
▷ 工业质检系列案例。工业质检整个领域各类检测业务场景繁多,工业质检通过传感器获取工件信息,检测是否存在异常并报警。该场景中存在数据孤岛挑战,在典型的工业视觉系统解决方案中,存在工件种类规则繁多各异的数据异构问题、单一厂区数据样本不足的小样本问题,工业产线数据因隐私安全不出厂的数据异构问题,导致应用的泛化能力差,无法综合利用各厂区数据对模型进行优化升级。KubeEdge Ianvs 孵化算法并使用 KubeEdge Sedna 开发服务框架,从边云协同终身学习、联邦学习和增量学习在广东、北京等地的 DGNF 工厂、DBQX 项目、RSKD 工厂开展项目验证,成果已发表到人工智能系统领域顶级期刊 ACM TIST 2021,相关验证结果表明可以减少 81.28% 的误报,这意味着每年节省 1130 万美元。
图 10 工业质检系列案例
▷ 冷机智能控制系列案例。能源关乎国计民生、也是当前双碳时代下的关注热点。冷机智能控制场景输入冷站工况,预测冷负荷产出或冷量需求,用于冷站节能控制。其技术挑战主要在于两个方面。首先是小样本问题,各园区传感器覆盖不全、数据丢失和采样规模小的情况很常见。还有数据异构问题,不同城市中气候、冷站、楼宇特征分布差异大,导致单一模型性能不稳定。KubeEdge Ianvs 和 Sedna 基于边云协同终身学习应对上述问题,研究成果发表 7 篇论文于人工智能顶级会议 IJCAI、能源顶级会议 ACM e-Energy 与 ACM BuildSys、分布式系统顶级期刊 TPDS 与顶级会议 ICDCS,方案已上线 Huawei Cloud Operator Service Center 华为云云原生服务中心,在香港、广东、广西等区域与省份的 HKPP 商圈、SZHW 园区和 GXBD 机关局覆盖超过 10 座建筑物的项目验证下,并能为各园区节省 10-30%以上的能源。
图 11 冷机智能控制系列案例示例与架构
▷ 机器人智能导航系列案例。机器人智能导航可以用来做室外物资递送,也可以用在工业巡检上。案例中部署环境感知识别模型用于跨越低矮障碍,KubeEdge Sedna 和 Ianvs 通过边云协同终身学习处理其中数据异构和小样本问题。相关方法发表在 ACM CIKM 2022 和 Open Source Summit Japan 2022,已上线到 Huawei Cloud RoboArtisan 云服务,相关智能导航技术分别在香港和深圳的 QDFL 项目和 SZHE 园区验证,在验证过程中 mIoU 提升达 1.78 倍,配送时间节省 28%,训练样本打标量节省幅度 26%。
图 12 机器人智能导航系列案例
其中孵化了大量高阶算法用于面对现实环境中的未知物体等感知任务,主要分为在线处理和离线处理:
在线运行时的未知任务识别,识别的新的类别或者新的域,来触发重新训练或者发送短信等。在线运行时的未知任务处理,识别到新任务结合边和云多种模型去进行实时兜底,而不是只能发短信和等待离线训练。
离线训练的未知任务处理,使用 GAN 针对未知任务进行数据生成,同时使用自监督方法,降低标注成本。
2023 年也结合大模型对在线运行时和离线训练的未知任务处理分别进行优化。相关数据集、基线算法流程均已开源于 KubeEdge Ianvs。
图 13 机器人智能导航高阶开源算法
云原生边缘智能正在跨越新时代边界,变革已经在眼前,希望与产学研各界同志一同向未来发力。如果希望深入了解更多关于云原生边缘计算领域的知识,KubeEdge 开源社区及专著《边缘计算理论与系统实践:基于 CNCF KubeEdge 的实现》可能会为您提供更多信息。
附录《自动化博览》刊物介绍
中国自动化学会(Chinese Association of Automation,缩写 CAA)是我国成立的国家一级学术群众团体,初始筹备委员会由钱学森等 29 人组成。《自动化博览》是由中国自动化学会主办、国内外公开发行的大型刊物,创刊于 1983 年 10 月。集大中型控制系统、工厂信息化、先进控制与优化软件、工业通讯等于一体,特别关注人工智能、工业互联网、云计算、边缘计算等领域,理论与实践并重、产研结合、面向工程、突出实用。其边缘计算 2024 专辑由《自动化博览》联合边缘计算产业联盟共同出版,从产业、技术、应用三大角度展现边缘计算领域的最新进展,共同探讨智能数字化时代加速到来之际,如何把握边缘计算产业未来方向和发展机遇,促进行业数字化转型,共同迈向快速增长之路。
【更多 KubeEdge 资讯推荐】玩转 KubeEdge 保姆级攻略——环境搭建篇
玩转 KubeEdge 保姆级攻略——环境搭建篇
《玩转 KubeEdge 保姆级攻略——环境搭建篇》课程主要介绍如何通过华为云服务快速搭建一套 KubeEdge 边缘计算开发平台及部署 Sedna、EdgeMesh 等 KubeEdge 生态组件。
课程免费学习链接:https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiX+CBUCNXNX022+Self-paced/about
KubeEdge 社区介绍:KubeEdge 是业界首个云原生边缘计算框架、云原生计算基金会内部唯一孵化级边缘计算开源项目,社区已完成业界最大规模云原生边云协同高速公路项目(统一管理 10 万边缘节点/50 万边缘应用)、业界首个云原生星地协同卫星、业界首个云原生车云协同汽车、业界首个云原生油田项目,开源业界首个分布式协同 AI 框架 Sedna 及业界首个边云协同终身学习范式,并在持续开拓创新中。
KubeEdge 网站 : https://kubeedge.io
GitHub 地址 : https://github.com/kubeedge/kubeedge
Slack 地址 : https://kubeedge.slack.com
邮件列表 : https://groups.google.com/forum/#!forum/kubeedge
每周社区例会 : https://zoom.us/j/4167237304
Twitter : https://twitter.com/KubeEdge
评论