阿里云对边缘计算的探索和实践
5G 时代来临,万物智联已经走入大众生活,对计算结构提出了全新要求。随着终端算力上移、云端算力下沉,在边缘形成算力融合,边缘计算逐渐深入多种应用场景,成为不可或缺的网络基础设施与支撑数字经济高质量发展的重要驱动力量。
阿里云博士后研究员兼技术专家付哲,以《边缘云技术创新 让“云”无处不在》为主题,分享阿里云在边缘计算与边缘云的技术演进路线、商业场景实践与学术探索。
边缘计算的发展价值
随着通信技术的发展,通信的主体从以人为中心,逐渐向以物为中心迁移,信息流转也使得数据的生产消费方式发生巨变。数据的生产消费方式由集中生产、分散消费,转变为分散生产、泛在消费,这意味着技术上也需要进行应用的重构和产业的协同。
近年来,云计算和 5G 技术的结合,催生出一大批需要大量流量、超低时延、海量链接的新型应用与场景,例如 4K/8K 的超高清视频,工业控制与车联网,环境监测、智慧家庭等等。
但是,传统的集中式的云的模式,已经逐渐难以满足这些应用对网络带宽流量、网络传输时延以及连接规模等等方面的需求。
在当前背景下,为了满足 5G 应用对增强移动宽带,海量终端互联以及高可靠低时延连接的需求,边缘计算和边缘云的价值日益凸显。
有机构报告预测,5G 时代,80%的数据和计算将发生在边缘。边缘云通过将流量在边缘进行收敛,可以实现对大流量的本地化处理和分发,避免海量流量对骨干网络的冲击,同时也有效降低流量的远程传输成本。
同时,依托分布式架构,边缘云可以实现对海量终端高并发的分布式处理,有效提升计算效率。此外,边缘云通过就近部署,也能够满足海量终端低延时处理的场景化需求。
边缘云技术架构
相较于中心云或物联网,边缘云是一个新的概念。
根据著名信息技术研究分析公司 Gartner 的解读,边缘计算是相对传统集中通用计算而言,将工作负载部署在边缘的一种计算方式,其采用分布式的计算架构,在尽可能靠近数据源或者用户的地方,进行计算和存储,仅将必要的结果送到云中心。
边缘云与传统的云或者 IoT 是互补的定位,没有相互取代的关系,可以将边缘云看作是云的延伸,为客户提供低延迟、本地化、自治、安全隐私的服务能力。
从用户的终端到云端,Gartner 将这中间的部分,分为了两类边缘:
第一个是 Near Edge,通常是非标准服务器或设备,在距离端侧最近的地方,例如在工厂内部,包括 ARM、X86 等各种类型的设备。
另一类是 Far Edge,通常是标准的 IDC,或者 MEC,例如传统的 CDN 节点等等。
这两类边缘都可以包含于广义的边缘云的概念中。就近、分布式、场景化与差异化,是边缘云有别于中心云的关键字。
阿里云在云计算基础设施服务方面,基于统一的飞天底座,提供了一云多芯、一云多态的云计算架构,从中心向边缘辐射,让算力无处不在。
中心 region 通常位于一线核心区域,作为全产品大体量的公共云形态,应对各种通用的弹性、高密、大并发、高可用场景,比如大家熟悉的互联网计算场景、大数据、AI 模型训练、高性能计算等场景。中心 Region 通常离终端用户较远,时延一般在 100 ms 以内。
物联网 IoT 现场计算节点位于用户机房及业务现场,离用户最近,提供软硬一体的计算方案,时延在 5 ms 以内。
中心和现场之间的本地 Region,以及边缘云节点,他们到用户的时延通常在 5 ms 到 20 ms 之间。这两者的区别是,本地 Region 位于数字经济活跃区域,以中心云小型化输出的方式,提供比边缘云节点更大规模的计算服务,重点支持这些区域的企业数字化转型的场景。
边缘云是由大规模地域分散的边缘节点,相互协同组成的一朵可远程管控,安全可信,标准易用的分布式云。[1]
边缘云单节点规模较小,在百这一数量级,节点广泛覆盖离用户更近的热点区域,支持边缘设备管理、智能终端上云、视图流化、渲染、CDN、以及 5G + 边缘云网融合等等边缘场景,为用户提供更近、更低时延,且与中心体验一致的云服务。
阿里云作为国内最早定义和研发边缘云的厂商之一,早在 2018 年联合中国电子标准化研究院发表了业内首份《边缘云计算技术及标准化白皮书》[1],对边缘云的概念、架构和应用场景作了明确定义。
时延和带宽作为边缘云最能带来价值的两个优势点,为各行各业的创新应用场景提供了基础。
根据对时延和带宽的需求,将边缘云的典型应用列在如上的坐标图中。初期,边缘云上已经跑着诸如视频监控、智慧工厂、VR、云游戏等应用。随着边缘云技术和应用本身的发展,中长期边缘云还将支持智慧交通、自动驾驶、远程医疗等等创新应用。
边缘云技术演进趋势
边缘节点服务 ENS
边缘节点服务 ENS,是基于运营商边缘节点和网络构建的 IaaS 层服务, 提供“融合、开放、联动、弹性”的分布式算力资源,包括虚拟机、裸金属、容器等多种形态,能够有效帮助用户业务下沉至运营商侧边缘,降低计算时延和成本。
目前,ENS 在国内拥有 2800+节点,实现中国大陆 31 个省份三大运营商全部覆盖,偏远地区也能就近接入。
同时,ENS 提供全国分布式资源的分钟级交付,用户能够按量付费,弹性扩缩容。依托边缘云的优势,ENS 还提供了优质的边缘网络,并且能够支持边边加速、云边加速。
此外,ENS 还提供了多种业务场景方案的整体交付能力,例如提供成熟的内容分发、视频上云等解决方案,有助于客户业务转型升级。
视图计算 VEC
依托于边缘云底座,阿里云提供了视图计算服务。视图计算是面向视图设备,例如摄像头、车载终端、消费电子等等,为这些设备的上云场景提供连接、AI 计算、云存储的 PaaS 服务,能够大大降低网络延时,提升视图类数据处理效率。
基于视图计算服务和阿里云自研的接入协议,客户的视图设备能够一键上云,并且就近接入到边缘节点,实现直播、录制、截图、转码等基础视频处理能力。
同时,阿里云也集成了阿里达摩院的 170 多项丰富的视觉 AI 算子能力,包括交通拥堵、安全帽监测等等,支持高速上云、智慧工地等场景。
视图计算服务基于边缘云,能够实现视频流的边缘就近处理与存储,能够为客户优化流量与存储成本。此外,平台还提供可视化的流程编排能力,给用户提供易用的体验。
协同存储 EOS
针对边缘大容量存储场景,阿里云推出了独立的服务——边缘协同存储。
正如前文所述,终端上云场景往往具有位置分散、数据规模大、价值密度低的特点,同时还有一点就是带宽反转,上行带宽远大于下行。长期的数据回云会造成较大的带宽压力以及存储成本,同时最重要的一点,无法保证就近、低延迟。
边缘协同存储,是将边缘云多个分布式节点的对象存储资源进行统一管理和调度,提供位置无感、体验一致、大容量、高性价比的对象存储能力。
为了实现这些优势,在架构设计上,边缘协同存储采用了典型的云边协同管控方案,中心的元数据逻辑 Bucket 与边缘的物理 Bucket 动态映射,保证数据的一致性。同时采用优化过的读写调度策略及算法,在保障性能及稳定性前提下的实现资源最优使用。另外,边缘节点实现了一部分的自治管控,可以进一步降低访问延时,同时提升服务的稳定性。
全球实时传输网 GRTN
第三个典型应用是基于中心云和边缘云节点,构建的一张超低时延、全分布式下沉的通信级流媒体传输网络 GRTN。
传统的流媒体传输,依赖的是基于 CDN 构建的树状网络。
从一个摄像头采集到的画面,到用户通过手机观看,需要经过 L1、L2、直播中心、L2、L1 等多级节点,链路相对比较固定,延时、成本、扩展性都有很大的优化的空间。
GRTN 采用了一种树状和对等网结合的动态网络,GRTN 的各节点之间不再有层级关系,而是相互对等,最终形成的就是一个网状结构的系统。
此外,流媒体大脑作为 GRTN 的核心组件,负责路径探测、路径计算、流媒体编排等。选路中心会周期性收集内部链路探测的结果,并利用 KSP 算法来进行拓扑计算。
另一方面,节点之间的链路探测数据,并不能完全决定实际的最优路径,例如在多人视频会议的场景,加入的参会人员的数量、分布甚至先后,都会影响最终的路径决策。
因此流媒体大脑还需要对流媒体的具体信息进行感知,同时还需要结合各节点的容量规划、成本、质量等等因素,共同编排出最优的传输路径。
通过基于实际线上业务进行了测试,相比传统的 CDN 树状结构,GRTN 的传输时延由 400ms 左右提升至 180ms 左右,时延减半。
此外,在用户体验上,98%的播放不会出现停滞的现象,95%的播放可以在 1s 内开始。该工作的相关成果已被 SIGCOMM2022 接收,感兴趣的读者可以进一步查阅论文。[2]
边缘 AI
利用边缘节点广分布且靠近数据源产生地的特点,能够进行特定的数据处理和识别优化,提供低延时、省带宽、低功耗、安全的 AI 服务。
整体架构采用了云-边-端三层协同的方案。
在终端侧,手机、iot 等设备算力较弱,且功耗有限,因此很难运行比较复杂的 AI 模型,更适合做数据的采集、压缩、以及预过滤性质的工作。
边缘云提供了 GPU、FPGA 等硬件加速的能力,但是相较于中心云,规模和算力还是比较有限的,因此不太适合在边缘云进行大规模的模型训练以及数据的持久化存储,更适合对时延要求较高的推理部分。而模型的训练、结果的持久化存储,可以放在中心云进行。
因此,在云-边-端三者协同的边缘 AI 场景,通过将 AI 算子从终端设备上移到边缘云,将 AI 算力从中心下沉到边缘云,共同提供低时延、高效能的 AI 服务。
除此之外,为了方便算法科学家将算子模型部署到边缘云,阿里云同时开发了边缘算子托管平台,能够结合边缘云分布式的特点,一站式、自动化地完成 AI 服务在边缘节点的部署,将 AI 模型的推理过程转化为通用的 Restful API 接口形式,供终端用户调用。
阿里云在 2020 年发布于 IEEE EDGE 会议的一篇论文中的实验表明,边缘 AI 在部分场景,可以大幅度提升推理性能,目标检测性能最多可以提升 50 倍。[3]
云渲染
云渲染,或者云游戏,是最近非常炙热的方向。
阿里云基于边缘云的全分布式异构计算资源和网络带宽资源,针对游戏、AR/VR 等视频渲染场景,提供就近、低延时、位置无感的云上渲染服务。
以云游戏为例,用户的游戏终端仅仅包括显示部分和操作部分,用户将控制指令发送到边缘云节点,在边缘云节点渲染出实时游戏画面后,游戏的视频流和音频流回传到用户游戏终端。
这样的话,用户不需要强大的游戏设备,仅仅通过手机、电视、甚至家中的智能音箱,就能畅玩目前最新、最火的游戏。
云游戏中,时延是最能影响用户体验的因素。由于边缘云相比中心云能提供时延更低、质量更好、成本也更便宜的网络能力,因此,基于边缘云的云游戏服务的时延,要明显好于基于中心云的云游戏服务。
阿里云在 IMC 2021 与几所高校合作发表的论文,测量了以云游戏为代表的边缘云典型应用的性能和优势,可以通过该论文了解研究的详细结果。[4]
边缘云目前的挑战
边缘云协同挑战
资源调度,特别是云计算中的资源调度,已经是一个相对成熟、研究成果也较为丰富的领域了。但是,边缘云的诞生为这个成熟的场景带来了新的问题和新的机会。
边缘云中,协同是一个重要概念。
以下将展开介绍与调度相关的三种协同:
首先是地理位置的协同。
传统的云资源调度往往是单个巨大的云数据中心,调度的时候一般不会关注离最终用户的距离、以及网络时延。而边缘云的资源调度,单节点的规模更小,通常只有几百台甚至更少的服务器。
但是边缘云节点或者边缘云机房的数量又是非常大的,例如阿里云在国内有 2800 个节点,相比较而言,中心云的 region 大概只有十几二十个。
因此,面对这种分布式广覆盖的小型节点,并且地理位置有感的资源调度场景,传统的云资源调度方法难以取得比较好的调度结果,需要研究更适合这种场景的调度方法。
第二,边缘云考虑的资源维度更多。
除了时延之外,受限于单节点规模较小的特点,在做调度的时候还需要同时考虑磁盘大小、网络带宽、甚至节点的 IP 数量、NAT 网关的承载能力,等等。
这些不同维度的资源有可能是相互依赖、甚至是互斥的。因此,如何做到以及做好多维资源的协同调度,也是边缘云面临的挑战之一。
第三,是产品形态的协同调度。
传统的云资源调度,虚拟机、容器、函数等等不同形态的产品所依赖的底层资源是分池的,他们之间的调度互不影响。
但是在边缘云场景,是统一的融合调度,也就是说,在一台服务器上可能同时运行客户 A 的虚拟机、客户 B 的容器、以及客户 C 的函数服务。
因此,如何能够在保证性能不相互影响的前提下,结合边缘云产品的特点,通过调度充分提升资源利用率,也是一个比较大的挑战。
异构资源管理
第二个大的研究挑战,来自于异构资源管理方面。
前文介绍的云渲染云游戏场景,目前部分业务是由新型异构硬件承载的。
比如 ARM 服务器,或者手机 ARM 芯片组成的阵列服务器,等等。这些新型硬件对于云计算厂商来说,缺少一套标准化的纳管、测试、评价标准。阿里云期待跟各大高校、科研单位合作,共建一套边缘云异构硬件评价系统与标准。
此外,基于这些新型异构硬件,也需要进行虚拟化层面适配,例如,如何在手机 ARM 芯片阵列服务器上,构建出功能完整的容器平台,提供更灵活、扩展性更强的服务能力。
再者,部分异构硬件通常含有专用的硬件加速单元,这些硬件加速单元能否通过软硬件协同优化,更充分地被上层业务所使用,加速诸如编解码、AI 等等场景,也是阿里云感兴趣的研究方向之一。
云游戏/VR 时延优化
最后,在云游戏、VR/AR、元宇宙等近期比较热门的应用服务中,阿里云同样有大量研究机会点。
如针对云游戏或者 VR 相关场景的编解码、传输等方面,可以通过融合边缘云特性进行专门的优化。
此外,目前大部分云游戏直接将游戏放在边缘运行,只做到了“游戏云端化”,虽然在短期内实现了丰富云游戏服务,但是并没有充分发挥云的优势。
未来阶段,是否能够诞生真正的原生就运行在云上的游戏,这些游戏为云而生,弹性自如,能够充分利用云的优势,给用户带来更极致的云游戏体验,也是阿里云期待和大家一起探讨和解答的问题。
参考文献
[1]《边缘云计算技术及标准化白皮书》2018, 阿里云计算有限公司,中国电子标准化研究院
[2] Li, J, et al. "LiveNet: A Low-Latency Video Transport Network for Large-Scale Live Streaming." ACM SIGCOMM (2022).
[3] Fu, Zhe, et al. "Astraea: Deploy AI Services at the Edge in Elegant Ways." 2020 IEEE International Conference on Edge Computing (EDGE). IEEE, 2020.
[4] Xu M, Fu Z, Ma X, et al. From cloud to edge: a first look at public edge platforms[C]//Proceedings of the 21st ACM Internet Measurement Conference. 2021: 37-53.
评论