北冥多样性计算融合架构系列解读之 一文读懂华为多瑙统一调度器
调度器,作为集群计算的大脑,主要负责为任务分配相应的系统资源。好的调度器,可以充分发挥集群资源的有效算力,为用户带来极致的性价比;反之则会导致严重的资源浪费,甚至是集群瘫痪。
1、新时代,新挑战
21 世纪是多样性计算爆发的时代。随着人工智能、大数据、云计算等新一代信息技术的不断发展和突破,应用跨领域融合、算力架构创新等现象层出不穷,多样化的趋势给传统的调度技术领域带来了新的挑战。
从横向看,集群缺少支持 HPC、AI、大数据的跨场景统一调度器,各集群分散建设,给开发者和集群运维人员带来了很大的难题:
融合应用找不到合适的调度入口
集群之间资源无法共享,资源利用率低
多套集群,多套软件栈,硬件成本、管理成本高。
从纵向看,面对多样应用、多样算力,传统调度算法无法基于应用差异化的特征,实现系统化的性能调优。如对于通信密集型应用,传统调度器既不感知应用,也未感知网络拓扑、带宽、时延等因素,不合理的调度容易形成通信瓶颈,降低计算效率。同时,据数据显示,我国数据中心年耗电量超过全社会用电量的 1.5%,数据中心“耗能高”的问题也一直无法得到有效解决。
从跨数据中心看,不同数据中心分散建设,不同区域算力使用存在波峰波谷效应,由于缺乏数据中心间的协同调度,资源无法共享,全局资源利用率低。
2、拥抱变化,重拳出击
为了应对多样性计算时代给资源调度技术领域带来的挑战,华为给出了自己的解决方案--多瑙统一调度器。
多瑙调度器,谐音“多脑”,象征智慧、统一,是华为自主研发的一款统一调度器。目标是支持融合应用跨多样性算力资源的统一调度和管理,实现大规模、高资源利用效率、高调度性能,为多样性计算集群提供应用和资源的最佳匹配。多瑙统一调度器基于前沿的架构设计理念进行设计开发,横向支持 HPC、AI、大数据多场景统一调度;纵向支持应用、算力、存储、网络、能耗深度感知和多维度智能调度;跨数据中心支持数据中心间资源协同,全局调度。
3、初露锋芒,大放异彩
华为于 2020 年首次推出多瑙统一调度器,并于 2020 年底如期发布 Donau 1.0 版本。Donau 1.0 版本支持多场景统一调度,解决了多样性计算环境下,融合应用开发部署难的问题,同时,在集群规模、调度性能、资源利用率等核心调度指标方面实现了竞争力突破,业界领先:
大规模:30 万作业并行运行
高性能:作业调度 5K/s,完成 4M/h(作业吞吐量)
高利用率:90%+
多瑙统一调度器一经推出,受到了广大客户的青睐。当前,多瑙客户包含国内多家知名企业,业务领域覆盖广泛,不仅包含半导体、制造、气象气候、高能物理、材料化学等行业应用,也包含超算等公共算力平台。
在今年 9 月份刚刚召开的华为全联接 2021 大会上,华为分享了在智能调度领域方面的思考,计划将于今年年底正式发布 Donau 2.0 版本。Donau 2.0 版本支持多维度智能调度,通过深度感知应用特征和算力、网络、存储、能耗等多维度资源,并结合专家系统、跨域联动、智能调度算法创新,充分发挥集群有效算力、降低能耗,为客户带来更高的投资回报。在典型场景下,实现了集群 25%的作业吞吐量提升和 30%的节能。
4、持续演进,未来可期
2022 年,华为计划发布 Donau 3.0 版本。据悉,Donau 3.0 版本将通过元调度技术,支持跨数据中心全局调度,同时,会基于开放的接口,提供兼容第三方调度器的能力,为算力网络的构建提供关键技术支撑。
多瑙统一调度器作为华为北冥多样性计算融合架构的关键组件,围绕着统一、智能、全局的技术方向稳步演进,不但能够解决当下计算产业面临的难题,未来还将催生出更多的智能计算解决方案,值得期待!
评论