阿里云飞天论文获国际架构顶会 ATC 2021 最佳论文:全球仅三篇
ATC2021 放榜,接收率再创新低,为 18%。同时,3 篇最佳论文出炉,阿里云提交的关于飞天操作系统的论文占据一席,创下了中国公司最好成绩。
近日,计算机系统结构国际顶级学术会议 USENIX ATC 在线上举行。ATC 始办于 1992 年,是由 USENIX 组织的计算机系统领域的顶级会议,至今已成功举办 31 届,计算机系统领域中 Oak 语言(JAVA 语言的前身)、QEMU、ZooKeeper 等一系列有影响力的研究成果都在 USENIXATC 发表或公布。ATC 对论文要求极高,必须满足基础性贡献、前瞻性影响和坚实系统实现的要求,本次论文录取率仅为 18%,全球仅选取 3 篇最佳论文。
阿里云提交的论文名为《Scaling Large Production Clusters withPartitioned Synchronization》(PDF 版),探讨了飞天如何解决大规模计算资源的调度问题,被收录并荣获最佳论文奖,这也是 ATC 最佳论文首次出现中国公司的身影。
飞天是阿里云自研的超大规模云计算操作系统,可将遍布全球的百万级服务器连成一台超级计算机,以在线公共服务的方式为社会提供计算能力。飞天的核心服务包括分布式计算、存储、数据库、网络等,本次获奖的论文就是其中的资源调度服务。
据悉,阿里云提交的关于飞天分布式调度系统“fuxi2.0”是阿里学术合作创新研究计划(AIR)与香港中文大学 Jamescheng 老师的合项目成果。该论文讨论了业界分布式调度架构资源冲突严重和调度性能差的问题,创造性地提出了一套资源冲突解决机制,实现了调度器在集群规模上的可扩展性,同时保证极佳的调度性能和调度效果,支撑了飞天大数据平台 MaxCompute 单集群 10 万节点的规模,4 万作业/秒的并发能力。
云计算最核心的问题是如何把成千上万,甚至更大规模的机器高效地组织起来,灵活进行任务调度和管理,使用户可以像使用一台机器一样使用云计算。随着数据和计算量越来越大,云计算场景也变得超大规模化,以前传统的基于中心架构的调度器受限于单点处理能力,无法在规模上实现可扩展。
阿里云计算平台事业部研究员关涛表示:“分布式系统领域有一个说法,每当规模扩大一个数量级,就变成了一个全新的问题。规模、利用率和公平性是调度系统的三个核心,本次的论文基于阿里云飞天系统的部分工作,在不损失利用率和公平性的情况下,探索调度系统在超大规模的可扩展性能力”。
近几年,飞天操作系统多项研究成果被国际顶会录取:2019 年,数据调度论文 Yugong 被数据库顶级会议 VLDB 录取;2020 年,机器学习 &单机调度论文 AntMan 被操作系统顶级会议 OSDI 录取;2021 年,计算调度论文 Fangorn 被数据库顶级会议 VLDB 录取。
评论