写点什么

京东百万级调度系统 (Buffalo) 架构解密

  • 2024-07-24
    北京
  • 本文字数:3746 字

    阅读完需:约 12 分钟

一、调度系统简介

Buffalo 调度是一款京东自主研发的分布式 DAG 作业调度系统。为京东的数据开发工程师、算法工程师、数据分析师等用户提供了离线作业的编排 &调试、监控运维、DAG 调度等系统能力,致力于打造行业领先的稳定高效、产品简洁高体验、任务监控全面、资源容器化、系统能力开放化的 ETL 调度系统。


在京东调度系统核心面临的挑战有以下几个:


1.业务复杂带来的依赖关系复杂: 复杂的数据链路,使得部分任务有数百、甚至上千个上下游,层级多达数十层。跨天依赖、数据回刷、月度汇总等业务场景,需任务间依赖存在大小周期依赖、跨天依赖等复杂场景,任务依赖关系数据构成一个庞大且复杂的有向无环图。


2.业务体量大且稳定性 &性能要求高: 目前平台有数十万任务,百万+依赖关系,日均百万+调度频次,不仅关系复杂、执行量大,且系统的任何细微异常,都可能导致数据链路异常,核心数据受损,这对调度系统的稳定性和性能带来了不小挑战。


3.数据加工场景复杂需支撑丰富调度能力: 支持集团多个 BG 业务,业务场景多样,涉及数据采集、数据计算、数据推送、数据转换等多种任务类型、多种执行方式、多种触发规则,以及控制节点、任务间的数据传递、数据补录场景等,对系统功能的丰富度和灵活度提出新要求。

二、核心技术方案

为支撑灵活的业务加工和工作流编排场景,快速的业务发展带来的任务量增长,以及保障整个系统的稳定性,我们从易用性、稳定性、以及高性能等方面做了很多的思考和优化,下面我将着重从这三个方面详细介绍。

1. 实体和编排调度模型

a) 双层实体模型



采用主流的双层实体模型,双层实体模型中,包含两个核心概念:


Action(环节): 环节是最小粒度的执行单位,携带执行相关的信息,如脚本、参数、环境等。


Task(任务): 任务是由一个或多个环节+触发规则构成的 DAG,Task 和 Task 之间也可以相互依赖,在外层构成一个 DAG,实现双层调度。


相比单层实体模型,编排能力更强,有更好的灵活性,同时对于单个业务的整合打包和管理也更友好。


b) 基于实例的调度



任务定义是任务配置的载体,无状态,不可执行,任务当到达运行周期时,会产生相应周期的任务实例(产生实例的过程叫“实例化”),实例化时会根据任务的配置信息,包括:环节、上游依赖、数据依赖、运行周期等,生成当前周期实例,可理解为任务的一个快照,任务实例是真正可执行、并具有状态的对象。


基于实例的调度模式,其优点在于:


周期稳定: 任务的每个周期都会有实例,不会出现周期缺失的情况,且每个周期的实例可独立操作


依赖明确: 任务某个周期的实例,其对上游任务实例的依赖,或者数据依赖是明确的、可预期的,同时对某个周期的数据可从整个链路上快速追溯,并在产生问题是可从链路层面快速修复。


c) 分类分级调度能力


平台中的任务不通业务,重要性存在一定差异,为提升核心任务的保障能力,平台提供任务分类分级管理,和基于分级的调度能力,在客户端资源较为紧张时,会优先保障重要业务。同时任务等级信息会透传到底层集群,在底层计算集群层面也增加相应基于分类和等级的保障策略,保障核心业务的稳定性。

2. 高可用架构



buffalo 整体有分三层,每一层都具备高可用架构,使得整体具备高可用和容灾能力


a) Manager 管理层:


◦主要提供产品化管理能力,包括任务的创建、任务管理、任务运维等,管理端无状态,可横向扩展,负载对外提供服务


b) 高可用 Scheduler:


◦也叫 NameNode 是 Buffalo 核心调度引擎,负责任务实例的周期生成,以及基于 DAG 的双层任务实例的调度、客户端资源的调度(物理资源、弹性资源)、任务状态的处理等。


◦整体采用多活+主备高可用架构,多个 scheduler 会通过数据分片负载处理任务,同时对于任务状态消息进行幂等处理,其中资源调度模块采用主备模式,以便支撑灵活和高效的资源调度能力。当一个节点故障时,其他节点会监测到节点下线,并自动触发接管逻辑,将异常节点任务接管处理,保障故障节点上的任务执行不受影响。


c) 容错执行层:


◦执行层的核心职责是负责任务启动执行,并监听任务执行结果、采集任务日志、上报任务状态,执行层支持物理机和基于 k8s 的容器化资源两种模式。


物理机: 部署 worker(也称 TaskNode)长进程,任务以独立进程方式运行,多个 worker 构成节点组对(虚拟节点)外服务,避免单点故障问题。同时 worker 本身支持消息重传、cgroup 资源隔离等高可用特性。


k8s 弹性资源: 与原生 k8s 对接,任务以短周期 pod 方式执行,任务结束时 pod 销毁,天然具备高可用特性,同时具备更精细化的资源管理、差异化执行环境的动态构建能力。

3. 高性能

前面提到调度系统中随着任务量的增长,业务复杂度的提升,需要调度执行的 DAG 实例梳理,以及 DAG 的复杂度都会不断提升,buffalo 主要从以下几个方面来做到高容量、低延迟的编排和调度。

1) 水平扩展

如上高可用架构部分介绍,调度引擎采用多活架构,可水平扩展,不同服务之间通过数据哈希分片,将任务负载分布到多台服务进行调度,同时各服务通过执行批次和状态进行幂等处理,保障任务执行的唯一性。

2) 事件驱动


a. 定时轮询( 如左图


传统的任务执行方式大多采用定时轮询的方式,这种方式需要定时查询所有待执行的任务实例,然后逐一校验任务实例的依赖条件是否满足(如任务依赖、数据依赖、并发限制等),这种方式在面临大数据量任务时,有几个核心问题:


遍历耗时: 系统中可能有非常多的任务待执行(有些满足条件、有些不满足条件),这样每次获取的任务列表会非常长(可能数十万或百万),这样遍历一遍非常耗时


大量无用计算: 在这些获取的任务列表中,每个任务都需要进行多种条件校验,且只有少数任务是满足执行条件,绝大部分的校验是无用校验


b. 基于事件驱动( 如右图


相比定时轮询,事件驱动不会采用定时拉取、全量校验的方式,而是在任务所依赖条件的状态发生变更时,才会基于事件做出相应的条件计算和校验动作,这样可以有效避免定时轮询面临的两个核心问题。同时针对不同的事件类型,可以分别进行异步并行处理,有效提升整体的处理性能。

3) 内存调度


前面提到 Buffalo 具备在物理机集群和 k8s 集群上启动任务执行的能力,所以需要具备这两种资源的管理和资源调度能力,资源调度的性能也是影响任务分发时效的关键部分。


调度引擎 namenode 采用的是多活的高可用架构,如果资源调度部分也采用该架构(如左图),那么涉及到同一资源的并发访问和修改的问题,进而引入分布式锁和外部存储,这样整体的性能很难达到理想的目标。


因此,我们在 namenode 多活架构的基础上,将资源调度部分做了一个主备架构的处理(如右图),会从多个 namenode 里选择一个作为主资源调度器,其他作为热备,所有 namenode 的任务资源请求都由主节点进行处理,这样主节点在内存中保存了所有的资源信息,资源调度过程在内存中就可进行,避免了分布式锁和对外部存储的依赖,性能有大幅提升。

4) 冷热数据分离


当系统中任务量较大,任务执行产生的实例数据会快速增长,当前 buffalo 每日的实例数据增量接近百万,随着任务量的增长还会持续增长,如果没有适当的方案来处理,数据库很难支撑如此快速的数据增长。


调度系统中的任务有个明显特征 - 定时,就是任务会定时执行,执行完成后的实例,除人为干预外其状态不会再自动发生变更,这部分数据一般只会做查询,所以这部分数据可以做独立存储。我们将状态还会发生变更或频繁操作的数据称作热数据,将这些已经执行结束且基本只有查询需求的数据称作冷数据,并将冷数据单独存储。


当冷热数据分离后,有三个核心问题需要解决:


1)数据结转


任务实例执行完成,处于结束状态的实例都可以被结转,目前采用定时结转的策略。为避免冷数据单表数据量过大,结转规则可以按照季度、月或则更小周期进行拆分存储。


2) 数据定位


当数据结转到冷数据表后,这些实例的状态不会发生变更,单可能还会被未执行的实例所依赖,用户也可能会对这些实例做检索操作,所以这些实例需要能从冷数据表中快速被定位。


索引表: 数据结转到冷数据表时,会根据冷数据表的分区粒度,在索引表记录各冷分区表中的数据范围,如计划运行时间在 2023-01-01 至 2023-03-31 的数据存储在 2023Q1 分区表,这样在定位时可以圈定数据范围,避免全量扫描


数据定位: 因实例数据是有周期性的,有非常强的时间特性,所以可以结合任务实例的计划运行时间,和索引表的数据范围,快速定位任务某个范围的实例所在的分区。


3)冷数据操作


冷数据被操作的几率比较低,但也存在操作的可能性,比如历史实例的重跑、强制成功等操作。为了保持调度引擎架构的简单性,所有相关的任务执行的处理,都是基于当前表(热表),所以为了能保障被结转的冷数据和热数据一样支持所有操作,冷数据被操作时会从冷数据表恢复至热数据表,从而实现与热数据相同的效果。

4、开放能力

开放 API:通过 Http 协议进行开放,支持任务配置管理、任务实例操作、状态查询、日志查询等能力,通过藏经阁进行开放来服务业务


开放事件:基于 JDQ 异步消息的方式将任务状态、实例状态进行开放,联动业务个性化处理。状态发生变更及时同步,确保业务触达的及时性

三、未来规划

Buffalo 调度系统仍在持续的优化和迭代升级,不仅提供更好的用户体验、更极致的性能,也包括容器化能力、插件化扩展能力、开放能力、精细化的资源管理能力等,希望大家提出更好的想法和建议,一起打造稳定、高效、易用的调度平台。

发布于: 刚刚阅读数: 4
用户头像

拥抱技术,与开发者携手创造未来! 2018-11-20 加入

我们将持续为人工智能、大数据、云计算、物联网等相关领域的开发者,提供技术干货、行业技术内容、技术落地实践等文章内容。京东云开发者社区官方网站【https://developer.jdcloud.com/】,欢迎大家来玩

评论

发布
暂无评论
京东百万级调度系统(Buffalo)架构解密_京东科技开发者_InfoQ写作社区