火山引擎 DataLeap 如何解决 SLA 治理难题(三): 平台架构与未来展望
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
平台架构总结
火山引擎 DataLeap SLA 平台整体主要分为基础组件、规划式治理服务、响应式治理服务三大块,系统组件架构图如下:
规划式治理服务
所谓“规划式治理”,即在问题发现前治理,通过主动规划约定 SLA 的形式保障任务产出。规划式治理是 SLA 相关问题发现的过程。
规划式治理服务即“提供以申报单签署的方式达成 SLA 协议的服务”,包括在此过程中申报单的生命周期管理操作,申报任务的链路分析,以及达成 SLA 之后的系统保障监控,服务于“申报签署流程”。
响应式治理服务
响应式治理是指通过复盘管理模块对 SLA 相关的事故/问题进行登记、管理、复盘的过程。在发现 SLA 相关问题之后,需要对问题进行处理,形成一个完整的闭环,在发现问题后进行的治理成为响应式治理。
响应式治理服务模块抽象出问题登记和事故管理两个模块,更加灵活的服务于数据 SLA 的问题归因与事故统计。
基础组件
基础组件提供了配置、播报、看板等基本功能模块服务,为规划式、响应式治理服务提供了必要支撑,是整体 SLA 保障服务不可或缺的一环。
(1)系统配置
治理团队配置
治理团队为 SLA 的管理团队,每个申报单都需要绑定一个治理团队,治理团队主要负责审批申报单。
数据团队配置
数据团队为数据的归属方,一个数据团队对应一个业务团队,数据团队的设计保障了各个业务团队独立治理的需求。平台通过对数据团队的灵活配置支持,可以更细粒度的划分数据与任务的归属,解决权责不清的问题。
订阅配置
订阅管理是配置订阅信息的平台,本平台的订阅为 SLA 监控的通知播报,通过订阅管理可以将通知指定发动到个人或者群组。订阅管理是火山引擎 DataLeap SLA 监控保障服务不可或缺的一环。
(2)通知播报
通知播报是本平台所提供的基础通知能力,是降低沟通成本、实现保障服务、提升用户体验的重要手段。在重要节点变更、用户操作、SLA 状态变化等情况下,都会进行通知播报。通知播报形式多样,根据不同的场景,有普通文本消息、加急消息、卡片通知、邮件通知、电话通知等。
(3) SLA 大盘展板
SLA 大盘展板是数据治理方最为关心的部分,展板提供当日 SLA 整体统计信息、SLA 延迟趋势分析信息、SLA 等级分布明细、任务健康度明细、团队 SLA 达成信息统计等丰富信息,是很多团队数据治理指标重要参照来源。
未来展望
未来字节跳动数据治理团队将持续打磨火山引擎 DataLeap SLA 保障平台,在卡点策略优化、SLA 推荐算法优化、基于 SLA 的任务管理机制上持续提升技术能力:
卡点策略优化:卡点计算作为优化签署流程中核心一环,卡点策略优化代表着签署流程进一步的简化,未来可以探索利用更多有效的信息优化卡点策略。
SLA 推荐算法优化:SLA 推荐算法是本平台的核算算法之一,已经申请了专利。随着业务的拓展,以及不同种类任务的支持,此算法还有广阔的提升空间,如进一步提升自动签署率,进一步提升准确率等。
基于 SLA 的任务管理机制:任务签署 SLA 信息之后,即可依托 SLA 信息进行资源调度优化,并进行资源分配倾斜。
同时,文中阐述的部分能力已经通过火山引擎 DataLeap 产品向企业客户开放,欢迎关注。
点击跳转大数据研发治理套件 DataLeap了解更多
版权声明: 本文为 InfoQ 作者【字节跳动数据平台】的原创文章。
原文链接:【http://xie.infoq.cn/article/a4742aa8db786e5301d942f4e】。文章转载请联系作者。
评论