写点什么

从“13 天”到“0 天”延时,揭秘火山引擎 DataLeap SLA 保障最佳实践

  • 2023-03-10
    浙江
  • 本文字数:1283 字

    阅读完需:约 4 分钟

从“13天”到“0天”延时,揭秘火山引擎DataLeap SLA保障最佳实践

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群


在数据治理中,如何实现 SLA 保障一直是“老大难”问题。


随着某房产 APP 稳定发展,楼盘、房源、经纪人、营销等数据不断扩大,在数据任务开发场景中,业务多样化、数据量大、数据任务复杂等问题,导致数据任务链路依赖复杂、链路长、依赖多。其中,异常突出的是离线数仓 SLA 延迟大,竟然高达“13 天”。


在字节跳动内部,“0987”高质量服务评价体系被广泛应用于数据服务场景。“0987”即从多个维度综合论证数据中台的价值,位列第一的“0”,指的是数据中台必须保障数据稳定,实现 SLA 故障清零。在“0987”服务标准的指导下,这款房产 APP 通过火山引擎大数据研发治理套件 DataLeap 实现 SLA 延迟从“13 天”缩短为“0 天”。


据房产 APP 数据研发人员介绍,“火山引擎 DataLeap 具备数据开发、数据治理、数据质量全链能力,可以串联成一套连贯、可复用的治理方案,最终形成 SLA 保障高效管理。”


房产 APP 团队任务签署 SLA 步骤


具体来说,他们主要通过以下三个步骤快速实现 SLA“零延时”。


首先,数据研发团队根据业务需求,圈定出需要被 SLA 保障的核心任务,包括线上核心任务、管理驾驶舱数据以及周报、月报等重点业务核心看板。


其次,制定全局保障方案。在 SLA 治理环节,存在核心任务 SLA 保障不足,有发生线上业务事故的隐患问题。除此之外,SLA 任务运维报警能力不足或者 SLA 签署时间不合理等,有 SLA 延迟隐患,造成破线事故。基于火山引擎 DataLeap 数据治理功能,数据开发人员可以通过申报单签署的形式达成 SLA 协议,在申报签署环节中,各个环节的变化将通过通知模块传递信息给相应负责人,实时通知降低信息交流成本,加速了 SLA 的达成。


数据质量整体策略


另外,火山引擎 DataLeap 支持对卡点任务的监控,保障 SLA 及时性及任务准确性。


举个例子来说,APP 平台有一个关系到经纪人核心利益分值指标。当经纪人完成相应任务时,分值增加。但当维表中数据缺失,在前台反映的结果则是分值不更新,对经纪人造成困扰。另外,之前还出现过这样的案例:小李在数据库中的核心维度是“经纪人”,但在维表中,可能测试数据误导入或重复数据导入,导致小李对应到多个门店或对应到错误房源。


在这种情况下,基于火山引擎 DataLeap,房产 APP 数据研发团队可以实现核心任务的数据波动监控、异常报警,避免因为数据质量导致的数据失信、决策失误等事故。


最后,项目中的核心数据指标如 SLA 任务数量、报警数、起夜率等都能体现在火山引擎 DataLeap 的大盘展板中,量化项目推进效果,为风险判断、后续措施提供数据支持,成为数据治理指标重要参照来源。


最终项目效果不仅仅体现在解决离线 SLA 保障的燃眉之急,更为该房产 APP 团队形成了一套标准流程和规范。在事前,使用申报流程,规范 SLA 签署;在事中,完善报警及时性和准确性,降低误报率;在事后,及时跟踪报警情况,完善问题复盘及监控机制,沉淀公共解决方案,推 SLA 治理健康、可持续发展。


数据质量实施过程


随着数字化转型进一步深入,火山引擎 DataLeap 将进一步帮助企业提升数据研发效率、降低管理成本,为企业数字化实践提供有力支撑。


点击跳转 大数据研发治理套件 DataLeap 了解更多

发布于: 刚刚阅读数: 3
用户头像

小助手微信号:Bytedance-data 2021-12-29 加入

字节跳动数据平台团队,赋能字节跳动各业务线,对内支持字节绝大多数业务线,对外发布了火山引擎品牌下的数据智能产品,服务行业企业客户。关注微信公众号:字节跳动数据平台(ID:byte-dataplatform)了解更多

评论

发布
暂无评论
从“13天”到“0天”延时,揭秘火山引擎DataLeap SLA保障最佳实践_大数据_字节跳动数据平台_InfoQ写作社区