写点什么

对话抖音电商:量级庞大、参差不齐,“数据质量治理”有妙招!

  • 2023-03-23
    浙江
  • 本文字数:1080 字

    阅读完需:约 4 分钟

对话抖音电商:量级庞大、参差不齐,“数据质量治理”有妙招!

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群


经过近年发展,抖音电商的体量和规模已经相当可观。


基于数据驱动思路,在数仓建设、数据管理等层面的工作,推动抖音电商能准确分析和测量数据,做出以数据为依据的决策,从而推动业务快速发展。


其中,数据有效性、及时性、准确性关系到 C 端用户体验和 B 端商家决策,在数据体量庞大的情况下,难以避免数据缺失、纬度错误、产出延时等问题,这与数据质量管理息息相关。


本文对话抖音电商团队,为你揭秘庞大数据体量下的数据质量管理最佳实践。


据抖音电商数据团队介绍,目前数据质量问题集中体现在:历史数据繁多,导致无法准确定位异常数据;缺乏合理的监控规则;补齐表监控规则时间、人力成本高等。


为了高效、便捷实现数据质量监控,抖音电商数据团队引入火山引擎 DataLeap 数据质量平台,通过数据波动监控、异常报警、数据内容探查及差异对比工具等功能,保证数据在生产及使用流程中的可靠性和合理性,避免因为数据质量导致的数据失信、决策失误等事故。


抖音电商数据团队主要介绍了数据质量监控、数据异常治理两个场景。


在数据质量监控上,抖音电商通过火山引擎 DataLeap 对抖音 APP 存量数据质量配置监控,并沉淀合理的监控规则,方便监控任务的配置情况及把关数据质量。


火山引擎 DataLeap 数据质量平台


首先,在监控范围上,通过数据质量平台实现 ToB、ToC 任务覆盖全量监控,及时规避数据质量风险;其次,在推进机制上,由于 ToC 链路上游多且监控任务带来过多计算资源消耗,抖音电商团队优先从核心数据链路开展数据质量监控;最后,在落地执行上,通过确立目标、Owner 和进度,完成表行数、重复值、空值、表字段、异常值的梳理。


最终实现抖音电商数据质量管理全链路标准化,即由牵头人发起配置事项,通过火山引擎 DataLeap 数据质量平台完成监控配置,并跟踪完成情况,最后相关数据被推送至看板,方便相关数据研发人员查看和复盘。

对于数据异常情况,抖音电商团队主要通过火山引擎 DataLeap 表探查的能力来解决。


数仓中较多数据表字段存在异常值、空值,在使用前无法感知,导致在数据使用时才发现质量问题,再由业务方反馈,处理效率较低。


火山引擎 DataLeap 具备制定统一的监控规范与开发规范能力,支持检测历史数据异常以及空值等情况,并默认处理、标注数据属性,确保无数据质量问题,才推进表上线流程。



除数据质量治理外,火山引擎 DataLeap 还具备数据集成、开发、运维、资产、安全等全套数据中台建设能力,有效提升数据研发效率、降低管理成本,目前已经应用于泛互联网、制造、新零售、汽车等领域。


点击跳转 大数据研发治理套件 DataLeap 了解更多

发布于: 刚刚阅读数: 3
用户头像

小助手微信号:Bytedance-data 2021-12-29 加入

字节跳动数据平台团队,赋能字节跳动各业务线,对内支持字节绝大多数业务线,对外发布了火山引擎品牌下的数据智能产品,服务行业企业客户。关注微信公众号:字节跳动数据平台(ID:byte-dataplatform)了解更多

评论

发布
暂无评论
对话抖音电商:量级庞大、参差不齐,“数据质量治理”有妙招!_大数据_字节跳动数据平台_InfoQ写作社区