写点什么

如数据血缘探究数据管理的“自治理”

作者:Aloudata
  • 2024-07-30
    四川
  • 本文字数:2221 字

    阅读完需:约 7 分钟

如数据血缘探究数据管理的“自治理”

​数据治理是企业数据管理的核心,它通过系统性的管理行为,确保数据的完整性、准确性、安全性、合规性和价值最大化。数据治理有助于提高数据质量和可用性,减少数据管理的风险,增强企业对数据的信任,从而提升业务效率和竞争力。


特别是随着企业从传统的数字化管理迈向更为先进的数智化运营,数据已成为企业决策和运营的核心驱动力。在这个过程中,找数、用数已经成为企业实现精细化运营、智能化决策的重要环节。因此,做好数据治理,确保数据的准确性、完整性和可用性,对于推动企业数智化运营、提升整体业务效率、提升商业竞争力具有至关重要的意义。


然而,数据规模的急剧增长和海量累积,给企业数据治理带来前所未有的压力,包括:复杂数据链路难以梳理、上下游数据变化难以高效同步、数据口径难以理解等。


复杂数据链路难以梳理:数据链路层级不断增长,数据交叉依赖日益加深,导致数据加工链路错综复杂,数据盘点和加工逻辑的理解越来越难。对于用数人员而言,解析字段上游加工逻辑或追溯、梳理字段来源时,不得不投入大量人力进行链路盘点。但依赖人工的盘点方式效率低下,难以保证数据口径梳理结果准确性。


风险影响未能及时全面分析:当上游数据发生变化时,必须确保这些变化及时、准确地同步到下游,以避免数据不一致和错误决策。这就要求开发团队具备高效的数据监控和预警机制,能够实时追踪数据变化,并自动触发相应的通知。企业对与从业务数据生产、到数据平台加工、再到业务应用的全链路影响分析也有强烈述求,上游的变化可以穿透到最下游的应用场景中,实现对重点应用的差异化保障和预警。


数仓模型的长效优化机制建设:随着业务的不断发展和数据量的不断增长,数据链路越来越长、产出时间越来越晚,同时不断增加的冗余资产造成了资源浪费。上述问题已经成为企业数据架构治理的首要目标,而传统运动式治理普遍存在“治了又治”的情况,不仅投入大成本高、效果还难持续,亟需建立完善的数仓模型的长效优化机制。


重复指标的发现和持续治理:数据口径的一致性是确保分析结果准确性的基础,但由于不同部门或团队对数据口径的理解存在差异,或者由于技术口径的不一致,导致数据分析结果难以对齐,增加了数据分析的成本和难度,影响决策的准确性。对“同名不同义、同义不同名”的重复指标能够快速甄别和持续治理,这也是对数据管理工作的巨大挑战。


就目前来看,传统 ETL 模式解决这些难题的专业门槛、人力投入要求很高,效果还难以保障,不持续、难复制、不经济,最终不能满足数据治理需求和业务需要。基于新一代数据血缘技术的“自治理”数据管理模式受到越来越多关注。


数据血缘如“家族图谱”一样,描绘了数据的起源、流经路径及其转换过程的详尽记录,可以精确追溯数据的初始来源,明晰其历经的各类处理流程,以及最终的应用方式,帮助企业分析并监控数据在业务链条中的上下游依赖关系,为企业提升数据管理效率和质量提供“洞察能力”。


具体来看,数据血缘技术发展历经“表级”、“列级”血缘,到具备精细化、自动化和智能化能力的“算子级”数据血缘,逐步实现了数据管理的“自治理”,开始成为企业数据管理的“关键基建”。


表级血缘:即关注表与表之间的依赖关系,但即便实现了 100% 准确的“表级血缘”追踪,其在实际业务场景中的应用仍显局限。这是因为表与表之间的关系往往具有高度的泛化性,在下探或上溯多层后扩散出百倍甚至千倍的上下游,使用难度极大。


列级血缘:即血缘精度进一步细化至字段级别,包括开源界的 Atlas 项目,都在尝试通过关系推断和正则匹配方式构建上下游字段之间的依赖关系。然而,由于技术解析复杂性和局限性,大家对列级血缘的解析准确率持谨慎态度,据统计,多数厂商的列级血缘准确率普遍低于 80%。


算子级血缘:Aloudata 独创。借助 Aloduata 自研的多平台 SQL 方言解析器,深入剖析复杂的代码计算逻辑,准确、精细地刻画字段间的精细加工关系,并提供代码的改写能力,实现字段加工口径的提取和转换,从可以清晰地展现数据上下游的列级加工关系和行级影响关系。


作为国内 Data Fabric 架构理念的实践者与引领者,Aloudata 通过独创的“算子级血缘”技术,打造了 Aloudata BIG 主动元数据平台,能够助力企业自动构建端到端、跨平台、可扩展的血缘图谱,为数据治理提供自动化、智能化的强大支持,实现数据治理模式的转变,推动数据治理走向自治化的新阶段。


 通过 Aloudata BIG 平台,企业可以生成一张高精准、全链路可视化的算子级血缘图谱,上游连接各种业务数据源,中间可以精准刻画数据加工链路,下游的应用系统血缘也可以通过标准化接口导入图谱,将各类自定义资产无缝连接到血缘图谱中,构建一个端到端连通、全链路覆盖的血缘图谱体系。


凭借此图谱,企业可以全面打通数据生产、加工到消费的完整链路,实现穿透式的影响分析和精准溯源,让业务人员可以自助分析数据指标或报表的来源和加工口径,让数据集市管理人员可以主动评估数据变更和质量影响,实现上下游高效的数据协同,大幅提升数据盘点和理解效率。


目前,Aloudata BIG 平台已在多个极高复杂度的数据环境中完成实地验证。其中招商银行构建起全链路算子级血缘图谱,将算子级血缘分析技术应用到模型优化和变更协同的场景中,服务全行的数据开发人员,血源解析成功率提升至 99.9%,全链路协同保障效率提升 10 倍,平均数据链路缩短 50%。


如您现在对数据治理有巨大需求,或者对“算子级血缘”技术感兴趣,欢迎进入 Aloudata 官网,了解 Aloudata BIG 主动元数据平台更多详情。


用户头像

Aloudata

关注

还未添加个人签名 2024-01-22 加入

还未添加个人简介

评论

发布
暂无评论
如数据血缘探究数据管理的“自治理”_Data_Aloudata_InfoQ写作社区