主动元数据,让数据管理“看得清、管得住、治得动”
现如今,企业数据管理日益复杂化,尤其是对数字化程度较高的企业而言,面临着“多源异构”数据的爆炸和业务场景看数、用数需求激增的双向挑战。
以往,传统的数据管理方式多依赖于人工 ETL,通过将来自数据库、Log 日志和非结构数据等,通过 ETL 加工入仓、入湖,再经过数据建模,转化为结构化的宽表或数据看板,最终应用于各类业务看数或数据分析场景,辅助业务决策。
而今,这种方式已经难以应对和满足企业高效数据管理的需求。特别是随着整个数据链路的复杂性日益加剧,带来的”看不清、管不住、治不动”问题越来越突出:
1、看不清:数据加工链路长,指标口径溯源费时费力;血缘粒度太粗,保障面太宽,异常根因定位慢;血缘发散太快,变更影响评估噪音多。如拥有 PB 级数据量的企业,开展监管报送指标链路保障口径盘点及链路分析需 60 人/月。
2、管不住:“业务先行”,应用层无序建设、中间层空心化;链路不断加长、成本剧增、产出变慢;管控滞后,质量风险、合规风险敞口大,依赖事后治理。如拥有 EB 级数据量的企业,年均数据存储增长高达 60%,稳定可用数据不足 10%。
3、治不动:存量模型盘点难,问题链路、重复数据识别难;数据消费场景错综复杂,下游迁移工作量大;用户习惯和数据风险难控,新老模型切换推不动。如拥有数十 PB 级数据量的企业,100 多层数据链路上千条模型治理需全员投入数年。
为此,要解决这三大难题,企业需要借助主动元数据的能力,来重构数据管理模式。
所谓主动元数据,国内 Data Fabric 架构理念实践者与引领者 Aloudata 大应科技认为,主动元数据是一种动态、持续、智能的元数据管理技术,通过主动采集、实时在线、主动触发机制,替代传统被动元数据的人工采集、静态等待、人工触发模式,推动数据管理全流程各环节(数据探查、应用开发、测试验证、部署实施、运维管理、监控分析等)的高效运转,为数据管理和业务决策提供智能化技术支持。
而要实现主动元数据管理,最关键的技术在于算子级血缘解析技术。大家都知道,数据血缘现在有表级血缘、列级血缘。表级血缘和列级血缘,主要依赖于脚本解析技术去构建表与表之间、字段与字段之间的血缘图谱。然而,现在绝大部分情况是,当前市场中的许多开源组件或商业化血缘产品,并不能实现数据血缘的自动化解析,也无法保证解析的准确性。
算子级血缘解析技术,则是 Aloudata 全球首创的一个技术,能够帮助企业真正实现主动元数据。具体来说,算子级血缘解析技术能够深入作业脚本核心,实现白盒化解析,精确捕捉字段之间的复杂运算逻辑。通过算子级血缘解析,结合对脚本内部代码的抽取、改写、合并,能够清晰勾勒出任务输出表字段与输入表字段之间的完整加工关系,确保数据流转的透明化和可追溯性,让企业洞悉作业脚本的每一个细微环节。
基于算子级血缘解析技术,Aloudata 打造了全球首个算子级血缘主动元数据平台——Aloudata BIG,能够帮助企业构建一张强大好用的数据血缘分析画布,实现持续保鲜的动态数据目录,自主构建专属元数据策略服务,并提供场景化的元数据应用模板,最终实现数据管理“看得清、管得住、治得动”。
目前,在高度复杂的数据管理环境中,Aloudata BIG 已帮助招商银行将现有血缘图谱升级为算子级血缘图谱,实现 99% 的血缘解析准确率,更实现了元数据应用智能化、链路保障自动化和架构治理长效化,推动数仓快速实现资产数量下降 40%、平均链路缩短 50%。如您现在亟需解决数据管理难题,或对主动元数据感兴趣,欢迎访问 Aloudata 官网,了解更多。
评论