写点什么

五问五答,详解算子级血缘助企业数据管理主动防控与高效协同

作者:Aloudata
  • 2025-08-26
    四川
  • 本文字数:4616 字

    阅读完需:约 15 分钟

五问五答,详解算子级血缘助企业数据管理主动防控与高效协同

01 什么是算子级血缘?

数据血缘如“家族图谱”一样,描绘了数据的起源、流经路径及其转换过程的详尽记录,可以精确追溯数据的初始来源,明晰其历经的各类处理流程,以及最终的应用方式,从而帮助企业分析并监控数据在业务链条中的上下游依赖关系,为企业提升数据管理效率和质量提供“洞察能力”。


通常我们提到的数据血缘包括表级血缘和字段级血缘,它们更多描述的是表和字段之间的“依赖关系”,在实际落地场景里存在明显局限性:如看不清字段影响、看不清加工逻辑、无法保证解析准确度等。而算子级血缘能够深入到口径解析层面,精准捕捉到数据流转加工处理过程中的每一个细节,可以帮助企业做到精细化分析和理解。


“算子级血缘”解析技术参考数据库引擎 SQL 解析技术,对 SQL 代码构建 AST(虚拟语法树)和算子关系,来实现精准推断血缘关系和改写代码的能力。Aloudata BIG 提供的解析器,类似于一个数据库或者平台的 SQL 引擎模拟器,要实现 99% 以上的解析准确率,就要全面支持解析指定平台的 SQL 语法,并能抽象出产品级解决方案,使得解析错误能够快速被识别和修正。


“算子级血缘”可以清晰地展现字段上下游的列加工关系和行影响关系。Aloudata BIG 将血缘关系细化成“直接血缘”和“间接血缘”:


● 直接血缘是指:SQL 内 SELECT 算子包含的字段加工逻辑,代表对于插入字段内容的直接加工逻辑和关联关系;

● 间接血缘是指:SQL 内例如 WHERE、JOIN、HAVING 等其他算子包含的字段加工逻辑,代表对于插入表的记录行影响,会使得表数据裁剪或者膨胀。


精准区分血缘关系会让我们的溯源和影响面分析能力更适应质量保障等场景要求。例如,当上游表的加工代码修改了关联码表或者过滤条件时,会直接影响下游数据计算内容。通过“算子级血缘”技术,系统能够智能地分析 SQL 代码的 JOIN 和 WHERE 条件,准确判断哪些下游表会受到行数变化影响。


企业可以将业务生产系统、数据处理系统和应用系统的所有数据资产连接到一张高精准的算子级血缘图谱上。该图谱上游连接各种业务数据源,中间可以精准刻画数据加工链路,下游的应用系统血缘也可以通过标准化接口导入图谱,将各类自定义资产无缝连接到血缘图谱中,构建一个端到端连通、全链路覆盖的血缘图谱体系


凭借算子级血缘的全面连通性和精细化链路分析能力,企业可以打通数据生产、加工到消费的完整链路,对上游发生的数据变动、质量报错等异常情况,可实现快速、精准的数据质量问题溯源分析,高效识别源头数据质量问题;辅助上游系统进行监管报送、数据统计类应用业务影响分析,更好地理解和监控数据在业务链条中的流动和变化,提高数据管理的效率和准确性。


算子级血缘来源于对 SQL 代码的解析,也支持 SQL 代码改写和精细化分析技术,例如可以利用血缘关系,逐层回溯字段加工逻辑并等价改写字段口径,实现“压缩多层代码”,得到以指定来源表字段表达的“归一化”后的“溯源字段口径”。这样就可以自动完成字段口径的溯源盘点。扩展开来,将不同的表字段全部溯源到 ODS 层,以 ODS 表字段来表达目标表的加工逻辑,那么就可以实现对不同表的“重复或相似”的量化评估。这种技术可以用于监管报送指标“一键溯源”到数仓加工链路源端,并落实对上游系统质量保障和标准贯彻的要求


Aloudata BIG “算子级血缘”所需采集的“源材料”包括三类:数据表或者视图的 DDL 语句、ETL 任务原始脚本或者任务执行日志文件、参数变量信息。如果无法采集到全量的 ETL 任务原始脚本,可以考虑采集全量、完整的数据引擎执行日志来进行补充。日志文件中需要包含临时表创建 DDL 和全量 DML 执行语句。整个解析构建由产品化自动完成,未来的血缘质量运维也可以借助产品上对解析错误的自动归因,针对性的开展元数据治理,长期保持达到 99% 以上血缘准确率。

02 之前已经建立过血缘,也制定了管理机制,为什么还要升级血缘?

算子级血缘和之前的表级血缘、字段级血缘使用的技术基础不一样,从而导致两者的应用空间也差异非常大。


表级血缘和字段级血缘重点提取的是关系,这种关系是一种粗粒度的依赖关系。一般用于在调度系统或者资产平台上进行展示,让用户知道一张表或者字段的上下游是谁,如果需要了解为什么有关系就需要用户自己看代码分析。利用表级血缘来分析很容易泛化,一张表的下游扩散到上万张表是很常见的情况。字段级血缘因为缺乏具体的关联逻辑,很难去检查血缘关系是不是正确,准确性和可信度不足。


“算子级血缘”解析技术是参考数据库引擎 SQL 解析技术,对 SQL 代码构建 AST(虚拟语法树)和算子关系,来精准推断血缘关系和理解代码逻辑。可以将算子级血缘解析技术想象为数据库的 SQL 执行模拟器。最直观的特征是,它可以提取出不同范围内字段的加工口径。类似于数据专家在分析数据链路的时候,建立了对数据加工逻辑的理解。


但是,光是解析出更精细化的关系和字段口径,还是一种技术层面的先进性。升级到算子级血缘,其实是为了使用主动元数据来升级企业的数据管理措施


主动元数据是基于算子级血缘基础开发的精细化血缘分析和代码改写技术。相比于传统的元数据技术,主动元数据可以将所有的数据资产统一连接在一张知识图谱上,提供精准的数据关系理解能力,持续为业务场景分析元数据和其变化影响,像 7 x 24 小时在线的数据专家一样,为更广泛的数据管理场景提供智能化和自动化的解决方案。


主动元数据可以在统一的知识图谱上,将算子级血缘、自定义血缘、技术血缘全部融合在一起。使用图谱的精细化分析能力,对端到端的变更影响、溯源、链路优化、数据理解和信任提供自动化方案,解决数据管理深水区中的“看不清、管不住、改不动”问题。它可以帮助企业以更少的人力投入、更快的成效来构建起数据管理的长效机制

03 运维应急场景中,使用调度依赖关系重跑下游已经足够了,算子级血缘可以带来什么增益?

应急角度:我们建议首先还是要通过调度依赖关系去重跑所有下游,这是保障数据质量的必要条件。但是调度依赖关系有可能存在着错漏,我们可以利用算子级血缘从两方面来优化运维应急的效果:


● 减少打扰,重点排查:针对上游数据质量异常的字段,利用算子级血缘的精细化分析能力,精准地拉取字段影响范围。如果算子级血缘还具备解决血缘泛化的行级裁剪能力,就可以针对码值变更或者数据变更等类型,获取更精细化的下游范围。相比任务依赖关系拉取的范围,这些根据字段加工关系拉取的受影响的下游范围已经大大减少,我们可以要求这些资产的负责人在任务重跑后做数据质量的重点检查;

● 增加检查,避免缺失:调度配置的依赖关系有可能与数据的使用关系之间不匹配,这时用调度依赖关系去重跑下游,有可能会漏掉真实存在的数据影响。例如下游使用了一份静态数据或者使用了一张表的最新数据,这导致上下游没有建立调度依赖,但存在数据上的影响。算子级血缘的表级或者字段级关系是从数据使用逻辑上分析出来的,它可以作为调度依赖关系的补充分析,防止在数据修复时,漏掉那些数据上有使用但调度上缺失依赖的情况。


更好的措施,我们认为是从事后应急转向事前预防。算子级血缘可以帮助大家在事前变更协同方面获得更精准的血缘分析结果,让真正受影响的下游用户提前参与变更评估。在事中阶段,在开发态脚本提交时,可以根据代码的实时解析结果,评估开发态代码上线后对生产链路下游的影响,以及是否会影响重点链路,从而可以提前通知下游,实现差异化的保障或者测试。


算子级血缘的分析结果,可以帮助我们更快找到真正有影响的下游对象,让变更协同、开发态评估工作更好地落地推广,避免影响泛化导致的无效打扰或者沟通摩擦成本。

04 如何评估各家血缘技术的优劣?

评价算子级血缘的技术优劣,可以从三个指标来看:


● 第一个指标是字段口径的正确性。特别是针对复杂 SQL 中的多层嵌套、任务中含有临时表、CASE WHEN 的处理、CTE 写法的处理;

● 第二个指标是字段口径的完整性。Aloudata BIG 可以支持从任务内合并多层 SQL 后提取字段的加工口径摘要,也可以自动切分出任务内每段 SQL 中相关字段的完整加工口径。完整的加工口径是指一段“可执行”的 SQL 语句,模拟出字段加工的取值、来源表、过滤条件、关联条件和聚合条件等信息;

● 第三个指标是影响分析和溯源分析报告中拉取的血缘关系的正确性

能够从加工逻辑层面完整、正确地还原某个字段的口径,是算子级血缘的显著技术特征,链路上的血缘关系和影响关系都是从加工口径里面提取出来的。这种加工逻辑的可观测性,与人工对代码阅读的理解结合起来,能够帮助用户快速判断血缘解析是否正确。否则,要对血缘解析结果“证伪”,就需要人工分析字段与字段的“完整”关系,才能得出一份代码的字段级血缘是否正确,效率很低。从 Aloudata BIG 解析器的设计理念来看,如果一个字段的口径提取错误,那代表代码批量解析的错误,很容易能看出血缘解析的准确性。


从字段口径的正确性来看,需要评估各厂商技术上能不能支持在采集、解析、入库各个环节的可观测性能力。血缘质量的可观测性能力是指如下能力:


● 报错的检测和抛出机制

● 日志的覆盖度

● 错误的归因

● 量化统计能力,例如对成功率的口径的定义


血缘质量的可观测性越完备,量化评估血缘解析成功率的可信度就越高。


字段口径的完整性也是很重要的评估指标。如果仅仅提取口径函数或者加工片段,或者无法实现针对单字段口径多层 SQL 的简化,就会加大血缘产品在日常使用过程中人工校验和理解的难度,也就更难发现血缘解析的错误。当具备完整提取口径的能力以后,又能够经过多个客户生产环境和使用案例的验证,则可以辅助证明血缘结果的可信度。


所以我们评估各家厂商反馈的血缘解析成功率或者准确率真伪的时候,需要同时考察各家厂商对于字段口径的提取能力和问题观测能力。对错误的可观测性考虑越完整、人工可以验证的内容(错误归因、口径代码、分析报告)越完整,并且技术和产品已经具备复杂生产环境落地案例,那血缘解析结果的可信度就越高,才能具备血缘准确率“自证”和“他证”的落地可行性。同时,在投产后,日常维护血缘质量的可持续性才能越强。

05 业务人员会如何受益?

算子级血缘因为其底层技术性更多被 IT 人员使用。主动元数据是基于算子级血缘基础开发的精细化血缘分析和代码改写技术。利用主动元数据技术,可以帮助更广泛的数据用户从中受益:


一、建设企业数据知识中心。

通过对元元模型的优化和扩展,实现了更丰富的属性内容存储和属性变化的追溯能力,加强知识图谱的信息存储和表达能力。这些信息构成了上层应用的数据输入,特别是在大模型应用中,可以为 AI 提供更多的数据标注。


二、扩展自动化监控解决方案。

将主动元数据技术应用到解决数据的质量保障和风险可观测性领域,业务人员也会受益于对数据质量的管控结果。通过对风险资产的自动化标注,让业务人员可以分辨有风险的资产,或者增强数据推荐的智能化能力,让“好资产浮上来、坏资产沉下去”。


三、智能化持续创新。

结合大模型技术和主动元数据产品解决方案,赋能业务人员“找对数、用对数、会用数”。

  • 找对数:底层知识图谱丰富的实体、关系和属性信息,可以让大模型为用户推荐更符合使用场景和用户特征的数据资产;

  • 用对数:对风险评估的结果可以帮助用户筛选和避免使用有问题的资产;

  • 会用数:对字段口径语义提取、数据常用用法的提取、相似资产识别的结果,可以让用户快速完成对数据加工逻辑的理解,并能关联分析和查询相关数据,减少数据咨询和数据信任的成本。


如有更多问题,欢迎访问 Aloudata 官网咨询,我们将为您一一解答。

用户头像

Aloudata

关注

还未添加个人签名 2024-01-22 加入

还未添加个人简介

评论

发布
暂无评论
五问五答,详解算子级血缘助企业数据管理主动防控与高效协同_数据血缘_Aloudata_InfoQ写作社区