指标平台详解(下):第三代指标平台实现了哪些突破?
在上一篇文章中,我们介绍了随着 BI 工具的广泛应用与数据分析活动在企业内部普遍开展,指标管理尤其是指标口径一致性问题日渐突出,需要全新的工具来兼顾效率与一致性问题。近些年,很多企业采取指标字典进行口径登记或者建设指标管理平台的方式来解决这一问题,但成效不够显著。Aloudata 认为,传统指标平台因其设计原理或技术实现问题难以切实落实指标统一管理,或无法兼顾效率与一致性。本篇文章中,我们将首先了解一下三代指标平台的发展脉络以及它们之间的主要区别,进而介绍作为第三代指标平台的代表,Aloudata CAN 自动化指标平台的特性与价值。
一、三代指标平台比较
第一代:指标口径登记与管理
第一代指标平台注重的是对指标口径的登记与管理,通过指标字典来承载企业指标口径管理与检索功能。
在这一阶段,业务部门首先提出指标口径的需求,随后,ETL 工程师与业务人员就指标业务口径进行详细的沟通确认,再由 ETL 工程师将业务口径转化为具体的 SQL 任务,在数仓中进行开发。开发完成后,处理好的数据通过表的形式输出,指标业务口径被登记在指标字典中。
这个过程涉及多个部门和人员,指标口径需要反复沟通确认,开发效率低;同时,指标开发与指标口径登记在不同的工具中完成,指标管理要通过制度和流程来强制落实,不能确保指标口径 100% 登记落实。
第二代:依赖 ETL 开发的指标平台
尽管有了指标字典,但指标管理与指标消费仍然割裂,企业内指标口径不统一、开发效率低下和指标难以复用的问题仍然突出,因此在国外出现了 Headless BI 的理念,主张“无头 BI”,即将指标语义层与 BI 工具进行解耦,通过独立的指标平台统一指标定义,面向 BI 工具和多种下游应用交付统一的指标,以实现指标口径的统一与多消费场景复用。
国内也开始出现独立的指标平台厂商,希望能够实现指标的统一管理与统一消费。但客户实践下来,发现指标平台因为定义能力有限和查询加速问题,导致在真实的业务场景中,仍然有 60% 以上的指标需要 ETL 工程师在数仓侧写 SQL 进行宽表和汇总表开发来实现,指标计算逻辑依然落在数仓的宽表和汇总表中,指标管理与指标研发依然是分离的,指标口径不一致和开发效率低的问题依然存在,指标平台的价值主张无法兑现。
究其原因在于真正实现“一处定义、处处使用”,其前提是指标平台能够实现任意复杂指标的定义与自动物化加速,指标只有可定义,才能够让所有的指标生产不会回到数仓开发逻辑中,才能实现指标口径的 100% 一致,规避”同名不同义”、“同义不同名”等问题。
第三代:NoETL 的自动化指标平台
第三代指标平台基于明细语义数据模型定义指标,对比第二代指标平台,通过强大的指标定义能力与自动物化加速能力实现任意指标可配置化定义、可自动化开发、可开放化应用,真正交付指标平台的价值主张——管研用(指标管理、指标研发与指标应用)的一体化,彻底杜绝指标定义的分散化,由系统代持指标应用层的 ETL 开发作业,实现指标分析的敏捷性和指标口径的一致性兼顾。
图 1:基于明细语义数据模型定义指标,系统代持数仓应用层 ETL
其中,定义能力是实现管研用一体化的基础,指标只有可被定义,才能实现可统一管理。指标平台的定义能力必须强大,任意复杂指标都可以实现配置化定义,而不会绕过指标平台,让 IT 写 SQL 在数仓中加工。
在强大的指标定义能力基础上,还需要提供“定义即开发”的能力,系统自动化实现“反范式的宽表/汇总表”加工,指标应用层实现 NoETL,系统自动实现物化链路编排和查询加速,确保指标口径的一致性和保障大数据量下的查询体验。
图 2:三代指标平台简明对比
二、第三代指标平台 Aloudata CAN
Aloudata 于 2023 年 12 月正式发布了 Aloudata CAN 自动化指标平台。为了进一步阐释 Aloudata CAN 与传统指标平台的差异,我们来从指标定义、指标加工、指标服务、指标管理和指标分析五个方面进行一个详尽的比较。
指标定义
第二代指标平台最突出的问题是无法实现任意指标的定义。这些平台通常只支持单一数据表来定义指标,需要 IT 提前将定义所需维度加工到同一张宽表中 。
此外,第二代指标平台仅支持基本的聚合操作(sum、count、avg 等)和有限的衍生(如同环比),在表达复杂业务逻辑时显得力不从心。不能被定义,则不能被真正管理,大量指标还要回到数仓开发模式的老路。
与之相比,Aloudata CAN 作为第三代指标平台,表现出更为强大的指标定义能力。它直接基于明细数据,利用多表关联的语义模型来定义指标,意味着用户可以跨多个表定义指标。同时,Aloudata CAN 还提供强大的指标定义函数(如窗口函数、预聚合分析函数),支持复杂指标的配置化定义(例如,近 1 年月日均 AUM 最大值、北向资金净买入额行业应有个股总数)。强大的指标定义能力是 Aloudata CAN 的核心优势之一,是实现指标平台诸多价值的基础。
指标开发
由于指标定义能力的不足,第二代指标平台难以避免大量指标要回到数仓,由 ETL 工程师在数仓中进行建模,开发出所需的宽表和汇总表。而少量可以定义和自动化开发的指标,又仅支持有限的衍生方式,如同环比等基本的数据比较分析。
Aloudata CAN 则提倡基于公共层或集市层的明细表来定义指标,在此基础上还支持更为复杂的衍生方式,包括同环比、均值/最值、排名、占比、累加等,所有反范式的 ETL 开发过程均由指标平台通过自动生产和自动物化加速代持,确保大数据量下的查询体验。这样的设计,不仅减少了对 ETL 工程师的依赖,还大大提高了指标加工的灵活性和深度,支持用户能够根据业务需求进行任意维度、任意粒度的数据洞察。
指标服务
第二代指标平台提供的 API 接口通常较为简单,通常一个接口只支持查询一个指标,且参数选项有限。这种设计在灵活性方面存在明显不足,当用户在分析工具中需要同时进行多个指标多维度的组合分析时,会受到诸多限制,无法满足复杂的业务需求。
相较于第二代平台,Aloudata CAN 提供的 API 接口支持更加灵活的参数配置,允许用户在单个接口中查询多个指标,并且可以包含多个共同维度。这种设计极大地提升了用户在进行数据分析时的灵活性和便捷性,实现“一个指标、多场景消费”,使得用户能够根据不同的业务场景快速获取所需的数据,从而更有效地支持决策制定过程。
指标管理
第二代指标平台因定义能力和自动化开发能力有限,指标管理面临若干挑战。其中包括对于数据仓库的高依赖性,同一个指标不同分析粒度,需要在数据仓库中构建多张宽表或汇总表以支撑不同维粒度的指标分析,导致指标口径的一致性难以保证、指标运维成本高、资源的重复消耗与浪费。
Aloudata CAN 支持用户对同一指标的不同维度只需进行一次性定义,便可以在下游所有应用中复用,确保了高度一致性和准确性,同时 100% 规避指标口径的二义性。Aloudata CAN 提供统一的指标目录,实现指标口径的统一沉淀,使用户能够在其中快速查找和消费他们需要的指标;还提供字段级的指标血缘和指标的多版本,实现指标加工的全链路监控及保存指标历史变更记录。
指标分析
在第二代指标平台中,由于仍然依赖人工开发的宽表与汇总表定义指标,指标分析仅限于预先选定的有限维度,组合分析或深入的下钻分析支撑能力相对有限。
与此相反,Aloudata CAN 在指标分析方面提供了更为强大的功能。它允许用户进行任意维度的分析,只要数据集之间存在关联关系。这种设计极大地扩展了用户在进行指标组合分析或下钻分析时的灵活性和自由度,从而得出更全面的业务洞察。
三、总结
通过上述分析,我们可以看到 Aloudata CAN 真正代表了第三代指标平台的能力,通过下述核心能力,完美交付独立指标平台的价值主张——管、研、用一体,一处定义,处处使用:
1、强大的指标定义能力
基于强大的语义数据模型和语义函数定义,Aloudata CAN 能够支持任意复杂指标(如“近 1 年月日均 AUM 最大值”这类二次聚合类指标和“北向资金净买入额行业应有个股总数”这类标签化定义指标)的标准化和可配置化的指标定义,确保了指标口径的百分之百一致性。
通过强大的指标定义能力,Aloudata CAN 支持了数据处理者和业务使用者之间的分离,将资产沉淀和灵活消费场景隔离开来。这种分离让企业在指标平台统一沉淀数据语义资产,实现数仓应用层 NoETL,同时满足业务灵活分析需求。
2、自动化的指标生产
Aloudata 团队自研的数据虚拟化引擎实现了自动化的指标生产能力 ,意味着 IT 不再需要加工大量的宽表和汇总表来满足业务对指标查询性能的需求。这种自动化生产大大减轻了指标开发的工作量,ETL 工程师可以专注于公共明细层数据建模与维护,实现指标定义与开发环节的 NoETL。“自动化”的实现主要包含两个能力:
自动化指标生产
Aloudata CAN 能够根据用户指标物化需求,自动将用户需求转换成 SQL 代码,进而实现自动化的物理链路编排和自动查询改写。
自动化变更回刷
如果上游数据口径或指标口径发生变化,系统可以自动感知这些变化,自动调整任务脚本并进行数据回刷,以确保用户在分析指标时数据的准确性。
3、灵活的指标分析
在 Aloudata CAN 平台上,仅需定义一个指标就可以实现任意维度的分析,并允许用户从任意维度进行筛选和下钻,无需重复定义不同的指标。Aloudata CAN 灵活的指标分析能力使业务人员可以根据需要自由探索和分析数据,无需依赖 IT,需求交付的效率从原先需要排期等待月、周以上,缩短到小时、分钟级。
Aloudata 相信,只有真正实现了指标的管、研、用一体化和自动化生产,才能够让业务实现真正灵活、高效、准确的数据分析,才能将 ETL 工程师从繁重的数仓建模和报表开发工作中解放出来,将精力投放到更加有价值的数据资产管理工作中。
版权声明: 本文为 InfoQ 作者【Aloudata】的原创文章。
原文链接:【http://xie.infoq.cn/article/93501977e7727d501be30148b】。文章转载请联系作者。
评论