什么是主动元数据?为什么 Gartner 预测它是元数据管理的新方向
导读:Gartner 用主动元数据市场指南取代元数据管理魔力象限,预示着什么?到底什么主动元数据管理?欢迎聪明的读者自己去文中探索。
2022 年的元数据管理已走过 20 多个年头。而这一年,元数据管理正处于变革转型的风口浪尖。
2021 年,Gartner 做了一件大胆的举措:取消了发布多年的元数据管理魔力象限,取而代之的是主动元数据市场指南。
这一变化预示着什么?现代数据堆栈中即将产生一种处理元数据的新方法。
无论您每天处理千字节还是兆字节的数据,您都可能想知道这究竟意味着什么。
为什么传统的元数据管理会失败?
传统元数据与主动元数据有何不同?
为什么这份报告标志着元数据管理的范式转变?
这对当今的数据领导者意味着什么?
这篇文章,笔者将尝试解答这些问题并预测元数据管理的新发展方向。
一、元数据管理的前世今生
预测一种事物的新方向,首先要回到这个事物最初的形态。元数据作为一种组织信息的思想自古就有,但元数据的现代思想可以追溯到 1990 年代后期。
互联网时代的来临带来了数据类型和格式的爆炸式增长,IT 团队负责创建“数据清单”。
随着数据传播到 IT 团队之外并变得更加主流,数据治理的想法就开始生根发芽——这是一个围绕数据管理人员和流程,以及确保企业数据的可用性、完整性和安全性的学科。
由于一段时间内,数据治理理念的流行,很多公司开始全力以赴。
他们创建了整个数据治理部门,为“数据管理员”赋予新角色,投资了数据治理委员会等。这些团队开始意识到他们需要软件来管理所有这些元数据。这一念头开启了元数据管理的黄金时代。
现有公司需要一种方法来整理所有这些新的元数据软件选项,因此 Gartner 开始发布他们的元数据管理魔力象限报告。Gartner 报告中的所有领导者,包括 Informatica、Collibra 和 Alation 等公司利用这些报告炒作市场,并得以迅速增长,创建了数十亿美元的公司,并在元数据管理软件上花费了数亿美元。
图:Gartner2020 全球传统元数据管理工具的魔力象限图
那么后来,Gartner 为什么会取消了元数据管理魔力象限的报告,而用主动元数据市场指南取代?原因到底什么,请继续阅读笔者下面的内容。
二、传统元数据管理为何失败?一个词:被动
如果我们用谷歌搜索“被动”这个词,可能会得到这样一个结果:“如果你形容某人很被动,你的意思可能是他不采取积极行动,而是任由某些事情发生。”
老实说,笔者也没有更好的方法来解释早期被动元数据系统的根本故障是什么。可能是如下两个原因:
传统的元数据管理工具没有采取任何行动。通过简单地对元数据进行编目或存储,传统的元数据系统无法从元数据信号中驱动任何“行动”。这减少了元数据可能对数据平台和数据消费者产生的影响。
传统的元数据管理系统让事情发生在他们身上。传统的元数据系统基本上是静态工具,依赖于人力来整理和记录数据。这意味着元数据程序的成功取决于实施它的人。这些根本性的缺陷导致传统元数据管理工具最终走向失败。
由于对元数据管理软件进行了大量的投资,因此大多数公司都在努力使他们的元数据项目取得成功。
几周前,某大厂的一位高级数据负责人对这些元数据管理工具这样评论,“每个人都知道我们购买的元数据管理工具只是昂贵的货架。”
一家专注于元数据管理解决方案的知名顾问,证实了这一观点:“我们约 50%的业务来自于帮公司花费数百万美元购买昂贵的元数据管理工具,而 2-3 年后公司才意识到这些工具根本是无效的,并拼命尝试去解决这种情况。”
三、范式转变:从“被动”元数据到“主动”元数据
今天,我们正处于元数据管理的一个转折点——一个新时代的开始,其标志是以全新的方式来思考元数据及其在数据堆栈中所扮演的角色。这就是 Gartner 主动元数据市场指南的用武之地。
花点时间在元数据的背景下思考这些短语,它们描绘了一幅活跃的元数据可以是什么样的场景。那么什么是主动元数据,笔者的定义是:一个永远在线、智能驱动、以行动为导向的系统,是其被动、静态前身的对立面。
Gartner 给出的说法,主动元数据是“一组能够持续访问和处理并支持持续分析的元数据的功能……”
这实际上意味着什么?主动元数据平台与传统元数据平台有何不同?笔者下面介绍主动元数据的 3 个基本特征。
特征 1:主动元数据平台通过全文检索和智能化展现
主动元数据平台不会只通过关键字进行简单的过滤元数据。相反,他们在现代数据堆栈的每个阶段不断地收集元数据——日志、查询历史、使用统计……几乎任何类型的元数据,从任何地方,每一秒,并通过全文检索方式智能化展现数据。
图注:主动元数据平台是 Google 式智能检索数据而不仅过滤数据
特征 2:主动元数据平台不只是收集元数据,还能从数据中创建智能检索
与传统的元数据平台不同,主动元数据平台不断处理元数据以连接各个点并创造智能。主动元数据平台的真正突出之处在于它们是真正的学习系统,这意味着平台的智能只会随着时间的推移而增长。
随着人们更多地使用平台,平台在数据堆栈中观察到更多元数据,通过数据 API 的使用推动元数据的自治和穿透,最终让用户体验变得更好。
图注:麦聪 DaaS 平台让客户获得更好的主动元数据管理体验
特征 3:主动元数据平台不仅停留在智能上,还可以与第三方集成
这可能是主动元数据平台从其传统元数据管理那里取得的最重要的飞跃。他们不仅仅是被动的观察者,而是在实时数据系统中提出建议、生成警报和操作智能,打通元数据与数据之前的通道。
下面分享一个用主动元数据来提高数据质量的例子。
当在源表中检测到数据质量问题时,系统可以自动报告数据的信息,并能通过三方集成起到自动化和智能化的效果。或者更好的是,该系统可以使用过去关于数据质量故障的记录来准确预测问题所在,并在没有任何人工干预的情况下进行修复或预警。
图注:麦聪 DaaS 平台将元数据用 API 的方式发布给第三方使用
四、元数据的下一步是什么?
多年来,元数据管理远远落后于现代数据堆栈的其余部分。但在 2021 年,元数据似乎终于开始迎头赶上,2022 年会开启新发展的元年。
创新正处于超速状态。在过去的 12 个月里,与过去十年相比,在这个领域创立的新公司更多。
Gartner 放弃其元数据管理魔力象限并将主动元数据作为一个新类别引入的重大决定,标志着主动元数据向前迈出了一大步。Gartner 最终摒弃了传统的、被动的元数据管理方法,为元数据的新时代铺平了道路。
图注:麦聪 DaaS 平台全面支持主动元数据管理加速企业数字化转型
与 Gartner 其他重要公告一样,该公告可能会在市场上引发一些短期混乱。传统的元数据产品将争先恐后地将自己重新命名为“主动的元数据平台”。有些人实际上会开始在他们的产品中添加一些主动元数据管理的功能,这进一步增加了混乱。当然,还会有更多的初创公司成立。
但最终,在接下来的 12-18 个月内,一个或多个真正基于正确设计原则,从头开始构建的主动元数据平台将成为该类别的最终赢家。对于现代数据堆栈中的元数据来说,这是一个令人难以置信的时刻。
评论