快被 Gartner 捧上天的 Data Fabric 数据经纬到底是个啥?

前不久 Gartner 公布的顶级战略技术趋势中,数据经纬(Data Fabric)榜上有名。Gartner 预测至 2024 年,Data Fabric 可帮助企业减少 50%数据管理人力成本,数据管理工作量可减少 70%。

编辑搜图编辑搜图
2022 年顶级战略技术趋势“Data Fabric”榜上有名
本文将带大家了解数据经纬的基本概念、发展背景、架构定位和价值能力。
01
什么是 Data Fabric?
我们先来梳理一下 Data Fabric 的来龙去脉,
其实早在 2000 年,Forrester 就提出了 Data Fabric 的概念;
2019 年 Data Fabric 开始入选 Gartner 各年度技术趋势;
2021 年,在 Gartner 发布的《2021 年十大数据和分析技术趋势》中,Data Fabric 作为数据基础能力被再次强调。

编辑搜图编辑搜图
2021 年十大数据和分析技术趋势
Data Fabric 到如今也经历了二十几年的发展,究竟什么是 Data Fabric 呢?
其实质上是一种数据管理架构思想,其主要目标是打破企业内部的数据孤岛、最大化释放数据价值。
目标就是实现跨异构数据源的数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付。
Gartner 认为数据经纬的真正价值在于它能够通过内置的分析技术动态改进数据的使用,同时通过将自动化能力添加到整体数据管理中,使数据管理工作量减少并加快价值实现速度。
02
Data Fabric 出现的背景?
一种新技术及新产品的出现,必定有其历史背景。数字化时代,快速发展迭代的大数据技术和产品更是如此。
数据孤岛:
随着全球企业数字化转型的前进,各种数据技术和数据产品 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) 确实帮助企业完成了更为精细化的运营。
但也使得数据在物理上支离破碎,尤其是采用混合云 &多云架构后更是加剧了这一问题。
据 Gartner 统计:只有不到一半的结构化数据能应用于业务,99%的非结构化数据都没能被分析或使用,多达 82% 的企业受到数据孤岛的阻碍。
严重的数据质量问题:
不同部门数据输入规范不同,造成数据冲突或矛盾。以传统企业为例,就会影响统一采购导致成本上升。

编辑搜图编辑搜图
数据质量差的影响
另外:由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。
据统计:企业中 55%的数据无法用于决策,47% 新创建的数据记录至少有一个严重错误。
低效的数据交付和重复的数据开发:
海量的企业数据、爆炸的业务需求、复杂的数据工程,让数据的使用变得困难,数字化转型的结果反而成为累赘——不用的数据就是成本。

编辑搜图编辑搜图
数据分析师在知乎吐槽被当作取数机
数据分析师 80%的时间用于发现和准备数据;数据开发工程师 60%的时间用于考虑如何建立数据接口;业务人员将大量时间浪费在寻找数据和确认不信任的数据来源上;数据科学家花 50%的时间清理和组织数据。
安全合规问题日益严重:
随着世界愈发重视数据安全,企业面临 GDPR、CCPA 等各种数据安全和隐私保护法律出台以及内部的数据泄露隐患。
企业必须在合规和治理方面表现出更高的标准,此外还要兼顾业务越来越复杂、实时性稳定性要求高且大量的数据应用需求。
03
Data Fabric 的价值
下面具体介绍 Data Fabric 如何解决上面列举的问题:
融合多种数据来源(如数据 &元数据、司内 &司外、业务内 &业务外、云端 &本地等),建设可扩展的、知识图谱驱动的数据模型,使得每个数据资产的所有上下文都可以以可理解的形式进行使用和呈现,帮助决策者和算法做出更优的决策,同时降低数据被滥用或者误解的可能性和风险。

编辑搜图编辑搜图
通过数据联邦、基于 AI 的主动元数据、知识图谱以及语义丰富等数据技术,进行数据的连接、跨数据源的访问和数据交付,从而减少数据孤岛。

编辑搜图编辑搜图
尤其是数据虚拟化技术在计算层而非存储层进行数据连接,“在数据处理引擎和数据消费者之间架起了桥梁”,这种数据的连接方式还避免了不断产生新的数据孤岛。

编辑搜图编辑搜图
通过 AI 能力提升自动化水平(如根据监管文档中的语言和定义自动提取数据治理规则、发现和治理个人身份信息 PII 和关键数据元素),使得业务可以在几分钟内发现并应用数据治理规则,避免产生不良社会影响或高昂的罚款,确保所有的数据都能以合规的方式进行存储和使用,而这在当前社会背景下尤为重要。
04
Data Fabric 和 DaaS Platform
大家估计也发现了:Data Fabric 解决的问题和之前的数据中台以及现在的 DaaS 平台(数据中台 2.0)解决的问题几乎一样,都是为了高效实现数据服务化,只不过更进一步。
而 Data Fabric 涉及的技术短期难以落地,数据即服务(Data as a Service)平台已经有成熟的产品面世。
集成全域数据——解决数据孤岛
麦聪 DaaS 平台可以支持所有主流大数据平台、数据库,集成全域数据,支持从多种云、碎片化的数据库提供统一的数据服务。

编辑搜图编辑搜图
唯一企业级支持 Oracle 数据库,CDH/HDP Hadoop 数据湖,华为 MRS
低代码开发数据 API、数据超市——高效数据消费。
开发人员可以低代码创建数据 API,已经创建好的 API 能够升级迭代、下线删除。使得开发人员工作效率大大增加,能够立即响应企业地数据应用需求。
而且业务人员可以在数据超市直接申请使用创建好的数据 API 调用数据,避免了重复开发问题。

编辑搜图编辑搜图
不用重复造轮子,数据利用更高效
安全合规——全局权限管理和控制
传统数据使用时需要在原系统数据库给相关用户创建账号或赋予权限,操作复杂且有隐患。
麦聪有完整的审批流程和细化到表级别的全局权限管控,可以屏蔽底层数据库变更影响,更加方便安全。

编辑搜图编辑搜图
数据使用安全合规,让企业数据风险降低
大家是更看好 DaaS 还是 Data Fabric 呢?欢迎在评论区留言讨论。
麦聪软件,全球领先的 DaaS 厂商,轻量级数据中台领导者。世界 500 强集团中已有 30 多家选用,两年内帮助近 400 家企业数字化转型更进一步。核心产品麦聪 DaaS 平台包含统一数据管理和统一数据服务两大模块,具备数据集成、数据开发、数据质量、数据服务相关功能,欢迎大家带着企业数字化问题与我们一起讨论。
评论