一文探究传统数据仓库、数据湖与 Data Fabric(数据编织)的差异
要知晓彼此之间的差异,我们要先明白彼此的架构理念和运行机制。
传统的数据仓库和数据湖我们都比较熟,其本质代表的是 ETL 驱动的传统集中式数据架构,主要随着互联网、物联网以及数字化转型的不断推进,企业为了更加科学、高效、低成本地管理急剧增长的海量数据而采取的管理措施,也就有了数据仓库、数据湖,以及湖仓一体化架构等。
具体来看,数据仓库是指企业通过数据采集技术,将不同的业务数据源和不同的数据文件统一抽取加载到数据仓库(DW),并在数据仓库里完成复杂的数据建模和数据清洗,形成企业的数据资产,并在此基础之上完成面向业务场景的数据分析与挖掘,产生数据的业务价值。
这个过程主要分成两段,分别是数据采集、加工、处理的数据生产过程和数据分析、挖掘、应用的数据消费过程。这个数据生产过程我们一般称之为数据仓库的 ETL 流程,涉及到的数据技术称之为 ETL 技术,而主导这个过程的人员便为 ETL 工程师。数据消费过程中涉及数据集准备、数据查询性能优化以及数据服务等环节,这些环节也涉及一部分 ETL 工作,通常会由业务人员或数据分析师提交给 ETL 工程师来完成,在本文里统一归入数据生产过程,统一标注为“ETL”。
而随着企业数据源和数据量的不断增长,尤其是用户行为数据、图片、视频等半结构化和非结构化数据的快速增多,再加上数据存储成本的不断下降,企业开始重新考虑数据采集方法,越来越认为应该尽可能完整地保留全部数据,使数据工程体系进入大数据的时代。
由于不同数据类型的结构化程度和数据信息密度的差异,带来了数据工程架构上的多元选择,许多企业在拥有现有数据仓库的同时,也就基于 Hadoop 构建了“数据湖”。在此基础上,企业的数据工程架构就变成了“湖仓一体化架构”。当然,与现有数据仓库一样,数据湖里的数据搬运加工过程同样也依赖 ETL 技术和 ETL 工程师。
但随着企业“多源异构”数据不断增长、“数据孤岛”不断涌现、业务端看数用数需求快速增长,以及数据链路更加复杂、数据存算运维成本不断提升,这种传统的集中式的数据架构已经难以应对。Data Fabric(数据编织)架构理念由此走上了历史舞台。
Forrester 认为 Data Fabric “提供了一个统一的、集成的、智能的端到端的数据平台,以支持新出现的需求场景”。Gartner 则将 Data Fabric 定义为“一种新兴的数据管理设计理念,用于实现灵活、可重用、增强的数据管道、数据语义和数据服务,需要利用主动元数据、知识图谱、数据语义和人工智能等来实现跨异构数据源的增强数据集成、编织和共享”。
所以,综合来看,Data Fabric 不是指某种单一的产品或技术,而是一种全新的数据管理架构理念,其主要的目标是通过其内置分析能力来动态改善数据的使用,打破企业内部的“数据孤岛”,最大化释放数据价值。
其中,数据虚拟化是 Data Fabric 的重要技术组成部分,通过数据虚拟化,Data Fabric 可以构建跨源、跨云的统一数据访问层,并在这层之上构建统一的数据语义层或逻辑数据视图,实现数据的动态集成和敏捷服务。
借助于数据虚拟化落地 Data Fabric,能够帮助企业优化“多源异构”数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,全程自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从被动的数据策略转变为主动响应性的数据策略,实现更有效地消除“数据孤岛”、更低的成本和风险、更高效的业务协作、更安全的数据使用、更快速地适应业务变化以及更敏捷的数据洞察。
打个比喻,数据仓库、数据湖像图书馆,试图在单个地方集中收集和组织所有图书(数据),需要人工搬运、整理、编撰企业内的全部图书(数据生产),提供统一的图书目录和管理工具方便大家查找借阅图书(数据消费),这套体系需要大量的时间和资源来维护。
而 Data Fabric 更像互联网服务,是信息的虚拟访问层,信息可以位于任何地方,Data Fabric 可以主动感知企业内的全部数据(包括数据仓库、数据湖和数据湖仓),生成一致的数据视图供全员使用,这套体系的运转依赖 AI 提供的自动化能力。
Data Fabric 与数据仓库、数据湖和数据湖仓的关系
作为国内 Data Fabric 架构理念的实践者与引领者,Aloudata 大应科技依托于自研的数据虚拟化技术,打造了国内首个逻辑数据平台——Aloudata AIR,帮助企业无需移动数据、无需关注数据任务运维、无需担心查询性能,就可以实现“多源异构”数据的逻辑连接与整合,通过全局数据目录和统一数据服务为下游用户与应用提供统一的数据发现与访问入口,解决由“数据孤岛”带来的全局数据查找难、跨源联邦查询难和集中安全治理等问题。
同时,通过 AI 增强的自适应加速技术,Aloudata AIR 还实现了自动物化链路编排和智能查询下推,让企业无需担心虚拟化带来的大数据量查询性能问题,实现全域数据要素更低成本、更实时地流通与消费。通过 Aloudata AIR,有助于企业无需复制、搬运,即可轻松实现全域数据的集成整合和自适应加速,这对于企业的全域数据资产管理和统一数据服务能够提供极大帮助,如感兴趣,欢迎访问 Aloudata 官网了解更多。
评论