浅谈数据中台和 DataFabric 的差异
随着应用的不断增多,数据日益孤岛化,访问困难,各种上云等更加剧了这种隔离。数据团队一直面临着在日益分散的环境中对各类数据进行实时快捷访问的持续压力。
面对这样的问题,有两个概念非常火,国内是数据中台,国外则是 Data Fabric(数据编织/数据经纬),要说数据中台大家肯定非常熟悉,其实 Data Fabric 在国外火热的程度远超国内的数据中台,给大家看一下国外头部公司怎么评价 Data Fabric 来感受下:
Gartner 说:Data Fabric 是一种设计概念,用于实现可重用和增强的数据集成服务、数据管道和语义,以实现灵活和集成的数据交付
FORRESTER 说:以自助、自动化的方式智能、安全地编排不同的数据源,利用数据平台......为企业的客户和业务数据提供统一、可信和全面的实时视图
NetApp 说:Data Fabric 是一种架构和一系列数据服务,可以为内部环境和多云环境中的多种端点提供一致统一的功能..... 提供一致且集成的混合云数据服务,以改善数据数据可见性和洞察力、数据访问和控制以及数据保护和安全。
Talend 说:Data Fabric 是一个单一环境,由统一架构和在该架构上运行的服务或技术组成,可帮助组织管理其数据
IBM 说:Data Fabric 不仅仅是一种具体的技术,更是一种概念性的方法。可将其视为一个环境,包含架构和一系列统一的数据服务,这些服务共同支持覆盖企业自身网络(本地和多云环境)的一致数据能力
看到上面这么多在数据领域的 TOP 公司给 Data Fabric 这么高的肯定和评价之后,我们再看看用户和行业对 Data Fabric 的兴趣点,再提供一组数据给大家感受下:
Forrester 表示,在该公司去年发布的 25,000 份报告中,有关 Data Fabric 的报告在 2020 年的下载量中排名前 10
Gartner 将 Data Fabric 列为 2019 年和 2021 年数据和分析领域十大技术趋势之一,又将其推举成 2022 年 10 大新兴技术趋势之一
前面讲了这么多头部企业和客户对 Data Fabric 的认知,接下来跟大家分享下我对这两个概念的理解:
数据中台一直试图将来自不同系统的数据复制到企业集中数据存储(例如数据集市、数据仓库和数据湖)进行分析来消除数据孤岛。这种方式成本高昂,并且容易出错,这也是数据中台只能被国内 Top 企业才能玩的起的核心原因
Data Fabric 则从逻辑上实现数据使用者和数据源之间的任意连接,实现跨多个系统查询数据而无需拷贝和复制数据。同时简化分析过程并保障准确性,因为其是从源头查询到的最新数据,真正实现移动计算,不移动数据,而这就会涉及到一种新兴软件架构理念 EDA(Event-Driven Architecture)事件驱动架构,让实时数据流去自动匹配模型,模型背后其实是运营场景和各类算法,也就是对应着业务的需求,而这将改变一个局面,原来建数据仓库也好,现在搞数据湖也好,都是业务(人)找数据,而通过 EDA 架构,就能实现数据找业务(人),这才是颠覆性创新的起点,也是下一代大数据的未来,现阶段 EDA 架构这部分做的最好的非 Kafka 莫属,这也为何现在我们看到的 Kafka 的定位是的一个开源的分布式事件流平台,能被成千上万的公司用于高性能数据管道、流分析、数据集成和关键任务应用的原因所在
按照 Gartner 的报告,Data Fabric 通过利用/重用和组合不同数据技术能力,可将数据集成设计时间缩短 30%,部署时间减少 30%,维护时间减少 70%,虽然牛皮成分较大,但是还是有很多值得关注和学习的地方。
参考 Gartner 发布的 2021 年新兴技术曲线来看,目前 Data Fabric 正处在泡沫的顶峰,未来 3-5 年中将随着实验和实施失败,人们的兴趣逐渐减弱。该领域的技术创新者将被抛弃或失败。只有幸存的提供商改进产品,使早期采用者满意,投资才会继续,当然这个 3-5 年中确实我们这些数据从业者需要专注客户场景,不断打磨技术和产品的过程,希望未来的 Data Fabric 早日走到稳步爬升的复苏期,真正从逻辑上实现数据使用者和数据源之间的任意连接,让广大的中小企业也能享受技术的红利。
博主简介:国内最大最权威的 Kafka 中文社区,共享知识,实时掌控最新行业资讯
技术交流:请联系博主微信号:didiyun0125
社区地址:免费加入中 ~
版权声明: 本文为 InfoQ 作者【Kafka中文社区】的原创文章。
原文链接:【http://xie.infoq.cn/article/d2af2c17bbcaaa76bf6c1fe41】。文章转载请联系作者。
评论