企业如何通过数据虚拟化,构建逻辑数据编织平台?
逻辑数据编织的理念来自于 Data Fabric 这一创新的架构理念。尤其是在过去五六年间,这个理念在国际领域持续保持其热度与前沿性,成为备受瞩目的技术趋势。
Data Fabric 的核心观点在于正视并接受数据物理集中化的不可行性,进而探索通过技术手段克服这一现实难题的可能性。在此理念框架下,有着一系列的技术构成,究其根本,数据虚拟化技术构成了其最为基础且关键的支撑。数据虚拟化不仅是 Data Fabric 的基石,更是其构建逻辑数据编织平台的重要底层架构。
依托于数据虚拟化技术,相关的主动元数据管理、以及结合业务语义的知识应用等方能有效整合,形成一个统一协调的整体。Data Fabric 架构本身具有多层次性,而数据虚拟化作为其中的核心基础层,发挥着不可或缺的作用,为整个体系的稳固与高效运行提供了坚实的基础。
企业想要构建逻辑数据编织平台,离不开数据虚拟化技术的支持,而其架构可分为三个层面。
最下层面为连接层,作为最底层架构,其核心功能在于提供一个泛化的统一抽象层。此层旨在为上层数据使用者屏蔽来自云存储、图数据库、API 接口、文件系统乃至 NoSQL 数据库等多种数据源间的访问差异,通过构建统一的逻辑表形式,实现对不同数据存储引擎的无缝整合与透明化访问。
中间层是虚拟化层,基于这一逻辑表之上,数据处理流程得以展开,类似于传统 ETL 过程中的数据加工,但关键区别在于方法论的革新。传统 ETL 侧重于物理层面创建数据表并进行加工,而数据虚拟化通过视图机制进行数据加工。此视图机制具备非存储性特点,即不直接存储数据本身,而是动态地根据需求从底层数据源中检索、转换与呈现数据,从而实现更为灵活高效的数据处理与利用。
再往上是消费层,在逻辑视图加工完成后,这些数据需无缝传递给消费端。数据虚拟化引擎的核心目标是将企业内多源异构数据通过逻辑编织技术整合,形成统一的数据访问接口,以确保所有消费端均能通过该引擎高效、统一地访问数据。这一架构策略引出了一个关键挑战:即需强化与各类消费层的对接能力。具体而言,无论消费端是 BI 分析工具、业务系统或其他任何工具,都应轻松、低成本地接入虚拟化引擎,以避免连接失败、高成本接入等问题。为此在消费层设计上还需提供多样化的对接能力选项,以适配并满足各类数据消费场景的需求。
这其中,主要包括 JDBC、ODBC 及 RESTful Web Service 三种接口。基于这三种接口,在数据科学及机器学习领域,用户可通过 Python 脚本利用这些接口连接至引擎;同时,报表工具如 Power BI 亦能利用 JDBC 接口进行数据连接。此外,应用层可通过 GPT 与引擎交互,从而将虚拟化引擎作为统一的逻辑访问层,促进数据的无缝整合与高效利用。
值得一提的是,作为国内 Data Fabric(数据编织)架构理念的实践者与引领者,Aloudata 大应科技已经具备了自主研发的数据虚拟化技术,并构建了国内首个 Data Fabric 理念的逻辑数据平台——Aloudata AIR,能够帮助企业隐藏数据环境和 ETL 链路的复杂性,轻松实现数据仓库、数据湖、OLAP 引擎和其他各类数据的多源异构数据集成和联邦查询,无需复制和搬运数据、无需关注数据任务运维、无需担心查询性能,实现全域数据的逻辑整合。
目前,在极度复杂的数据环境应用中,Aloudata AIR 逻辑数据平台已展现出强大的能力,如帮助某券商连接了 100 多个数据库,虚拟映射了 2 万多张表,实现交付效率提升至少 10 倍,研发链路管理工作量减少 30%,数据存储和计算成本节约 50%。如您想要了解数据虚拟化技术,或者想要构建逻辑数据编织平台,我们或许可以提供一定的帮助,访问 Aloudata 官网,立即了解。
评论