写点什么

数据开发革新篇:逻辑数据编织平台重塑开发流程

作者:Aloudata
  • 2024-10-28
    浙江
  • 本文字数:3063 字

    阅读完需:约 10 分钟

数据开发革新篇:逻辑数据编织平台重塑开发流程

引言:面对数据量的激增和业务需求的快速迭代,传统 ETL 模式下的数据开发流程日益显现出效能低下、成本高昂及灵活性不足等问题。 Aloudata AIR 逻辑数据编织平台通过逻辑数据集成、自动化数据编排和自适应查询加速等手段,颠覆了传统物理建模及 ETL 作业方式,实现了数据开发的高效化、自动化与智能化,为企业数据价值的最大化提供了全新解决方案。


传统数据开发是一个复杂而持续的过程,涉及多个关键阶段和重要考虑因素。这个过程始于深入的业务需求分析,确保数据仓库能够满足组织的具体目标和期望。


随后,进行全面的数据探查,以了解可用数据的性质、质量和结构。这个阶段需要深入研究业务数据,明确业务过程与表之间的关系,表与表之间的关系,以及字段之间的关联关系。同时,还需要调研数据源情况,确定是否具备采集条件,了解数据库类型、存储格式,以及选择合适的数据采集方式。


数据建模是整个过程的核心,包括业务建模、逻辑建模和物理建模三个层面。在业务建模阶段,需要确定实体及其属性,明确实体之间的数据关系。逻辑建模阶段则需要详细描述数据流和数据库内容。物理建模阶段则需要针对特定的数据库系统进行详细设计,包括表结构、索引、分区等具体实现细节。这一阶段需要平衡多方面的因素,如业务需求、性能要求、成本控制和时效性等。


  • 需求方面,传统采取 “预处理模式”,在用户实际使用数据前,就预先完成所有 ETL 过程及物理数据表的构建工作。因此,在物理建模时,需要充分了解各部门的需求,确保数据模型能够涵盖所有关键数据。

  • 性能方面,数据加工需要考虑数据的存储、查询和处理速度。随着数据量的不断增长,为了提高性能,需要进行数据分区、索引优化等操作,甚至需要引入全新的查询引擎。

  • 成本方面,需要充分考虑模型的复用性和扩展性以尽量避免数据冗余。同时,合理规划数据存储和处理流程,避免不必要的资源浪费。

  • 时效性方面,建模要充分考虑时效性要求设计 ETL 作业的依赖关系。在物理建模时,还要考虑数据的实时采集、处理和更新机制。


在建模的同时,ETL 作业调度配置与运维也至关重要。这包括设计 ETL 作业流程和依赖关系,根据各个作业的优先级和依赖关系以及引擎特性配置作业执行计划和频率,并建立监控预警系统,持续监控作业的执行状态和结果。当任务出现失败时,需要及时进行重试或采取其他补救措施,以确保数据处理的连续性。


建模完成后,性能优化成为一个持续的任务。这涉及多个方面,包括优化数据库索引和查询语句,调整 ETL 流程以提高处理效率,以及实施数据分区和分布式处理策略等。


同时,数据模型也需要不断优化和治理,以适应不断变化的业务需求和数据环境。在这个过程中,需要密切关注数据质量,确保数据的准确性、一致性和完整性。对于数据的变更维护需要建立严格的流程来管理,确保系统的稳定性和一致性。


此外,数据安全与合规、有效的元数据管理都是不可忽视的重要方面。


可见,以数仓建模为核心的数据加工过程复杂而繁重,其运作的前提是数据的物理集中,而所有的开发过程都意味着数据的物理拷贝与移动,因此伴随而生的是数据开发效能、质量与成本之间的艰难平衡。数据也是一个动态的过程,反映着业务的快速变化,因此数据变更也给数据链路维护带来巨大压力。数据团队还需要不断适应新的技术发展和业务需求,持续优化和改进,以确保其长期的价值和有效性。


Aloudata AIR 颠覆传统物理建模及 ETL 作业流程


随着数据量的激增和业务需求的快速变化,传统 ETL 模式的局限性日益凸显。物理建模的复杂性、ETL 作业的设计与调度难题、性能优化和成本控制的挑战都使得数据团队面临巨大的压力。


相比之下,Aloudata AIR 逻辑数据编织平台颠覆了传统数据加工的模式。在 Aloudata AIR 中,物理建模不再是必需的步骤,用户可以通过创建视图(包括普通视图和参数化视图)来实现数据加工。


创建逻辑视图代替物理建模

Aloudata AIR 逻辑数据编织平台的数据加工采用 “以销定产” 的模式,以业务数据需求为导向,优先进行数据探查并制定逻辑取数规则,而非预先进行物理数据加工。用户可以根据业务需求,通过标准 SQL 创建逻辑视图,并支持多级视图的嵌套定义。例如,在数据分析中,可能需要从多个数据源获取数据,并进行多层次的聚合和关联操作。通过多级嵌套视图,简单的点选操作,用户可以高效地实现聚合、关联、合并、新增字段等数据加工。同时,这种方式也提高了数据的可读性和可维护性,使得数据开发人员能够更加清晰地理解数据的来源和加工过程。



此外,Aloudata AIR 逻辑数据编织平台还支持逻辑视图定义的参数化和周期性调度,实现历史周期快照分区存储,方便用户进行历史数据分析和趋势预测。这一功能满足了业务对实时性和历史数据分析的双重需求。


无需配置 ETL 调度作业

Aloudata AIR 逻辑数据编织平台能够自动分析视图逻辑,并将其翻译成底层引擎的执行作业,无需用户再进行繁琐的 ETL 作业设计和调度。这一特性极大地简化了数据加工流程,使得数据工程师能够更专注于业务逻辑本身,而非底层技术实现。此外,Aloudata AIR 逻辑数据编织平台能够实时跟踪作业执行状态,帮助技术人员迅速定位并解决问题。


查询加速策略,保障性能体验

Aloudata AIR 逻辑数据编织平台内置 OLAP 引擎,保障大数据量下的查询性能体验。当查询性能不足时,用户只需简单建立 RP(关系投影)来触发跑批或跑流作业,即可实现查询加速,无需深入了解底层技术细节。用户的查询体验完全基于逻辑视图,查询是否命中 RP 以及命中后的查询改写和引擎适配均由系统自动完成,从而彻底屏蔽了物化表和底层引擎的差异性。相较于传统数据研发模式,用户无需再直接操作构建引擎、流计算引擎和 OLAP 引擎,也无需关注数据流在不同引擎之间的流转。


逻辑数据编织模式下的数据研发人员仅需明确数据需求,而后续的导出任务、 引擎选择等复杂流程均可由系统代持完成。这使得团队能够更加快速地响应业务变化,不再为固化的数据模型所束缚。 



智能 RP,优化存算资源

在数据治理层面,值得一提的是 Aloudata AIR 智能 RP 回收功能。传统数仓开发中,当需要进行表和作业的回收时,通常需要手动发起治理流程,这不仅操作繁琐,协同困难,而且可能引发数据丢失或难以再次利用的问题。然而,在智能 RP 的机制下,加工逻辑与 RP 并行存在, RP 的回收并不等同于加工逻辑的消失。即使 RP 被回收,其背后的加工逻辑依然保留,只是在查询时性能可能有所下降。这种机制的最大优势在于,当 RP 不再被使用时,系统可以自动进行回收,从而实现了计算和存储资源的自动优化。



构建全局统一的元数据中心

Aloudata AIR 构建了全局统一的元数据中心,该中心对所有与数据相关的信息进行集中管理,涵盖数据的来源、结构、含义以及处理过程等多个方面。通过可视化的呈现方式,元数据得以清晰展示,使得数据开发人员能够直观地洞察数据的整体面貌,从而快速定位所需的数据资源。


同时,Aloudata AIR 采用主动元数据管理模式。一旦原表出现新增表或者修改表字段的情况,逻辑表会自动进行更新。这种自动更新机制有力地确保了元数据的准确性与及时性,能够有效避免因元数据不一致而引发的数据错误。此外,该机制还显著减少了数据开发人员手动维护元数据的工作量,极大地提高了数据开发的效率。


综上, Aloudata AIR 逻辑数据编织平台展现出了其相对于传统 ETL 的显著优势。它降低了数据加工的复杂度和成本,实现了更加高效和自动化的数据开发。那么,在数据集成与开发之后, Aloudata AIR 又将如何展现其在数据消费方面的能力呢?它如何提供数据应用服务,实现数据价值的最大化?这些问题,都将在我们下一篇关于数据消费的篇章中得到解答。

用户头像

Aloudata

关注

还未添加个人签名 2024-01-22 加入

还未添加个人简介

评论

发布
暂无评论
数据开发革新篇:逻辑数据编织平台重塑开发流程_数据仓库_Aloudata_InfoQ写作社区