写点什么

(二)新一代数据湖仓开发命名规范:构建清晰高效的数据管理体系

作者:白鲸开源


《新兴数据湖仓设计与实践手册:数据湖仓与 DataOps 开发规范(2025)》是一份面向数据工程师、数据架构师与企业数据团队的系统性实践指南,全面总结了当下湖仓一体架构在企业落地过程中的关键设计方法、开发规范与工程经验。本手册不仅覆盖项目规划、权限体系、工作流编排、ETL 与实时/离线融合开发模式,也结合 WhaleStudio 与 DolphinScheduler 的实际能力,为读者提供可在真实生产环境中直接复用的架构与流程参考。


手册第一部分重点聚焦 https://xie.infoq.cn/article/253d2bb4bd494d78b7237a8b9,从项目与权限规划、湖仓分层与工作流的组织结构,到批流一体任务设计、开发/生产环境隔离策略、逻辑任务最佳实践等,构建了一个完整的端到端数据处理体系。


本文为手册第二部分,将重点放在 数据湖仓开发命名规范上,涵盖项目、工作流等多方面,阐述命名格式、示例及原因,遵循清晰性等原则,可提升数据任务稳定性与协作效率。

2.1 项目命名规范

命名规范定义


  • 项目名称应体现项目的业务范围、系统模块或数据主题,具备唯一性。

  • 格式建议:业务领域_项目类型。


命名规范举例


  • 销售分析:Sales_Analysis

  • 客户管理:数据分析部_客户管理主题


为什么这么命名


  • 清晰表达业务范围:明确项目所属的业务领域,便于快速识别。

  • 支持快速搜索:规范的命名便于在复杂系统中快速定位项目。

  • 统一格式便于集成:同一系统内的项目命名一致,便于开发、运维和上下游集成。

2.2 工作流命名规范

命名规范定义


  • 工作流名称应直观反映其执行的功能、涉及的数据层次及对应的时间周期。

  • 格式建议:层级_功能_数据主题

  • 可以使用标签功能来辅助定义工作流,例如,小时级,某层级来作为名字的补充,标签可以进行筛选,更容易探查工作流的情况。


注意,不一定每个工作流都有标签,可以只标签哪些需要特殊筛选的工作流。


命名规范举例


  • ODS 层订单数据抽取:ODS_Extract_Orders,标签是 Daily

  • DW 层指标计算:DW_Calculate_Metrics_Weekly,标签是 DW 层

  • ADS 层销售报表生成:ADS_Generate_Reports_Daily


为什么这么命名


  • 层级与功能明确:通过命名反映工作流所在数据仓库的层级及核心功能。

  • 支持自动化管理:命名统一有助于脚本和工具的批量操作。

  • 标签:用于快速筛选工作流

  • 减少歧义:直观的名称便于新成员快速理解系统。

2.3 工作流任务命名规范

命名规范定义


  • 工作流任务名称应包含工作流名称的缩写、任务序号及功能描述。

  • 格式建议:层级_目标表名称。


命名规范举例


  • 订单抽取任务:ODS_T01_ExtractOrders (其中 T01_ExtractOrders 是表名,01 是主题域编号,T 代表表,具体可以参考本手册第二部分表命名规范)

  • 销售数据清洗:DW_T02_CleanSales

  • 指标计算任务:DW_T03_CalculateMetric


2.4 数据集成任务命名规范

命名规范定义


  • 数据集成任务名称需体现数据来源、目标系统及任务类型。

  • 格式建议:

  • 如果是多表:来源系统_目标系统_任务类型_时间周期。

  • 如果是单表同步,那么就是目标表_任务类型_时间周期


命名规范举例


  • MySQL 到 HDFS 的全量多表同步:MySQL_HDFS_FullSync_Daily

  • FTP1 到 Delta Lake 的增量多表同步:FTP1_Delta_Incr_Daily

  • Oralce(X 库)到 Doris 的实时 CDC 多表同步:Oracle_X_Doris_CDC

  • 达梦(Client_info)到 Starrocks(t01_client)批量增量单表同步:t01_client_Incr_Daily


为什么这么命名


  • 来源与目标明确:通过名称直接了解数据集成的方向。

  • 任务类型清晰:区分全量、增量等同步方式,避免混淆。

  • 便于监控与管理:统一命名有助于告警和日志的快速识别。在 WhaleStudio 监控界面中,针对多表数据会明细到每一个表的同步状态,因此,不需要在命名规则上过多体现多表中每一个表的情况。

2.5 数据源命名规范

命名规范定义


  • 数据源名称应反映系统名称、数据源类型及环境信息。

  • 格式建议:数据源引用名称,此处可以不用带数据源类型,因为数据源类型 WhaleStudio 有相关的图表和类型可以过滤筛选。


命名规范举例


  • 开发环境的订单数据库:CRM_DB

  • 生产环境的日志存储:LogStore

2.6 标签命名规范

命名规范定义


  • 标签(Tags)是任务、工作流等资源的标记,用于分类管理、快速搜索和过滤。标签名称需简洁明了,反映其功能、业务属性或环境。

  • 格式建议:标签名称。


命名规范举例


  1. 按周日领域

  2. 小时级、月级

  3. 一般默认天级就不用标签过滤了

  4. 按使用部门/业务

  5. 财险、寿险、运营部、经济业务

  6. 按系统

  7. 风控、数仓、数据湖

  8. 按优先级

  9. 高优先级任务:Priority_High

2.7 脚本及其它资源命名规范

命名规范定义


  • 脚本及其他资源应按对应的功能或者目标表名称命名,避免混淆。

  • 脚本格式建议:目标表名称.后缀。

  • 其它功能建议:功能名称


命名规范举例


  • 数据清洗 SQL 脚本:T01_ODS_CleanOrders.SQL

  • 任务定时器配置:DW_每日第 0 批定时


为什么这么命名


  • 快速定位资源:通过命名快速了解脚本和资源的用途。

  • 保持关联性:脚本名称与工作流或任务对应,便于维护。


以上命名规范涵盖了项目工作流任务数据集成任务数据源脚本及资源标签的设计要点,旨在为数据仓库开发提供一个清晰、标准化的命名体系。这些规范通过统一格式和明确结构,不仅提高了系统的可读性和可维护性,还在资源管理、任务调度和团队协作等方面提供了便利。


核心原则


  1. 清晰性:命名应直观表达资源的功能、用途或属性,便于快速识别和理解。

  2. 一致性:所有资源的命名格式保持统一,避免混乱,利于自动化管理和批量操作。

  3. 扩展性:命名规则应支持未来的业务需求,通过规范结构实现动态扩展。

  4. 简洁性:名称应尽量简洁,在保证含义完整的前提下控制长度。


👉👉 下篇预告:数据湖仓工作流开发规范

发布于: 刚刚阅读数: 4
用户头像

白鲸开源

关注

一家开源原生的DataOps商业公司。 2022-03-18 加入

致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云时代,智能化地完成多数据源、多云及信创环境的数据集成、调度开发和治理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。

评论

发布
暂无评论
(二)新一代数据湖仓开发命名规范:构建清晰高效的数据管理体系_大数据_白鲸开源_InfoQ写作社区