一站式大数据开发与治理产品实践
一、项目背景
该项目(DataCake)所在企业是一家全球化的互联网科技公司,主要从事移动互联网软件研发与互联网服务等业务。旗下代表产品全球累计安装用户数近 24 亿。 DataCake 产品正是以本企业的海量数据为底座、依托云原生平台技术、沉淀自身数据开发治理实践而形成的一站式数据中台套件。该产品前期基于企业内业务沉淀出一套成熟方案后,开始面向商业化。笔者主要从 0 到 1 负责该商业化大数据产品 DataCake 的产品规划、设计与落地,此产品对标 DataBricks、Dataworks 等大数据产品。
二、项目介绍
DataCake 平台可帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台功能建设,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。产品信息架构图如下所示,它有以下几大特性:

2.1、数据研发全链路管理
整合企业全域数据,支持 20+多源异构数据集成,灵活对接各类业务系统。敏捷开发 CI/CD,覆盖需
求、开发、测试、发布、运维等研发全链路管理。通过模板式任务开发、工作流编排、可视化运维使业务人员轻松完成整个 Data Pipeline 建设。
2.1.1 异构多源数据集成
• 20+多源异构数据集成;

• 覆盖常见的业务存储系统;

• 提供全量、增量、实时的数据同步能力,整合全域数据。

2.1.2 全栈数据研发 DataOps
• 兼容 Spark、Flink 等多种计算引擎,提供 HSQL、Spark、Python、Flink SQL、Notebook 等 10+数据开发能力;

• 协同开发、智能 IDE 提高开发效率,在线调试、数据测试加快代码验证流程;


• 敏捷开发 CI/CD,支持开发生产隔离,跨域/项目代码同步,实现代码持续集成与部署。
2.1.3 数据可观测性
• 丰富的监控规则,归类业务运维管理,监控全链路任务;
• 支持天级/小时级基线告警,提供数据可观测性;

• 基于复杂业务场景验证的数据回溯能力;


• 深入引擎,智能诊断。

2.2、数据全生命周期治理
结合基线监控、数据质量、 SLA 治理等能力,提供事前预警、事中处理、事后复盘及推荐优化的全生
命周期的数据治理能力。
2.2.1 按需设置基线监控
根据实际业务当前发展状况与实际需求,自行设置基线监控;

2.2.2 全链路保障
对生产链路进行精细分析,长链路任务也能快速对齐治理目标。

2.2.3 存储与计算治理
围绕 FinOps 理念快速构建数据治理流程,基于"Inform-->Optimize->Operate"流程方法论,规划计算治理、存储治理、权限治理体系。

(存储治理)

(权限治理)
2.3、数据目录和数据发现
2.3.1 数据检索
提供基于 Iceberg 数据湖仓的数据检索,支持按表名、表描述、字段名、字段描述、表 owner 等条件进行全局模糊检索。由于企业采用多云、多 Region 的数据存储战略,因此底层元数据也支持跨云、跨 Region 查询。同时支持数据的分类分级,以及按自定义数据模型进行数据的检索。

2.3.2 资产管理
依托 Iceberg 数据湖仓,支持对湖仓数据进行分类分级管理、元数据管理、权限管理、表血缘管理、字段血缘管理。


版权声明: 本文为 InfoQ 作者【Jackchang234987】的原创文章。
原文链接:【http://xie.infoq.cn/article/a053670b17a4080b3871b3120】。文章转载请联系作者。
评论