写点什么

一站式大数据开发与治理产品实践

作者:Jackchang234987
  • 2024-03-27
    北京
  • 本文字数:1185 字

    阅读完需:约 4 分钟

一、项目背景

该项目(DataCake)所在企业是一家全球化的互联网科技公司,主要从事移动互联网软件研发与互联网服务等业务。旗下代表产品全球累计安装用户数近 24 亿。 DataCake 产品正是以本企业的海量数据为底座、依托云原生平台技术、沉淀自身数据开发治理实践而形成的一站式数据中台套件。该产品前期基于企业内业务沉淀出一套成熟方案后,开始面向商业化。笔者主要从 0 到 1 负责该商业化大数据产品 DataCake 的产品规划、设计与落地,此产品对标 DataBricks、Dataworks 等大数据产品。

二、项目介绍

DataCake 平台可帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台功能建设,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。产品信息架构图如下所示,它有以下几大特性:

2.1、数据研发全链路管理

整合企业全域数据,支持 20+多源异构数据集成,灵活对接各类业务系统。敏捷开发 CI/CD,覆盖需

求、开发、测试、发布、运维等研发全链路管理。通过模板式任务开发、工作流编排、可视化运维使业务人员轻松完成整个 Data Pipeline 建设。

2.1.1 异构多源数据集成

• 20+多源异构数据集成;


• 覆盖常见的业务存储系统;

• 提供全量、增量、实时的数据同步能力,整合全域数据。


2.1.2 全栈数据研发 DataOps

• 兼容 Spark、Flink 等多种计算引擎,提供 HSQL、Spark、Python、Flink SQL、Notebook 等 10+数据开发能力;


• 协同开发、智能 IDE 提高开发效率,在线调试、数据测试加快代码验证流程;



• 敏捷开发 CI/CD,支持开发生产隔离,跨域/项目代码同步,实现代码持续集成与部署。

2.1.3 数据可观测性

• 丰富的监控规则,归类业务运维管理,监控全链路任务;


• 支持天级/小时级基线告警,提供数据可观测性;


• 基于复杂业务场景验证的数据回溯能力;



• 深入引擎,智能诊断。


2.2、数据全生命周期治理

结合基线监控、数据质量、 SLA 治理等能力,提供事前预警、事中处理、事后复盘及推荐优化的全生

命周期的数据治理能力。

2.2.1 按需设置基线监控

根据实际业务当前发展状况与实际需求,自行设置基线监控;

2.2.2 全链路保障

对生产链路进行精细分析,长链路任务也能快速对齐治理目标。

2.2.3 存储与计算治理

围绕 FinOps 理念快速构建数据治理流程,基于"Inform-->Optimize->Operate"流程方法论,规划计算治理、存储治理、权限治理体系。

(存储治理)

(权限治理)

2.3、数据目录和数据发现

2.3.1 数据检索

提供基于 Iceberg 数据湖仓的数据检索,支持按表名、表描述、字段名、字段描述、表 owner 等条件进行全局模糊检索。由于企业采用多云、多 Region 的数据存储战略,因此底层元数据也支持跨云、跨 Region 查询。同时支持数据的分类分级,以及按自定义数据模型进行数据的检索。

2.3.2 资产管理

依托 Iceberg 数据湖仓,支持对湖仓数据进行分类分级管理、元数据管理、权限管理、表血缘管理、字段血缘管理。



发布于: 刚刚阅读数: 4
用户头像

种一颗树最好的时间是10年前,其次是现在。 2020-07-16 加入

数据产品经理,曾在Shareit、汽车之家等公司任职,也在创业公司摸爬滚打过,业余时间运营个人公号及网店,长期关注互联网大数据、电商&社群、旅游领域。

评论

发布
暂无评论
一站式大数据开发与治理产品实践_元数据_Jackchang234987_InfoQ写作社区