写点什么

陈长城:NineData 面向 Doris 实时数仓集成的技术实践

作者:NineData
  • 2023-11-17
    浙江
  • 本文字数:3106 字

    阅读完需:约 10 分钟

在刚刚过去的北京 Doris Summit Asia 2023,玖章算术技术副总裁陈长城受邀参加并做了《NineData 面向 Doris 实时数仓集成的技术实践》报告。

玖章算术技术副总裁陈长城

多云多源企业数据管理的挑战

从业界的报告中我们知道超过 81%的企业使用了多云或混合云架构,超过 70%的企业使用了多种数据类型,而对基础架构、数据架构运用娴熟的企业其创新速度远高于同行。当然多云多源也带来了很多挑战,导致基础架构管理复杂、数据孤岛、开发效率下降等挑战增加。

面向这些问题,玖章算术研发了 NineData 云原生智能数据管理平台,底层基于统一数据源和 IaaS 层抽象,对接各个云厂商和多种数据源,基于之上建立了数据复制、数据对比、SQL 开发、数据备份四大功能模块,并与企业的托管数据库 PaaS、搜索平台、消息队列和大数据平台形成良好的互动,帮助企业实现多云多源统一的数据管理能力。

NineData 数据管理平台架构图

云原生数据复制架构

在多云多源下的数据集成,企业面临多种数据源的数据抽取、多云厂商数据互通的需求,对于多数据中心和出海企业,也必然面临跨地域长周期的数据同步的挑战。NineData 认为一个云原生的数据复制架构,需要具备四个特征

(1)Scalable(可扩展性,实现多种数据源快速接入)

(2)Resilient(适配各种环境,各厂商和复杂的网络环境)

(3)Manageable(可管理性,大量环境和链路管理及一致性对比)

(4)Observable(可观测可干预)

NineData 在多云方面的目标是实现 AnyWhere、AnyNetwork、AnyDatabase 的数据库接入和管理能力,通过统一的控制台,帮助用户管理各个地方的数据源。NineData 的 worker 会部署到离用户最近的地方,实现数据链路在本地运行,而任务状态汇报到中心控制台的架构。worker 可以通过私网 VPC 或公网与用户数据源打通,对于数据库不暴露公网的可以使用 NineData 数据库网关实现本地接入,远程复制和管理。同时 NineData 也支持金融企业客户的专属集群部署需求。

NineData 云原生数据复制架构

在多数据源方面,NineData 通过统一数据源的抽象,将数据库连接属性、账密、连接池管理、网络连接方式等统一管理起来,一个数据源注册完后,就可以使用 NineData 提供的所有功能,包括 SQL 开发、数据复制、数据对比、数据备份等。

实时数仓 Doris 数据集成实践

NineData 在实时数仓 Doris 数据集成实践上, 重点围绕一致性、高吞吐、低延迟、可观测可干预这几个方面,当前 NineData 已经支持了 60 多种数据源。在数仓实时数据集成中,我们会考虑到这几个方面:

(1)DDL 自适应,实现结构迁移初始化,以及后续新的增量 DDL 的自动同步。对于 Doris,其结构和 MySQL 兼容性比较高,主要是对 distribute key 自适应和跨库 CREATE TABLE LIKE 的兼容,distribute key 的选择 NineData 会自动按主键、唯一键的顺序自动填充,也允许用户下拉指定,来达到顺畅的体验。

(2)数据类型映射,包括数据类型映射(如 BIGINT UNSIGNED -> LARGEINT 等),字符集映射(Doris 主要是 utf8),以及当多个地域不同时区的生产库汇聚到 Doris 时,需要做时区自适应。

(3)数据 ETL 转换,当使用 MySQL 同步到 Doris 时,我们希望表结构原样同步过来,其实更多的是 ETL,先保障数据快速、准确、稳定的持续同步过来,再基于这些原始数据 ODS 之上去构建数仓的维表、物化视图等。但生产库也会有一些数据是不需要同步到数仓的,因此需要过滤掉、或者做一些简单的计算和标记再同步到数仓,这个就是 EtLT。

(4)提交性能,这个是数仓集成大家普遍关注的,后面将单独介绍。

下面分别介绍几个实践中的要点:

3.1 一致性

在做实时日志 CDC 的时候,其实要把数据正确解析出来,需要两个部分。以 MySQL 为例,你需要拿到数据库的 binlog 日志(里面包含数据前后镜像),同时拿到 MySQL 产生这条日志那一刻的表结构,才能正确地拼出响应的 DML 语句。因此在 DML/DDL 混合执行的时候,正确地拿到那一刻的表结构就比较困难,而这在生产库中经常遇见。因此 NineData 实现了一个 DDLParser,将每一条 DDL 日志在同步模块中模拟 MySQL 的 DDL 执行,更新同步模块中的 Meta 缓存,并实现了版本化存储。这样就可以获得每张表任意时刻的表结构元数据。

NineData 的数据一致性

3.2 高吞吐

全量同步性能是数仓集成比较重要的地方,往往涉及到多个数据源往一个数仓同步数据,NineData 的工作包括以下三个部分:

(1)在全量同步数据到 Doris 的过程中,由于生产库存在多张大小不一样的表,如果有很多小表和 1-2 张大表的情况下,就容易出现小表都同步完了,最后几张大表一直没有完成。因此我们要进行单表并发切片,并且保障切片足够均匀,才能最大化使用并发度让大家同时完成。NineData 会根据表的主键、唯一键、非空索引等顺序进行切片,同时做到切片粒度的断点续传。

(2)在内存方面针对全量同步这种一过性数据场景对 JVM 内存进行优化。

(3)进行批量提交合并,同时针对 Doris 的特点,进行 Stream 模型的全量和增量写入,在实测中 30 并发能够跑到 209MB/S、88W RPS 的性能。

3.3 低延时

NineData 从多个维度建设,以实现低延时能力。包括链路中热点更新数据合并、表级别的安全位点减少数据回退,云原生 RDS 备份日志自动回拉,主动运维时的优雅退出(clean shutdown)等能力,以保障运行中的链路最小受到各种情况造成的延时影响。

3.4 链路内置 ETL 能力

包括对象名映射(库、表、列名均支持名称映射)、数据过滤(如支持通过配置 SQL Expression,使用函数计算和过滤数据示例:gmt_create>=‘2019-09-09 11:11:11)、操作类型过滤(如支持通过配置增量复制需要复制的操作类型,细粒度控制复制操作,示例:只复制 Insert/Delete/Update/Create Table/Alter Table,其他操作都不需要)。

3.5 可扩展性

数仓集成涉及的数据源众多,为了方便支持扩展更多的数据源,我们对结构转换、数据转换做了中间数据类型的抽象,能够做到多源异构的快速转换,同时抽象了复制框架,基于复制框架进行插件化开发可以实现新数据源的快速接入。

NineData 数据管理平台架构图

3.6 可观测可干预

(1)数据对比作为 NineData 重点建设的功能,对数仓集成复制的数据一致性有很好的观测能力。NineData 全量对比会将计算下推以减少数据库网络消耗并提升性能,支持限流保护生产库。快速对比会对数据的行数、MAX、MIN、AVG 取值以更准确判断数据一致性。

NineData 数据对比功能

在结果呈现上,NineData 会将每一行每个字段的不一致部分以颜色标记出来,并生成订正 SQL。

NineData 支持智能校验数据并生成订正 SQL

(2)在传统监控告警之外,NineData 做了两个有特色的功能,一个是在同步模块运行中,可以查看每个线程当前在提交什么 SQL,比如遇到 DDL 特别慢,当前已经执行了多少时间。另一个是针对每一个正在复制的命令,如果抛错了,允许客户进行 SQL 语句级别的修改和重试,或跳过,快速干预和恢复链路。

NineData 的可观测可干预能力

典型业务场景和技术展望

我们认为,在多云多源的背景下,随着云原生数仓的快速发展,只有云原生化的实时数据集成能够适应时代的要求,能够快速提供各个厂商、各种数据类型的快速汇聚,具备按需使用,即开即用的特性。

实时数据集成技术趋势

Metadata-Driven 能够将企业多种数据源统一管理,构建统一的元数据和数据目录,让企业有个完整的数据生产资料视角也特别重要。NineData 的 SQL 开发能够帮助企业补充这部分能力。同时,传统先建数据中台进行大数据集中,再考虑产出效果的方式无法满足企业的需要,Purpose-Driven 更多受到企业用户的喜欢,让用户的数仓集成投入有明确的目标效果预估。通过提前构建联邦查询或逻辑视图,预览数仓集成后的报表效果,以及评估相关链路和存储成本,再进行投入。而且实时数据集成平台应该提供自助化的服务让用户进行尝试和决策。

随着当下 AIGC 能力的发展,我们相信大模型在帮助企业进行数据管理的智能辅助方面有不错的应用前景。

用户头像

NineData

关注

NineData公众号(ID:NineData-Cloud) 2022-11-30 加入

玖章算术研发了云原生智能数据管理平台NineData,包含SQL开发、数据复制、备份和对比等功能,轻松完成数据上云、传输、ETL、备份、SQL开发、数据库研发规范、生产变更和敏感数据管理,致力于让每人用好数据和云。

评论

发布
暂无评论
陈长城:NineData面向Doris实时数仓集成的技术实践_数据库_NineData_InfoQ写作社区