Hudi 系列:Hudi 核心概念之时间轴 (TimeLine)
Hudi 系列:Hudi 核心概念(版本 1.0)
•Hudi 架构
◦一. 时间轴(TimeLine)
▪1.1 时间轴(TimeLine)概念
▪1.2 Hudi 的时间线由组成
▪1.3 时间线上的 Instant action 操作类型
▪1.4 时间线上 State 状态类型
▪1.5 时间线官网实例
◦二. 文件布局
◦三. 索引
▪3.1 简介
▪3.2 对比 Hive 没有索引的区别
▪3.3 Hudi 索引类型
▪3.4 全局索引与非全局索引
◦四. 表类型
▪4.1 COW:(Copy on Write)写时复制表
▪4.1.1 概念
▪4.1.2 COW 工作原理
▪4.1.3 COW 表对表的管理方式改进点
▪4.2 MOR:(Merge on Read)读时复制表
▪4.2.1 概念
▪4.2.2 MOR 表工作原理
▪4.3 总结了两种表类型之间的权衡
◦五. 查询类型
▪5.1 Snapshot Queries
▪5.2 Incremental Queries
▪5.3 Read Optimized Query

一. 时间轴(TimeLine)
1.1 时间轴(TimeLine)概念
Hudi 的核心是维护在不同时刻(Instant)在表上执行的所有操作的时间轴,提供表的即时视图,同时还有效地支持按时间顺序检索数据

1.2 Hudi 的时间线由组成
•requested instant :
•completed instant :
•state :
•type :
1.3 时间线上的 Instant action 操作类型
hudi 保证在时间线上的操作都是基于即时时间的,两者的时间保持一致并且是原子性的,以下是有效的操作类型。
•COMMIT -
•DELTA_COMMIT -
•REPLACE_COMMIT -
•CLEANS -
•COMPACTION -
•LOGCOMPACTION -
•CLUSTERING -
•INDEXING -
•ROLLBACK -
•SAVEPOINT -
•RESTORE -
1.4 时间线上 State 状态类型
任何给定的瞬间都可以处于以下状态之一
requested:表示一个动作已被安排,但尚未启动
inflight:表是当前正在执行操作
completed:表是在时间线上完成了操作
1.5 时间线官网实例

评论