全部标签 



写点什么

登录注册

数据湖（二）：什么是 Hudi

作者：Lansonli

2022 年 8 月 02 日
本文字数：350 字
阅读完需：约 1 分钟

数据湖（二）：什么是Hudi

什么是 Hudi

Apache Hudi 是一个 Data Lakes 的开源方案，Hudi 是 Hadoop Updates and Incrementals 的简写，它是由 Uber 开发并开源的 Data Lakes 解决方案。Hudi 能够基于 HDFS 之上管理大型分析数据集，可以对数据进行插入、更新、增量消费等操作，主要目的是高效减少摄取过程中的数据延迟。

Hudi 非常轻量级，可以作为 lib 与 Spark、Flink 进行集成

Hudi 官网：

https://hudi.apache.org

Hudi 基于 Parquet 列式存储与 Avro 行式存储，同时避免创建小文件，实现高效率低延迟的数据访问。在 HDFS 数据集上提供插入更新、增量拉取、全量拉取。Hudi 具有如下特点：

快速 upsert,可插入索引。
以原子方式操作数据并具有回滚功能。
写入器和查询之间的快照隔离。
用于数据恢复的 savepoint 保存点。Hudi 通过 Savepoint 来实现数据恢复。
管理文件大小，使用统计数据布局。
行和列数据的异步压缩。

发布于: 刚刚阅读数: 4

版权声明: 本文为 InfoQ 作者【Lansonli】的原创文章。

原文链接:【http://xie.infoq.cn/article/6134fe988a8cc553707e8fa1a】。文章转载请联系作者。

Lansonli

关注

微信公众号：三帮大数据 2022.07.12 加入

CSDN大数据领域博客专家，华为云享专家、阿里云专家博主、腾云先锋（TDP）核心成员、51CTO专家博主，全网六万多粉丝，知名互联网公司大数据高级开发工程师

评论

发布

暂无评论