写点什么

Hudi

0 人感兴趣 · 14 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/a3/a3e3eb0187a98718ea1a38516ad7a66b.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

图加速数据湖分析 -GeaFlow 和 Hudi 集成

GeaFlow(品牌名TuGraph-Analytics) 已正式开源,欢迎大家关注!!! 欢迎给我们 Star 哦! GitHub👉https://github.com/TuGraph-family/tugraph-analytics

https://static001.geekbang.org/infoq/db/db15b0745e6e5a34726f54dbaabfb519.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

性能提升 30%!袋鼠云数栈基于 Apache Hudi 的性能优化实战解析

用户头像
袋鼠云数栈
2023-06-21

Apache Hudi 是一款开源的数据湖解决方案,它能够帮助企业更好地管理和分析海量数据,支持高效的数据更新和查询。并提供多种数据压缩和存储格式以及索引功能,从而为企业数据仓库实践提供更加灵活和高效的数据处理方式。

https://static001.geekbang.org/infoq/a7/a75b0ec2017ad75fb3fe234f454554c3.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Apache Hudi 在袋鼠云数据湖平台的设计与实践

用户头像
袋鼠云数栈
2023-05-24

在大数据处理中,实时数据分析是一个重要的需求。本文为大家介绍袋鼠云基于 Hudi 构建数据湖的整体方案架构及其在实时数据仓库处理方面的特点,并且为大家展示一个使用 Apache Hudi 的简单示例,便于新手上路。

数据湖技术 Iceberg 和 Hudi 的比较

功能上简单的对比来看,Hudi的功能相对更完善,整体比较接近。但是定位不同,应用场景有差别。

https://static001.geekbang.org/infoq/53/53ebe82b50d617324658fe6bf4486eec.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

数据湖(四):Hudi 与 Spark 整合

用户头像
Lansonli
2022-10-19

默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置,可以参照https://hudi.apache.org/docs/configurations.html配置项来查询,此外,整合时有几个需要注意的点,如下:

https://static001.geekbang.org/infoq/ef/ef34db738b9bd4e7dcebc31da07721c7.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

字节跳动基于 Doris 的湖仓分析探索实践

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

https://static001.geekbang.org/infoq/9a/9a5b66dca6b05038d882451b151e242c.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

基于 Hudi 的湖仓一体技术在 Shopee 的实践

湖仓一体(LakeHouse)作为大数据领域的重要发展方向,提供了流批一体和湖仓结合的新场景。目前,企业许多业务中会遇到的数据及时性、准确性,以及存储的成本等问题,都可以通过湖仓一体方案得到解决。

Apache Hudi X Apache Kyuubi,中国移动云湖仓一体的探索与实践

用户头像
网易数帆
2022-09-06

本文主要介绍移动云云原生大数据分析LakeHouse的整体架构、核心功能、关键技术点,以及在公有云/私有云的应用场景。

https://static001.geekbang.org/infoq/d4/d40551ab2600e46b3fd387fc1452c03a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

开源流式湖仓服务 Arctic 详解:并非另一套 Table Format

用户头像
网易数帆
2022-08-18

本文根据作者于 Arctic 开源发布会演讲内容整理(略有删减),系统解读 Arctic 项目研发初衷、生态定位、核心特性、性能表现及未来规划。

https://static001.geekbang.org/infoq/95/954499eac10d6b2c474cdb950173f209.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

字节跳动基于 Apache Hudi 的多流拼接实践

字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。

https://static001.geekbang.org/infoq/1d/1d5e4bb1f0d529daba51b268fe54103e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Hudi Bucket Index 在字节跳动的设计与实践

由字节跳动数据湖团队贡献的 RFC-29 Bucket Index 在近期合入 Hudi 主分支,本文详细介绍 Hudi Bucket Index 产生的背景与实践经验。

Hudi 自带工具 DeltaStreamer 的实时入湖最佳实践

摘要:本文介绍如何使用Hudi自带入湖工具DeltaStreamer进行数据的实时入湖。

https://static001.geekbang.org/infoq/4a/4a91683c10117fbe7e0c28bd305e6e11.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

使用 Apache Spark 构建可靠的数据湖 (九)

用户头像
数据与智能
2021-07-24

写在前面: 大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与AI相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。

Hudi_Hudi技术文章_InfoQ写作社区