写点什么

iceberg

0 人感兴趣 · 17 次引用

  • 最新
  • 推荐

数据湖技术 Iceberg 和 Hudi 的比较

功能上简单的对比来看,Hudi的功能相对更完善,整体比较接近。但是定位不同,应用场景有差别。

https://static001.geekbang.org/infoq/ba/ba3537989bab0d4581c7aac8d54b7162.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Arctic 自动优化湖仓原理解析

要构建一套开箱即用的湖仓系统,自动优化是第一个需要解决的需求。

https://static001.geekbang.org/infoq/57/571591afa15b3ca0ed761c97daed56c7.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

网易传媒基于 Arctic 的低成本准实时计算实践

用户头像
网易数帆
2022-11-09

Arctic 能相对较好地支持与服务于流批混用的场景,其开放的叠加式架构,可以帮助我们非常平滑地过渡与实现 Hive 到数据湖的升级改造,且由于传媒离线数仓已接入有数,通过 Arctic 来改造现有业务的成本较低

https://static001.geekbang.org/infoq/3f/3f0af750186fed5a656c069eef96d6d9.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Arctic 基于 Hive 的流批一体实践

用户头像
网易数帆
2022-10-26

帮助业务平滑地从 Hive 过渡到 Streaming Lakehouse

https://static001.geekbang.org/infoq/58/58df9336d6282796215d1327ca9bf924.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

B 站基于 Iceberg+Alluxio 助力湖仓一体项目落地实践

用户头像
Alluxio
2022-08-24

本期分享的题目是B站基于Iceberg + Alluxio 助力湖仓一体项目落地实践,内容包含诸多技术细节

https://static001.geekbang.org/infoq/d4/d40551ab2600e46b3fd387fc1452c03a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

开源流式湖仓服务 Arctic 详解:并非另一套 Table Format

用户头像
网易数帆
2022-08-18

本文根据作者于 Arctic 开源发布会演讲内容整理(略有删减),系统解读 Arctic 项目研发初衷、生态定位、核心特性、性能表现及未来规划。

https://static001.geekbang.org/infoq/03/0318aa5a6a7b7b99ce37d7ecbc7a2c17.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

应用实践 | Apache Doris 整合 Iceberg + Flink CDC 构建实时湖仓一体的联邦查询分析架构

用户头像
SelectDB
2022-06-23

这是一篇非常完整全面的应用技术干货,手把手教你如何使用 Doris+Iceberg+Flink CDC 构建实时湖仓一体的联邦查询分析架构。按照本文中步骤一步步完成,完整体验搭建操作的完整过程。

Spark 合并 Iceberg 小文件内存溢出问题定位和解决方案

此问题来源于客户POC测试现场,我们提供了合并小文件的driver程序RewriteDatafile,现场有一个5亿数据的Iceberg表,其中包括5千万删除数据,需要通过Spark合并小文件,进而提升Trino的查询速度。但是合并过程中任务必中断,任务被kill。

https://static001.geekbang.org/infoq/f7/f743677869886eadf9e557aae5e838ad.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Arctic:网易数帆开放式流批一体表服务 | BDTC 精彩回顾

用户头像
网易数帆
2021-12-28

在近日举办的 BDTC 2021 中国大数据技术大会上,网易副总裁、网易杭州研究院执行院长、网易数帆总经理汪源在主题演讲中介绍了有数数据生产力平台的底层核心技术——开放式流批一体架构,重点分享了 Arctic 流批一体表服务的设计特点和实现原理。以下为演讲内

Trino 应用 Iceberg Catalog 写入数据原理分析

Trino在Iceberg Catalog下创建表后(https://xie.infoq.cn/article/e4c245a0e260d1ebf0b29c592),再

Trino 通过 Iceberg 创建表的过程分析

Iceberg是一个为大规模数据集设计的通用的表格形式,并且适配了Trino 、Flink和Spark,提供SQL化解决方案。在构建数据湖的场景中,计算引擎和iceberg的组合为用户提供了ACID和多版本支持,支持批/流读写等特性。本文主要介绍trino如何构建一个Iceberg表。

https://static001.geekbang.org/infoq/4a/4a91683c10117fbe7e0c28bd305e6e11.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

使用 Apache Spark 构建可靠的数据湖 (九)

用户头像
数据与智能
2021-07-24

写在前面: 大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与AI相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。

https://static001.geekbang.org/infoq/45/458eec2235135438b0b912aec3ad3faa.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Iceberg0.11 与 Spark3.0 结合

用户头像
InfoQ_Springup
2021-05-13

Iceberg0.11与Spark3.0结合

Spark 测试用例生成 apache iceberg 结果

用户头像
聚变
2021-04-13

Spark测试用例生成apache iceberg结果

https://static001.geekbang.org/infoq/eb/eb7e654c7c4fa53a62f16a3873730186.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

实时数据仓库的发展、架构和趋势

用户头像
网易数帆
2021-04-02

随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。

iceberg_iceberg技术文章_InfoQ写作社区