重磅来袭 | 尚硅谷数据湖 Hudi 视频教程发布
Apache Hudi 是新一代的流式数据湖平台,其将数据库和数据仓库的核心功能直接引入数据湖,并提供了表、事务、高效的增删改、高级索引、流式摄取、数据集群、压缩优化和并发控制等服务。Hudi 在任何云平台都能够便携地使用,高级的性能优化可以对接 Spark、Flink、Hive 等任何一款主流查询引擎。
本套视频教程由尚硅谷大数据教研团队与 Apache Hudi 开发团队联合出品。
教程延续了尚硅谷一贯风格:保姆式讲解,由浅入深,由点及面,娓娓道来,细致讲解了 Hudi 的内部架构和核心概念;败家式赠送,视频、代码、笔记、资料……帮助初学者轻松入门,快速上手。
教程还详细讲解了 Hudi 与当前最流行的三大大数据计算引擎:Spark、Flink 和 Hive 的对接过程,包括环境准备、多种对接方式、重点配置参数分析、进阶调优手段讲解等,从入门到精通,学习后即可快速投入实际生产使用!
编辑
教程目录
01.Hudi 教程简介
02.Hudi 概述-简介
03.Hudi 概述-发展历史 &特性
04.Hudi 概述-使用场景
05.Hudi 编译-版本兼容 &Maven 安装配置
06.Hudi 编译-解决与 hadoop3.x 的兼容问题
07.Hudi 编译-手动安装需要的 kafka 依赖
08.Hudi 编译
-解决 Spark 写入 Hudi 的兼容性问题
09.Hudi 编译-执行编译命令 &jar 包位置
10.Hudi 基本概念-时间轴 TimeLine
11.Hudi 基本概念-文件布局-存储方式
12.Hudi 基本概念-文件布局-文件管理
13.Hudi 基本概念-索引-原理
14.Hudi 基本概念-索引-索引选项
15.Hudi 基本概念-索引
-全局索引与非全局索引
16.Hudi 基本概念-索引-索引选择策略
17.Hudi 基本概念-表类型-COW 表
18.Hudi 基本概念-表类型-MOR 表
19.Hudi 基本概念-表类型-两种表的区别
20.Hudi 基本概念-查询类型
21.Hudi 基本概念-不同表的查询类型
22.Hudi 数据写-写操作 &Upsert 流程
23.Hudi 数据写-Insert&Overwrite 流程
24.Hudi 数据写-Key 生成策略 &删除策略
25.Hudi 数据读与 Compaction
26.Hudi 集成 Spark-环境准备 &启动 Shell
27.Hudi 集成 Spark-Shell 方式
-准备及插入数据
28.Hudi 集成 Spark-Shell 方式
-查询数据 &文件命名源码
29.Hudi 集成 Spark-Shell 方式
-更新数据 &时间旅行查询
30.Hudi 集成 Spark-Shell 方式
-增量查询 &指定时间点查询
31.Hudi 集成 Spark-Shell 方式
-删除数据 &覆盖数据
32.Hudi 集成 Spark-SQL 方式
-环境准备 &创建表
33.Hudi 集成 Spark-SQL 方式-插入 &查询
34.Hudi 集成 Spark-SQL 方式
-更新数据-Update
35.Hudi 集成 Spark-SQL 方式
-更新数据-MergeInto
36.Hudi 集成 Spark-SQL 方式
-删除 &覆盖数据
37.Hudi 集成 Spark-SQL 方式
-修改表结构、分区 &存储过程
38.Hudi 集成 Spark-IDEA 编码方式
39.Hudi 集成 Spark-DeltaStreamer
-工具介绍
40.Hudi 集成 Spark-DeltaStreamer
-准备 Kafka 数据 &配置文件
41.Hudi 集成 Spark-DeltaStreamer
-执行导入 &查询结果
42.Hudi 集成 Spark-并发控制说明
43.Hudi 集成 Spark-并发控制-DF 写入演示
44.Hudi 集成 Spark-并发控制
-DeltaStreamer 写入演示
45.Hudi 集成 Spark-官方调优指南
46.Hudi 集成 Flink-环境准备
47.Hudi 集成 Flink-sql-client-local 集群方式
48.Hudi 集成 Flink-sql-client
-yarn-session 集群方式
49.Hudi 集成 Flink-sql-client
-插入 &查询 &更新
50.Hudi 集成 Flink-sql-client-流式插入
51.Hudi 集成 Flink-IDEA 编码方式
-手动安装依赖
52.Hudi 集成 Flink-IDEA 编码方式
-提交运行
53.Hudi 集成 Flink-类型映射
54.Hudi 集成 Flink-核心参数-去重参数
55.Hudi 集成 Flink-核心参数
-并发参数 &Hints 用法
56.Hudi 集成 Flink-核心参数
-Compation 参数
57.Hudi 集成 Flink-核心参数
-Compation 演示 &hadoop 依赖冲突解决
58.Hudi 集成 Flink-核心参数
-文件大小 &Hadoop 参数
59.Hudi 集成 Flink-核心参数
-内存参数 &优化建议
60.Hudi 集成 Flink-读取方式
-流读 &增量读 &限流
61.Hudi 集成 Flink-写入方式-CDC 入湖
62.Hudi 集成 Flink-写入方式-离线批量导入
63.Hudi 集成 Flink-写入方式-全量接增量
64.Hudi 集成 Flink-Changelog 模式
65.Hudi 集成 Flink-Clustering&Bucket 索引
66.Hudi 集成 Flink-Hudi Catalog
67.Hudi 集成 Flink-离线 Compaction
68.Hudi 集成 Flink-离线 Clustering
69.Hudi 集成 Flink-常见基础问题
70.Hudi 集成 Flink-核心原理简要回顾
71.Hudi 集成 Hive-集成步骤
72.Hudi 集成 Hive-Flink 同步 Hive
73.Hudi 集成 Hive-Spark 同步 Hive
74.Hudi 集成 Hive
-使用 HiveCatalog&使用 Hive 自带函数
75.Hudi 集成 Hive-Hive 外表创建 &查询方式
76.Hudi 集成 Hive-hive sync tool 使用说明
77.Hudi 集成 Hive
-解决依赖问题 &JDBC 方式同步
78.Hudi 集成 Hive-hive 同步工具-HMS 方式
评论