写点什么

重磅来袭 | 尚硅谷数据湖 Hudi 视频教程发布

作者:小谷哥
  • 2022-10-19
    北京
  • 本文字数:1750 字

    阅读完需:约 1 分钟

Apache Hudi 是新一代的流式数据湖平台,其将数据库和数据仓库的核心功能直接引入数据湖,并提供了表、事务、高效的增删改、高级索引、流式摄取、数据集群、压缩优化和并发控制等服务。Hudi 在任何云平台都能够便携地使用,高级的性能优化可以对接 Spark、Flink、Hive 等任何一款主流查询引擎。

本套视频教程由尚硅谷大数据教研团队与 Apache Hudi 开发团队联合出品。

教程延续了尚硅谷一贯风格:保姆式讲解,由浅入深,由点及面,娓娓道来,细致讲解了 Hudi 的内部架构和核心概念;败家式赠送,视频、代码、笔记、资料……帮助初学者轻松入门,快速上手。

教程还详细讲解了 Hudi 与当前最流行的三大大数据计算引擎:Spark、Flink 和 Hive 的对接过程,包括环境准备、多种对接方式、重点配置参数分析、进阶调优手段讲解等,从入门到精通,学习后即可快速投入实际生产使用!

编辑



教程目录


01.Hudi 教程简介

02.Hudi 概述-简介

03.Hudi 概述-发展历史 &特性

04.Hudi 概述-使用场景

05.Hudi 编译-版本兼容 &Maven 安装配置

06.Hudi 编译-解决与 hadoop3.x 的兼容问题

07.Hudi 编译-手动安装需要的 kafka 依赖

08.Hudi 编译

-解决 Spark 写入 Hudi 的兼容性问题

09.Hudi 编译-执行编译命令 &jar 包位置

10.Hudi 基本概念-时间轴 TimeLine

11.Hudi 基本概念-文件布局-存储方式

12.Hudi 基本概念-文件布局-文件管理

13.Hudi 基本概念-索引-原理

14.Hudi 基本概念-索引-索引选项

15.Hudi 基本概念-索引

-全局索引与非全局索引

16.Hudi 基本概念-索引-索引选择策略

17.Hudi 基本概念-表类型-COW 表

18.Hudi 基本概念-表类型-MOR 表

19.Hudi 基本概念-表类型-两种表的区别

20.Hudi 基本概念-查询类型

21.Hudi 基本概念-不同表的查询类型

22.Hudi 数据写-写操作 &Upsert 流程

23.Hudi 数据写-Insert&Overwrite 流程

24.Hudi 数据写-Key 生成策略 &删除策略

25.Hudi 数据读与 Compaction

26.Hudi 集成 Spark-环境准备 &启动 Shell

27.Hudi 集成 Spark-Shell 方式

-准备及插入数据

28.Hudi 集成 Spark-Shell 方式

-查询数据 &文件命名源码

29.Hudi 集成 Spark-Shell 方式

-更新数据 &时间旅行查询

30.Hudi 集成 Spark-Shell 方式

-增量查询 &指定时间点查询

31.Hudi 集成 Spark-Shell 方式

-删除数据 &覆盖数据

32.Hudi 集成 Spark-SQL 方式

-环境准备 &创建表

33.Hudi 集成 Spark-SQL 方式-插入 &查询

34.Hudi 集成 Spark-SQL 方式

-更新数据-Update

35.Hudi 集成 Spark-SQL 方式

-更新数据-MergeInto

36.Hudi 集成 Spark-SQL 方式

-删除 &覆盖数据

37.Hudi 集成 Spark-SQL 方式

-修改表结构、分区 &存储过程

38.Hudi 集成 Spark-IDEA 编码方式

39.Hudi 集成 Spark-DeltaStreamer

-工具介绍

40.Hudi 集成 Spark-DeltaStreamer

-准备 Kafka 数据 &配置文件

41.Hudi 集成 Spark-DeltaStreamer

-执行导入 &查询结果

42.Hudi 集成 Spark-并发控制说明

43.Hudi 集成 Spark-并发控制-DF 写入演示

44.Hudi 集成 Spark-并发控制

-DeltaStreamer 写入演示

45.Hudi 集成 Spark-官方调优指南

46.Hudi 集成 Flink-环境准备

47.Hudi 集成 Flink-sql-client-local 集群方式

48.Hudi 集成 Flink-sql-client

-yarn-session 集群方式

49.Hudi 集成 Flink-sql-client

-插入 &查询 &更新

50.Hudi 集成 Flink-sql-client-流式插入

51.Hudi 集成 Flink-IDEA 编码方式

-手动安装依赖

52.Hudi 集成 Flink-IDEA 编码方式

-提交运行

53.Hudi 集成 Flink-类型映射

54.Hudi 集成 Flink-核心参数-去重参数

55.Hudi 集成 Flink-核心参数

-并发参数 &Hints 用法

56.Hudi 集成 Flink-核心参数

-Compation 参数

57.Hudi 集成 Flink-核心参数

-Compation 演示 &hadoop 依赖冲突解决

58.Hudi 集成 Flink-核心参数

-文件大小 &Hadoop 参数

59.Hudi 集成 Flink-核心参数

-内存参数 &优化建议

60.Hudi 集成 Flink-读取方式

-流读 &增量读 &限流

61.Hudi 集成 Flink-写入方式-CDC 入湖

62.Hudi 集成 Flink-写入方式-离线批量导入

63.Hudi 集成 Flink-写入方式-全量接增量

64.Hudi 集成 Flink-Changelog 模式

65.Hudi 集成 Flink-Clustering&Bucket 索引

66.Hudi 集成 Flink-Hudi Catalog

67.Hudi 集成 Flink-离线 Compaction

68.Hudi 集成 Flink-离线 Clustering

69.Hudi 集成 Flink-常见基础问题

70.Hudi 集成 Flink-核心原理简要回顾

71.Hudi 集成 Hive-集成步骤

72.Hudi 集成 Hive-Flink 同步 Hive

73.Hudi 集成 Hive-Spark 同步 Hive

74.Hudi 集成 Hive

-使用 HiveCatalog&使用 Hive 自带函数

75.Hudi 集成 Hive-Hive 外表创建 &查询方式

76.Hudi 集成 Hive-hive sync tool 使用说明

77.Hudi 集成 Hive

-解决依赖问题 &JDBC 方式同步

78.Hudi 集成 Hive-hive 同步工具-HMS 方式

用户头像

小谷哥

关注

定期分享编程相关技术知识 2022-02-16 加入

【视频及配套资料下载】:www.atguigu.com 【在线学习交流】:关注尚硅谷B站官方账号

评论

发布
暂无评论
重磅来袭 | 尚硅谷数据湖Hudi视频教程发布_小谷哥_InfoQ写作社区