阿里云大数据架构师推荐学习的 Flink 入门与实战
Flink 项目是大数据计算领域冉冉升起的一颗新星。大数据计算引擎的发展经历了几个过程,从第 1 代的 MapReduce,到第 2 代基于有向无环图的 Tez,第 3 代基于内存计算的 Spark,再到第 4 代的 Flink。因为 Flink 可以基于 Hadoop 进行开发和使用,所以 Flink 并不会取代 Hadoop,而是和 Hadoop 紧密结合。
Flink 主要包括 DataStream API、DataSet API、Table API、SQL、Graph API 和 FlinkML 等。现在 Flink 也有自己的生态圈,涉及离线数据处理、实时数据处理、SQL 操作、图计算和机器学习库等。
目录概览
限于文章篇幅原因,就展示到这里了,有需要的小伙伴 点击这里凭本文截图即可获取!
内容概览
本文共分 11 章,每章的主要内容如下:
第 1 章 Flink 概述;
本章讲解 Flink 的基本原理,主要包含 Flink 原理及架构分析、Flink 组件介绍、Flink 中的流处理和批处理的对比、Flink 的一些典型应用场景分析,以及 Flink 和其他流式计算框架的区别等。
第 2 章 Flink 快速入门;
第 1 章针对 Flink 的基本原理、架构和组件进行了分析,本章开始快速实现- -个 Flink 的入门案例,这样可以加深对之前内容的理解。
第 3 章 Flink 的安装和部署;
我们对 Flink 有了一一个基本的认识,并且也掌握了 Flink 程序的开发步骤。下 面就来看一下如何安装和部署-一个 Flink 集群,并在集群上真正运行 Flink 程序。
Flink 的安装和部署主要分为本地模式和集群模式,其中本地模式只需直接解压就可以使用,不以修改任何参数,一般在做-些简单测试的时候使用。集群模式包含 Standalone.Flink on Yarn 等模式,适合在生产环境下面使用,且需要修改对应的配置参数。
第 4 章 Flink 常用 API 详解;
本章主要针对 Flink DataStream 和 DataSet 的常用 API 进行分析和讲解,也会涉及 FlinkTableAPI 和 Flink SQL 的一.些常见操作。
第 5 章 Flink 高级功能的使用;
本章主要针对 Flink 中的高级特性进行分析,包括 Broadcast. Accumulator 和 DistributedCache。
第 6 章 Flink State 管理与恢复;
本章主要针对 Flink State(状态)进行分析,包含状态的管理和恢复,以及 Flink 中的任务重启策略。
第 7 章 Flink 窗口详解;
本章主要针对 Flink 窗口(Window) 进行分析,包括 Flink 中提供的常见 Window,以及 Window 的聚合操作。
第 8 章 Flink Time 详解;
本章主要针对 Flink Time 中的 Event Time、Ingestion Time、Processing Time 以及 Watermark 进行详细讲解。
第 9 章 Flink 并行度详解;
本章主要针对 Flink 中的并行度进行详细分析.Flink 中的并行度设置分为 4 个层面:Operator Level(算子层面)、Execution Environment Level(执行环境层面)、Client Level(客户端层面)和 System Level(系统层面)。
第 10 章 Flink Kafka Connector 详解;
Flink 提供了很多 Connector 组件,其中应用较广泛的就是 Kafka 了。本章我们主要针对 Kafka Connector 在 Flink 中的应用做详细的分析。
第 11 章 Flink 实战项目开发;
本章主要针对 Flink 的一些实战应用场景进行分析,包含架构设计和代码实现。在这里主要介绍两个应用场景:一个是实时数据清洗,也称为实时 ETL;另一个是实时数据报表。
限于文章篇幅原因,就展示到这里了,有需要的小伙伴 点击这里凭本文截图即可获取!
评论