阿里巴巴首发:Kafka“限量笔记”,精髓全写在里面了
前言:
Kafka
Kafka 是最初由 Linkedin 公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于 zookeeper 协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于 hadoop 的批处理系统、低延迟的实时系统、storm/Spark 流式处理引擎,web/nginx 日志、访问日志,消息服务等等,用 scala 语言编写,Linkedin 于 2010 年贡献给了 Apache 基金会并成为顶级开源 项目。
而要谈对 Kafka 有多熟悉,我相信还是阿里的大佬们最有发言权,所以今天分享的内容,就是 Alibaba 内部首发的“限量笔记”,关于 Kafka 的精髓全部写在这里面了,真是不得不得不感叹:不愧是 Alibaba 的技术官啊,真的服了!
由于笔记内容偏多,为了不影响阅读,只能在文章中展示部分的章节内容和核心截图,如果你需要完整的 pdf 版本,可以关注我 点击这里 免费获取吧
一、对 Kafka 的认识
1.Kafka 的基本概念
2.安装与配置
3.生产与消费
4.服务端参数配置
二、生产者
1.客户端开发
2.原理分析
3.重要的生产者参数
三、消费者
1.消费者与消费组
2.客户端开发
四、主题与分区
1.主题的管理
2.初识 KafkaAdminCilent
3.分区的管理
4.如何选择合适的分区数
五、日志存储
1.文件目录布局
2.日志格式的演变
3.日志索引
4.日志清理
5.磁盘存储
六、深入服务端
1.协议设计
2.时间轮
3.延时操作
4.控制器
5.参数解密
七、深入客户端
1.分区分配策略
2.消费者协调器和组协调器
3._consumer_offsets 剖析
4.事务
八、可靠性探究
1.副本剖析
2.日志同步机制
3.可靠性分析
九、Kafka 应用
1.命令行工具
2.Kafka Connect
3.Kafka Mirror Maker
4.Kafka Streams
十、Kafka 监控
1.监控数据的来源
2.消费滞后
3.同步失效分区
4.监控指标说明
5.监控模块
十一、高级应用
1.过期时间(TTL)
2.延时队列
3.死信队列和重试队列
4.消息路由
5.消息轨迹
6.消息审计
7.消息代理
8.消息中间件选型
十二、Kafka 与 Spark 的集成
1.Spark 的安装及简单应用
2.Spark 编程模型
3.Spark 的运行结构
4.Spark Streaming 简介
5.Kafka 与 Spark Streaming 的整合
6.Spark SQL
7.Structured Streaming
8.Kafka 与 Structured Streaming 的整合
总结
Kafka 的学习,并没有想象中那么难,这份 Kafka 限量笔记里面的内容,对你学习 Kafka 必有启发和帮助,自己付出多少,回报就有多少。
如果你需要这份完整版的 Kafka 笔记,只需你多多支持我这篇文章。——只需对文章进行转发+关注我 点击这里 免费获取吧 100%免费领取。
评论