【kafka 问题】记一次 kafka 消费者未接收到消息问题
作者:石臻臻,CSDN 博客之星 Top5、Kafka Contributor、nacos Contributor、华为云 MVP,腾讯云 TVP,滴滴 Kafka 技术专家、 KnowStreaming。
KnowStreaming 是滴滴开源的Kafka运维管控平台, 有兴趣一起参与参与开发的同学,但是怕自己能力不够的同学,可以联系我,当你导师带你参与开源! 。
出现了这样一个问题, A 说他的 kafka 消息发送了; B 说它没有接收到; 那么问题来了:
A 的消息是否发送了?
如果 A 的消息发送成功了; B 为何没有消费到?
好,带着上面的问题,我们来一步步排查一下问题所在
1 查询 kafka 消息是否发送成功
1.1.从头消费一下对应的 topic;再查询刚刚发送的关键词
这里会把所有的 kafaka 接受到的消息(还存在磁盘上未被删除的)都打印出来; 这里太多了;我们加上一个 |grep 关键词
过滤一下就可以知道我们发的消息有没有发送成功了这里打印出来的都是 在/data/tmp-log
(这里路径是配置的)里面落盘的消息,只要落盘了就肯定发送成功了;
1.2 不从头消费 实时消费消息监听
如果消息太多了,消费的速度会很慢,那可以不从头消费,只有去掉 参数-from-beginning
就行了;这个命令执行之后会一直在监听消息中;这个时候 重新发一条消息 查看一下是否消费到了刚刚发的消息;如果收到了,说明发送消息这一块是没有问题的;
2 查询 kafka 消息是否被消费
要知道某条消息是否被消息,首先得知道是查被哪个消费组在消费; 比如 B 的项目配置的 kafka 的group.id(这个是kafka的消费组属性)
是 b-consumer-group
; 那么我们去看看 这个消费者组的消费情况
这样查询出来的结果就是 b-consumer-group
消费组消费了哪些 Topic; 如果想过滤某个 TOPIC;可以加上|grep TOPIC名称
过滤一下;
最终结果我查出来的是
上面每个参数的意思也写情况了; 上面可以看出来, 该 TOPIC 有三个Partition
; 然后有三个消费者分布在三台机器上; 并且 当前消费组偏移量=当前分区最新偏移量
;这个说明什么?说明并没有消息未被消费 ;
很奇怪,不应该啊;生产者消息也能发送成功,消费组也消费了消息; 那么为什么 B 说他没有消费的消息呢?
那我们可以再验证一下, 让 A 再发一条消息; 看看Partition
中的偏移量是否会增加; 发送之后执行命令查看结果
看到没有,从之前的 1694 变成了 1695; 并且两者相同,那么百分之百可以确定,刚刚的消息是被 xxx.xx.xx.139 这台消费者消费了;
那么问题就在 139 这个消费者身上了
经过后来排查, 139 这台机器是属于另外一套环境; 但是该项目的 kafka 链接的 zk 跟 另外一套环境相同;如果 zk 练的是同一个,并且消费者组名(group.id
)也相同; 那么他们就属于同一个消费组了; 被其他消费者消费了,另外的消费组就不能够消费了!
所以, 不同环境之间的配置检查好不要串环境了,最好不同环境还是做好隔离!
3 检查消费者的位置
其他一些有用的命令检查消费者的位置
版权声明: 本文为 InfoQ 作者【石臻臻的杂货铺】的原创文章。
原文链接:【http://xie.infoq.cn/article/ba22d76b2a4b0dd93488082ac】。未经作者许可,禁止转载。
评论