30 个 Kafka 常见错误小集合

关注

发布于: 3 小时前

本文是一个 Kafka 使用过程中的常见错误的总结。希望对你有帮助。

1、UnknownTopicOrPartitionException

org.apache.kafka.common.errors.UnknownTopicOrPartitionException:This server does not host this topic-partition

复制代码

报错内容：分区数据不在

原因分析：producer 向不存在的 topic 发送消息，用户可以检查 topic 是否存在或者设置 auto.create.topics.enable 参数

2、LEADER_NOT_AVAILABLE

WARN Error while fetching metadata with correlation id 0 : {test=LEADER_NOT_AVAILABLE} (org.apache.kafka.clients.NetworkClien

复制代码

报错内容：leader 不可用

原因分析：原因很多 topic 正在被删除正在进行 leader 选举使用 kafka-topics 脚本检查 leader 信息

进而检查 broker 的存活情况尝试重启解决。

3、NotLeaderForPartitionException

org.apache.kafka.common.errors.NotLeaderForPartitionException: This server is not the leader for that topic-partition

复制代码

报错内容：broker 已经不是对应分区的 leader 了

原因分析：发生在 leader 变更时当 leader 从一个 broker 切换到另一个 broker 时，要分析什么原因引起了 leader 的切换。

4、TimeoutException

org.apache.kafka.common.errors.TimeoutException: Expiring 5 record(s) for test-0: 30040 ms has passe

复制代码

报错内容：请求超时

原因分析：观察哪里抛出的观察网络是否能通如果可以通可以考虑增加 request.timeout.ms 的值

5、RecordTooLargeException

WARN async.DefaultEventHandler: Produce request with correlation id 92548048 failed due to [TopicName,1]: org.apache.kafka.common.errors.RecordTooLargeException

复制代码

报错内容：消息过大

原因分析：生产者端消息处理不过来了可以增加 request.timeout.ms 减少 batch.size

6、Closing socket connection

Closing socket connection to/127,0,0,1.(kafka.network.Processor)

复制代码

报错内容：连接关闭

原因分析：如果 javaApi producer 版本高，想在客户端 consumer 启动低版本验证，会不停的报错

无法识别客户端消息。

7、ConcurrentModificationException

java.util.ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access

复制代码

报错内容：线程不安全

原因分析：Kafka consumer 是非线程安全的

8、NetWorkException

[kafka-producer-network-thread | producer-1] o.apache.kafka.common.network.Selector : [Producer clientId=producer-1] Connection with / disconnected

复制代码

报错内容：网络异常

原因分析：网络连接中断检查 broker 的网络情况

八千里路云和月 | 从零到大数据专家学习路径指南

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

9、ILLEGAL_GENERATION

ILLEGAL_GENERATION occurred while committing offsets for group

复制代码

报错内容：无效的“代”

原因分析：consumer 错过了 rebalance 原因是 consumer 花了大量时间处理数据。

需要适当减少 max.poll.records 值增加 max.poll.interval.ms 或者想办法增加消息处理的速度

10、启动 advertised.listeners 配置异常

java.lang.IllegalArgumentException: requirement failed: advertised.listeners cannot use the nonroutable meta-address 0.0.0.0. Use a routable IP address.    at scala.Predef$.require(Predef.scala:277)    at kafka.server.KafkaConfig.validateValues(KafkaConfig.scala:1203)    at kafka.server.KafkaConfig.<init>(KafkaConfig.scala:1170)    at kafka.server.KafkaConfig$.fromProps(KafkaConfig.scala:881)    at kafka.server.KafkaConfig$.fromProps(KafkaConfig.scala:878)    at kafka.server.KafkaServerStartable$.fromProps(KafkaServerStartable.scala:28)    at kafka.Kafka$.main(Kafka.scala:82)    at kafka.Kafka.main(Kafka.scala)

复制代码

解决方法：修改 server.properties

advertised.listeners=PLAINTEXT://{ip}:9092  # ip可以内网、外网ip、127.0.0.1 或域名

复制代码

解析：

server.properties 中有两个 listeners。listeners：启动 kafka 服务监听的 ip 和端口，可以监听内网 ip 和 0.0.0.0(不能为外网 ip)，默认为 java.net.InetAddress.getCanonicalHostName()获取的 ip。advertised.listeners：生产者和消费者连接的地址，kafka 会把该地址注册到 zookeeper 中，所以只能为除 0.0.0.0 之外的合法 ip 或域名，默认和 listeners 的配置一致。

11、启动 PrintGCDateStamps 异常

[0.004s][warning][gc] -Xloggc is deprecated. Will use -Xlog:gc:/data/service/kafka_2.11-0.11.0.2/bin/../logs/kafkaServer-gc.log instead.Unrecognized VM option 'PrintGCDateStamps'Error: Could not create the Java Virtual Machine.Error: A fatal exception has occurred. Program will exit.

复制代码

解决方法: 更换 jdk1.8.x 版本或者使用>=kafka1.0.x 的版本。

解析：

只有在 jdk1.9 并且 kafka 版本在 1.0.x 之前的版本才会出现。

12、生成者发送 message 失败或消费者不能消费(kafka1.0.1)

#(java)org.apache.kafka警告Connection to node 0 could not be established. Broker may not be available.

# (nodejs) kafka-node异常 (执行producer.send后的异常){ TimeoutError: Request timed out after 30000ms    at new TimeoutError (D:\project\node\kafka-test\src\node_modules\kafka-node\lib\errors\TimeoutError.js:6:9)    at Timeout.setTimeout [as _onTimeout] (D:\project\node\kafka-test\src\node_modules\kafka-node\lib\kafkaClient.js:737:14)    at ontimeout (timers.js:466:11)    at tryOnTimeout (timers.js:304:5)    at Timer.listOnTimeout (timers.js:264:5) message: 'Request timed out after 30000ms' }

复制代码

解决方法: 检查 advertised.listeners 的配置（如果有多个 Broker 可根据 java 版本的对应的 node 号检查配置），判断当前的网络是否可以连接到地址(telnet 等)

13、partitions 配置的值过小造成错误(kafka1.0.1)

#(java)org.apache.kafka(执行producer.send)Exception in thread "main" org.apache.kafka.common.KafkaException: Invalid partition given with record: 1 is not in the range [0...1).    at org.apache.kafka.clients.producer.KafkaProducer.waitOnMetadata(KafkaProducer.java:908)    at org.apache.kafka.clients.producer.KafkaProducer.doSend(KafkaProducer.java:778)    at org.apache.kafka.clients.producer.KafkaProducer.send(KafkaProducer.java:768)    at com.wenshao.dal.TestProducer.main(TestProducer.java:36)

# (nodejs) kafka-node异常 (执行producer.send后的异常){ BrokerNotAvailableError: Could not find the leader    at new BrokerNotAvailableError (D:\project\node\kafka-test\src\node_modules\kafka-node\lib\errors\BrokerNotAvailableError.js:11:9)    at refreshMetadata.error (D:\project\node\kafka-test\src\node_modules\kafka-node\lib\kafkaClient.js:831:16)    at D:\project\node\kafka-test\src\node_modules\kafka-node\lib\client.js:514:9    at KafkaClient.wrappedFn (D:\project\node\kafka-test\src\node_modules\kafka-node\lib\kafkaClient.js:379:14)    at KafkaClient.Client.handleReceivedData (D:\project\node\kafka-test\src\node_modules\kafka-node\lib\client.js:770:60)    at Socket.<anonymous> (D:\project\node\kafka-test\src\node_modules\kafka-node\lib\kafkaClient.js:618:10)    at Socket.emit (events.js:159:13)    at addChunk (_stream_readable.js:265:12)    at readableAddChunk (_stream_readable.js:252:11)    at Socket.Readable.push (_stream_readable.js:209:10) message: 'Could not find the leader' }

复制代码

解决方法: 修改 num.partitions 的值，partitions 在是在创建 topic 的时候默认创建的 partitions 节点的个数，只对新创建的 topic 生效，所有尽量在项目规划时候定一个合理的值。也可以通过命令行动态扩容()


./bin/kafka-topics.sh --zookeeper  localhost:2181 --alter --partitions 2 --topic  foo

复制代码

14、Kafka-Topic 操作

添加：新增一个 Kafka topic：“mobilePhone”，为它设置一个分区并且设置一个副本，并且创建在本地的 zookeeper 上，可以为 master:2181,slave1:2181,slave3:2181/kafka 也可以直接为 localhost：2181/kafka

cd /usr/kafka/bin./kafka-topics.sh --create --zookeeper master:2181,slave1:2181,slave3:2181/kafka --replication-factor 1 --partitions 1 --topic mobilePhone

复制代码

如果创建时，报以下错误：Error while executing topic command : Replication factor: 1 larger than available brokers: 0.

解决方法：很可能是之前在 server.properties 配置文件夹里面和执行命令的 zookeeper 目录不一致。--zookeeper 的值需要带上根目录，否则就会报这样的错误。例如配置文件里面写的连接目录是 zookeeper.connect=master:2181,slave1:2181,slave3:2181/kafka，但是在执行命令时少写了 kafka 目录，写成一下

--zookeeper master:2181,slave1:2181,slave3:2181。就会报上述的错误，因此，务必要保证 zookeeper 的目录一致。

当 Topic 成功创建时，会输出 Created topic “mobilePhone”，如上图。

注意：replication-factor 不能大于 broker 数。

查询：查询某一个 Topic 的信息，mobilePhone 的信息

cd /usr/kafka/bin./kafka-topics.sh --describe --zookeeper master:2181,slave1:2181,slave3:2181/kafka --topic mobilePhone

复制代码

可以不指定具体的 topic 名称，即不带--topic 参数的执行命令，即可查询所有的 topic 及其信息。

修改：修改某个 Topic 参数，例如修改 mobilePhone 为 5 个分区， alter 修改 partition 数（只能增加）

cd /usr/kafka/bin./kafka-topics.sh --alter --zookeeper master:2181,slave1:2181,slave3:2181/kafka  --partitions 5 --topic mobilePhone

复制代码

注意：刚刚在输入命令时报了以下的错误：

Error while executing topic command : Topic mobilePhone does not exist on ZK path master:2181,slave1:2181,slave3:2181 [2018-11-29 16:14:02,100] ERROR java.lang.IllegalArgumentException: Topic mobilePhone does not exist on ZK path master:2181,slave1:2181,slave3:2181 at kafka.admin.TopicCommand$.alterTopic(TopicCommand.scala:124) at kafka.admin.TopicCommand$.main(TopicCommand.scala:65) at kafka.admin.TopicCommand.main(TopicCommand.scala) (kafka.admin.TopicCommand$)

造成这个错误的原因也是在执行命令时，忘记输入配置 zookeeper 时的根目录 hostname:port/kafak，直接写成了主机名加端口号，从而 zookeeper 找不到 topic 的路径。

删除：删除某些不需要的 Topic

cd /usr/kafka/bin./kafka-topics.sh --delete --zookeeper master:2181,slave1:2181,slave3:2181/kafka  --topic mobilePhone

复制代码

在执行删除 topic 命令时，会提示无法删除，这是因为在 server.properties 的配置文件中，kafka 默认为无法删除即 false，因此需要去各个节点的配置文件中修改 delete.topic.enable=true。之后便可正常删除。如下图所示标记

但是，这样删除只是将刚刚的 topic 标记为删除状态，并没有真正意义上的删除，当重新创建一个同名的 topic 时，依然会报错，该 topic 已存在。因此，为了能够彻底的删除 topic，我们进入 zookeeper 的 bin 目录下，输入./zkCli.sh 进入 zookeeper 的命令行，删除三个目录：1、rmr /kafka/brokers/topics/mobilePhone; 2、rmr /kafka/admin/delete_topics/mobliePhone; 3、rmr /kafka/config/topics/mobilePhone

此时，便可以完全删除该 topic，如果重新创建同名 topic 依然报已存在错误，需要重启 kafka 服务即可解决。

15、Kafka-Producer 操作

在执行生产者和消费者命令之前，我们按照上面的创建方法，创建一个 topic 为 newPhone，并更改它的分区为 2。此处我们设置的 zookeeper 地址都为 localhost:2181/kafak，这与上面并无不同，只不过是在当前机器上创建。推荐此种做法，不仅简洁，而且节约空间。

创建生产者

cd /usr/kafka/config./kafka-console-producer.sh --broker-list localhost:9092 --topic newPhone

复制代码

broker-list:kafka 的服务地址（用多个逗号隔开），端口号默认为 9092，如果不想使用该端口号，可以更改 config 下的 server.properties 配置文件进行修改，如下图：

--topic newPhone：代表生产者绑定了这个 topic，并且会向此主题里面生产数据，正确执行命令之后，可得如下图所示，并可以开始输入数据。

16、kafka-consumer 操作

创建消费者

./kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic newPhone [--from-beginning]

复制代码

--bootstrap-server：kafka 的服务地址, --topic newPhone:绑定主题，开始从指定 topic 里面消费（取出）数据，[--from-beginning]：从头开始读数据，并不是从 consumer 连上之后开始读。

整个运行流程，首先我们在使用 producer 生产几条数据：

。

此时，我们在 ssh 工具上（小厨用的是 SecureCRT，蛮好用的嘞），clone 一个 Session。执行./kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic newPhone，可以看到如下图一样，如果不加 from-beginning 参数选项，consumer 则读不到 Topic 里面之前 Producer 生产的四条数据。

添加 from-beginning 参数选项之后，consumer 便可以从头开始消费 Topic 里面的数据。如下图所示：

提示：如果在生产者生产数据时，输入 message 出现以下错误：

[root@master bin]# ./kafka-console-producer.sh --broker-list localhost:9092 --topic newPhone>hisdhodsa        [2018-11-29 17:28:16,926] WARN [Producer clientId=console-producer] Error while fetching metadata with correlation id 1 : {newPhone=LEADER_NOT_AVAILABLE}          (org.apache.kafka.clients.NetworkClient)         [2018-11-29 17:28:17,080] WARN [Producer clientId=console-producer] Error while fetching metadata with correlation id 5 : {newPhone=LEADER_NOT_AVAILABLE}           (org.apache.kafka.clients.NetworkClient)

复制代码

解决方法：由于 9092 端口没有开，所以在 server.properties 配置文件里，将 listeners=PLAINTEXT://:9092 的注释删除，如下图所示

17、kafka-启动报错

第一种错误

2017-02-17 17:25:29,224] FATAL Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)
kafka.common.KafkaException: Failed to acquire lock on file .lock in /var/log/kafka-logs. A Kafka instance in another process or thread is using this directory.
    at kafka.log.LogManager$$anonfun$lockLogDirs$1.apply(LogManager.scala:100)
    at kafka.log.LogManager$$anonfun$lockLogDirs$1.apply(LogManager.scala:97)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
    at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
    at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:35)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
    at scala.collection.AbstractTraversable.map(Traversable.scala:104)
    at kafka.log.LogManager.lockLogDirs(LogManager.scala:97)
    at kafka.log.LogManager.<init>(LogManager.scala:59)
    at kafka.server.KafkaServer.createLogManager(KafkaServer.scala:609)
    at kafka.server.KafkaServer.startup(KafkaServer.scala:183)
    at io.confluent.support.metrics.SupportedServerStartable.startup(SupportedServerStartable.java:100)
    at io.confluent.support.metrics.SupportedKafka.main(SupportedKafka.java:49)

复制代码

解决方法：Failed to acquire lock on file .lock in /var/log/kafka-logs.--问题原因是有其他的进程在使用 kafka，ps -ef|grep kafka，杀掉使用该目录的进程即可；

第二种错误：对 index 文件无权限

把文件的权限更改为正确的用户名和用户组即可；

目录/var/log/kafka-logs/，其中__consumer_offsets-29 是偏移量；

第三种生产消费报错:jaas 连接有问题

kafka_client_jaas.conf文件配置有问题
16环境上
/opt/dataload/filesource_wangjuan/conf下kafka_client_jaas.conf
KafkaClient {    com.sun.security.auth.module.Krb5LoginModule required
    useKeyTab=true
    storeKey=true
    keyTab="/home/client/keytabs/client.keytab"
        serviceName="kafka"
    principal="client/dcp@DCP.COM";
};

复制代码

18、kafka-生产报错

第一种：生产者向 topic 发送消息失败：


[2017-03-09 09:16:00,982] [ERROR] [startJob_Worker-10] [DCPKafkaProducer.java line:62] produceR向topicdf02211发送信息出现异常
org.apache.kafka.common.KafkaException: Failed to construct kafka producer
        at org.apache.kafka.clients.producer.KafkaProducer.<init>(KafkaProducer.java:335)

复制代码

原因是配置文件：kafka_client_jaas.conf 中配置有问题，keyTab 的路径不对，导致的；

第二种：生产消费报错：Failed to construct kafka producer

报错关键信息：Failed to construct kafka producer

解决方法：配置文件问题：KafkaClient 中 serviceName 应该是 kafka，之前配置成了 zookeeper；重启后，就好了；

配置文件如下：


KafkaServer {    com.sun.security.auth.module.Krb5LoginModule required
    useKeyTab=true
    storeKey=true
    useTicketCache=false
    serviceName=kafka
    keyTab="/etc/security/keytabs/kafka.service.keytab"
    principal="kafka/dcp16@DCP.COM";
};
KafkaClient {    com.sun.security.auth.module.Krb5LoginModule required
    useKeyTab=true
    storeKey=true
    serviceName=kafka
    keyTab="/etc/security/keytabs/kafka.service.keytab"
    principal="kafka/dcp16@DCP.COM";
};
Client {    com.sun.security.auth.module.Krb5LoginModule required
    useKeyTab=true
    storeKey=true
    useTicketCache=false
    serviceName=zookeeper
    keyTab="/etc/security/keytabs/kafka.service.keytab"
    principal="kafka/dcp16@DCP.COM";
};

复制代码

问题描述：

[kafka@DCP16 bin]$ ./kafka-console-producer   --broker-list DCP16:9092 --topic topicin050511  --producer.config ../etc/kafka/producer.properties
org.apache.kafka.common.KafkaException: Failed to construct kafka producer
    at org.apache.kafka.clients.producer.KafkaProducer.<init>(KafkaProducer.java:335)
    at org.apache.kafka.clients.producer.KafkaProducer.<init>(KafkaProducer.java:188)
    at kafka.producer.NewShinyProducer.<init>(BaseProducer.scala:40)
    at kafka.tools.ConsoleProducer$.main(ConsoleProducer.scala:45)
    at kafka.tools.ConsoleProducer.main(ConsoleProducer.scala)
Caused by: org.apache.kafka.common.KafkaException: java.lang.IllegalArgumentException: Conflicting serviceName values found in JAAS and Kafka configs value in JAAS file zookeeper, value in Kafka config kafka
    at org.apache.kafka.common.network.SaslChannelBuilder.configure(SaslChannelBuilder.java:86)
    at org.apache.kafka.common.network.ChannelBuilders.create(ChannelBuilders.java:70)
    at org.apache.kafka.clients.ClientUtils.createChannelBuilder(ClientUtils.java:83)
    at org.apache.kafka.clients.producer.KafkaProducer.<init>(KafkaProducer.java:277)
    ... 4 more
Caused by: java.lang.IllegalArgumentException: Conflicting serviceName values found in JAAS and Kafka configs value in JAAS file zookeeper, value in Kafka config kafka
    at org.apache.kafka.common.security.kerberos.KerberosLogin.getServiceName(KerberosLogin.java:305)
    at org.apache.kafka.common.security.kerberos.KerberosLogin.configure(KerberosLogin.java:103)
    at org.apache.kafka.common.security.authenticator.LoginManager.<init>(LoginManager.java:45)
    at org.apache.kafka.common.security.authenticator.LoginManager.acquireLoginManager(LoginManager.java:68)
    at org.apache.kafka.common.network.SaslChannelBuilder.configure(SaslChannelBuilder.java:78)
    ... 7 more
[kafka@DCP16 bin]$ ./kafka-console-producer   --broker-list DCP16:9092 --topic topicin050511  --producer.config ../etc/kafka/producer.properties


消费时报错: ERROR Unknown error when running consumer:  (kafka.tools.ConsoleConsumer$)


[root@DCP16 bin]# ./kafka-console-consumer --zookeeper dcp18:2181,dcp16:2181,dcp19:2181/kafkakerberos --from-beginning --topic topicout050511 --new-consumer --consumer.config ../etc/kafka/consumer.properties --bootstrap-server DCP16:9092
[2017-05-07 22:24:37,479] ERROR Unknown error when running consumer:  (kafka.tools.ConsoleConsumer$)
org.apache.kafka.common.KafkaException: Failed to construct kafka consumer
    at org.apache.kafka.clients.consumer.KafkaConsumer.<init>(KafkaConsumer.java:702)
    at org.apache.kafka.clients.consumer.KafkaConsumer.<init>(KafkaConsumer.java:587)
    at org.apache.kafka.clients.consumer.KafkaConsumer.<init>(KafkaConsumer.java:569)
    at kafka.consumer.NewShinyConsumer.<init>(BaseConsumer.scala:53)
    at kafka.tools.ConsoleConsumer$.run(ConsoleConsumer.scala:64)
    at kafka.tools.ConsoleConsumer$.main(ConsoleConsumer.scala:51)
    at kafka.tools.ConsoleConsumer.main(ConsoleConsumer.scala)
Caused by: org.apache.kafka.common.KafkaException: javax.security.auth.login.LoginException: Could not login: the client is being asked for a password, but the Kafka client code does not currently support obtaining a password from the user. not available to garner  authentication information from the user
    at org.apache.kafka.common.network.SaslChannelBuilder.configure(SaslChannelBuilder.java:86)
    at org.apache.kafka.common.network.ChannelBuilders.create(ChannelBuilders.java:70)
    at org.apache.kafka.clients.ClientUtils.createChannelBuilder(ClientUtils.java:83)
    at org.apache.kafka.clients.consumer.KafkaConsumer.<init>(KafkaConsumer.java:623)
    ... 6 more
Caused by: javax.security.auth.login.LoginException: Could not login: the client is being asked for a password, but the Kafka client code does not currently support obtaining a password from the user. not available to garner  authentication information from the user
    at com.sun.security.auth.module.Krb5LoginModule.promptForPass(Krb5LoginModule.java:899)
    at com.sun.security.auth.module.Krb5LoginModule.attemptAuthentication(Krb5LoginModule.java:719)
    at com.sun.security.auth.module.Krb5LoginModule.login(Krb5LoginModule.java:584)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at javax.security.auth.login.LoginContext.invoke(LoginContext.java:762)
    at javax.security.auth.login.LoginContext.access$000(LoginContext.java:203)
    at javax.security.auth.login.LoginContext$4.run(LoginContext.java:690)
    at javax.security.auth.login.LoginContext$4.run(LoginContext.java:688)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.login.LoginContext.invokePriv(LoginContext.java:687)
    at javax.security.auth.login.LoginContext.login(LoginContext.java:595)
    at org.apache.kafka.common.security.authenticator.AbstractLogin.login(AbstractLogin.java:69)
    at org.apache.kafka.common.security.kerberos.KerberosLogin.login(KerberosLogin.java:110)
    at org.apache.kafka.common.security.authenticator.LoginManager.<init>(LoginManager.java:46)
    at org.apache.kafka.common.security.authenticator.LoginManager.acquireLoginManager(LoginManager.java:68)
    at org.apache.kafka.common.network.SaslChannelBuilder.configure(SaslChannelBuilder.java:78)

复制代码

衍生问题:

kafka 生产消息就会报错：

[2017-05-07 23:17:16,240] ERROR Error when sending message to topic topicin050511 with key: null, value: 0 bytes with error: (org.apache.kafka.clients.producer.internals.ErrorLoggingCallback)
org.apache.kafka.common.errors.TimeoutException: Failed to update metadata after 60000 ms.

复制代码

把 KafkaClient 更改为如下的配置，就可以了：

KafkaClient {    com.sun.security.auth.module.Krb5LoginModule required
   useTicketCache=true;
};

复制代码

19、kafka-消费报错

第一种错误：

replication factor: 1 larger than available brokers: 0

复制代码

消费时报错：

Error while executing topic command : replication factor: 1 larger than available brokers: 0

复制代码

解决办法：

/confluent-3.0.0/bin  下重启daemon
./kafka-server-stop  -daemon   ../etc/kafka/server.properties
./kafka-server-start  -daemon   ../etc/kafka/server.properties

复制代码

然后 zk 重启;sh zkCli.sh -server ai186;

/usr/hdp/2.4.2.0-258/zookeeper/bin/zkCli.sh --脚本的目录

如果还报错，可以查看配置文件中下面的配置：

zookeeper.connect=dcp18:2181/kafkakerberos；--是 group 名称

第二种错误：TOPIC_AUTHORIZATION_FAILED

./bin/kafka-console-consumer --zookeeper DCP185:2181,DCP186:2181,DCP187:2181/kafka --from-beginning --topic wangjuan_topic1 --new-consumer --consumer.config ./etc/kafka/consumer.properties --bootstrap-server DCP187:9092
[2017-03-02 13:44:38,398] WARN The configuration zookeeper.connection.timeout.ms = 6000 was supplied but isn't a known config. (org.apache.kafka.clients.consumer.ConsumerConfig)
[2017-03-02 13:44:38,575] WARN Error while fetching metadata with correlation id 1 : {wangjuan_topic1=TOPIC_AUTHORIZATION_FAILED} (org.apache.kafka.clients.NetworkClient)
[2017-03-02 13:44:38,677] WARN Error while fetching metadata with correlation id 2 : {wangjuan_topic1=TOPIC_AUTHORIZATION_FAILED} (org.apache.kafka.clients.NetworkClient)
[2017-03-02 13:44:38,780] WARN Error while fetching metadata with correlation id 3 : {wangjuan_topic1=TOPIC_AUTHORIZATION_FAILED} (org.apache.kafka.clients.NetworkClient)

复制代码

解决方法：配置文件中下面的参数中的 User 的 U 必须是大写；

super.users=User:kafka

或者有可能是 server.properties 中的 adver.listen 的 IP 是不对的，有可能是代码中写死的 IP；

第三种错误的可能的解决方法：

无法消费，则查看 kafka 的启动日志中的报错信息：日志文件的所属组不对，应该是 hadoop；

或者，查看 kafka 对应的 zookeeper 的配置后缀，是否已经更改，如果更改了，则 topic 需要重新生成才行；

第三种错误：消费的 tomcat 报错：

[2017-04-01 06:37:21,823] [INFO] [Thread-5] [AbstractCoordinator.java line:542] Marking the coordinator DCP187:9092 (id: 2147483647 rack: null) dead for group test-consumer-group
[2017-04-01 06:37:21,825] [WARN] [Thread-5] [ConsumerCoordinator.java line:476] Auto offset commit failed for group test-consumer-group: Commit offsets failed with retriable exception. You should retry committing offsets.

复制代码

更改代码中，tomcat 的心跳超时时间如下：

没有改之前的:;

./webapps/web/WEB-INF/classes/com/ai/bdx/dcp/hadoop/service/impl/DCPKafkaConsumer.class;

复制代码

重启后，日志中显示：

[2017-04-01 10:14:56,167] [INFO] [Thread-5] [AbstractCoordinator.java line:542] Marking the coordinator DCP187:9092 (id: 2147483647 rack: null) dead for group test-consumer-group
[2017-04-01 10:14:56,286] [INFO] [Thread-5] [AbstractCoordinator.java line:505] Discovered coordinator DCP187:9092 (id: 2147483647 rack: null) for group test-consumer-group.

复制代码

20、kafka-创建 topic 时错误

创建 topic 时报错：

[2017-04-10 10:32:23,776] WARN SASL configuration failed: javax.security.auth.login.LoginException: Checksum failed Will continue connection to Zookeeper server without SASL authentication, if Zookeeper server allows it. (org.apache.zookeeper.ClientCnxn)
Exception in thread "main" org.I0Itec.zkclient.exception.ZkAuthFailedException: Authentication failure
    at org.I0Itec.zkclient.ZkClient.waitForKeeperState(ZkClient.java:946)
    at org.I0Itec.zkclient.ZkClient.waitUntilConnected(ZkClient.java:923)
    at org.I0Itec.zkclient.ZkClient.connect(ZkClient.java:1230)
    at org.I0Itec.zkclient.ZkClient.<init>(ZkClient.java:156)
    at org.I0Itec.zkclient.ZkClient.<init>(ZkClient.java:130)
    at kafka.utils.ZkUtils$.createZkClientAndConnection(ZkUtils.scala:75)
    at kafka.utils.ZkUtils$.apply(ZkUtils.scala:57)
    at kafka.admin.TopicCommand$.main(TopicCommand.scala:54)
    at kafka.admin.TopicCommand.main(TopicCommand.scala)

复制代码

问题定位：是 jaas 文件有问题：

解决方法：server.properties 文件中的 super.user 要和 jaas 文件中的 keytab 的 principle 一致；

server.properties:super.users=User:client

kafka_server_jaas.conf 文件改为：

KafkaServer {    com.sun.security.auth.module.Krb5LoginModule required
    useKeyTab=true
    storeKey=true
    useTicketCache=false
    serviceName=kafka
    keyTab="/data/data1/confluent-3.0.0/kafka.keytab"
    principal="kafka@DCP.COM";
};


KafkaClient {    com.sun.security.auth.module.Krb5LoginModule required
    useKeyTab=true
    storeKey=true
    keyTab="/home/client/client.keytab"
    principal="client/DCP187@DCP.COM";
};


Client {    com.sun.security.auth.module.Krb5LoginModule required
    useKeyTab=true
    storeKey=true
    useTicketCache=false
    serviceName=zookeeper
    keyTab="/home/client/client.keytab"
    principal="client/DCP187@DCP.COM";
};

复制代码

21、DataCaptain--->报错（kafka）组件原因

报错提示

Not has broker can connection metadataBrokerList

java.lang.IllegalArgumentException: requirement failed: advertised.listeners cannot use the nonroutable meta-address 0.0.0.0. Use a routable IP address.    at scala.Predef$.require(Predef.scala:277)    at kafka.server.KafkaConfig.validateValues(KafkaConfig.scala:1203)    at kafka.server.KafkaConfig.<init>(KafkaConfig.scala:1170)    at kafka.server.KafkaConfig$.fromProps(KafkaConfig.scala:881)    at kafka.server.KafkaConfig$.fromProps(KafkaConfig.scala:878)    at kafka.server.KafkaServerStartable$.fromProps(KafkaServerStartable.scala:28)    at kafka.Kafka$.main(Kafka.scala:82)    at kafka.Kafka.main(Kafka.scala)

复制代码

解决方法：修改 server.properties

advertised.listeners=PLAINTEXT://{ip}:9092  # ip可以内网、外网ip、127.0.0.1 或域名

复制代码

解析：

server.properties 中有两个 listeners。

listeners：启动 kafka 服务监听的 ip 和端口，可以监听内网 ip 和 0.0.0.0(不能为外网 ip)，默认为 java.net.InetAddress.getCanonicalHostName()获取的 ip。

advertised.listeners：生产者和消费者连接的地址，kafka 会把该地址注册到 zookeeper 中，所以只能为除 0.0.0.0 之外的合法 ip 或域名，默认和 listeners 的配置一致。

22、报错“TimeoutException(Java)” 或“run out of brokers(Go)” 或 “Authentication failed for user(Python)”

首先，请确保 servers 配置正确，然后通过 ping 以及 telnet 排除网络问题。假设网络运行正常，云上 Kafka 在建立连接时，会对客户端进行鉴权。鉴权方式(sasl_mechanism)有两种:

ONS: 仅限 Java 语言使用；需要配置自己的 AccessKey，SecretKey。
PLAIN: 所有语言可用；需要配置 AccessKey，SecretKey 的后 10 位。

如果鉴权失败，云上 Kafka 会掐掉连接。另外，请仔细参考各个 demo 的 readme 以配置正确。

23、报错“leader is not available”或“leader is in election”

首先，检查 Topic 是否有创建；其次，检查 Topic 类型是否为“Kafka 消息”。

24、报错“TOPIC_AUTHORIZATION_FAILED”或“Topic or group not authorized” 的类似字眼

此类报错通常代表权限不对，即您的 AccessKey 没有访问对应 Topic 或者 Consumer ID（又称 group 或 consumer group）的权限。

Topic 和 Consumer ID 的权限规则如下：

Topic 必须由主账号创建；使用时，Topic 可以由主账号自己使用，也可以由主账号授权给子账号使用。
Consumer ID 的使用权只属于创建者；主账号创建的 Consumer ID 不能给子账号使用，反之亦然。

注意：请仔细检查 AccessKey、SecretKey 来自哪个账号，避免用错。

25、Java 客户端（包括 Spring 框架）报错“Failed to send SSL close message”

该错误后面通常还会跟“connection reset by peer”或“broken pipe”。该错误主要是因为，服务端是 VIP 网络环境，会主动掐掉空闲连接。建议在遇到此类错误时，重试发送一次。Java 客户端内部有重试机制，可以参考 Producer 最佳实践进行配置。其它语言客户端，请参考相关文档。你可以通过修改日志级别来避免该错误，以 log4j 为例，加上下面这行配置：

log4j.logger.org.apache.kafka.common.network.SslTransportLayer=ERROR

26、Spring Cloud Stream 消费信息时报错"arrayindexoutofboundexception"

该错误的产生是因为 Spring Cloud 会按自己的格式解析消息内容。如果您同时使用 Spring Cloud 发送和消费，则不会有问题，这也是推荐的使用方式。

如果您使用其他方式发送，例如，调用 Kafka 原生的 Java 客户端发送，那么用 Spring Cloud 消费时，则需要设置 headerMode 为 raw，即禁用解析消息内容。具体信息参见 Spring Cloud 官网。

27、报错“No worthy mechs found”

C++客户端或者包装 C++的客户端会报这个错。这个错说明缺少一个系统库：cyrus-sasl-plain。针对 yum 管理的系统的安装方法为：yum install cyrus-sasl{,-plain}。

28、什么是 CID, Consumer ID, Consumer Group 和 Group ID

这几个名称指代的都是同一个概念：Kafka 的消费组（Consumer Group）。CID 是 Consumer ID 的缩写，也等同于 Group ID （Consumer Group ID 的简称，指代一个特定的消费组）。每个消费组可以包含多个消费实例，一起负载均衡消费订阅的 topic，所以 CID 与 topic 的关系可以总结为：每个 CID 可以订阅多个 topic，每个 topic 也可以被多个 CID 订阅；各个 CID 之间相对独立，互不影响。

假设 CID 1 订阅了 Topic 1，则 Topic 1 的每条消息会发给 CID 1 的某个实例，且只会发给其中一个实例。如果 CID 2 也订阅了 Topic 1，Topic 1 的每条消息也会发给 CID 2 里的某个实例，且只发给其中一个实例。

[backcolor=transparent]注意：控制台里看到的 Producer ID 是 Aliware MQ 里的概念，Kafka 不会用到, 后续会改进优化。

29、如何查看消费进度

如需查看某个特定订阅消费者的消费进度，请按照如下步骤操作：

在 ONS 控制台左侧点击[backcolor=transparent]发布订阅管理-订阅管理。
在搜索框中输入 topic 或者 Cosumer ID，点击[backcolor=transparent]搜索，查找你想查看消费进度的 Consumer ID。
找到该 Consumer ID 后，点击操作列中的[backcolor=transparent]消费者状态，在跳出的页面中可查看[backcolor=transparent]堆积总量。

堆积总量 = 所有的消息数 - 已经消费的消息数[backcolor=transparent]注意：目前消费者状态都会显示不在线，未来会进行优化。除了堆积总量，其它信息仅供参考。

30、消息堆积了怎么办

消息堆积，一般都是消费速度过慢或者消费线程阻塞造成的。建议打印出消费线程的堆栈情况查看线程执行情况。

注意：Java 进程可以用 jstack。

31、java.lang.OutOfMemoryError:Map failed

发生上述问题，原因是发生 OOM 啦，会导致 kafka 进程直接崩溃掉！因此只能重新启动 broker 节点了，但是为了让 broker 节点启动成功快一点的话，可以将一个参数的之调大：“num.recovery.threads.per.data.dir=30”，没错就是他，将他的值越调大越好。这个线程数主要是负责停止和启动 broker 的。因为是 32core 的服务器，给他分配了 30 个，可以尽量的把这个参数调大，便于该 broker 节点更快的加入到 ISR 列表当中。

首先，根据上面的提示恢复服务是第一件要做的事情，接下来，得分析分析为什么会出这个事情，给 kafka 集群分配了 20G 内存，如下图：

查看了近 2 个星期的监控图，发现可用内存在持续减少，初步怀疑可能发生了内存泄漏。

这也只是怀疑，因为出错之前没有监控 JVM 的情况，吃一堑，长一智，赶紧用 zabbix 将 kafka 的 jvm 监控起来。

之后，调整了下面的参数，先观察一段时间。

sysctl vm.max_map_count=262144 #进程中内存影视区域的最大数量。在调用 malloc，直接调用 mmap 和 mprotect 和加载共享库时产生内存映射区域。虽然大多数程序需要的内存映射区域不超过 1000 个，但是特定的程序，特别是 malloc 调试器，可能需要很多，例如每次分破都会产生一道两个内存映射区域，默认值是 65536。

解决方案:

第一：kafka 的 heap 内存分配不要大于 6G，我们知道 kafka 并不吃堆内存，如果设置默认的 1G 的话也并不太合理。推荐设置配置为 6G 即可。服务器是 32G 内存，然后给 kafka 就分配了 22G 的 heap 内存。经过参考《kafka 权威指南》和《Apache kafka 实战》两位大佬的笔记，他们推荐设置 kafka 的 heap 大小为 5G 或者 6G。最后我将 kafka 的 heap 内存配置成了 6G。

第二：调整“vm.max_map_count”参数，没错，就是上面提到的那个参数。在实际生产环境中，如果单台 broker 上 topic 数过多，用户可能碰到“java.lang.OutOfMemoryError:Map failed”的严重错误以导致 kafka 节点崩溃。这是因为大量创建 topic 将极大的消耗操作系统内存，用于内存映射操作。在这种情况下，用户需要调整“vm.max_map_count”参数。具体方法可以使用命令：“sysctl vm.max_map_count=N”来设置。该参数默认值是 65535，可以考虑线上环境设置更大的值，比如 262144 甚至更大。

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半，社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」