大数据通用组件故障处理

作者：天翼云开发者社区

2023-07-28
北京
本文字数：1077 字
阅读完需：约 4 分钟

本文分享自天翼云开发者社区《大数据通用组件故障处理》，作者:f****n

HDFS

1.HDFS 服务一直异常

检查 HDFS 是否处于安全模式。

检查 ZooKeeper 服务是否运行正常。

2.HDFS 维护客户端出现 OutOfMemoryError 异常

使用 HDFS 客户端之前，需要在 HADOOP_CLIENT_OPTS 更新"-Xmx" GC 参数。

直接执行如下命令：

export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Xmx512m"

在命令中调整参数，减少 HDFS 维护客户端运行命令时所需的内存。

当执行 hdfs dfs -ls /user/*/*/*/*命令时上报 OutOfMemoryError，您可以执行类似的命令来获取目录。例如：hdfs dfs -ls -R /user。

3.NameNode 的主备倒换失败

需要格式化 ZKFC，并将元数据从主 NameNode 拷贝到新增的 NameNode 节点中。

Zookeeper

1.ZooKeeper 无法对外提供服务

检查 ZooKeeper 安装并运行的实例是否为奇数个，如 3 个、5 个。

恢复故障的 ZooKeeper 服务。

2.安装 DNS 导致 ZooKeeper 服务异常

ZooKeeper 所在节点的“/etc/hosts”配置错误，ZooKeeper 所在节点配置了 DNS 服务。

检查 ZooKeeper 故障节点的“/etc/hosts”文件中，IP 和主机名是否正确，是否有一个 IP 对应多个主机名，或者一个主机名对应多个 IP 的情况。

确认 ZooKeeper 所在的节点没有安装 DNS 服务

Yarn

1.ResourceManager 原生界面的链接不可用

检查本地的“hosts”文件中是否对 HostName 和 IP 的对应关系进行了配置。检查该集群是否开放了相应端口。

2.ResourceManager 节点故障

查看是否有 Yarn 服务不可用告警产生，并且告警原因为 No active instance，参考告警中描述操作。

检查 ZooKeeper 服务状态，如果没有告警，说明 ZooKeeper 服务正常，不用检查。检查网络状态。

Spark

1.任务挂起，报 Initial job has not accepted any resources 异常

查看集群内每台节点中的“/etc/hosts”文件中是否加入了客户端节点的 IP 和主机名。如果“/etc/hosts”文件未加入，则修改文件，重试跑应用。

若“/etc/hosts”加入了客户端节点的 IP 和主机名后，该问题还存在时，查看 Executor 端对应的进程 CoarseGrainedExecutorBackend 是否存在。如果不存在，可能是由于 executor memory 配置太大导致的。

2.内存不足，无法退出应用程序

执行命令强制将任务退出，然后通过修改内存参数的方式解决内存不足的问题，使任务执行成功。

针对此类数据量大的任务，希望任务不再挂起，遇到内存不足时，直接提示任务运行失败。

3.由于磁盘空间不足导致运行应用程序失败

应用程序中，若有 shuffle 操作时，会将 shuffle 的数据写到磁盘中。当磁盘空间不够时，便会出现“No space left on device”错误。

建议在执行 Spark 开发程序之前，应先根据实际数据量，估算 shuffle 过程的数据的大小，配置足够的磁盘空间再提交应用程序。

发布于: 刚刚阅读数: 7

天翼云开发者社区

关注

还未添加个人签名 2022-02-22 加入

天翼云是中国电信倾力打造的云服务品牌，致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。

发布

暂无评论

创作场景

大数据通用组件故障处理

天翼云开发者社区

评论