写点什么

tikv 下线 Pending Offline 卡住排查思路

  • 2022 年 7 月 11 日
  • 本文字数:904 字

    阅读完需:约 3 分钟

作者: fangfuhaomin 原文来源:https://tidb.net/blog/5e960334


【是否原创】是


【首发渠道】TiDB 社区


【目录】


一、现象


二、排查思路


【正文】


一、现象


1.tikv 缩容后,tiup 状态一直处于 Pending Offline 状态,命令操作如下:


tiup cluster scale-in tidb-cluster –node ip:20160


2. 通过命令 tiup cluster display 集群名字,找到 pd



通过命令可以看到对应节点的 store 状态是 offline,region_count 和 used_size 没有减少,tiup ctl:v5.0.1 pd -u http://10.33.2.43:2379 store,下面的 store id 是 1



二、排查思路


1. 先检查环境,tikv 的副本因为默认是 3 个,所以存活的 tikv 节点不能少于 3 个,例如只有 3 个 tikv,现在要下线一个,那数据是不会迁移的,需要扩容 tikc 后才会进行数据迁移操作。


2. 下线的 tikv 中数据需要迁移到其他 tikv 上,那首先确认其他 tikv 目录容量是否够,这个手动检查下加上查看 pd 的日志可以看到哪个节点的容量不够,正常目录使用超过 80% 就迁不过去了。


3.tikv 是上报存活到 pd 上的,如果 pd 重启后 tikv 最好也重启下,连接不上 pd 的话 tikv 最好重启下,命令如下. 其他节点也是这样重启,这里网络如果出现问题也会导致这个问题,tikv 的迁移 tikv 和 pd 的日志都会有输出,重点看下日志也没有报错。


tiup cluster restart tidb-zabbix –node tikv:port


4. 有些迁移很慢,这里看下 tidb-grafana 的监控,着重看以下几个,pd 视图下 -Operator 下的“Schedule operator create”(创建任务), ”Schedule operator finish“(任务完成),迁移就会有创建任务,



那如何提高这个创建任务的并发数量,调度的操作全靠 pd,所以限制的开关就在 pd 上面,操作如下:


tiup ctl:v5.0.1 pd -u http://10.33.2.43:2379 -i; # 进入交互界面


config show; # 重点看 2 个参数就可以了


“max-pending-peer-count”: 16, #reginon 同时下线的并发量


“region-schedule-limit”: 16, #region 调度的数量


# 设置参数如下,config set 参数 值


config set region-schedule-limit 16


# 这里说明下,tikv 下线主要就是 region 迁移,所以就靠 2 个参数,调大就能增快速度。


# 以上就是我多次下线 tikv 碰到的问题和处理心得,希望对大家有用


发布于: 刚刚阅读数: 2
用户头像

TiDB 社区官网:https://tidb.net/ 2021.12.15 加入

TiDB 社区干货传送门是由 TiDB 社区中布道师组委会自发组织的 TiDB 社区优质内容对外宣布的栏目,旨在加深 TiDBer 之间的交流和学习。一起构建有爱、互助、共创共建的 TiDB 社区 https://tidb.net/

评论

发布
暂无评论
tikv下线Pending Offline卡住排查思路_故障排查/诊断_TiDB 社区干货传送门_InfoQ写作社区