记一次 sst 文件损坏修复过程

作者：TiDB 社区干货传送门

2023-07-21
北京
本文字数：1169 字
阅读完需：约 4 分钟

作者：像风一样的男子原文来源：https://tidb.net/blog/54e388c8

一、背景

【2023-07-14 14:26:28】应用系统报警删除数据失败，查看日志报 Region is unavailable，同时企业微信群也收到数据库告警信息。

二、问题定位

首先查看集群进程都正常，登录 tidb dashboard 查看日志。

通过 pd-ctl 查看 region 详情

发现 region 正常，通过 navicat 查询上面删除数据一切正常，手动删除数据也正常，因为这张表插入删除数据很频繁，一度以为是中奖了，正好在 region 分裂、合并时访问到这个 region 导致删除失败的。

直到 2023-07-15 日查看 tidb 日志发现又有同样情况出现，继续深入查看发现是同一个 kv 报错，如下截图是日志信息

这时候社区大佬提醒是不是有 sst 文件出现了损坏，建议停止该 kv 逐个检查 sst 文件。

三、修复

官方文档提供了修复损坏的 SST 的方法。

根据官方文档提供的命令使用 bad-ssts 检测有问题的 sst 文件，尝试使用 –data-dir 指定 data-dir 目录报参数错误，使用了 tikv-ctl + –db 参数后执行正常。

tikv-ctl bad-ssts –db /data/tidb-data/tikv-20160/db –pd 10.20.10.63:2379

检查了一个多小时，有 10 个 sst 文件需要修复，并列出了操作建议。

第一步：删除损坏的 sst 文件

按照上述输出的建议命令执行 tikv-ctl ldb –db=/data/tidb-data/tikv-20160/db unsafe_remove_sst_file “/data/tidb-data/tikv-20160/db/10973719.sst”，报错：Failed: Failed to parse SST file number /data/tidb-data/tikv-20160/db/10973719.sst 。在社区中查看发现需要使用指定 sst 的文件号而不是文件名，使用 sst 文件号执行成功！

第二步从有问题的 tikv 上删除 sst 文件的 region peer

tikv-ctl –db=/data/tidb-data/tikv-20160/db tombstone -r 2336448 –pd

该命令同样在 –data-dir/–db/–pd 参数使用上报错，最后使用 tikv-ctl –data-dir=/data/tidb-data/tikv-20160 tombstone -r 2336448 –force 处理成功，这里建议官方能把这块的文档完善下（也有可能是我用的版本太老了）。