写点什么

提升问题排查速度 - TiDB 集群问题导图

  • 2022 年 7 月 11 日
  • 本文字数:948 字

    阅读完需:约 3 分钟

作者: zhangjinpeng 原文来源:https://tidb.net/blog/3f154466

TiDB 集群问题导图是个什么东西?

在使用 TiDB 的过程中大家可能会遇到一些问题,解决这些问题的通常做法是去 TiDB 官网查询文档,或者在 askTUG 网站上发帖子寻求帮助。有没有一种用户自己就能快速定位和解决一些常见问题的方法呢?另外针对各个模块的问题用户有没有方法快速有一个系统化的了解?问题是否已经修复了,在哪个版本修复的?


为了达到上面提到的目标,我们把一些常见问题的现象、原因、解决办法以及涉及到的版本归纳总结到一张思维导图中,大家可以参考导图来快速定位和解决自己遇到的问题。为什么是图呢?因为图是人类最容易理解的一种信息表达方式,相对文档有更低的学习成本。

在哪里下载?

大家可以在 https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.png 来下载 TiDB 集群问题导图。该 png 图片是通过思维导图工具把 markdown 格式的 https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md 转换而来的。


导图大概长下面这个样子:






如何使用?

TiDB 集群问题导图是一个思维导图,汇集了各个模块常见的一些问题。 该导图中把各个模块的问题进行了分类,比如把引起 TiKV OOM 问题的一些潜在原因以及解决方案放在一起,把导致 PD 选举问题的一些潜在原因和解决办法放在一起等等。另外也把两种常见的现象,服务不可用和 latency 明显增高作为两个单独的分支,用户可以从这两个分支出发寻找潜在的问题。举个例子,比如客户端收到 region is unavailable 错误,1.1.1 解释了导致该错误的原理是怎样的,然后列举了 4 种可能导致该问题的原因,用户可以根据自己集群的现象对号入座,按照流程来分析和解决自己遇到的问题。


另外第一个版本有一些类似 ONCALL-958 的东西,是我们内部的一些 oncall 记录,后面我们可以改成 askTUG 里面解决相关问题的帖子链接。

问题反馈

由于 TiDB 一直在快速迭代中,该导图不可能把所有可能的问题都提前列出来,只能是一点点完善,在该导入中找不到答案的问题可以搜索官方文档或者在 askTUG 上发帖子询问。


另外在使用 TiDB 集群问题导图的过程中如果有遇到任何问题,或者对于改进该导图有自己的建议,或者导图中一些信息是错误的,麻烦给 https://github.com/pingcap/tidb-map 提 issue,我们会尽快修复。


发布于: 刚刚阅读数: 2
用户头像

TiDB 社区官网:https://tidb.net/ 2021.12.15 加入

TiDB 社区干货传送门是由 TiDB 社区中布道师组委会自发组织的 TiDB 社区优质内容对外宣布的栏目,旨在加深 TiDBer 之间的交流和学习。一起构建有爱、互助、共创共建的 TiDB 社区 https://tidb.net/

评论

发布
暂无评论
提升问题排查速度 - TiDB 集群问题导图_TiDB 社区干货传送门_InfoQ写作社区