TiDB 3.0.2 版本某业务 TiKV 宕机测试
作者: 18515065291 原文来源:https://tidb.net/blog/ba2501a0
TiDB3.0.2 版本某业务 TiKV 宕机测试
复制代码
1、汇总
1.1、概述
信息: 版本 2.1.0 master 版本,tidb 实例 3 个,tikv 机器 4 台(实例 14 个)
问题: 线上某 tidb 集群的 tikv 机器宕机后,QPS 表现直接至 0,且恢复时间较长,几十分钟级别,且需要宕机的机器起来后,才能快速恢复业务
处理: 升级, 2.1.0 master 版本 至 3.0.2 版本
测试: 进行 TiKV 宕机测试(上面包含 4 个 tikv 实例)
此处:感谢官方支持升级~
2、具体
2.1、拓扑
3 个 tidb 上层是 DNS 与 TGW,流量被负载至 3 个 tidb 实例
tikv 机器,单机 4 个 tikv 实例
2.2、集群信息
数据量:9T
regions:14w
2.3、宕机
关闭某 tikv 机器,上面有 4 个 tikv 实例
2.4、监控情况
可以从监控看出:QPS 有短暂的下降, 1500 左右下降至 1000 左右,大约影响时间 30s 内
再次开启后,QPS 有下降, 1500 下降至 1000 左右,大约影响时间 1 分半钟左右
2.5、业务反馈
业务反映:没有发现业务异常与报错
版权声明: 本文为 InfoQ 作者【TiDB 社区干货传送门】的原创文章。
原文链接:【http://xie.infoq.cn/article/e8e9a4674d061bfe1d1c9ed40】。文章转载请联系作者。
评论