写点什么

故障排查/诊断

0 人感兴趣 · 82 次引用

  • 最新
  • 推荐

手把手教你成为 TiDB 的 Contributor

一、背景​ 最近笔者在 asktug 回答问题的时候发现,在 6.5.0 版本出现了几个 显示未启动必要组件 NgMonitoring 的问题贴。经过排查发现,是 ngmonitoring.to...

迁移 PD 坑 -cdc 任务全部 stop

说明:测试环境v4.0.15,对于cdc 来说是一个非常老的版本,可能存在比较多的问题,如果是生产环境,尽量升级到比较新的版本,比如是v6.1.6,v6.5.1 这些版本无论是在性能和功能上面都...

tiup cluster display 执行流程代码详解

一、前言在运维tidb 集群的时候,经常需要使用tiup cluster display 去查看组件是否是运行状态,笔者之前一直认为是tiup 可能是通过探测组件端口的方式去判断组件是否存活(类...

TiDB Operator 常见问题和解决步骤(二)

出现问题1.TiDB Dashboard无法正常使用现象修改相关的配置,尤其是超过一个pd的时候dashboard是无法打开的,需要打开tidb dashboard排查步骤1.在pd上添加如下配...

TiDB Operator 常见问题和解决步骤(一)

以下均为在实际环境中出现的问题,及相关的解决步骤和思路,请结合实际环境进行排查,图片如有任何不妥的地方,请私聊会做进一步的处理。 出现问题1.TiDB数据初始化的时候出现如下报错初始化语句ini...

对 tidb-lightning 导入机制的一点点研究

前言最近生产上出现了一个问题,就是一堆 empty region 不进行合并。通过分析发现是和lightning失败有关的,于是把这个问题研究了一下,以下是关于这个问题的一点点原理。Lightn...

Chaosd 模拟两地三中心集群的网络环境

环境准备集群名称和版本tidb 集群: tidb-h版本:v6.6.0集群拓扑:单中心模拟部署两中心部署拓扑,延时要求如下:模拟场景源目标延时同城172.16.x.71,72172.16.x.7...

TiDB SQL 调优案例之避免 TiFlash 帮倒忙

背景早上收到某系统的告警tidb节点挂掉无法访问,情况十万火急。登录中控机查了一下display信息,4个TiDB、Prometheus、Grafana全挂了,某台机器hang死无法连接,经过快...

监控告警处理之 tidb_server_critical_error_total

背景: 监控面板中tidb_server_critical_error_total不为0,存在其它数值,表明binlog写入失败,会影响下游系统同步,需要修正。一、原理分析官方文...

基于 TiCDC 的 TiDB 复制集群的计划内和计划外切换验证步骤

环境准备集群名称和版本上游 tidb 集群: tidb-h下游 tidb 集群: tidb-cdc版本:v6.5.0CDC 专用用户:cdcuser注:业务负载用户应独立于 CDC 专用用户。业...

Region is unavailable 的排查总结

 1 region访问基本流程 tidb在访问key数据时需要获取key所在region的分布信息,在tidb 侧有一个region cache存储region信息,包含region ...

TiDB 的事务和一致性校验工具 BANK

背景在分布式数据库的选型和测试过程中,通常需要关注分布式事务在高可用场景下的一致性和 RPO=0 的容灾技术实现。分布式事务需要能影响多张表的多条记录,实现多表事务和跨节点高可用的验证。BANK...

通过 TiDB Operator 为已有 TiDB 集群部署异构集群

本文档介绍如何为已有的的tidb集群再部署一个不同服务组件构建的集群。异构集群是与已有 TiDB 集群不同配置的节点构成的集群。适用场景适用于基于已有的 TiDB 集群需要创建一个差异化配置的实...

通过 Chaos-Mesh 打造更稳定 TiDB 数据库高可用架构 (二)

Chaosd 组件简介本文主要介绍Chaosd在物理机进行相关混沌工程的实验。 Chaosd 是 Chaos Mesh 提供的一款混沌工程测试工具(需要单独下载和部署),用于在物理机环境上注入故...

一次不兼容 ddl 导致的 cdc 问题

一、背景具体架构上游是tidb,经由cdc同步到mysql,同步出错的原因是因为不支持的ddl语句,一共有两个ddl同时执行报错语句:alter table table_name rename ...

TiDB Operator 恢复持久卷上的备份文件

上篇文章介绍了通过BR对tidb数据库备份到NFS共享存储上,本文将结束将NFS共享存储上的备份数据恢复到K8S集群环境上。本文介绍的恢复方法基于 TiDB Operator 的 CustomR...

TiDB Operator 备份 TiDB 集群到 NFS 持久卷

Kubernetes 上 TiDB 集群的数据备份到持久卷上。本文描述的持久卷,指任何 Kubernetes 支持的持久卷类型。本文以备份数据到网络文件系统 (NFS) 存储为例。使用场景如果你...

https://static001.geekbang.org/infoq/46/4627bc53429acfba9692d9d63cb4de14.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

【Redis 故障排查】「连接失败问题排查和解决」带你总体分析和整理 Redis 的问题故障实战开发指南及方案

当你的应用服务在连接Redis时出现了拒绝连接的场景,首先你可以根据调整Redis实例参数maxclients的配置。maxclients代表着最大同时连接的客户端个数,Proxy集群实例不支持该参数,取值范围1,000~50,000,默认值:10,000,可以调整的再大一些。

【SOP】新扩容节点与集群版本不一致处理

新扩容节点与集群版本不一致处理问题背景正在对一个万级 QPS 的线上集群进行存储层在线换盘处理,操作原理和方案步骤类似于文章百TB级TiDB集群在线更换NVME磁盘优化实践,都是先扩容新 TiK...

通过 Jmeter 对 TiDB 数据库进行压测

JMeter也称为“Apache JMeter”,它是一个开源的,100%基于Java的应用程序,带有图形界面。 它最初设计用于测试Web应用程序,但后来扩展到了其他测试领域。 Jmete...

通过 TiDB Operator 升级 TiDB 集群

通过TiDB Operator来部署管理Kubernete上的TiDB集群,可以通过滚动更新来升级TiDB集群的版本,来减少对业务的影响。本文介绍如何使用滚动更新来升级 Kubernetes 上...

记一次因 GC bug 导致 TiKV 存储占用不均的问题处理

1. 问题描述1.1. 环境描述选项选项值OS 版本CentOS 7.9TiDB 版本v5.3.0部署模式各组件独立部署集群名称kruidbTiDB 节点x3PD 节点x3TiKV 节点x31....

TiDB Operator 配置 TiDB 集群故障自动转移

TiDB Operator基于statefulset管理pod 的部署和扩缩容,但statefulset在某些Pod或者节点发生故障时不会自动创建新Pod来替换旧Pod。为此,TiDB Oper...

TiDB 集群安装 TiDB Dashboard

TiDB Dashboard 是从 TiDB 4.0 版本起引入的可视化面板,用于帮助观察与诊断整个 TiDB 集群,详情参见 TiDB 文档 - TiDB Dashboard。本篇文章将介绍如...

Etcd API 未授权访问漏洞修复

概述针对etcd API 未授权访问漏洞etcd是一个采用HTTP协议的健/值对存储系统,它是一个分布式和功能层次配置系统,可用于构建服务发现系统。用于共享配置和服务发现的分布式,一致性的KV存...

一次 TiDB GC 阻塞引发的性能问题分析

背景前不久从项目一线同学得到某集群的告警信息,某个时间段 TiDB duration 突然异常升高,持续时间6小时左右,需要定位到具体原因。分析过程第一招,初步判断由于项目条件苛刻,历经苦难才拿...

如何处理损坏的 sst 文件

1   概述       TiDB在运行过程中可能由于文件系统或操作系统等原因出现sst文件损坏情况,从tidb 5.2版本开始支持tikv-ctl bad-ssts命令用于处理损坏的sst文件...

TiKV 缩容下线异常处理的三板斧

1   概述       TiKV/TiFlash 缩容是TiDB运维中经常执行的操作,由于系统本身或缩容过程中操作不当,容易导致TiKV处于offline状态无法成为tombestone,造成...

TiDB 分布式事务—写写冲突

TiDB 支持分布式事务,提供 乐观事务 与 悲观事务 两种事务模式。TiDB 3.0.8 及以后版本,TiDB 默认采用悲观事务模式。TiDB 乐观事务模式TiDB 的乐观事务模型,只有在真正...

TiCDC 同步延迟问题处理

今天分享一个前几周遇到的一个 TiCDC 同步 MySQL 数据延迟的问题,处理过程一波三折,希望对大家有所帮助;(笔者能力有限,文章中如果存在技术性或描述性等错误,请大家及时指正,非常感谢!)...

故障排查/诊断_故障排查/诊断技术文章_InfoQ写作社区