故障
0 人感兴趣 · 14 次引用
- 最新
- 推荐
证书过期为何频频发生,该如何避免?
近日公司内部多个App出现License证书过期导致App不可用事件。原因很简单,因为运维人员没有在用户报障之前发现证书过期并及时更换。

美图 SRE:一次线上大事故,我悟出了故障治理的 3 步 9 招
2021年8月美图出现了一次严重的线上故障,结合各种踩坑和摸索,SRE团队总结出了一套围绕故障生命周期的“前中后”三段式故障治理方法论。


B 站 713 事故后的多活容灾建设|TakinTalks 大咖分享
分布式系统无法保障绝对可用,相信大家都碰到过软件系统长时间不可用。美国经济学家⽶歇尔·渥克提出了灰犀牛理论,用灰犀牛⽐喻⼤概率且影响巨⼤的潜在危机。推荐阅读本文,武老师给你讲述B站如何遭遇、盯紧、应对稳定性”灰犀牛“的故事。
数据库的两个好帮手:pagehack 和 pg_xlogdump
摘要:pagehack和pg_xlogdump可以帮助我们在数据库故障定位中,解析各种文件的页面头和xlog日志。
kubernetes 集群升级,备份,故障恢复(kubeadm)
kubernetes 集群升级,备份,故障恢复(kubeadm)