写点什么

故障

0 人感兴趣 · 14 次引用

  • 最新
  • 推荐

证书过期为何频频发生,该如何避免?

近日公司内部多个App出现License证书过期导致App不可用事件。原因很简单,因为运维人员没有在用户报障之前发现证书过期并及时更换。

https://static001.geekbang.org/infoq/2a/2ad49921d6301b1f68bf486502a12e2b.webp?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

美图 SRE:一次线上大事故,我悟出了故障治理的 3 步 9 招

2021年8月美图出现了一次严重的线上故障,结合各种踩坑和摸索,SRE团队总结出了一套围绕故障生命周期的“前中后”三段式故障治理方法论。

https://static001.geekbang.org/infoq/39/39f8273c32851a8b5ae258e7d12d7c5d.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

雪上加霜,运维部门裁员后,中了勒索病毒……

用户头像
嘉为蓝鲸
2022-09-13

逼哭一个运维人的不是做不完的变更,也不是处理不完的故障,而是与勒索病毒的“不期而遇”。

https://static001.geekbang.org/infoq/17/17b49fde40af2d52229bdae6a5e0571f.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

B 站 713 事故后的多活容灾建设|TakinTalks 大咖分享

分布式系统无法保障绝对可用,相信大家都碰到过软件系统长时间不可用。美国经济学家⽶歇尔·渥克提出了灰犀牛理论,用灰犀牛⽐喻⼤概率且影响巨⼤的潜在危机。推荐阅读本文,武老师给你讲述B站如何遭遇、盯紧、应对稳定性”灰犀牛“的故事。

Linux 系统资源查看及硬件故障排查(qbit)

用户头像
qbit
2021-11-03

本文对 Ubuntu 20.04 适用。查看系统资源,检查磁盘状况,查看内核日志,系统日志...

鸿蒙轻内核 M 核的故障管家:Fault 异常处理

​​摘要:本文先简单介绍下Fault异常类型,向量表及其代码,异常处理C语言程序,然后详细分析下异常处理汇编函数实现代码。

DBA:这有一份对接 NBU 备份故障排除指南,请查收!

摘要:当前DWS支持NBU介质备份恢复,本文介绍DWS对接NBU备份故障排除方法。

数据库的两个好帮手:pagehack 和 pg_xlogdump

摘要:pagehack和pg_xlogdump可以帮助我们在数据库故障定位中,解析各种文件的页面头和xlog日志。

译|Optimal Logging

用户头像
cyningsun
2020-12-28

找到系统故障的根本原因,需要多长时间?5分钟?还是5天?如果你的答案接近5分钟,那么你的生产系统和测试很大可能有非常好的日志记录。更常见的情况是,诸如日志、异常处理、甚至测试这类非核心的工作,被当作一种出现问题后的补救方式。

https://static001.geekbang.org/infoq/2a/2a3cfc0d914aedb0e18a7252719473e9.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

刘华:想入门软件系统架构设计,看这篇就够了

用户头像
刘华Kenneth
2020-06-21

“ 分享软件系统架构设计要解决什么问题,好的设计是怎么来的和一些非互联网架构的设计样例。”

故障_故障技术文章_InfoQ写作社区