写点什么

故障分析

0 人感兴趣 · 5 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/f2/f235c2c91fba43aad4ce87eecaabd428.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

RocketMQ 避坑指南:你部署的 RocketMQ 集群真的是高可用?

笔者比较“悲催”,临近年末由笔者维护的生产MQ集群中的一台物理机内存故障导致操作系统异常重启,持续10分钟中出现众多的应用发送客户端出现发送消息超时,导致事故并定性为S1,讲道理,RocketMQ的高可用机制为啥不生效呢。

https://static001.geekbang.org/infoq/97/971246ea9b55c274f5121db1ef6e71a4.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

线上故障处理实践

用户头像
心平气和
2020-06-06

最近公司一个系统发生线上故障,系统架构为C/S的,客户端是APP;系统的功能有:联系人、短信、通话记录等,每个业务都有备份、恢复的功能,即用户可以在APP内备份自己的联系人、短信、通话记录至服务端,然后可以后续某个时间段恢复数据。

https://static001.geekbang.org/infoq/96/96a766b03ebd0c55c5ea7e9872731990.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

记一次线上事故

用户头像
编号94530
2020-05-14

某天晚上,收到系统CPU占用过高报警,立刻登录服务器查看cpu信息,此时CPU占用率高达750%+, 查看GC日志,频繁的发生Full GC, 并且一次Full GC市场可达到6s,立刻使用jmap命令dump文件。立刻重启服务,恢复一部分机器,保证服务可用。重启后,系统恢复正常。

故障分析_故障分析技术文章_InfoQ写作社区