故障分析

0 人感兴趣 · 3 次引用

  • 推荐
  • 最新
https://static001.geekbang.org/infoq/97/971246ea9b55c274f5121db1ef6e71a4.jpeg?x-oss-process=image/resize,w_416,h_234

线上故障处理实践

用户头像
心平气和 2020 年 6 月 6 日

最近公司一个系统发生线上故障,系统架构为C/S的,客户端是APP;系统的功能有:联系人、短信、通话记录等,每个业务都有备份、恢复的功能,即用户可以在APP内备份自己的联系人、短信、通话记录至服务端,然后可以后续某个时间段恢复数据。

https://static001.geekbang.org/infoq/96/96a766b03ebd0c55c5ea7e9872731990.jpeg?x-oss-process=image/resize,w_416,h_234

记一次线上事故

用户头像
编号94530 2020 年 5 月 14 日

某天晚上,收到系统CPU占用过高报警,立刻登录服务器查看cpu信息,此时CPU占用率高达750%+, 查看GC日志,频繁的发生Full GC, 并且一次Full GC市场可达到6s,立刻使用jmap命令dump文件。立刻重启服务,恢复一部分机器,保证服务可用。重启后,系统恢复正常。

https://static001.geekbang.org/infoq/2d/2d40b9784c98b30eaaf250e3fcfe0b15.jpeg?x-oss-process=image/resize,w_416,h_234

记一次 MHA 切换故障踩的坑

用户头像
一个有志气的DB 2020 年 5 月 16 日

记MHA故障演练导致的一系列的坑。

故障分析_故障分析资料文章-InfoQ写作平台