写点什么

事故

0 人感兴趣 · 2 次引用

  • 最新
  • 推荐

如何通过灵魂复盘大幅降低业务风险?

用户头像
Samson
2022-04-25

失败是成功之母,针对典型生产事故的深度复盘可以帮助团队全方位改进。然而现实中很多事故往往没有复盘或者仅仅是浅尝则止,收效甚微。而一次成功的复盘能触及组织形式、研发流程、设计原则、运维机制等多方面的“灵魂”,从而大幅降低生产事故的概率。

https://static001.geekbang.org/infoq/96/96a766b03ebd0c55c5ea7e9872731990.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

记一次线上事故

用户头像
编号94530
2020-05-14

某天晚上,收到系统CPU占用过高报警,立刻登录服务器查看cpu信息,此时CPU占用率高达750%+, 查看GC日志,频繁的发生Full GC, 并且一次Full GC市场可达到6s,立刻使用jmap命令dump文件。立刻重启服务,恢复一部分机器,保证服务可用。重启后,系统恢复正常。

事故_事故技术文章_InfoQ写作社区