0 人感兴趣 · 5 次引用
笔者比较“悲催”,临近年末由笔者维护的生产MQ集群中的一台物理机内存故障导致操作系统异常重启,持续10分钟中出现众多的应用发送客户端出现发送消息超时,导致事故并定性为S1,讲道理,RocketMQ的高可用机制为啥不生效呢。
最近公司一个系统发生线上故障,系统架构为C/S的,客户端是APP;系统的功能有:联系人、短信、通话记录等,每个业务都有备份、恢复的功能,即用户可以在APP内备份自己的联系人、短信、通话记录至服务端,然后可以后续某个时间段恢复数据。
记MHA故障演练导致的一系列的坑。
某天晚上,收到系统CPU占用过高报警,立刻登录服务器查看cpu信息,此时CPU占用率高达750%+, 查看GC日志,频繁的发生Full GC, 并且一次Full GC市场可达到6s,立刻使用jmap命令dump文件。立刻重启服务,恢复一部分机器,保证服务可用。重启后,系统恢复正常。
🏆 2021年InfoQ写作平台-签约作者 🏆
之所以觉得累,是因为说的比做的多。
代码改变世界
此间若无火炬,我便是唯一的光
百度官方技术账号