SRE实践
0 人感兴趣 · 5 次引用
- 最新
- 推荐
故障复盘究竟怎么做?美图 SRE 结合 10 年经验做了三大总结(附模板)
这次重点讲讲故障治理中的最后一个重要环节 —— 故障后的复盘,在这个过程里可以总结吸取经验教训并改进,这样才能让整个系统的稳定性得到实质性提升。
阿里云弹性计算 SRE 实践:亿级调用量下的预警治理
ECS 对外的 OpenAPI 调用量每年都出现大幅增长,这意味着在保证亿级调用量稳定的前提下,系统每年都会面临新的稳定性挑战。
美图 SRE:一次线上大事故,我悟出了故障治理的 3 步 9 招
2021年8月美图出现了一次严重的线上故障,结合各种踩坑和摸索,SRE团队总结出了一套围绕故障生命周期的“前中后”三段式故障治理方法论。