写点什么

SRE实践

0 人感兴趣 · 5 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/8a/8a788882328a3323cc959e07c64f8246.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SRE 运维解密 - 应对过载

避免过载,是负载均衡策略的一个重要目标。但是无论你的负载均衡策略效率有多高,随着压力不断上升,系统的某个部位总会过载。运维一个可靠系统的一个根本要求,就是能够优雅地处理过载情况。 

https://static001.geekbang.org/infoq/fc/fc950a2339b3204fdfb55d911891eb3e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

故障复盘究竟怎么做?美图 SRE 结合 10 年经验做了三大总结(附模板)

这次重点讲讲故障治理中的最后一个重要环节 —— 故障后的复盘,在这个过程里可以总结吸取经验教训并改进,这样才能让整个系统的稳定性得到实质性提升。

https://static001.geekbang.org/infoq/e5/e52f4de6d5a13fb9ba59e520d1d7d944.webp?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

阿里云弹性计算 SRE 实践:亿级调用量下的预警治理

ECS 对外的 OpenAPI 调用量每年都出现大幅增长,这意味着在保证亿级调用量稳定的前提下,系统每年都会面临新的稳定性挑战。

https://static001.geekbang.org/infoq/2a/2ad49921d6301b1f68bf486502a12e2b.webp?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

美图 SRE:一次线上大事故,我悟出了故障治理的 3 步 9 招

2021年8月美图出现了一次严重的线上故障,结合各种踩坑和摸索,SRE团队总结出了一套围绕故障生命周期的“前中后”三段式故障治理方法论。

https://static001.geekbang.org/infoq/34/34bb7e7bdce256df36d4fce33cbb339d.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

有效预警 6 要素:亿级调用量的阿里云弹性计算 SRE 实践

关注保持良好的预警处理,持续解决系统隐患,促进系统稳定健康发展。

SRE实践_SRE实践技术文章_InfoQ写作社区