SRE
1 人感兴趣 · 38 次引用
- 最新
- 推荐
站点可靠性工程 SRE 最佳实践 -- 黄金监控信号
延迟、流量、错误率、饱和度这四大黄金信号是SRE的最佳实践,可用来帮助SRE团队快速评估系统状态,在异常情况下及时介入,保证系统始终工作在健康状态。
基于 SLO 告警(Part 4):开源项目 pyrra 使用
系列文章第3篇我们讲到如何使用 sloth 进行 Prometheus 规则的自动生成和 SLO 统一观测,今天我们再来看另外一个类似的开源项目 -- pyrra。
基于 SLO 告警(Part 3):开源项目 sloth 使用
本文主要讲解如何围绕 sloth 进行 SLO 建设,使用它不仅可以高效的生成大量 Prometheus rules 配置文件,还可以通过开箱即用的统一看板对多个服务的 SLO 进行观测。
基于 SLO 告警(Part 2):为什么使用 MWMB 方法
本篇文章为《基于 SLO 告警》系列文章第2篇,主要讲解基于 SLO 告警一般使用方法以及为什么要使用多窗口多燃烧率(MWMB)的方式。
基于 SLO 告警(Part 1):基础概念
看过 Google 网站可靠性工作手册 一书的朋友都知道,该书在第一部分重点讲解了基于 SLO 的告警监控相关知识,可见基于 SLO 的监控告警已然成为一种趋势,那在实际工作中,我们该如何实施和落地 SLO 监控告警呢?
故障复盘究竟怎么做?美图 SRE 结合 10 年经验做了三大总结(附模板)
这次重点讲讲故障治理中的最后一个重要环节 —— 故障后的复盘,在这个过程里可以总结吸取经验教训并改进,这样才能让整个系统的稳定性得到实质性提升。
监控告警怎么搭建比较合理?B 站 SRE 实践总结了 4 大关键步骤
是不是经常会遇到,有人在群里@你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找?
我们还需要 SRE 吗?
在「一文讲透研发,SRE,运维,DevOps 的区别」里,我们讲了几大工种的区别,这篇我们重点讲一下 SRE (Site Reliability Engineering)。
SRE Lesson One -- Day2 熟练使用 Markdown
本文收录于 SRE Lesson One -- 写给 SRE 新手的入门手册 ,后续的问题修正和内容变化会持续更新在 https://github.com/erdong/SRE-Lesson-One 里。
基于 Elasticsearch 生长的 SREWorks 数据化运维体系
开源Elasticsearch是一个基于Lucene的实时分布式的搜索与分析引擎,是遵从Apache开源条款的一款开源产品,是当前主流的企业级搜索引擎。
从 0 到 1 建设小程序可观测性
前面几节呢一直在讲 SRE,讲 MDD,很多工程师不太理解,这到底有什么用呢,具体的收益点又在哪呢? 前面也讲了一些落地案例,刚好最近在思考 MDD 结合 SRE,花了两周的时间打造了小程序端的可观测平台,接下来和大家分享一下整个心历路程。