写点什么

SRE

1 人感兴趣 · 38 次引用

  • 最新
  • 推荐

站点可靠性工程 SRE 最佳实践 -- 黄金监控信号

用户头像
俞凡
05-07

延迟、流量、错误率、饱和度这四大黄金信号是SRE的最佳实践,可用来帮助SRE团队快速评估系统状态,在异常情况下及时介入,保证系统始终工作在健康状态。

https://static001.geekbang.org/infoq/85/85dd16538590b447e57c223a59bb5a13.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SRE 是什么,与传统运维有什么不同?

SRE就是在用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务

https://static001.geekbang.org/infoq/5c/5c4408b1f1d657ca86fab595f272770a.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

国外的 SRE 都是干啥的?薪资如何?

SRE的核心工作内容是什么,薪资如何?本文来揭秘

https://static001.geekbang.org/infoq/11/11ab9a10158ea8ab9fb1682095a799a8.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

基于 SLO 告警(Part 4):开源项目 pyrra 使用

系列文章第3篇我们讲到如何使用 sloth 进行 Prometheus 规则的自动生成和 SLO 统一观测,今天我们再来看另外一个类似的开源项目 -- pyrra。

https://static001.geekbang.org/infoq/d1/d14b69d588f366ae262760e83966f06c.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

基于 SLO 告警(Part 3):开源项目 sloth 使用

本文主要讲解如何围绕 sloth 进行 SLO 建设,使用它不仅可以高效的生成大量 Prometheus rules 配置文件,还可以通过开箱即用的统一看板对多个服务的 SLO 进行观测。

基于 SLO 告警(Part 2):为什么使用 MWMB 方法

本篇文章为《基于 SLO 告警》系列文章第2篇,主要讲解基于 SLO 告警一般使用方法以及为什么要使用多窗口多燃烧率(MWMB)的方式。

https://static001.geekbang.org/infoq/a7/a7033900b04b3a1e107f519f1b2326b9.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

基于 SLO 告警(Part 1):基础概念

看过 Google 网站可靠性工作手册 一书的朋友都知道,该书在第一部分重点讲解了基于 SLO 的告警监控相关知识,可见基于 SLO 的监控告警已然成为一种趋势,那在实际工作中,我们该如何实施和落地 SLO 监控告警呢?

https://static001.geekbang.org/infoq/8a/8a788882328a3323cc959e07c64f8246.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SRE 运维解密 - 应对过载

避免过载,是负载均衡策略的一个重要目标。但是无论你的负载均衡策略效率有多高,随着压力不断上升,系统的某个部位总会过载。运维一个可靠系统的一个根本要求,就是能够优雅地处理过载情况。 

https://static001.geekbang.org/infoq/fc/fc950a2339b3204fdfb55d911891eb3e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

故障复盘究竟怎么做?美图 SRE 结合 10 年经验做了三大总结(附模板)

这次重点讲讲故障治理中的最后一个重要环节 —— 故障后的复盘,在这个过程里可以总结吸取经验教训并改进,这样才能让整个系统的稳定性得到实质性提升。

万节点规模云服务的 SRE 能力建设

随着越来越多企业以容器作为系统底座,那么阿里云的云服务又是如何进行SRE规划呢?下文将由资深SRE工程师拆解2 万节点规模云服务背后的 SRE 能力建设,立即点击观看!

https://static001.geekbang.org/infoq/aa/aa4ed7e52c5f645337d45a3531d7f1b4.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

监控告警怎么搭建比较合理?B 站 SRE 实践总结了 4 大关键步骤

是不是经常会遇到,有人在群里@你,告诉你你的系统出故障了,你在犹豫是不是真的出故障的同时还得慌乱地去查找?

https://static001.geekbang.org/infoq/2c/2cb6286979bf5a1f0c8ced114fae2e9c.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

服务稳定性保障中的五大误解

用户头像
华明
2022-08-18

原文首发地址:https://mp.weixin.qq.com/s/G8W2cqVKqT2AlZxWWXU0Rw

https://static001.geekbang.org/infoq/93/93824ad814f1c7c4e8eb1ca968b7f476.webp?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一文讲透研发,SRE,运维,DevOps 的区别

用户头像
Bytebase
2022-08-16

研发,SRE ,运维是工种,而 DevOps 是体系。如果拿足球来打比方,研发,SRE ,运维对应的就是前锋,中场,后卫这样的位置,而 DevOps 则是诸如 4-3-3 这样的阵型。

https://static001.geekbang.org/infoq/d8/d86ab335b76e44dcabf63a1a9ffc092a.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

我们还需要 SRE 吗?

用户头像
Bytebase
2022-08-16

在「一文讲透研发,SRE,运维,DevOps 的区别」里,我们讲了几大工种的区别,这篇我们重点讲一下 SRE (Site Reliability Engineering)。

https://static001.geekbang.org/infoq/8a/8a788882328a3323cc959e07c64f8246.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SRE 运维解密 - 服务质量目标:SLI,SLO,SLA

如果不详细了解服务中各种行为的重要程度,并且不去度量这些行为的正确性的话,就无法正确运维这个系统,更不要说可靠地运维了。那么,不管是对外服务,还是内部API,我们都需要制定一个针对用户的服务质量目标,并且努力去达到这个质量目标。

https://static001.geekbang.org/infoq/8a/8a788882328a3323cc959e07c64f8246.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SRE 运维解密 - 什么是 SRE:DevOps 模型的具体实践!

Google SRE代表了对行业现存管理大型复杂服务的最佳实践的一个重要突破。由一个简单的想法“我是一名软件工程师,这是我如何来应付重复劳动的办法”而生,SRE模型已经发展成一套指导思想、一套方法论、一套激励方法和一个拥有广阔空间的独立职业。

https://static001.geekbang.org/infoq/a5/a53499866c39e91b18bf60f28900e92e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

系统可用性:SRE 口中的 3 个 9,4 个 9... 到底是个什么东西?

作为服务端开发的同学,最常听到的一句话是你的接口有几个9?2个9?3个9?到底几个9才算是稳定呢?

https://static001.geekbang.org/infoq/0d/0dec0766b7ab1af5f21923d3d74b2bc8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SRE Lesson One -- Day2 熟练使用 Markdown

用户头像
耳东@Erdong
2022-06-21

本文收录于 SRE Lesson One -- 写给 SRE 新手的入门手册 ,后续的问题修正和内容变化会持续更新在 https://github.com/erdong/SRE-Lesson-One 里。

https://static001.geekbang.org/infoq/0d/0dec0766b7ab1af5f21923d3d74b2bc8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SRE Lesson One -- 写给 SRE 新手的入门手册

用户头像
耳东@Erdong
2022-06-21

本系列预计 31 篇,会简单列举说明,新手需要知道的内容。

https://static001.geekbang.org/infoq/0d/0dec0766b7ab1af5f21923d3d74b2bc8.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

SRE Lesson One -- Day1 准备你的工作环境

用户头像
耳东@Erdong
2022-06-20

今天是你入职公司的第一天,可以按照本文档准备以下内容:

SRE,了解一下?35+ 岁程序员新选择

随着云业务的发展,今后会有越来越多的工程师深入到SRE领域。

是能力更是文化,谈谈 IT 系统的安全发布

用户头像
Samson
2022-05-14

生产事故跟架构设计、代码开发、上线变更、业务配置、运维操作以及外部依赖等研发运维全生命周期都相关,而其中上线变更导致的生产事故占很大一部分,本文总结出“面向发布的研发上线流程”,将上线变更环节最大限度左移,以尽量避免因变更导致的生产问题。

如果只有一周时间,怎么快速提升线上系统的稳定性?

用户头像
Samson
2022-04-28

系统稳定性是一个庞大的工程,贯穿研发运维全生命周期所有阶段。建立完整的稳定性保障体系固然重要,但若没有找准能快速见效的切入点,很容易进入“看似很努力但其实没效果的尴尬陷阱“。本文基于一个实践总结出如何找到能立即上手又快速见效的迭代演进之路。

基于 Elasticsearch 生长的 SREWorks 数据化运维体系

开源Elasticsearch是一个基于Lucene的实时分布式的搜索与分析引擎,是遵从Apache开源条款的一款开源产品,是当前主流的企业级搜索引擎。

如何通过灵魂复盘大幅降低业务风险?

用户头像
Samson
2022-04-25

失败是成功之母,针对典型生产事故的深度复盘可以帮助团队全方位改进。然而现实中很多事故往往没有复盘或者仅仅是浅尝则止,收效甚微。而一次成功的复盘能触及组织形式、研发流程、设计原则、运维机制等多方面的“灵魂”,从而大幅降低生产事故的概率。

https://static001.geekbang.org/infoq/5c/5c0d77c5414c3de1466a4b235cf615d1.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一个系统工程师的 14 条建议

用户头像
一席
2022-04-17

翻译自《Confessions of a Systems Engineer:Learning from 20+ Years of Failures》作者是 David Argent(Amazon)在SRECon的演讲

https://static001.geekbang.org/infoq/4a/4ad6212228f5753e741b73f1ab1e9087.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

从 0 到 1 建设小程序可观测性

用户头像
方勇(gopher)
2022-03-26

前面几节呢一直在讲 SRE,讲 MDD,很多工程师不太理解,这到底有什么用呢,具体的收益点又在哪呢? 前面也讲了一些落地案例,刚好最近在思考 MDD 结合 SRE,花了两周的时间打造了小程序端的可观测平台,接下来和大家分享一下整个心历路程。

站点可靠性工程之旅

用户头像
俞凡
2022-03-05

SRE经过谷歌的实践和推广,已经被很多互联网公司所采用。如果想要实践SRE,成为SRE工程师,需要做好哪些方面的知识储备?本文介绍了SRE相关的技术,提供了大量有益的资源,有志于这一方向的同学可以以此作为技术发展路线图。

SRE_SRE技术文章_InfoQ写作社区