写点什么

架构治理二:稳定性建设

作者:Bingo
  • 2024-05-19
    广东
  • 本文字数:565 字

    阅读完需:约 2 分钟

一、稳定性建设是什么

什么是稳定性?引用百度百科的解释是:

系统稳定性是指系统要素在外界影响下表现出的某种稳定状态。

简单理解,系统稳定性本质上是系统的确定性应答

从另一个角度解释,系统稳定性建设就是如何保障系统能够满足 SLA 所要求的服务等级协议


二、稳定性建设调研

调研总结:

  • 核心思路:

  • 按照时间顺序,围绕事前降低事故风险、事中提升发现能力、事后强化应急能力。

  • 核心手段:

  • 核心场景梳理。梳理核心场景强弱依赖,输出稳定性风险和依赖关系;

  • 监控告警治理。提升监控告警的覆盖率和召回率,实现事故 100%召回;

  • 预案和演练。通过对依赖关系的预案建设和演练,强化应急能力;

  • 架构稳定性治理。通过容错、限流、降级、慢 SQL 治理等方式,提升架构的稳定性。


三、目标与拆解

整体目标

目标:通过系统化的稳定性建设,达到降低事故风险、提升发现能力、强化应急能力的目标。


目标拆分

拆分思路:

  1. 事前:降低事故风险,参考「左移」思路,尽最大可能拦截事故;

  2. 事中:提升事故发现能力,在影响用户之前发现并恢复;

  3. 事后:提升事故应急能力,事故发生后尽可能将损失降到最低。


按照事前、事中、事后的时间顺序可以将目标进行拆分成 3 个子目标:


度量指标


四、落地计划

Milestone


组织保障

  • 人员角色:技术、QA、稳定性负责人等各自的职责;

  • 组织机制

  • 稳定性周会,对齐稳定性专项进展,以及 Review 相关方案设计;

  • 通过稳定性沟通群沟通。

发布于: 刚刚阅读数: 5
用户头像

Bingo

关注

提升认知 2020-12-07 加入

十年后端研发,架构师/技术TL

评论

发布
暂无评论
架构治理二:稳定性建设_架构_Bingo_InfoQ写作社区