架构治理二:稳定性建设
一、稳定性建设是什么
什么是稳定性?引用百度百科的解释是:
系统稳定性是指系统要素在外界影响下表现出的某种稳定状态。
简单理解,系统稳定性本质上是系统的确定性应答。
从另一个角度解释,系统稳定性建设就是如何保障系统能够满足 SLA 所要求的服务等级协议。
二、稳定性建设调研
调研总结:
核心思路:
按照时间顺序,围绕事前降低事故风险、事中提升发现能力、事后强化应急能力。
核心手段:
核心场景梳理。梳理核心场景强弱依赖,输出稳定性风险和依赖关系;
监控告警治理。提升监控告警的覆盖率和召回率,实现事故 100%召回;
预案和演练。通过对依赖关系的预案建设和演练,强化应急能力;
架构稳定性治理。通过容错、限流、降级、慢 SQL 治理等方式,提升架构的稳定性。
三、目标与拆解
整体目标
目标:通过系统化的稳定性建设,达到降低事故风险、提升发现能力、强化应急能力的目标。
目标拆分
拆分思路:
事前:降低事故风险,参考「左移」思路,尽最大可能拦截事故;
事中:提升事故发现能力,在影响用户之前发现并恢复;
事后:提升事故应急能力,事故发生后尽可能将损失降到最低。
按照事前、事中、事后的时间顺序可以将目标进行拆分成 3 个子目标:
度量指标
四、落地计划
Milestone
组织保障
人员角色:技术、QA、稳定性负责人等各自的职责;
组织机制
稳定性周会,对齐稳定性专项进展,以及 Review 相关方案设计;
通过稳定性沟通群沟通。
版权声明: 本文为 InfoQ 作者【Bingo】的原创文章。
原文链接:【http://xie.infoq.cn/article/256b29a60cd45356b4271ac81】。文章转载请联系作者。
评论