写点什么

阿里稳定性指标 1-5-10 解读

作者:焦振清
  • 2022 年 2 月 19 日
  • 本文字数:869 字

    阅读完需:约 3 分钟

指标定义:1 分钟发现、5 分钟处置、10 分钟恢复

关于 1-5-10 定义的说明,是阿里巴巴合伙人、双 11 新零售技术负责人范禹在 2020 年 11 月的宣传片中提到的,详情参考视频:https://www.bilibili.com/video/av970133007/

时长度量:1-5-10 累计而非叠加

也就是说,1-5-10 最后的结果,故障时长是 10 分钟,而非 16 分钟

指标分歧

定位还是处置?

阿里在 2020 年之前的宣传文档中,曾经使用过 1 分钟发现,5 分钟定位,10 分钟恢复的说法,在 2020 年范禹的版本中,将定位改成了处置,不太清楚其内部调整的原因。我个人的态度非常明确,发现-处置-恢复而非发现-定位-恢复,原因有如下几点

  • 发现-定位-止损中的定位,也叫做根因初判。从历次 GOC 团队的公开资料看,定位主要是辅助定位,推荐可疑事件,可能还做不到直接在 5min 内提供根因,既然如此,叫定位还是有些勉强。




  • 止损优先原则,日常的故障处理,我们都推荐先止损,后定位。因此,如果 1-5-10 的解释是发现-定位-恢复,可能会对大家产生误导,认为必须要把根本原因找出来,才能止损,这样也不利于故障的快速恢复。

  • 处置包含定位/根因初判,但还有处理决策的环节,如果将该环节直接定义为定位,那么处理决策等环节就不好放置了。毕竟,即使定位出了根本原因,也依然需要有处理决策环节(人工或者智能化),才会开启止损操作。举例来说,一个系统进行了大版本的发布,涉及了较多的模块和功能点,其中有小部分功能上线后出现了问题(不一定是不能用了,可能效果上不符合预期,或者其他原因),平台即使能快速定位出是发布的原因导致,也需要团队核心成员进行决策,到底是撤销该大版本的发布,还是快速进行 bugfix。这个环节绝不是用定位能够描述的,因此用处置更为恰当

止损还是恢复?

这个地方的分歧远小于前者,我个人认为应该是恢复而非止损。当然了,阿里历次的版本中也一直都叫做恢复。

止损和恢复的区别,止损后,业务的核心指标可能直接恢复,也可能只是不再恶化而已。而恢复则是指业务 SLA 指标恢复正常。例如,因为社会热点事件导致流浪暴涨,通过限流等措施避免了服务的崩溃,但此时肯定不能叫恢复,还应该尽快扩容来服务所有的流量,此时才能叫做恢复。


发布于: 刚刚阅读数: 4
用户头像

焦振清

关注

让运维因我们而不同! 2018.12.04 加入

架构师

评论

发布
暂无评论
阿里稳定性指标1-5-10解读