写点什么

简述服务量化分析体系

作者:阿泽🧸
  • 2022 年 7 月 03 日
  • 本文字数:1343 字

    阅读完需:约 4 分钟

简述服务量化分析体系

量化分析体系是基于数据对系统进行量化、定位和分析,然后产生相应的治理措施,指导接下来的线上治理和线下治理,主要从度量、定位和风险分析这几个维度对量化分析体系进行展开讨论。

1、稳定性风险度量

一直以来服务当前的稳定性现状,不太好衡量和判断。为了掌握稳定性建设的真实情况,同时引导和规范业务人员在稳定性建设时的做法,针对稳定性的一些重要环节,需要制订一定的度量标准,对业务人员日常的稳定性建设进行度量,明确告诉大家当前的稳定性工作处于什么水准,具体哪些地方需要改进。


比如可以结合变更规范制定一个量化标准——变更信用分标准。按照变更信用分标准,对每周的上线单进行系统分析,并按团队汇总、量化和排名,让大家能从全局的角度看到问题的总体情况和各自的严重程度,并能够从上往下索引到各个团队具体的变更单、变更人和变更参数,甚至直到具体的变更模块配置界面,以此促进各个团队有针对性地发现变更风险并清晰地知道如何进行完善。


比如监控告警,针对基础监控是否有遗漏配置、上下游依赖健康是否完备、告警策略是否符合要求等情况,可以推出监控健康分,量化服务监控告警的完备情况,引导用户进行监控告警的完善工作。比如预案建设方面,可以推出预案健康分,量化一个服务的预案建设情况,涉及降级限流等预案是否完备,预案执行是否符合灰度要求,预案是否可以回滚等。


对于稳定性度量来说,主要是确定具体的度量指标,以及每个度量指标的标准评分。其实具体评分并不是那么重要,关键是大家对度量标准能够达成一致,能够对稳定性日常工作有实际的量化指导效果。

2、基于多维度监控的故障定位

线上服务出现问题时,当有足够多的监控信息时,才能直观地定位问题。但随着业务规模变大,微服务的个数越来越多,链路、拓扑、网络越来越复杂,相应的监控事件越来越多。当出现故障,可能瞬间出现大量的报警信息,从众多告警中快速找到故障原因,确定相应的止损预案,是一个非常重要且有挑战性的事情。


出现故障时,首先需要确定故障的影响面,可以基于场景和分布式跟踪拓扑将业务组织成一个全局的“灭火图”,灭火图中包括所有核心服务的可用性指标,比如错误率、QPS、耗时等,出现故障时,先从灭火图中看出故障影响的业务和服务,接下来确定故障定位的范围。


为了从纷繁复杂的众多事件中定位具体的原因,可以将各维度的监控报警、各种变更事件以事件的方式,按照时间轴整合成一个时间线,有了事件时间线,我们就可以将关注焦点放到故障时间前一段时间内的监控告警事件以及变更事件上,从而根据具体的事件类型确定相应的预案和止损措施。

3、风险分析

基于线上实时的可观测数据,以及研发全流程的变更和操作数据,我们可以得出很多维度的报表和趋势数据。这些维度可以涵盖服务治理的各个环节,比如链路 SLA、超时重试、容量管理、强弱依赖关系等,这些数据可以作为接下来分析的基础。


同时,根据之前的风险分析以及一些静态的服务元数据信息,会形成一个和当前实时治理数据对应的历史基准库,将当前数据和历史基准库进行比较,从中找到趋势和规律,进而发现潜在的风险。


实时治理数据分析后一些有价值的东西可以沉淀到历史基准库,作为后续风险分析的基础,进而形成一个风险分析的闭环机制。在基于风险分析的在线上治理和线下治理中,会结合具体的场景和实例进行全面的剖析。


发布于: 刚刚阅读数: 6
用户头像

阿泽🧸

关注

还未添加个人签名 2020.11.12 加入

还未添加个人简介

评论

发布
暂无评论
简述服务量化分析体系_7月月更_阿泽🧸_InfoQ写作社区