写点什么

系统高可用问题

用户头像
朱月俊
关注
发布于: 2020 年 08 月 26 日

通常情况下,一个系统要么是在线系统,要么是离线系统,离线系统更重视吞吐,而在线系统更重视高可用。而所谓的系统可用性是分多个层级的,通常是按照严重程度进行分层。而衡量高可用的指标通常包括引发可用性的case数量、以及不可用时间。

备注:严重程度可以由损失衡量,功能重要性衡量等。



那么,通常是哪些问题导致系统出现非预期故障?又有哪些手段去保障系统的高可用?

原因通常分为内因与外因,而软件层面的原因通常会从硬件与软件角度考虑。因此,故障原因如下:

内因+软件:软件bug、上线流程不规范、软件某些指标的能力低;

内因+硬件:硬件故障;

外因+软件:网络攻击;

外因+硬件:外部灾害;



常见的解决方案也是针对原因提出的,如下:

牛逼的系统架构设计(解耦、隔离、异步、备份、降级、限流、熔断、异地多活);

规范的部署流程 + 演练系统 + 监控系统;



发布于: 2020 年 08 月 26 日阅读数: 55
用户头像

朱月俊

关注

还未添加个人签名 2017.11.06 加入

还未添加个人简介

评论

发布
暂无评论
系统高可用问题