系统高可用问题
通常情况下,一个系统要么是在线系统,要么是离线系统,离线系统更重视吞吐,而在线系统更重视高可用。而所谓的系统可用性是分多个层级的,通常是按照严重程度进行分层。而衡量高可用的指标通常包括引发可用性的case数量、以及不可用时间。
备注:严重程度可以由损失衡量,功能重要性衡量等。
那么,通常是哪些问题导致系统出现非预期故障?又有哪些手段去保障系统的高可用?
原因通常分为内因与外因,而软件层面的原因通常会从硬件与软件角度考虑。因此,故障原因如下:
内因+软件:软件bug、上线流程不规范、软件某些指标的能力低;
内因+硬件:硬件故障;
外因+软件:网络攻击;
外因+硬件:外部灾害;
常见的解决方案也是针对原因提出的,如下:
牛逼的系统架构设计(解耦、隔离、异步、备份、降级、限流、熔断、异地多活);
规范的部署流程 + 演练系统 + 监控系统;
版权声明: 本文为 InfoQ 作者【朱月俊】的原创文章。
原文链接:【http://xie.infoq.cn/article/46748d88d782ff8bce727af8c】。文章转载请联系作者。
评论