计算机系统可靠性分析评测技术【全讲解】,深入理解 linux 内核百度网盘
Hello,你好哇,我是灰小猿,一个超会写 bug 的程序猿!
今天在这里和大家记录一下关于计算机系统可靠性分析的相关技术和常用方法。同时它也是分析和评价计算机系统性能的一项重要指标,一台计算机的好坏就看它啦!
计算机可靠性概述
========
在一般情况下,计算机系统的硬件故障通常是由元器件的失败引起的,在对元器件进行了寿命试验并根据实际资料的统计得出:元器件的可靠性一般可以分为三个阶段:
第一阶段:即开始阶段,元器件的工作处于不稳定期,这个时候的失败率较高。
第二阶段:这个时候的元器件是进入正常工作的时期,因此相对于之前第一阶段和之后的第三阶段,失败率最低,基本保持一个常数状态,
第三阶段:在这个时候,也就是元器件使用了一段时间之后,元器件开始老化,因此失败率又重新提高,
以上三个阶段中,元器件失败率的变化曲线是处于一个先高后低再高的形式,因此对于这种变化也有一个很形象的名称叫作“浴盆曲线”,因此我们应当尽可能的保持计算机元器件处于第二阶段,在第一阶段时就应该对元器件进行老化筛选,到了第三阶段,计算机基本业绩处于了淘汰阶段。
而对于计算机系统的可靠性,则是指从它开始运行(t=0)到某时刻 t 这段时间能够正常运行的概率。用 R(t)表示,所谓失败率,则是指单位时间内失败的元件数与元件总数的比例,用λ表示,当λ为常数时,可靠性与失败率的关系为:
两次故障之间系统能正常工作的时间的平均值称为平均无故障时间(MTBF)即:
MTBF=1/λ
通常用平均修复时间(MTRF)来表示计算机的可维修性,即计算机的维修效率,它所指的是从故障发生到机器修复平均所需要的时间,计算机的可用性指的是计算机的使用效率,它以系统在执行任务的任意时刻能正常工作的效率 A 来表示,即:
计算机的 RAS 是指用可靠性 R、可用性 A 和可维护性 S 这 3 个指标去衡量一个计算机系统。
但其实在实际的应用过程中,引起计算机故障的原因除了必要的元器件因素以外,还有组装工艺、逻辑设计等因素,因此对于不同厂家生产的兼容机即使采用了相同的元器件,其可靠性和 MTBF 也是可能相差很大的。
计算机可靠性模型
========
我们知道计算机系统是一个非常复杂的系统,同时影响其复杂性的因素也十分的多,因此很难对齐直接进行可靠性的分析,但在计算机系统中,通过建立适当的数学模型,把大系统分割成若干子系统,就可以简化其分析过程,常见的系统可靠性数学模型有以下三种:
串联系统
假设一个系统由 N 个子系统构成,当且仅当所有的子系统都能正常工作时,系统才能正常工作,这种系统类似于我们物理上学习的串联电路,因此这种系统也被称为串联系统。如下图所示:
设系统中各个子系统的可靠性分别用 R1,R2,...,Rn 来表示,则系统的可靠性就等于这 n 个子系统的可靠性的乘积。
**如果系统的各个子系统的失败率分别用λ1、λ2、λ3...λn 来表示,则系统的失败率就等于所以子系统失败率的和
。**
并联系统
假如一个系统由 N 个子系统组成,那么只要有一个子系统能够正常工作,那么整个系统就能正常工作,这样的系统类似于电路中的并联电路,所以这种系统也被叫做并联系统,结构如下图所示:
设系统中各个子系统的可靠性分别用 R1,R2,...,Rn 来表示,则系统的可靠性就等于:
评论