分布式存储系统 doris
分布式存储系统的故障分类:
在讨论
解决方案
之前,我们先对故障进行分类,针对不同故障情况,分别处理对待。
对于一个分布式存储系统而言,影响系统整体可用性的故障可以分成三类:
Ø
瞬时故障
:引起这类故障的主要原因是网络通讯瞬时中断;服务器内存垃圾回收
或后台线程繁忙停止数据访问操作响应。其特点是故障时间短,在秒级甚至毫
秒级系统即可自行恢复正常响应。
Ø
临时故障
:引起这类故障的主要原因是交换机宕机、网卡松动等导致的网络通讯
中断;系统升级、停机维护等一般运维活动引起的服务关闭;内存损坏、
CPU
过热等硬件原因导致的服务器宕机;这类故障的主要特点是需要人工干预(更
换硬件、重启机器等)才能恢复正常。通常持续时间需要几十分钟甚至几小时。
故障时间可分为两个阶段:临时故障期间,临时故障恢复期间。
Ø
永久故障
:引起这类故障主要原因只有一个:硬盘损坏,数据丢失。虽然损坏硬
盘和损坏内存一样,可以通过更换硬盘来重新启动机器,但是丢失的数据却永
远找不回来,因此其处理策略也和前面两种故障完全
不同,恢复系统到正常状
态也需要更长的时间。
故障时间可分为两个阶段:永久故障期间,永久故障恢
复期间。
评论