写点什么

分布式存储系统 doris

用户头像
Thrine
关注
发布于: 2020 年 07 月 14 日

分布式存储系统的故障分类:

在讨论

解决方案

之前,我们先对故障进行分类,针对不同故障情况,分别处理对待。

对于一个分布式存储系统而言,影响系统整体可用性的故障可以分成三类:

Ø

瞬时故障

:引起这类故障的主要原因是网络通讯瞬时中断;服务器内存垃圾回收

或后台线程繁忙停止数据访问操作响应。其特点是故障时间短,在秒级甚至毫

秒级系统即可自行恢复正常响应。

Ø

临时故障

:引起这类故障的主要原因是交换机宕机、网卡松动等导致的网络通讯

中断;系统升级、停机维护等一般运维活动引起的服务关闭;内存损坏、

CPU

过热等硬件原因导致的服务器宕机;这类故障的主要特点是需要人工干预(更

换硬件、重启机器等)才能恢复正常。通常持续时间需要几十分钟甚至几小时。

故障时间可分为两个阶段:临时故障期间,临时故障恢复期间。

Ø

永久故障

:引起这类故障主要原因只有一个:硬盘损坏,数据丢失。虽然损坏硬

盘和损坏内存一样,可以通过更换硬盘来重新启动机器,但是丢失的数据却永

远找不回来,因此其处理策略也和前面两种故障完全

不同,恢复系统到正常状

态也需要更长的时间。

故障时间可分为两个阶段:永久故障期间,永久故障恢

复期间。



用户头像

Thrine

关注

还未添加个人签名 2020.05.27 加入

还未添加个人简介

评论

发布
暂无评论
分布式存储系统doris