架构师训练营第 6 周作业二

用户头像
不谈
关注
发布于: 2020 年 07 月 14 日

对于一个大规模集群的存储系统而言,服务器宕机、交换机失效是常态,架构师必

须为这些故障发生时,保证系统依然可用而进行系统设计。系统架构层面,保证高可用

的主要手段是――冗余: 服务器热备, 数据多份存储。 使整个集群在部分机器故障的情

况下可以进行灵活的失效转移( Failover),保证系统整体依然可用,数据持久可靠。



对于一个分布式存储系统而言,影响系统整体可用性的故障可以分成三类:

  • 瞬时故障:引起这类故障的主要原因是网络通讯瞬时中断;服务器内存垃圾回收

或后台线程繁忙停止数据访问操作响应。其特点是故障时间短,在秒级甚至毫

秒级系统即可自行恢复正常响应。

  • 临时故障:引起这类故障的主要原因是交换机宕机、网卡松动等导致的网络通讯

中断;系统升级、停机维护等一般运维活动引起的服务关闭;内存损坏、 CPU

过热等硬件原因导致的服务器宕机;这类故障的主要特点是需要人工干预(更

换硬件、重启机器等)才能恢复正常。通常持续时间需要几十分钟甚至几小时。

故障时间可分为两个阶段:临时故障期间,临时故障恢复期间。

  • 永久故障:引起这类故障主要原因只有一个:硬盘损坏,数据丢失。虽然损坏硬

盘和损坏内存一样,可以通过更换硬盘来重新启动机器,但是丢失的数据却永

远找不回来,因此其处理策略也和前面两种故障完全不同,恢复系统到正常状

态也需要更长的时间。 故障时间可分为两个阶段:永久故障期间,永久故障恢

复期间。



用户头像

不谈

关注

还未添加个人签名 2018.06.14 加入

还未添加个人简介

评论 (1 条评论)

发布
用户头像
请添加“极客大学架构师训练营”标签,方便分类
2020 年 07 月 15 日 11:02
回复
没有更多了
架构师训练营第 6 周作业二