架构师训练营第 6 周作业二
对于一个大规模集群的存储系统而言,服务器宕机、交换机失效是常态,架构师必
须为这些故障发生时,保证系统依然可用而进行系统设计。系统架构层面,保证高可用
的主要手段是――冗余: 服务器热备, 数据多份存储。 使整个集群在部分机器故障的情
况下可以进行灵活的失效转移( Failover),保证系统整体依然可用,数据持久可靠。
对于一个分布式存储系统而言,影响系统整体可用性的故障可以分成三类:
瞬时故障:引起这类故障的主要原因是网络通讯瞬时中断;服务器内存垃圾回收
或后台线程繁忙停止数据访问操作响应。其特点是故障时间短,在秒级甚至毫
秒级系统即可自行恢复正常响应。
临时故障:引起这类故障的主要原因是交换机宕机、网卡松动等导致的网络通讯
中断;系统升级、停机维护等一般运维活动引起的服务关闭;内存损坏、 CPU
过热等硬件原因导致的服务器宕机;这类故障的主要特点是需要人工干预(更
换硬件、重启机器等)才能恢复正常。通常持续时间需要几十分钟甚至几小时。
故障时间可分为两个阶段:临时故障期间,临时故障恢复期间。
永久故障:引起这类故障主要原因只有一个:硬盘损坏,数据丢失。虽然损坏硬
盘和损坏内存一样,可以通过更换硬盘来重新启动机器,但是丢失的数据却永
远找不回来,因此其处理策略也和前面两种故障完全不同,恢复系统到正常状
态也需要更长的时间。 故障时间可分为两个阶段:永久故障期间,永久故障恢
复期间。
评论 (1 条评论)