高可用架构(上)
1. 背景
在学习完各种高性能发实现方案后,就需要对三大复杂度一直的高可用进行开刀了,在高可用方面主要有哪些东西是我们需要考虑的呢?接下来将从三个方面逐一分析。
2. 理论
在设计高可用架构理论方面,我们主要有 2 个方向选择,分别是 CAP 理论和 BASE 理论,那什么是 CAP,什么是 BASE 呢? 这个还是要好好分析一下。
2.1 CAP
C(Consistence):一致性
A(Availability):可用性
P(Partition Tolerance):分区容错性
一致性:指的是从所有节点获取的数据都是最新的(最新,那就是每个节点数据都是最新的数据,相同的)。
可用性:非故障节点在合理时间内返回合理响应。这个主要是为了排除一些非正常响应,如:超时,或者错误的结果
分区容错性:在发生网络异常时,系统能够继续保持任务运行
CAP 理论有三个,但是在分布式系统中来说,只能选择其中两个。多系统网络中,我们无法保证网络 100%正常,所以必须要选择 P,保持系统继续运行,然后才是在 C、A 之间做取舍。如果选择 CP, 那就是需要保证数据的一致,当无法保证数据一致时,就要对异常节点剔除,就无法保证系统可用性。当选择 AP,当网络波动时,数据无法同步,无法保持最新数据,但系统可以访问。
通过上面的描述,有没有发现一个问题?这些理论都是针对数据来说的,当 CP 时,数据保证了一致,当 AP 时,数据不一致。我们有一个误区,认为系统设计一定要选 AP,或者 CP。其实这样是不正确的。因为在同一个系统中,可能部分数据需要保证 AP,有一部分数据需要保证 CP,例如:关于金额的数据则需要保证 AP,但是用户相关昵称、简介可以使用 AP。
所以,在系统正常运行的时候,是不存在选 AP,还是 CP 的,我们应该同时关注 CA。CAP 的理论的前提是发生了网络分区,但是,当网络正常时,我们没有必要放弃 A 或 C,我们应该同时满足。
2.2 BASE
B(Basically Available):基本可用
S( Soft State):软状态
E(Eventual Consistency):最终一致性
基本可用:分布式系统发生故障的时候,保证系统能够基本运行,允许损失部分可用性
软状态:过渡期,数据处于某中非最终状态。可以理解为:数据不一致
最终一致性:系统中的数据经过一段时间后,最终达到一致的状态(非实时一致)
BASE 理论是对 CAP 理论的一种补充,在 CAP 中,C 大多数指的情况是强一致性,在同一时刻,从所有节点获取的数据是相同的。而在 BASE 中,则通过软状态,和最终一致性来保证系统可用,而非在同一刻数据相同,而是通过一段时间后,所有节点数据相同。或者说,当系统发生分区故障时,数据不一致也可以使用,而最后通过通过,达到所有节点数据一致。
3. 接口层面
当在理论方面选择完可用性后,我们就需要在接口层面来考虑系统的可用性了。不然,一个接口调用,就搞挂系统,这样可就丢人啦。
通常,我们从接口层面考虑可用性主要分为 4 个方面,相信大家也是耳熟能详。分别是:熔断,限流,降级,排队。接下来就从这 4 个方面介绍。
3.1 熔断
熔断,这就和我们生活中的保险丝很像,当功率过大的时候,保险丝就会断掉,防止功率过大,引起火灾。我们在进行接口设计时,也需要考虑熔断,当系统接口调用失败,达到一定失败率或压力时,应该熔断系统。这里的熔断,不是指挂掉接口,而是快速响应。我们通过自定义响应内容,快速返回结果,响应客户端。熔断的核心理念也就是快速响应,保证系统可用。
3.2 限流
限流。这个就像我们周五进地铁,由于人多,防止地铁里的人员发生踩踏,拥挤事件,就在地铁口弄几个架子,让人慢慢排队,减小入口流量,保证地铁里的人流能够正常运行。限流和地铁这个没有大的区别,防止系统应对过大的流量,压垮系统,则通过闸口,控制进入系统的流量,这样可以使得系统在一个合理的流量内运行,保证了系统的正常运行。我们通过这样可以看得出来:限流是通过外部方式,来解决系统可用性。
3.3 降级
降级,那就是在流量高峰期间,关闭或减少系统其他功能,保证系统的核心功能可用。举个栗子:那就是淘宝双 11 的时候了,只能下单,而不能就行查单/或者只能查询最近几天的单。为什么呢?因为用户下单后可能进行大量的查单操作,占用大量系统资源,那就会影响下单,影响业务收入,这样就得不偿失。通过关闭查单,保证下单可用,这样就保证了核心系统的可用。
3.4 排队
排队,顾名思义,就是排队。就像网红奶茶店,大家都挤着去买奶茶,人员忙不过来,那咋办? 那大家就排队呗,在这等着,然后等到你的时候,在给你响应。在系统中,我们可以通过暂缓用户请求,排在队列中,让用户等待,限制处理量,等处理后在给用户响应。大家应该也有所发现,排队和限流还是蛮像的,限流是直接拒绝,而排队,是让用户等待。
4. 存储
从理论,到接口,那么接下来就是存储方面的高可用。在互联网中,大量的用户,大量的数据,带来的极多挑战,那么,我们到底有什么方案可以保证存储高可用呢?
存储高可用的本质都是通过将数据复制到多个存储设备,通过数据冗余的方式来实现高可用。其主要的复杂性体现在:数据同步延时和数据复制中断带来的数据不一致问题。所以我们也主要从四个方面考虑问题。1、数据如何复制,2、各个节点的职责,3、如果应对复制延迟,4、如果应对数据复制中断。
4.1 切换方式
常见的分布式方案有;主从,主备,主主
4.1.1 主备
主备,从字面意思理解,就是一个主节点,一个备机。 主节点用来处理所有的操作。备机从主节点备份数据,但是不对外提供服务。这种方式就是简单,切换主,备客户端无感知。缺点就是:备机仅仅用来备份,有些浪费。
4.1.2 主从
主从,从字面理解就是一个主人,一个随从。随从和备机还是有区别的,随从需要干活,备份不需要。主从和主备相似,只是从机需要提供查询服务。这中方式弥补了主备方式备机浪费的缺点,但也带来了新的问题,主从复制延迟问题,客户端需要根据情况切换到主机或备机。
4.1.3 主主
主主,顾名思义,就是两个节点都是主节点。双主带来的好处就是任何一个节点都可以进行读写操作,但缺点也显而易见。双主节点需要对对方的数据进行同步,这样就带来了同步延时的问题,同时,在同步的时候还会带来数据重复的问题。如:在 A 服务注册了手机号为 F 的用户,在 B 服务业注册了手机号为的用户,在合并时如何处理的。所以,在未考虑复杂性的时候,主主更适用于数据具有可重复性,可丢失的场景。
4.2 双机切换
我们从主备和主从的方案中发现,当主节点挂掉后,就无法在对外提供服务。这样就会导致服务宕机,那么我们就要采取一个合适的方案,来进行新的主节点的选取,那么就涉及到了双击切换
要设计切换方案,我们就要从这几个方面考虑:
4.2.1 主备间状态判断
主要包括:1、状态传递的渠道,也就是通过什么样的方式来传递内容。 2、 状态检测的内容:主要是通过什么东西来判断主节点是否挂掉,如:断电,进程死亡?
4.2.2 切换的决策
切换决策主要包含几个方面:1、什么时候切换,2、如何切换,3、切换的方式如何?
4.2.3 数据冲突问题
我们在切换过程中,可能主备/主从之间数据还未完全同步,如何保证切换后数据一致,这个就有点类似上面的主主方案了。
5. 总结
以上分享的是高可用架构理论,接口,存储方面的理论知识,在设计高可用的时候还是有许多要考虑的。如果有什么问题,欢迎指正,讨论
版权声明: 本文为 InfoQ 作者【编号94530】的原创文章。
原文链接:【http://xie.infoq.cn/article/830af2963a2f376aef39bb017】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论