还在担心流量防护问题?Sentinel 来帮你!
📢博客主页:https://www.infoq.cn/profile/F7BF297568FAA8/publish
📢欢迎点赞 👍 收藏 ⭐留言 📝 欢迎讨论!
📢本文由 XiaoLin_Java 原创🙉
📢不要等待机会,而要创造机会。✨
🌈往期回顾
感谢阅读,希望能对你有所帮助,博文若有瑕疵请在评论区留言或在主页个人介绍中添加我私聊我,感谢每一位小伙伴不吝赐教。我是 XiaoLin,一个问啥啥都会,干啥啥不行的小男孩。
八、流量防护:Sentinel
8.1、高并发带来的问题
在微服务架构中,我们将业务拆分成一个个的服务,服务与服务之间可以相互调用,但是由于网络原因或者自身的原因,服务并不能保证服务的 100%可用,如果单个服务出现问题,调用这个服务就会出现网络延迟,此时若有大量的网络涌入,会形成任务堆积,最终导致服务瘫痪。
8.2、模拟高并发
8.2.1、编写 SentinelController
8.2.2、修改 Tomcat 的并发数
8.2.3、使用压力测试模拟高并发
下载地址https://jmeter.apache.org/
修改配置,支持中文
进入 bin 目录,修改 jmeter.properties 文件中的语言支持为 language=zh_CN。
然后点击 jmeter.bat 启动软件。
添加线程组
添加 http 请求
访问
我们去访问 http://localhost:8082/sentinel2,会发现一直在转圈,这就是服务器雪崩的雏形。
8.3、服务器雪崩
在分布式系统中,由于网络原因或自身的原因,服务一般无法保证 100% 可用。如果一个服务出现了问题,调用这个服务就会出现线程阻塞的情况,此时若有大量的请求涌入,就会出现多条线程阻塞等待,进而导致服务瘫痪。
由于服务与服务之间的依赖性,故障会传播,会对整个微服务系统造成灾难性的严重后果,这就是服务故障的 “雪崩效应” 。
服务器一步步雪崩的流程如下:
服务器的雪崩效应其实就是由于某个微小的服务挂了,导致整一大片的服务都不可用.类似生活中的雪崩效应,由于落下的最后一片雪花引发了雪崩的情况.
雪崩发生的原因多种多样,有不合理的容量设计,或者是高并发下某一个方法响应变慢,亦或是某台机器的资源耗尽。我们无法完全杜绝雪崩源头的发生,只有做好足够的容错,保证在一个服务发生问题,不会影响到其它服务的正常运行。
雪崩发生的原因多种多样,有不合理的容量设计,或者是高并发下某一个方法响应变慢,亦或是某台机器的资源耗尽。我们无法完全杜绝雪崩源头的发生,只有做好足够的容错,保证在一个服务发生问题,不会影响到其它服务的正常运行。也就是"雪落而不雪崩"。
8.4、常见解决方案
要防止雪崩的扩散,我们就要做好服务的容错,容错说白了就是保护自己不被猪队友拖垮的一些措施, 下面介绍常见的服务容错思路和组件。
常见的容错思路有隔离、超时、限流、熔断、降级这几种。
8.4.1、隔离机制
比如服务 A 内总共有 100 个线程, 现在服务 A 可能会调用服务 B,服务 C,服务 D.我们在服务 A 进行远程调用的时候,给不同的服务分配固定的线程,不会把所有线程都分配给某个微服务. 比如调用服务 B 分配 30 个线程,调用服务 C 分配 30 个线程,调用服务 D 分配 40 个线程. 这样进行资源的隔离,保证即使下游某个服务挂了,也不至于把服务 A 的线程消耗完。比如服务 B 挂了,这时候最多只会占用服务 A 的 30 个线程,服务 A 还有 70 个线程可以调用服务 C 和服务 D。
8.4.2、超时机制
在上游服务调用下游服务的时候,设置一个最大响应时间,如果超过这个时间,下游未作出反应,就断开请求,释放掉线程。
8.4.3、限流机制
限流就是限制系统的输入和输出流量已达到保护系统的目的。为了保证系统的稳固运行,一旦达到的需要限制的阈值,就需要限制流量并采取少量措施以完成限制流量的目的。
8.4.4、熔断机制
在互联网系统中,当下游服务因访问压力过大而响应变慢或失败,上游服务为了保护系统整体的可用性,可以暂时切断对下游服务的调用。这种牺牲局部,保全整体的措施就叫做熔断。
服务熔断一般有三种状态:
熔断关闭状态(Closed):服务没有故障时,熔断器所处的状态,对调用方的调用不做任何限制。
熔断开启状态(Open):后续对该服务接口的调用不再经过网络,直接执行本地的 fallback 方法。
半熔断状态(Half-Open):尝试恢复服务调用,允许有限的流量调用该服务,并监控调用成功率。如果成功率达到预期,则说明服务已恢复,进入熔断关闭状态;如果成功率仍旧很低,则重新进入熔断关闭状态。
8.4.5、降级机制
降级其实就是为服务提供一个兜底方案,一旦服务无法正常调用,就使用兜底方案。
8.5、常见的熔断组件
8.5.1、Hystrix
Hystrix 是由 Netflflix 开源的一个延迟和容错库,用于隔离访问远程系统、服务或者第三方库,防止级联失败,从而提升系统的可用性与容错性。
8.5.2、Resilience4J
Resilicence4J 一款非常轻量、简单,并且文档非常清晰、丰富的熔断工具,这也是 Hystrix 官方推荐的替代产品。不仅如此,Resilicence4j 还原生支持 Spring Boot 1.x/2.x,而且监控也支持和 prometheus 等多款主流产品进行整合。
8.5.3、Sentinel
Sentinel 是阿里巴巴开源的一款断路器实现,本身在阿里内部已经被大规模采用,非常稳定。
8.6、Sentinel 实战
8.6.1、什么是 Sentinel
Sentinel (分布式系统的流量防卫兵) 是阿里开源的一套用于服务容错的综合性解决方案。它以流量为切入点, 从流量控制、熔断降级、系统负载保护等多个维度来保护服务的稳定性。
Sentinel 具有以下特征:
丰富的应用场景:Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景, 例如秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用应用等。
完备的实时监控:Sentinel 提供了实时的监控功能。通过控制台可以看到接入应用的单台机器秒级数据, 甚至 500 台以下规模的集群的汇总运行情况。
广泛的开源生态:Sentinel 提供开箱即用的与其它开源框架/库的整合模块, 例如与 SpringCloud、Dubbo、gRPC 的整合。只需要引入相应的依赖并进行简单的配置即可快速地接入 Sentinel。
8.6.2、Sentinel 组成部分
Sentinel 分为两部分:
核心库(Java 客户端)不依赖任何框架/库,能够运行于所有 Java 运行时环境,同时对 Dubbo /Spring Cloud 等框架也有较好的支持。
控制台(Dashboard)基于 Spring Boot 开发,打包后可以直接运行,不需要额外的 Tomcat 等应用容器。
8.7、集成 Sentinel
微服务集成 Sentinel 非常简单, 只需要加入 Sentinel 的依赖即可。
8.7.1、加入依赖
8.7.2、编写控制器
8.7.3、安装 Sentinel 控制台
下载 jar 包
Sentinel 提供一个轻量级的控制台, 它提供机器发现、单机资源实时监控以及规则管理等功能。我们需要去下载Sentinel控制台的jar包。
修改 application.yml
启动控制台
测试
通过浏览器访问 localhost:8080 进入控制台 ( 默认用户名密码是 sentinel/sentinel )
8.7.4、控制台的原理
Sentinel 的控制台其实就是一个 SpringBoot 编写的程序。我们需要将我们的微服务程序注册到控制台上,即在微服务中指定控制台的地址, 并且还要开启一个跟控制台传递数据的端口, 控制台也可以通过此端口调用微服务中的监控程序获取微服务的各种信息。
8.8、实现一个接口限流
点击簇点链路->流控
在单机阈值中写数值
在单机阈值填写一个数值,表示每秒上限的请求数
测试
快速访问几次,可以发现出错了。
8.9、Sentinel 基本概念和功能
8.9.1、基本概念
8.9.1.1、资源
资源就是 Sentinel 要保护的东西。资源是 Sentinel 的关键概念。它可以是 Java 应用程序中的任何内容,可以是一个服务,也可以是一个方法,甚至可以是一段代码。
我们上面例子的一个 sentinel2 方法就是一个资源。
8.9.1.2、规则
规则就是用来定义如何进行保护资源的。作用在资源之上, 定义以什么样的方式保护资源,主要包括流量控制规则、熔断降级规则以及系统保护规则。
我们上面的例子给 sentinel2 增加流控规则,限制了 sentinel2 的流量。
8.9.2、重要功能
Sentinel 的主要功能就是容错,主要体现为下面这三个:
流量控制
流量控制在网络传输中是一个常用的概念,它用于调整网络包的数据。任意时间到来的请求往往是随机不可控的,而系统的处理能力是有限的。我们需要根据系统的处理能力对流量进行控制。Sentinel 作为一个调配器,可以根据需要把随机的请求调整成合适的形状。
熔断降级
当检测到调用链路中某个资源出现不稳定的表现,例如请求响应时间长或异常比例升高的时候,则对这个资源的调用进行限制,让请求快速失败,避免影响到其它的资源而导致级联故障。
Sentinel 对这个问题采取了两种手段:
通过并发线程数进行限制:Sentinel 通过限制资源并发线程的数量,来减少不稳定资源对其它资源的影响。当某个资源出现不稳定的情况下,例如响应时间变长,对资源的直接影响就是会造成线程数的逐步堆积。当线程数在特定资源上堆积到一定的数量之后,对该资源的新请求就会被拒绝。堆积的线程完成任务后才开始继续接收求。
通过响应时间对资源进行降级:除了对并发线程数进行控制以外,Sentinel 还可以通过响应时间来快速降级不稳定的资源。当依赖的资源出现响应时间过长后,所有对该资源的访问都会被直接拒绝,直到过了指定的时间窗口之后才重新恢复。
系统负载保护
Sentinel 同时提供系统维度的自适应保护能力。当系统负载较高的时候,如果还持续让请求进入可能会导致系统崩溃,无法响应。在集群环境下,会把本应这台机器承载的流量转发到其它的机器上去。如果这个时候其它的机器也处在一个边缘状态的时候,Sentinel 提供了对应的保护机制,让系统的入口流量和系统的负载达到一个平衡,保证系统在能力范围之内处理最多的请求。
总结:我们需要做的事情,就是在 Sentinel 的资源上配置各种各样的规则,来实现各种容错的功能。
8.10、Sentinel 流控规则
流量控制,其原理是监控应用流量的 QPS(每秒查询率) 或并发线程数等指标,当达到指定的阈值时对流量进行控制,以避免被瞬时的流量高峰冲垮,从而保障应用的高可用性。
资源名:唯一名称,默认是请求路径,可自定义。
针对来源:指定对哪个微服务进行限流,默认指 default,意思是不区分来源,全部限制。
阈值类型/单机阈值:
QPS(每秒请求数量): 当调用该接口的 QPS 达到阈值的时候,进行限流。
线程数:当调用该接口的线程数达到阈值的时候,进行限流。
8.10.1、线程数限流
前面我们已经测试过了 QPS 限流,所以现在我们改为线程数限流。
8.10.1.1、添加流控规则
8.10.1.2、在 Jmeter 中新增线程
8.10.1.3、测试
8.10.2、流控模式
点击上面设置流控规则的编辑按钮,然后在编辑页面点击高级选项,会看到有流控模式一栏。
他有三种流控模式:
直接(默认):接口达到限流条件时,开启限流。
关联:当关联的资源达到限流条件时,开启限流 [适合做应用让步]。
链路:当从某个接口过来的资源达到限流条件时,开启限流
8.10.2.1、关联流控模式
关联流控模式指的是,当指定接口关联的接口达到限流条件时,开启对指定接口开启限流。
比如:当两个资源之间具有资源争抢或者依赖关系的时候,这两个资源便具有了关联。比如对数据库同一个字段的读操作和写操作存在争抢,读的速度过高会影响写得速度,写的速度过高会影响读的速度。如果放任读写操作争抢资源,则争抢本身带来的开销会降低整体的吞吐量。可使用关联限流来避免具有关联关系的资源之间过度的争抢。
我们测试的时候可以关联 sentinel1 这个资源。
我们使用 Jmeter 软件连续向/sentinel1 连续发送请求,注意 QPS 一定要大于 2,我们访问/sentinel2 的时候发现被限流了。
8.10.2.2、链路流控模式
链路流控模式指的是,当从某个接口过来的资源达到限流条件时,开启限流。它的功能有点类似于针对来源配置项,区别在于:针对来源是针对上级微服务,而链路流控是针对上级接口,也就是说它的粒度更细。
修改 application.yml
TraceServiceImpl
新增 TraceController
重新启动订单服务并添加链路流控规则
测试
我们去访问 /trace1 和 /trace2 访问, 发现/trace2 没问题, /trace1 的被限流了。
8.10.3、流控效果
快速失败(默认): 直接失败,抛出异常,不做任何额外的处理,是最简单的效果。
Warm Up:它从开始阈值到最大 QPS 阈值会有一个缓冲阶段,一开始的阈值是最大 QPS 阈值的 1/3,然后慢慢增长,直到最大阈值,适用于将突然增大的流量转换为缓步增长的场景。
排队等待:让请求以均匀的速度通过,单机阈值为每秒通过数量,其余的排队等待; 它还会让设置一个超时时间,当请求超过超时间时间还未处理,则会被丢弃。
8.11、Sentinel 降级规则
降级规则就是设置当满足什么条件的时候,对服务进行降级。Sentinel 提供了三个衡量条件:
慢调用比例: 选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。
异常比例: 当单位统计时长内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。异常比率的阈值范围是
[0.0, 1.0]
,代表 0% - 100%。异常数:当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。
8.11.1、慢调用比例
新增 FallBackController
新增降级规则
上面配置表示,如果在 1S 之内,有【超过 1 个的请求】且这些请求中【响应时间>最大 RT】的【请求数量比例>10%】,就会触发熔断,在接下来的 10s 之内都不会调用真实方法,直接走降级方法。
比如: 最大 RT=900,比例阈值=0.1,熔断时长=10,最小请求数=10
情况 1: 1 秒内的有 20 个请求,只有 10 个请求响应时间>900ms, 那慢调用比例=0.5,这种情况就会触发熔断。
情况 2: 1 秒内的有 20 个请求,只有 1 个请求响应时间>900ms, 那慢调用比例=0.05,这种情况不会触发熔断。
情况 3: 1 秒内的有 8 个请求,只有 6 个请求响应时间>900ms, 那慢调用比例=0.75,这种情况不会触发熔断,因为最小请求数这个条件没有满足。
我们做实验的时候把最小请求数设置为 1,因为在 1 秒内,手动操作很难在 1s 内发两个请求过去,所以要做出效果,最好把最小请求数设置为 1。
8.11.2、异常数
在方法中新增一个异常
在 Shop-order-server 项目的 FallBackController.java 类新增 fallBack3 方法。
配置降级规则
在 1s 之内,,有【超过 3 个的请求】,请求中超过 2 个请求出现异常就会触发熔断,熔断时长为 10s。
测试
8.12、Sentinel 热点规则
热点即经常访问的数据。很多时候我们希望统计某个热点数据中访问频次最高的 Top K 数据,并对其访问进行限制。比如:
商品 ID 为参数,统计一段时间内最常购买的商品 ID 并进行限制。
用户 ID 为参数,针对一段时间内频繁访问的用户 ID 进行限制.
热点参数限流会统计传入参数中的热点参数,并根据配置的限流阈值与模式,对包含热点参数的资源调用进行限流。热点参数限流可以看做是一种特殊的流量控制,仅对包含热点参数的资源调用生效。
新增 HotSpotController
一定需要在请求方法上贴 @SentinelResource 注解,否则热点规则无效
新增热点规则
因为我们就一个参数,所以参数索引是 0。
访问一下/hotSpot1,再编辑热点规则
添加后再去热点规则中编辑规则,在编辑之前一定要先访问一下/hotSpot1,不然参数规则无法新增。
新增参数规则
测试
访问:http://localhost:8082/hotSpot1?productId=2,无论怎么样访问都无济于事。
访问:http://localhost:8082/hotSpot1?productId=1,多次访问后会降级。
8.13、Sentinel 授权规则
很多时候,我们需要根据调用来源来判断该次请求是否允许放行,这时候可以使用 Sentinel 的来源访问控制的功能。来源访问控制根据资源的请求来源(origin)限制资源是否通过:
若配置白名单,则只有请求来源位于白名单内时才可通过;
若配置黑名单,则请求来源位于黑名单时不通过,其余的请求通过。
新增一个工具类,定义请求来源如何获取
新增 AuthController
新增规则
测试
访问 http://localhost:8082/auth1?serviceName=pc 不能访问
访问 http://localhost:8082/auth1?serviceName=app 可以访问
8.14、系统规则
系统保护规则是从应用级别的入口流量进行控制,从单台机器的总体 Load、RT、入口 QPS 、CPU 使用率和线程数五个维度监控应用数据,让系统尽可能跑在最大吞吐量的同时保证系统整体的稳定性。
系统保护规则是应用整体维度的,而不是资源维度的,并且仅对入口流量 (进入应用的流量) 生效。
Load(仅对 Linux/Unix-like 机器生效):当系统 load1 超过阈值,且系统当前的并发线程数超过系统容量时才会触发。
系统保护。系统容量由系统的 maxQps * minRt 计算得出。设定参考值一般是 CPU cores * 2.5。
RT:当单台机器上所有入口流量的平均 RT 达到阈值即触发系统保护,单位是毫秒。
线程数:当单台机器上所有入口流量的并发线程数达到阈值即触发系统保护。
入口 QPS:当单台机器上所有入口流量的 QPS 达到阈值即触发系统保护。
CPU 使用率:当单台机器上所有入口流量的 CPU 使用率达到阈值即触发系统保护。
8.15、自定义异常返回
常见的异常大致分为这几类:
FlowException:限流异常 。
DegradeException:降级异常。
ParamFlowException:参数限流异常。
AuthorityException:授权异常。
SystemBlockException:系统负载异常。
在 Shop-order-server 项目中定义异常返回处理类。
8.16、@SentinelResource 的使用
@SentinelResource 用于定义资源,并提供可选的异常处理和 fallback 配置项。主要参数如下:
直接将限流或降级后执行的方法。
8.17、 Sentinel 规则持久化
通过前面的讲解,我们已经知道,可以通过 Dashboard 来为每个 Sentinel 客户端设置各种各样的规则,但是这里有一个问题,就是这些规则默认是存放在内存中,极不稳定,所以需要将其持久化。
本地文件数据源会定时轮询文件的变更,读取规则。这样我们既可以在应用本地直接修改文件来更新规则,也可以通过 Sentinel 控制台推送规则。以本地文件数据源为例,推送过程如下图所示:
首先 Sentinel 控制台通过 API 将规则推送至客户端并更新到内存中,接着注册的写数据源会将新的规则保存到本地的文件中。
编写处理类
之后我们重启发现配置的规则还在,说明持久化成功!
版权声明: 本文为 InfoQ 作者【XiaoLin_Java】的原创文章。
原文链接:【http://xie.infoq.cn/article/7e3acefbcd9308aef0adf13fc】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论