流控验证太麻烦?不敢上生产?MSE 有办法!
作者:涯客
影响服务稳定性的因素有很多,其中比较常见但又往往容易被忽视的就是面向流量的稳定性,流控是保障服务稳定性的重要手段。但是,我们发现大量客户仅仅在开发环境和预发环境中测试流控,却在生产环境中鲜有使用。根据深入的交流,发现问题主要在二方面:
第一:对于首次发布的服务,由于无法精确预测真实流量的大小,往往无法给出合理的限流条件,这给流控的实施带来了很大的挑战。
第二:对于已经上线的服务,直接对正在运行的业务进行流控可能会导致业务宕机或请求错误,进而影响用户体验。部分拥有能力的客户,会在测试环境中模拟生产环境中流量,从而验证流控的正确性,进而在生产环境中实施。这最大的问题是验证成本较高,验证流程较长,而且测试环境无法完全还原生产环境中流量情况。
我们可以归纳以上的问题为一点:如何在不影响生产业务的情况下,小成本验证流控能力,进而在生产环境中实施流控。
在不验证的情况下,直接在生产环境中生效流控规则,很有可能让解决灾难的办法成为灾难本身,例如流控规则配置错误、流控没有达到预期、流控无故生效导致业务宕机等等,这些问题在生产环境中是完全无法接受的。
那么有什么办法能够在生产环境中小成本、快速地验证流控能力?能够在生产环境中确定配置的流量防护策略是否合理?一个简单的思路就是只对线上一部分的流量进行流控验证,即在可控范围内做流控验证。
基于这一想法,我们使用微服务引擎(MSE)中热点参数防护的功能,提出了一种合理的解决方案:首先在生产环境中进行可控范围内的流控能力验证、确定流控合理配置,进而在生产环境中启用流控。
MSE 微服务治理简介:微服务治理中心无侵入增强主流 Spring Cloud、Apache Dubbo 和 Istio 等开源微服务框架,提供丰富的服务治理和流量防护功能,将中间件与业务解耦,拥有如下功能:无损上线、无损下线、全链路灰度、流量控制、离群实例摘除等。
验证思路
我们将会按照以下顺序验证所提出方案的可行性:
搭建基础场景用于模拟生产环境。
配置相应的流控规则,用于能力验证。
流量测试。
基础场景搭建
我们使用 MSE 服务治理中热点参数防护功能来实现生产环境可控的流控能力验证。
本文以常见的长链路调用场景为例,介绍生产环境下进行可控范围内的流控能力验证的过程,搭建的具体流程不再介绍,可详见 MSE 产品 help 文档 [ 1] 。
模拟场景使用如下后端场景,后端共有 3 个服务:应用 A、应用 B、应用 C。这 3 个服务之间通过 MSE Nacos 注册中心实现服务发现。客户可以通过客户端后者 HTML 来访问后端服务。客户的请求到达网关后,调用链路为 :用户>MSE 云原生网关>A>B>C。
说明:我们的要求是对于指定带标签的流量,任何配置相应流控规则的应用都应起到流控作用。对于从网关到应用 A 的流量,因携带标签,热点参数防护功能可以生效。但是对于应用 A 至应用 B 的流量,会丢失流量中的标签,我们需要额外标签透传的功能,才能保证应用 B 得到携带标签的流量,从而使得热点参数防护功能可以生效。
名词解释:
MSE 云原生网关:MSE 云原生网关是兼容 K8s Ingress 标准的下一代网关产品,支持 ACK 容器和 Nacos 等多种服务发现方式,支持多种认证登录方式快速构建安全防线。更多信息,请参见云原生网关概述 [ 2]
带标签请求:请求中的 header 带指定 kv
标签透传请求:正常的 RPC 请求,即应用 A 到应用 B 的请求是不会携带前置请求的 header 信息。如果是标签透传,前置请求中指定 header 将会携带后续的请求中
流控配置
我们希望仅仅对线上可控范围内的流量进行流控验证,比如用户等级比较低的请求流量,或者是内部用户的测试流量,从而在不会对线上的服务造成影响的前提下足够地验证流控能力。
我们模拟如上场景,标识特定的流量请求 header 中加入 key 为 limit,value 为 true 的参数值,特定的流量会被流控规则所控制最大请求范围,并且保证正常的请求流量不会受到任何影响。
然后我们对应用 A、应用 B 加入热点参数防护,用于后续方案可行性验证。该操作对 header 含有 limit:true 的请求进行流控,为了效果明显,设定流控生效的 qps 阈值为 20(即 qps 超过 20 时,请求将会被拒绝)。
在 MSE 服务治理中,为应用配置热点参数防护的具体过程如下。
3.1 应用 A 流控规则配置
我们只需在 mse 服务治理页面配置如下热点参数防护能力,就能实现针对特定流量的流控配置。
在应用 a 中依次选择 选择流量 > 流量防护 > 热点参数防护(HTTP 请求) > 新增热点参数防护。
2.为接口/a 加入如下配置防护规则。
针对指定的请求配置流控规则,比如下图所示 header 值为 limit 且 value 为 true 的流量会被当前配置的流控规则控制最大的 QPS 阈值 20。
3.2 应用 B 流控规则配置
应用 B 按照应用 A 一样配置。
在应用 b 中依次选择 选择流量 > 流量防护 > 热点参数防护(HTTP 请求) > 新增热点参数防护。
为接口/b 加入如下配置防护规则。
针对指定的请求配置流控规则,比如下图所示 header 值为 limit 且 value 为 true 的流量会被当前配置的流控规则控制最大的 QPS 阈值 20。
流量测试
在配置完成后,为了模拟生产环境,我们将会依次发送正常请求、被标记请求,检验流控对正常请求和被标记请求是否生效。
我们首先根据如下步骤,获取入口地址:
登录 MSE 网关管理控制台,并在顶部菜单栏选择地域。
在左侧导航栏,选择云原生网关 > 网关列表,单击目标网关名称。
在左侧导航栏,单击基本概览。
在网关入口页签,查看 SLB 的入口地址(ip)。
在获取入口地址之后,我们将会对/a 接口依次进行如下流量测试。
4.1 正常请求无流控
向/a 接口持续发送无标签的请求。
可在输出中发现请求没有任何限制,均是正常返回,返回如下。
4.2 被标记请求应用 A 流控生效
向/a 接口持续发送含标签请求(header 含有 limit:true)。
当 qps 超过 20 时,请求出现限流信息,限流信息如下。
4.3 被标记请求应用 B 无流控
关闭 A 服务的流控限制。
向/a 接口持续发送含标签请求(header 含有 limit:true)。
可在输出中发现请求没有任何限制,均是正常返回,返回如下。
说明:如果没有开启标签透传,应用 A 调应用 B 的请求无法将 header 透传。从而无法满足对于指定带标签的流量,任何配置相应流控规则的应用都应起到流控作用的效果。
4.4 配置透传,被标记请求应用 B 流控生效
为应用 A 配置 header 透传。在 k8s 集群中寻找到 spring-cloud-a 服务,在环境变量中加入变量名称:alicloud.service.header ,变量引用:limit。
说明:MSE 服务治理使用 agent 技术,可以使得流量中的 header 透传
向/a 接口发送含标签请求(header 含有 limit:true)。
当 qps 超过 20 时,请求出现限流信息,限流信息如下。(报错是因为 A 没有拿到 B 的正常信息)。
说明:在配置标签透传情况下,可满足对于指定带标签的流量,任何配置相应流控规则的应用都应起到流控作用的效果。
总结
到目前为止,我们通过 MSE 的热点参数防护与自定义 header 透传能力的组合,实现了仅针对有特定标识流量的流控能力。这使得我们可以在不影响业务的情况下,在生产环境中做可控范围内的流控能力验证。相较于另外搭建整套预生产环境来验证流控能力来说,该方案的成本更低,且更能直接验证到生产环境中流控规则以及流控后的 Fallback 行为的表现,做到真正的心中有数。
在本文中我们仅仅使用了 MSE 服务治理中的流量控制功能。然而对于微服务架构来说,生产场景中的每一个组件、每一个环节都至关重要。MSE 微服务治理提供微服务各个环节的治理解决方案,旨在帮助企业快速落地完整且健壮的微服务体系。MSE 服务治理可以在不修改任何代码和配置的情况下,降低微服务治理的成本,实现以下多种功能:
低成本实现微服务敏捷开发:包括服务契约、服务测试、开发环境隔离等。
全面消除变更过程中的风险:包括无损下线、无损上线、全链路灰度等。
全面消除运行过程中的稳定性问题:包括流量控制、离群实例摘除、熔断降级等。
欢迎大家使用 MSE 服务治理并提出宝贵意见。
相关链接:
[1] MSE 产品 help 文档
https://help.aliyun.com/document_detail/478140.html?spm=a2c4g.475424.0.0.3297305eEXZQ1t
[2] 云原生网关概述
https://help.aliyun.com/document_detail/270868.htm#concept-2083330
点击此处进入微服务引擎 MSE 官网查看
版权声明: 本文为 InfoQ 作者【阿里巴巴云原生】的原创文章。
原文链接:【http://xie.infoq.cn/article/fde00cb3c1130c45552a001e7】。文章转载请联系作者。
评论