写点什么

Chaos Mesh 助力 Apache APISIX 提升稳定性

  • 2022 年 7 月 11 日
  • 本文字数:2710 字

    阅读完需:约 9 分钟

原文来源:https://tidb.net/blog/59630b37


** 作者:** 小 A


Apache APISIX 是 Apache 基金会下的顶级项目,目前在生产环境中已经通过每日几百亿次请求量的考验。随着社区的发展,Apache APISIX 的功能越来越多,需要与外部组件产生的交互也越来越多,随之而来的不确定性呈指数级增长。在社区中,我们也收到了用户反馈的一些问题,这里举两个例子。

场景一

在 Apache APISIX 的配置中心, etcd 与 Apache APISIX 之间出现意外的高网络延迟时,Apache APISIX 能否仍然正常运行进行流量过滤转发?

场景二

用户在 issue 反馈,当 etcd 集群中的一个节点失效而集群仍然可以正常运行时,会出现与 Apache APISIX admin API 交互报错的情况。


尽管 Apache APISIX 在 CI 中通过单元 / e2e / fuzz 测试覆盖了大部分情景,然而尚未覆盖到与外部组件的交互。当发生网络波动、硬盘故障、或是进程被杀掉等难以预料的异常行为时,Apache APISIX 能否给出合适的错误信息、是否可以保持或自行恢复到正常的运行状态呢?为了测试覆盖到用户提出的场景,以及在投入生产环境前主动发现类似的问题,经过社区讨论决定使用 PingCAP 开源的混沌工程平台 Chaos Mesh 进行测试。


混沌工程是一种在系统基础设施上进行试验,主动找出系统中的脆弱环节的方法,从而确保系统具有抵御生产环境中失控环境的能力。混沌工程最早由 Netflix 提出,用以模拟从而抵御早期云服务的不稳定性。随着技术的演进,现在的混沌工程平台提供了更多种类的故障可供注入,依靠 Kubernetes 也可以更方便地控制故障半径。这些都是 Apache APISIX 选择 Chaos Mesh 的重要原因,但作为开源社区,Apache APISIX 深知只有活跃的社区才能确保软件稳定使用和快速迭代,而这也是 Chaos Mesh 更加吸引人的特点。

如何在 APISIX 上应用混沌工程

混沌工程在单纯的注入故障以外,逐渐形成了一套完整的方法论。根据 Principle of Chaos Engineering 的推荐,部署混沌工程实验需要五个步骤:


  1. 定义稳态,即找到一个证明正常运行的可量化指标。

  2. 做出假设,假设指标在实验组和对照组都始终保持稳定状态。

  3. 设计实验,引入运行中可能出现的故障。

  4. 验证假设,即通过比较实验组和对照组的结果证伪假设。

  5. 修复问题。


接下来以上述两个用户反馈场景为例,依照这五个步骤为大家介绍 Apache APISIX 应用混沌工程的流程。

场景一


用一幅图来描述这个场景。对照上面的五个步骤,首先需要找到衡量 Apache APISIX 正常运行的可量化指标。在测试时最主要的方法是利用 Grafana 对 Apache APISIX 运行指标进行监测,找到可衡量的指标后,在 CI 中就可以从 Prometheus 中单独提取数据进行比较判断,这里使用了路由转发的 Request per Second(RPS)和 etcd 的可连接性 作为评价指标。另一点就是需要对日志进行分析,对于 Apache APISIX 就是查看 Nginx 的 error.log 判断是否有报错以及报错是否符合预期。


在对照组也就是引入 Chaos 前进行实验,检测 set/get route 均能成功,etcd 可连接,并记录此时的 RPS。之后,使用 network chaos 添加 5s 的网络延迟 ,再次进行实验,此时 set route 失败,get route 成功,etcd 无法连接,RPS 与之前相比无明显变化。实验符合预期。

场景二


进行同样的对照组实验之后引入 pod-kill chaos,复现了预期的错误。在随机删除集群中少数 etcd 节点的情况下,etcd 可连接性表现出时有时无,日志则打印出了大量连接拒绝的报错。更加有趣的是,在删除 etcd 端点列表的第一个或第三个节点时,设置路由正常返回,而只有在删除 etcd 端点列表中的第二个节点时,设置路由会报错 “connection refused”。


排查发现原因在于 Apache APISIX 使用的 etcd lua API 选择端点时并不是随机而是顺序选择,因此新建 etcd client 进行的操作就相当于只绑定在一个 etcd 端点上导致持续性的失败。修复这个问题之后,还为 etcd lua API 添加了健康检查,确保不会在断开连接的 etcd 上进行大量的重复;以及增加了 etcd 集群完全断开连接时的回退检查,避免大量报错冲爆日志。

未来计划

  1. 借助 e2e 模拟场景进行混沌测试


目前在 Apache APISIX 中,仍然主要依靠人来识别系统中可能的脆弱点进行测试修复。对于开源社区来说,与之前提到的 Netflix 在企业中应用混沌工程不同,尽管在 CI 中测试,无需担心混沌工程的故障半径对生产环境的影响,但同时也无法覆盖生产环境中的复杂而全面的场景。


为了覆盖更多的场景,未来社区计划利用现有的 e2e 测试模拟更加完整的场景,进行更大范围、更强随机性的混沌测试。


  1. 为更多 Apache APISIX 项目添加混沌测试


除了为 Apache APISIX 找到更多可能的脆弱点之外,社区还计划为 Apache APISIX Dashboard 和 Apache APISIX Ingress Controller 等更多项目添加混沌测试。


  1. 为 Chaos Mesh 添加功能


在部署 Chaos Mesh 时遇见一些暂不支持的功能,包括网络延迟的目标不支持选择 service,网络混沌无法指定容器端口注入等,Apache APISIX 社区未来也会协助 Chaos Mesh 添加相关功能。希望开源社区都会越来越好。

关于 Apache APISIX

Apache APISIX 是一个 动态、实时、高性能 的 API 网关,提供 负载均衡、动态上游、灰度发布、服务熔断、身份认证、可观测性 等丰富的流量管理功能。


你可以使用 Apache APISIX 处理传统的南北向流量,以及服务间的东西向流量,也可以当做 Kubernetes Ingress Controller 来使用。Apache APISIX 不仅覆盖了 NGINX 的传统功能,在可观测性上也和 SkyWalking 深度合作,大大提升了服务治理能力。



Apache APISIX 技术架构图


Apache APISIX 于 2019 年 4 月由深圳支流科技(api7.ai)创建,同年 6 月开源,10 月进入 Apache 孵化器,也是在这短短两年的时间,APISIX 成为了 Apache 顶级项目。支流科技(api7.ai)对应的商业化产品名字叫 API7。


全球已有数百家企业使用 Apache APISIX 处理关键业务流量,涵盖金融、互联网、制造、零售、运营商等等,比如 美国航空航天局(NASA)、欧盟的数字工厂、中国航信、中国移动、腾讯、华为、微博、网易、贝壳找房、360、泰康、奈雪的茶 等等。生活中,当你去买机票、刷微博、买奶茶的时候,背后的关键流量都是由 Apache APISIX 处理的。


✨ GitHubhttps://github.com/apache/apisix




🙌 小伙伴们注意啦


为了可以给 TiDB 社区 的小伙伴提供更加好的体验,我们开通认证入口啦~ 完成认证,即可获得 **“加急 **”处理问题权限,加快问题响应速度:https://tidb.io/account/organization/new


完成团队认证,还可以获得 +200 经验值,+200 积分 ,并授予 “认证会员” 徽章!


详情了解:【已结束】完成认证抽“周边三件套”,解锁“加急”处理问题权限


Ps:发布技术文章可获得 100-200 经验值及积分奖励。内容深度、文章结构完整度、图文并茂都是加分项哟~


发布于: 刚刚阅读数: 3
用户头像

TiDB 社区官网:https://tidb.net/ 2021.12.15 加入

TiDB 社区干货传送门是由 TiDB 社区中布道师组委会自发组织的 TiDB 社区优质内容对外宣布的栏目,旨在加深 TiDBer 之间的交流和学习。一起构建有爱、互助、共创共建的 TiDB 社区 https://tidb.net/

评论

发布
暂无评论
Chaos Mesh 助力 Apache APISIX 提升稳定性_实践案例_TiDB 社区干货传送门_InfoQ写作社区