服务网格自动故障检测及流量切换方案

2024-06-17
北京
本文字数：988 字
阅读完需：约 3 分钟

本文分享自天翼云开发者社区《服务网格自动故障检测及流量切换方案》，作者:s****n

随着云原生技术的发展，越来越多的应用采用容器，微服务技术，以 istio 为代表的服务网格就是其中最广泛使用的一种。它在业务容器创建时，自动向业务服务的 pod 中注入 proxy 容器边车，将流入和流出业务容器的网络流量全部劫持到 proxy 容器，经由 proxy 容器处理后再进行下一步转发。

Proxy 容器的处理规则通过 istiod 控制面下发，主要分为流量控制、安全、可观测性三大类。以可观测性为例的大量规则都仅对流经的数据进行统计，监控，链路追踪等附加操作，不影响和改变业务本身的请求。但是当 proxy 容器自身或其依赖的服务出现问题时，因其流量劫持动作，往往会造成整个服务不可用。

目前处理此类问题的方法，以人工干预为主，当服务不可用时，通过告警通知运维人员，运维人员进行现场问题定位及处理。在有 proxy 边车的场景下，若 proxy 问题不能快速解决，运维人员也经常需要手动去除 proxy 容器边车，先恢复业务流量再做细致排查。如果能自动化检测 proxy 故障并进行及时处理，会大大提供微服务框架下的服务可用性，减少故障带来的损失及人力排查成本

实现方案如下：

整体结构：

具体方法：

1.在 istio 控制面加入故障检测及流量阻断模块‘hot-switch’.

2.在 istio 的边车代理 proxy 内部加入故障检测命令，并与控制面故障检查模块通信，具体检测命令例如：

a.Watch 相关 pod 的 proxy 容器状态，当容器状态为 fail 时，表示 proxy 容易已经不再存活；

b.通过检查 proxy 容器的 15021 health 端口，若返回值 false，则 proxy 存活但不健康等等；

3.自动检测确认代理 proxy 问题后，hot-switch 通过进入 pod 执行 iptables 相关命令，停止 proxy 的流量劫持，将流量模式由 proxy 控制管理，改为直通业务容器

a.在 pod 启动前，proxy 进行流量劫持的过程：首先运行 Init 容器，Init 容器用于设置 iptables 将进入 pod 的流量劫持到 Envoy sidecar proxy。

具体命令类似：Istio-iptables -p 15001 -z 15006 -u 1337 -m REDIRECT -i '*' -x "" -b * -d "15090,15201,15020"

envoy sidecar proxy 启动之后从 pilot 获得动态的规则，来对进出流量进行控制，流量劫持后的链路如下

b.检测确认 proxy 问题后，通过 iptables 的反向命令，清除流量劫持规则，可用命令为 istio-clean-iptables

该方案无需人工参与，可自动检测问题，快速处理，在网格边车出现故障的时候也能通过一定程度的服务降级，最大程度保障服务的基本可用性

发布于: 刚刚阅读数: 5

天翼云开发者社区

关注

还未添加个人签名 2022-02-22 加入

天翼云是中国电信倾力打造的云服务品牌，致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。

发布

暂无评论

创作场景

服务网格自动故障检测及流量切换方案

天翼云开发者社区

评论