写点什么

高可用演练中堆叠切换失败分析

作者:BUG侦探
  • 2022 年 3 月 17 日
  • 本文字数:1195 字

    阅读完需:约 4 分钟

高可用演练中堆叠切换失败分析

背景描述

**办公网是通过堆叠技术和端口聚合技术规划设计的高可用办公网络,为检验高可用实际效果,在网络项目实施后按照计划对其进行高可用测试,结果发现 21 层的堆叠高可用在切换的过程中,出现无法高可用负载用户流量的情况,具体原因请阅读后续分析。

组网介绍

  • 交换机设备级别高可用采用堆叠;

  • 交换机链路级别高可用采用 LACP 动态聚合;

  • AC 高可用采用 MM 集群双主模式负载;

  • 出口 Gateway 设备级别高可用采用 Keepalived;

  • 出口 Gateway 链路级别高可用采用 LACP 动态聚合;

​故障现象描述

  • 核心交换机堆叠故障演练步骤及现象

  • 进行核心 2 交换机的宕机操作,用户流量正常切换;

  • 进行核心 2 交换机恢复操作,用户流量正常切换;

  • 进行核心 1 交换机宕机操作,用户流量中断;

  • 进行核心 1 交换机恢复操作,用户流量恢复;

  • 21 层汇聚交换机堆叠故障演练步骤及现象

  • 进行 21 层汇聚 2 交换机的宕机操作,用户流量正常切换;

  • 进行 21 层汇聚 2 交换机恢复操作,用户流量正常切换;

  • 进行 21 层汇聚 1 交换机宕机操作,用户流量中断;

  • 进行 21 层汇聚 1 交换机恢复操作,用户流量恢复;

排查过程

  • 进行核心堆叠高可用演练、21 层汇聚高可用演练,演练现象如上故障现象描述,无法高可用负载用户流量;

  • 检查 21 层汇聚接口状态,汇聚接口状态 up,配置正常;


  • 对核心的堆叠配置进行了检查,发现核心堆叠系统的两台交换机版本不同;


  • 不确定是核心堆叠的问题,还是 21 层汇聚堆叠的问题,因此先进行其他楼层的堆叠演练,实际演练发现 19 层和 20 层堆叠高可用故障演练都能够正常负载;

  • 升级核心交换机版本,使得堆叠版本一致;

  • 重新测试核心高可用演或 21 层汇聚高可用演练练还是故障现象依旧;

  • 开始怀疑生成树影响了切换,但是检查生成树没有发现异常,于是暂时先将核心与 AC、核心与 MOMO 的出口断开,重新演练,故障现象仍然依旧;

  • 再次排查核心生成树,发现一个奇怪的现象,核心生成树(为根)与 21 层汇聚互联的接口,除了聚合指定接口外(与 21 层汇聚相连的 Ag1),多出了一个与 21 层汇聚 2 相连的物理接口 Te2/0/1 的指定接口;

  • 检查核心聚合该接口配置,发现该接口配置丢失,该接口脱离了聚合口;并且该接口是默认配置(只允许了 vlan 1 通过);至此问题原因理清。

​原因总结

  • 切换失败直接的原因由于 21 层汇聚交换机 2 与核心交换机 2 之间的链路存在问题(21 层核心侧聚合组内物理接口配置丢失导致),因此当 21 层汇聚交换机 1 或者核心交换机 1 宕机时,21 层的用户流量无法被负载。

  • 根因分析(由于演练切换的特殊性,没有收集到日志,因此将常见原因列出)

  • 两台核心交换机的版本不同:做堆叠后可能存在未知异常,比如配置丢失问题;

  • 配置方法问题:在思科系交换机配置聚合口时,推荐先不要创建聚合口,应该先将物理口加入聚合口,由系统自动生成聚合口,否则可能会出现丢聚合口配置问题;

后续高可用演练准备工作

  1. 检查堆叠设备版本,设备版本不同先升级堆叠设备版本到相同的稳定版本;

  2. 检查设备配置;

  3. 检查设备和所有接口状态;

  4. 检查设备连接是否符合预期;

  5. 开始高可用演练。




发布于: 刚刚阅读数: 2
用户头像

BUG侦探

关注

还未添加个人签名 2021.06.08 加入

专注于发掘程序员/工程师的有趣灵魂,对工作中的思路与总结进行闪光播报。

评论

发布
暂无评论
高可用演练中堆叠切换失败分析_高可用_BUG侦探_InfoQ写作平台