高可用演练中堆叠切换失败分析
背景描述
**办公网是通过堆叠技术和端口聚合技术规划设计的高可用办公网络,为检验高可用实际效果,在网络项目实施后按照计划对其进行高可用测试,结果发现 21 层的堆叠高可用在切换的过程中,出现无法高可用负载用户流量的情况,具体原因请阅读后续分析。
组网介绍
交换机设备级别高可用采用堆叠;
交换机链路级别高可用采用 LACP 动态聚合;
AC 高可用采用 MM 集群双主模式负载;
出口 Gateway 设备级别高可用采用 Keepalived;
出口 Gateway 链路级别高可用采用 LACP 动态聚合;
故障现象描述
核心交换机堆叠故障演练步骤及现象
进行核心 2 交换机的宕机操作,用户流量正常切换;
进行核心 2 交换机恢复操作,用户流量正常切换;
进行核心 1 交换机宕机操作,用户流量中断;
进行核心 1 交换机恢复操作,用户流量恢复;
21 层汇聚交换机堆叠故障演练步骤及现象
进行 21 层汇聚 2 交换机的宕机操作,用户流量正常切换;
进行 21 层汇聚 2 交换机恢复操作,用户流量正常切换;
进行 21 层汇聚 1 交换机宕机操作,用户流量中断;
进行 21 层汇聚 1 交换机恢复操作,用户流量恢复;
排查过程
进行核心堆叠高可用演练、21 层汇聚高可用演练,演练现象如上故障现象描述,无法高可用负载用户流量;
检查 21 层汇聚接口状态,汇聚接口状态 up,配置正常;
对核心的堆叠配置进行了检查,发现核心堆叠系统的两台交换机版本不同;
不确定是核心堆叠的问题,还是 21 层汇聚堆叠的问题,因此先进行其他楼层的堆叠演练,实际演练发现 19 层和 20 层堆叠高可用故障演练都能够正常负载;
升级核心交换机版本,使得堆叠版本一致;
重新测试核心高可用演或 21 层汇聚高可用演练练还是故障现象依旧;
开始怀疑生成树影响了切换,但是检查生成树没有发现异常,于是暂时先将核心与 AC、核心与 MOMO 的出口断开,重新演练,故障现象仍然依旧;
再次排查核心生成树,发现一个奇怪的现象,核心生成树(为根)与 21 层汇聚互联的接口,除了聚合指定接口外(与 21 层汇聚相连的 Ag1),多出了一个与 21 层汇聚 2 相连的物理接口 Te2/0/1 的指定接口;
检查核心聚合该接口配置,发现该接口配置丢失,该接口脱离了聚合口;并且该接口是默认配置(只允许了 vlan 1 通过);至此问题原因理清。
原因总结
切换失败直接的原因由于 21 层汇聚交换机 2 与核心交换机 2 之间的链路存在问题(21 层核心侧聚合组内物理接口配置丢失导致),因此当 21 层汇聚交换机 1 或者核心交换机 1 宕机时,21 层的用户流量无法被负载。
根因分析(由于演练切换的特殊性,没有收集到日志,因此将常见原因列出)
两台核心交换机的版本不同:做堆叠后可能存在未知异常,比如配置丢失问题;
配置方法问题:在思科系交换机配置聚合口时,推荐先不要创建聚合口,应该先将物理口加入聚合口,由系统自动生成聚合口,否则可能会出现丢聚合口配置问题;
后续高可用演练准备工作
检查堆叠设备版本,设备版本不同先升级堆叠设备版本到相同的稳定版本;
检查设备配置;
检查设备和所有接口状态;
检查设备连接是否符合预期;
开始高可用演练。
版权声明: 本文为 InfoQ 作者【BUG侦探】的原创文章。
原文链接:【http://xie.infoq.cn/article/628e970a7a1dfcf34881c78ec】。文章转载请联系作者。
评论