写点什么

H3C 核心交换机故障处理通用流程

发布于: 2020 年 12 月 14 日

故障处理注意事项



更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。



  • 记录具体的故障现象、故障时间、配置信息。

  • 记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。

  • 记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。

  • 记录故障处理过程中配置的所有命令行显示信息。

  • 搜集设备日志信息和diag信息。

  • 记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。

  • 记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。



故障处理过程中,请注意:



  • 明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。

  • 操作执行后请等待一定时间以确认执行效果。

  • 请不要保存故障处理过程中的配置,特别是出现IRF分裂、单板Fault、单板重启时,否则会引起配置丢失。

  • 更换主控板时,请确保新、老主控板的软件版本一致。



如何搜集设备运行信息



设备运行过程中会产生logfile日志信息及记录设备运行状态的diag信息。这些信息存储在CF卡中(cfa0或cfa 1),可以通过FTP、TFTP、USB等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。





1、logfile日志



请先通过logfile save将设备缓存的logfile日志保存CF卡中,并将日志搜集完整,包括:主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志。



<Sysname>logfile save



Saved the log file buffer to file cfa0:/logfile/logfile7.log successfully.



主用主控板logfile日志:



<Sysname>dir



Directory of cfa0:/logfile/



0 -rw- 5209069 Apr 23 2013 22:06:56 logfile1.log



1 -rw- 5200061 May 04 2013 02:36:44 logfile2.log



2 -rw- 5205918 May 09 2013 02:41:10 logfile3.log



1021808 KB total (790736 KB free)



File system type of cfa0: FAT16



备用主控板logfile日志:



<Sysname>dir



Directory of slot1#cfa0:/logfile/



0 -rw- 5221735 Apr 10 2013 17:53:14 logfile1.log



1 -rw- 5227102 Apr 10 2013 18:54:34 logfile2.log



2 -rw- 3352896 May 16 2013 20:15:44 logfile3.log



1020068 KB total (643264 KB free)



File system type of slot1#cfa0: FAT32



IRF下备框主控板logfile日志,如备框有两块主控板,则两块都需要搜集:



<Sysname>dir



Directory of chassis2#slot0#cfa0:/logfile/



0 -rw- 5223211 May 15 2013 12:38:44 logfile1.log



1 -rw- 2639526 May 15 2013 20:01:14 logfile2.log



2 -rw- 5223207 May 15 2013 11:22:24 logfile3.log



1021808 KB total (773424 KB free)



File system type of chassis2#slot0#cfa0: FAT16



2、diag信息



执行display diagnostic-information命令后,请输入“Y”,以选择将diag保存到CF卡中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。



<Sysname>display diagnostic-information



Save or display diagnostic information (Y=save, N=display)? [Y/N]:y



Please input the file name(*.diag)[cfa0:/default.diag]:20130517.diag



Diagnostic information is outputting to cfa0:/20130517.diag.



Please wait...



Save successfully.



<Sysname>dir cfa0:/



Directory of cfa0:/



……



17 -rw- 5151331 May 17 2013 17:38:32 20130517.diag



1020068 KB total (735536 KB free)



File system type of cfa0: FAT32



也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-length disable,避免屏幕输出被打断,如下:



<Sysname>screen-length disable



% Screen-length configuration is disabled for current user.



<Sysname>display diagnostic-information



Save or display diagnostic information (Y=save, N=display)? [Y/N]:n



=================================================================



===============running CPU usage information===============



=================================================================



===== Current CPU usage info =====



CPU Usage Stat. Cycle: 19 (Second)



CPU Usage : 5%



CPU Usage Stat. Time : 2013-05-21 10:06:25



CPU Usage Stat. Tick : 0x19aa(CPU Tick High) 0xa57f44e1(CPU Tick Low)



Actual Stat. Cycle : 0x0(CPU Tick High) 0x39fb1e03(CPU Tick Low)



……



故障定位和处理



设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。



1、故障处理流程图





故障分析时常用的方法有:



  • 端口报文计数

  • 报文镜像

  • 端口抓包

  • 配置QoS策略进行流量统计

  • Debug开关信息

  • 对怀疑故障的模块交叉验证(比如:怀疑某个端口光模块异常,可以将其他正常的光模块装在这个端口、将怀疑异常的光模块装到别的端口进行确认;怀疑某个槽位单板异常,可以将别的正常单板装到这个槽位、将怀疑异常的单板装到本设备其他槽位或装到别的交换机上确认)。



2、故障原因分类



1. 单板故障



2. 电源故障



3. 风扇故障



4. 温度告警



5. 链路端口故障



6. 硬件转发故障



7. 报文转发故障



8. IRF故障



9. CPU占用率高



10. 资源不足



3、故障模型及影响分析



下图是一个典型网络故障模型,为提高网络的可靠性,便于故障时快速切换恢复,组网中采用双上行链路,两台核心交换机之间互为备份。







4、常见的故障恢复措施





用户头像

公众号:网络技术平台。分享网络技术和经验 2020.10.19 加入

公众号:网络技术平台。让学习变得更有趣,网络变得更简单。

评论

发布
暂无评论
H3C核心交换机故障处理通用流程