H3C 核心交换机故障处理通用流程
故障处理注意事项
更换和维护设备部件时,请佩戴防静电手腕,以确保您和设备的安全。设备正常运行时,建议您在完成重要功能的配置后,及时保存当前配置,以便设备出现故障后能迅速恢复配置。设备出现故障时,请尽可能全面、详细地记录现场信息(包括但不限于以下内容),搜集信息越全面、越详细,越有利于故障的快速定位。
记录具体的故障现象、故障时间、配置信息。
记录完整的网络拓扑,包括组网图、端口连接关系、故障位置。
记录现场采取的故障处理措施(比如配置操作、插拔线缆、手工重启设备)及实施后的现象效果。
记录故障处理过程中配置的所有命令行显示信息。
搜集设备日志信息和diag信息。
记录抓取的报文信息、Debug开关打印信息、主控板与网板持续异常重启的串口输出信息。
记录设备故障时单板、电源、风扇指示灯的状态,或给现场设备拍照记录。
故障处理过程中,请注意:
明确每项配置操作的影响,保证操作出问题时能够被恢复,故障影响不会扩大。
操作执行后请等待一定时间以确认执行效果。
请不要保存故障处理过程中的配置,特别是出现IRF分裂、单板Fault、单板重启时,否则会引起配置丢失。
更换主控板时,请确保新、老主控板的软件版本一致。
如何搜集设备运行信息
设备运行过程中会产生logfile日志信息及记录设备运行状态的diag信息。这些信息存储在CF卡中(cfa0或cfa 1),可以通过FTP、TFTP、USB等方式导出。不同主控板中导出的logfile、diag文件请按照一定规则存放(如不同的文件夹:chassisXslotY),避免不同主控板的运行信息相互混淆,以方便查询。
1、logfile日志
请先通过logfile save将设备缓存的logfile日志保存CF卡中,并将日志搜集完整,包括:主用主控板、备用主控板、IRF下主框/备框各主备主控板的日志。
<Sysname>logfile save
Saved the log file buffer to file cfa0:/logfile/logfile7.log successfully.
主用主控板logfile日志:
<Sysname>dir
Directory of cfa0:/logfile/
0 -rw- 5209069 Apr 23 2013 22:06:56 logfile1.log
1 -rw- 5200061 May 04 2013 02:36:44 logfile2.log
2 -rw- 5205918 May 09 2013 02:41:10 logfile3.log
1021808 KB total (790736 KB free)
File system type of cfa0: FAT16
备用主控板logfile日志:
<Sysname>dir
Directory of slot1#cfa0:/logfile/
0 -rw- 5221735 Apr 10 2013 17:53:14 logfile1.log
1 -rw- 5227102 Apr 10 2013 18:54:34 logfile2.log
2 -rw- 3352896 May 16 2013 20:15:44 logfile3.log
1020068 KB total (643264 KB free)
File system type of slot1#cfa0: FAT32
IRF下备框主控板logfile日志,如备框有两块主控板,则两块都需要搜集:
<Sysname>dir
Directory of chassis2#slot0#cfa0:/logfile/
0 -rw- 5223211 May 15 2013 12:38:44 logfile1.log
1 -rw- 2639526 May 15 2013 20:01:14 logfile2.log
2 -rw- 5223207 May 15 2013 11:22:24 logfile3.log
1021808 KB total (773424 KB free)
File system type of chassis2#slot0#cfa0: FAT16
2、diag信息
执行display diagnostic-information命令后,请输入“Y”,以选择将diag保存到CF卡中(选择display会出现信息搜集不全)。设备上单板越多,diag信息搜集的时间越长,信息搜集期间不能输入命令,请耐心等待。
<Sysname>display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:y
Please input the file name(*.diag)[cfa0:/default.diag]:20130517.diag
Diagnostic information is outputting to cfa0:/20130517.diag.
Please wait...
Save successfully.
<Sysname>dir cfa0:/
Directory of cfa0:/
……
17 -rw- 5151331 May 17 2013 17:38:32 20130517.diag
1020068 KB total (735536 KB free)
File system type of cfa0: FAT32
也可以将diag信息直接显示出来(不建议这样搜集),搜集前请先执行screen-length disable,避免屏幕输出被打断,如下:
<Sysname>screen-length disable
% Screen-length configuration is disabled for current user.
<Sysname>display diagnostic-information
Save or display diagnostic information (Y=save, N=display)? [Y/N]:n
=================================================================
===============running CPU usage information===============
=================================================================
===== Current CPU usage info =====
CPU Usage Stat. Cycle: 19 (Second)
CPU Usage : 5%
CPU Usage Stat. Time : 2013-05-21 10:06:25
CPU Usage Stat. Tick : 0x19aa(CPU Tick High) 0xa57f44e1(CPU Tick Low)
Actual Stat. Cycle : 0x0(CPU Tick High) 0x39fb1e03(CPU Tick Low)
……
故障定位和处理
设备出现故障时,请先搜集设备运行的相关信息,判断大致的故障类型,然后参照对应类型的故障处理流程进行确认。如遇到故障无法确认,请将故障描述连同搜集的信息发送给公司技术支持人员分析。
1、故障处理流程图
故障分析时常用的方法有:
端口报文计数
报文镜像
端口抓包
配置QoS策略进行流量统计
Debug开关信息
对怀疑故障的模块交叉验证(比如:怀疑某个端口光模块异常,可以将其他正常的光模块装在这个端口、将怀疑异常的光模块装到别的端口进行确认;怀疑某个槽位单板异常,可以将别的正常单板装到这个槽位、将怀疑异常的单板装到本设备其他槽位或装到别的交换机上确认)。
2、故障原因分类
1. 单板故障
2. 电源故障
3. 风扇故障
4. 温度告警
5. 链路端口故障
6. 硬件转发故障
7. 报文转发故障
8. IRF故障
9. CPU占用率高
10. 资源不足
3、故障模型及影响分析
下图是一个典型网络故障模型,为提高网络的可靠性,便于故障时快速切换恢复,组网中采用双上行链路,两台核心交换机之间互为备份。
4、常见的故障恢复措施
评论