写点什么

云网络运维必备神器:全链路故障诊断与分析

  • 2022-12-30
    贵州
  • 本文字数:3100 字

    阅读完需:约 10 分钟

云网络运维必备神器:全链路故障诊断与分析

本文分享自华为云社区《云网络运维必备神器:全链路故障诊断与分析》,作者: 大架光临。


作者:周艳春 华为云 Stack 高级工程师

背景


网络作为云计算的核心支柱之一,经历了从传统设备到虚拟化设备的演进历程,从物理网络延伸到更为灵活的云网络。云网络的网络范围又从传统的物理网络,延伸到了辑网络、虚拟网络。


在云网络中,逻辑网络为用户提供可配置的网络服务,逻辑网络中常见的元素有虚拟机、子网、安全组、VPC、EIP 等网络服务;虚拟网络主要由各类软网元组成,如虚拟交换机、虚拟路由器、虚拟防火墙等虚拟网络设备。云网络整体架构通常分为 Overlay 和 Underlay 两层,虚拟网络主要承载 Overlay 层,物理网络主要承载云网络中的 Underlay 层。


当前,云网络面临场景多、流量复杂、软硬融合和云网协同场景定界难等问题。云网络运维也面临着诸多挑战,如网络流量路径不可视、问题定位周期长、对网络运维人员的要求不断提高等。急需一个切实可行的网络运维解决方案,来解决以上问题。

全链路故障诊断与分析平台介绍


华为云 Stack 全链路故障诊断与分析平台(简称全链路),以云网络中的逻辑网络、虚拟网络、物理网络作为网络故障分析诊断切入点,以三层网络路径拓扑为核心,端到端实现三层网络路径可视化。三层网络路径之间通过映射规则,互相关联,动态映射,对三层网络运维进行整合,实现了三层网络统一可视、统一运维,解决了三层网络链路相互割裂,独立运维的弊端。

一、基于静态网络配置的逻辑网络仿真验证


逻辑网络仿真对网络服务进行统一建模和轻量级协议仿真,形成网络模型、使用转发模型映射出实际的网络结构。基于逻辑网络仿真验证,对租户网络配置进行检查和核对。一方面,可以检查源 IP 和目的 IP 之间的路径连通性;第二方面,可以发现由于网络配置错误导致的连接异常问题;第三方面,还能够还原源 IP 与目的 IP 之间的逻辑网络路径信息,如图展示了源 IP 与目的 IP 之间存在的逻辑网络服务。



逻辑网络路径展示例子

二、逻辑网络到虚拟网络路径映射


逻辑网络路径展示了源 IP 和目的 IP 之间的网路服务,不同的网络服务对应了虚拟网络中特定的实现载体。即逻辑网络路径可以通过特定的映射规则动态转换得到虚拟网络路径。映射规则全局具有唯一性,不同流量场景中的一个或者多个逻辑网络路径节点,只要匹配了某条映射规则,则都映射成同一类型的虚拟网络节点。新增网络服务后,若现有的映射规则不能实现正确的映射,只需要增加新的映射规则即可,在设计上满足面向扩展开放。如下图所示,逻辑网络路径通过映射规则计算出对应的虚拟网络,图中的控制面即为逻辑网络路径。


逻辑网络路径到虚拟网络路径的映射举例

三、基于虚拟网络路径的数据面拨测


拨测是一种探测网络路径连通性和链路质量的测量手段。对指定虚拟网络路径进行拨测,也就是向拨测路径的起始节点注入指定数量的染色拨测报文,对于中间节点只需要关注拨测报文的数量和 TTL 顺序是否跟预期的一致,就能判断拨测报文是否经过指定的虚拟网络路径。该种拨测方法可以不区分流量类型,不感知流量类型的组合,实现一次开发,支持所有组合场景和复杂场景的拨测。


在软硬融合、云网协同场景中,为了追求网关的高性能、低时延,频繁的使用硬件交换机作为高性能云网关,如华为云 Stack L3gw、L2br、裸机高性能网关等场景。在虚拟网络路径中,若硬件交换机网关作为拨测起点或拨测终点,为实现双向拨测,则需要向硬件交换机注入拨测报文的能力。


针对硬件交换机网关拨测全链路有自己的解决之道。首先,硬件交换机与运维程序宿主机建立通信隧道,拨测控制器把拨测报文通过该隧道发送到硬件交换机上。其次,交换机需要支持基础的报文镜像功能,用于把拨测报文镜像到拨测分析器;最后,在交换机网关上配置出云方向拨测报文丢弃策略,防止拨测报文影响用户业务。


若硬件交换机网关作为拨测起点,则拨测控制器向硬件交换机网关注入拨测报文,发起拨测;若硬件交换机网关作为拨测终点,则拨测分析器收到硬件交换机网关的上行拨测报文后,向硬件交换机网关注入回程拨测报文,以完成双向拨测。


硬件交换机拨测原理图

四、物理网络路径展示


探测拨测报文经过的物理交换机,依然可以利用交换机的报文镜像功能这一杀手锏。Underlay 层所有交换机开启报文镜像功能,若拨测报文经过交换机,即可把拨测报文镜像到拨测分析器,拨测分析器综合对虚拟网络路径和交换机镜像的拨测报文 TTL 等信息进行整合分析,还原出拨测报文经过的物理网络路径。


虚拟网络路径中的网元节点映射到物理网络路径中的网元宿主机,即网络节点。物理网络路径可以直观展示两个网元节点之间的物理网络设备信息。下图展示了源 IP 和目的 IP 之间的物理网络设备,图中可以看到计算节点和网络节点之间经过的交换机设备。


物理网络路径展示例子

架构简介


全链路故障诊断与分析平台的系统架构如图所示。


全链路系统架构


  • 全链路展示 UI:提供全链路任务创建,任务展示等操作入口,三层网络链路界面展示,故障诊断信息界面展示。

  • 任务管理:生成拨测任务,下发拨测任务到拨测节点。

  • 三层网络路径还原:分析拨测任务五元组信息,拉取相关的静态网络资源配置,仿真验证,还原逻辑网络路径;逻辑网络路径映射到虚拟网路路径,指定虚拟网络路径拨测;虚拟网元节点映射到网元宿主机,物理网络路径还原,物理设备详细信息补全。

  • 拨测结果分析:分析拨测 Agent 和物理交换机镜像的拨测报文,统计虚拟网络节点的丢包率、时延。

  • 对外 API: API 用于前端界面调用或者第三方系统调用。

  • 拨测 Agent: 注入染色拨测报文,镜像拨测报文到拨测结果分析模块。需要在所有的计算节点和网元节点部署。

  • 报文镜像功能: 物理交换机的基础能力,开启后可以把染色的拨测报文镜像到拨测结果分析模块。

全链路设计关键点

一、三层网络路径统一展示


全链路使云网络中逻辑网络路径、虚拟网络路径、物理网络路径,三层网络端到端的路径实现可视化。三层网络路径网络资源覆盖全面,展示了源 IP 和目的 IP 之间的所有关键资源信息,包括逻辑网络客户的网络服务配置,虚拟网络和物理网络节点信息。三层网络层层映射,网络资源的关联关系一目了然。


三层网络路径展示例子

二、基于三层网络路径,实现高效故障诊断


全链路具有网络故障诊断定位手段多样化、故障诊断效率高的特点。


全链路故障诊断集成了控制面仿真,数据面拨测和客户网络抓包、物理流分析等网络故障定位手段,可以实现云网络故障分钟级定界定位,根因排查建议集成了丰富的专家经验。从出错概率高的控制面入手排查,优先检查关键的虚拟网关,再检查物理交换机,发现问题更快速。


全链路故障诊断路由表缺失案例


全链路故障诊断硬件交换机网关路由丢失案例

三、简单易用


对于使用全链路的用户来说,只需要知道需要探测的源 IP 和目的 IP,选择拨测协议类型,如果选择 TCP 和 UDP 协议,用户还需要输入源端口和目的端口。用户不需要学习复杂的网络知识,即可使用全链路进行网络运维,非常的简单和易用。


全链路创建拨测任务界面


用户创建全链路拨测任务后,在任务展示页面可以看到任务信息。状态字段可以展示每一层网络路径的执行状态信息,如虚拟网络路径相关状态包括:虚拟网络任务执行中、虚拟网络任务执行成功、虚拟网络任务执行失败。流量类型字段显示源 IP 和目的 IP 之间关联的所有网络服务。


全链路任务列表

总结


华为云 Stack 全链路故障诊断与分析平台为客户提供简单易用的交互界面,用户输入探测五元组,即可快速还原逻辑网络、虚拟网络、物理网络路径,为客户展示端到端的三层可视化流量路径。三层网络链路展示具有网络资源覆盖面广、定位手段多样化、故障诊断效率高的特点,可以有效提升产品的网络运维竞争力,降低对网络运维人员的专业性要求,提升网络故障定位效率,实现网络故障分钟级定界。


点击关注,第一时间了解华为云新鲜技术~

发布于: 刚刚阅读数: 3
用户头像

提供全面深入的云计算技术干货 2020-07-14 加入

生于云,长于云,让开发者成为决定性力量

评论

发布
暂无评论
云网络运维必备神器:全链路故障诊断与分析_云计算_华为云开发者联盟_InfoQ写作社区