动态感知,智能监控|全维度网络链路管理解决方案
一、行业背景
近年来,面对互联网金融的竞争,为了应对市场变化,传统银行将更多的金融服务类产品投入到市场当中,比如第三方支付、网络信贷等金融消费类业务。这些新的业务在为银行创造更高经济收益与社会效益的同时,也对银行 IT 系统的持续、高效能服务能力提出了更高的要求。因此,金融行业都在开始尝试自己的数字化转型之路,新技术也随之迅猛发展。
银行业务的快速发展以及业务模式逐步由网点向电子渠道的转化,导致了金融行业的 IT 资产、业务系统、辅助系统急速增加,这使得稳态应用和敏态应用并存的双模 IT 成为常态,系统的复杂性及维护这些系统带来的运维工作量也随之增长。维护系统的可靠稳定运行仅仅依靠增加人力的方式,其边际效应递减愈加明显。因此金融机构需要从运维模式上进行根本性的变化,才能适应数字化转型和金融科技发展的需求。
基于以上运维模式的痛点,自动化、智能化理念得到了快速推广。运维模式的变化也给运维部门在管理、组织、流程、技术、工具等方面带来了全新的变化。传统人工为主的运维方式已经完全无法适应当前管理的需要,金融行业的系统运维更迫切地需要向自动化、智能化模式转变。
以某银行的链路监控分析为例:近年来,该银行运维需要监控以及管理的链路呈几何式的增长,外联、互联网、广域网上千条链路很难进行监控与维护,具体难点如下:
1、缺乏链路用量数据分析平台,无法对链路详情进行直观的展示;
2、数据链路较多,每条链路的带宽使用规律无法详细掌握,无法针对链路自身使用情况进行精准监控与告警。一刀切的固定阈值告警非常容易出现误告以及无效告警,大量消耗运维人员的精力;
3、不能生成各业务对于链路带宽消耗的明细数据,无法将链路数据与业务数据进行关联,无法了解各业务对于链路带宽的影响。由于一般业务数据在 SSL 前都会进行加密,且解密后的数据要经过众多的网络设备,通常类似负载均衡防火墙 SSL 设备都会进行 IP SNAT,所以很难根据 IP 对一条会话在数据中心内部进行串联。这导致网络运维在链路分析时缺乏业务 URL 级别的链路占比分析,一旦出现突发,无法感知业务的行为,网络运维人员无法做出快速决策;
4、一旦链路出现流量突发或者带宽满负荷的情况,需人工手动分析,无法由机器自动生成智能分析报告;
5、链路带宽容量缺乏长期同比、环比的统计数据,无法为链路容量增加与缩减提供充足的数据支撑。
二、解决方案
为了满足客户需求,智维数据结合了产品自身的功能特点,推出 nCompass 网络链路智能管理解决方案。该方案分为可视->可告警->可分析->可统计四个步骤,能够对数据中心链路进行如下管理:
1、可视化
nCompass 提供专业的链路带宽可视化视图,供运维人员查看。视图可以根据链路使用情况进行自动 Top 排名,同时可以展示每条链路一段时间内的变化情况。与传统的网络链路监控工具不同的是,nCompass 可以提供详细的链路带宽使用明细,可以基于业务维度、通讯对维度去展示当前时间段内带宽消耗最大的对象。
【上图为 demo 数据演示】
(该部分主要展示链路详情视图,各指标均可双击展示曲线获得。右侧视图展示该链路相关的通讯对详情;右上角为统计数据,展示的是高带宽占用与低带宽占用数量的统计计数。)
2、可告警
nCompass 提供智能化的告警服务,与传统的网络链路监控工具不同的是 nCompass 具备智能分析引擎,对于每条链路的指标数据都会进行数据建模,形成智能基线。若链路带宽用量出现突发时,通过该链路自身数据的智能基线以及变化分析,能够实现快速告警。
【上图为 demo 数据演示】
(基线分为基线上限和基线下限,nCompass 利用建模数据动态生成基线,帮助运维人员确定指标波动范围,减少人工定义阈值导致的故障忽略或误报警。)
【上图为 demo 数据演示】
(一般采用固定阈值与智能基线结合的方式进行链路告警,从而保证告警均合理且符合链路自身真实状态)
3、可分析
nCompass 提供自动分析报告,无需人工分析。通过异常检测触发智能分析模块,实现带宽异常事件的快速分析。该分析主要分为两个部分:
(1)异常检测模块:
【上图为 demo 数据演示】
(通过异常检测告警触发智能分析,找到突变的数据,从而触发智能分析)
(2)智能分析模块:
nCompass 能够实现对带宽占比 Top 对象的分析,通过独有的智能分析引擎,可以对该链路上运行的业务流量进行分析,找到对于本次链路变化贡献度最大的对象,并将明细列出来;
nCompass 通过与防火墙、负载均衡、SSL 的日志对接,实现了数据中心数据流以 IP 维度的数据缝合,且在 SSL 后的设备上获取到的明文流量设备可以直接进行七层数据的解码,得到与其前端链路相关的 IP 和 URL,帮助网络运维人员增强业务对链路影响的了解。
(nCompass 通过与防火墙 SSL 负载均衡的日志对接,完美解决了地址 NAT 转换带来的运维难题,将一条会话的多节点进行了串联,在分析链路流量突增、突降时,可以直接看到影响该链路的业务名称、业务 IP 和具体的 URL)
四、智能分析报告详解
【上图为 demo 数据演示】
(此部分为分析报告的开头,nCompass 分析报告能够自动罗列出分析对象、异常事件、异常现象、分析结论以及相关的解决建议,帮助客户快速找到异常原因)
【上图为 demo 数据演示】
(此部分展示检测到异常的指标以及该指标的解释,并且可点击全部结果查看全部的分析指标)
【上图为 demo 数据演示】
(此部分展示异常指标一段时间的流量趋势图、分析结论中对带宽消耗较大的业务的流量趋势图以及该业务对于本次突发事件的贡献度)
【上图为 demo 数据演示】
(此部分展示在此次链路流量突发事件中,对带宽占比较大的 TOP URL 的流量曲线图以及对应的变化值、贡献等指标)
4、可统计
nCompass 提供链路分析的中长期报表,同时通过链路分析独有的流入吞吐量、流出吞吐量、带宽流入利用率、带宽流出利用率等指标,对一个月、半年、一年的链路带宽使用情况进行统计分析,形成同比、环比数据,基于各链路自身情况,进行分析并统计分析报表,为链路容量决策提供依据。
【上图为 demo 数据演示】
三、价值总结
nCompass 帮助运维人员在链路管理方面开启了人工手动运维到智能运维的转变,实现了可视->可告警->可分析->可统计全方位运维管理策略。通过机器代替人工的探索,为链路管理决策与日常维护提供了大量的数据支撑,充分释放了运维人员的压力,帮助运维人员提升了工作效率。
运维体系作为金融企业数字化转型的重要支撑,可以为企业带来成本的降低以及效率的提升。后续我们还会有更多的场景与大家分享,敬请期待!
版权声明: 本文为 InfoQ 作者【智维数据】的原创文章。
原文链接:【http://xie.infoq.cn/article/18d89e161841d47303f047888】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论