写点什么

从人工分析到智能分析,流量分析如何快速上手?

作者:智维数据
  • 2023-01-29
    北京
  • 本文字数:2233 字

    阅读完需:约 7 分钟

从人工分析到智能分析,流量分析如何快速上手?

国内各行业的 IT 信息化建设正处于高速发展阶段,业务量与日剧增,伴随着数据大集中,以及业务系统的快速上线,运维部门作为业务网络保障部门面临着巨大挑战和压力。由于各种关键业务和应用都被承载在基础架构、WEB 应用、中间件和数据库上,同时业务系统上线需实现快速、灵活、按需的可插入式部署能力,这使得业务的复杂性和维护难度大幅增加。如何对这些复杂的业务系统进行有效监控和风险防范,保障关键业务的高性能和高可用性,以及如何对现有的运维流程进行优化,不断提升管理和运维水平已经成为新的难题。

以某企业为例,该企业的数据中心部署了大量负载均衡设备,经常出现大量 Limiting closed port RST Respond 告警信息,由于没有流量分析能力以及标准运维工作流程,每次出现该问题时运维人员不知道是如何引起,对业务有没有影响。因此定位故障总是需要耗费大量时间,造成排查效率较低。具体难点如下:

  • 业务运行环境越来越复杂,故障定位慢,各种业务系统越来越多,系统对相关资源的依赖性高,系统一但出现任何问题,需要逐个排查,故障定位难;

  • 运维工作繁重,缺少工具和手段,维护人员每天面临大量的重复性、手工性的故障排查工作,不仅费时费力,而且容易出错,亟需新的手段帮助提升效率;

  • 日常运维工作流程混乱,或者没有标准流程,造成工作效率低下,同时客户抱怨、投诉不减;

为解决以上运维痛点,nCompass 流量分析平台从用户的实际情况出发,以数据作为切入点进行面向业务的数据可视化智能分析,从智能告警-数据回溯-数据分析-故障定位-分析流程代码化-智能分析六方面解决目前运维管理中面临的一些实际问题。


告警出现

F5 设备出现大量 Limiting closed port RST Respond 告警信息。

【告警示意图】


由上图可以看出,某企业 F5 设备出现了大量 Limiting closed port RST Respond 告警信息,并且告警信息一直在持续,运维人员无从下手。


数据回溯

nCompass 通过数据可视化手段,将维度指标的组合过滤进行问题回溯,可查询各个 VLAN 中 Reset 包信息以及 Reset 包数量。经过过滤后的表格可以看到是哪一个 VLAN 的 Reset 数量最高。

【维度选择示意图】


【指标选择示意图】


【数据表格示意图】


通过上图“数据表格示意图”,可以看出,在 nCompass 数据表格选择好维度与指标后,可以将相关数据全部在数据表格中得以展现,通过展示出的数据得出 VLAN2007 REST 数量最高。


数据分析

接下来对表格中通过添加维度的方式对 Reset 数量最高的 VLAN 进行下钻分析,可以看出客户侧 Reset 包无明显异常 IP,服务侧 Reset 列发现 0.16 服务端 Reset 占比超过 80%。

【客户端下钻示意图】


【服务端下钻示意图】


在得出 VLAN2007 REST 数量最高后,我们要对其进行下钻分析,首先进行客户端下钻,通过上图“客户端下钻示意图”可以看出,客户端 REST 数量虽然总数过高,但是平均在每一个客户端上之后,只有几个或者几十个,所以可以先排除客户端异常。我们接下来在对服务端进行下钻分析,通过上图“服务端下钻示意图”发现服务端 REST 指标列最高达到了 1,565,194 个,他对应的 IP 为*.*.0.16,可以得出结论,服务端*.*.0.16 为异常 IP。

再通过 nCompass DNS 解析发现 0.16 对应域名 telemetry.*******.com 非公司域名。

【DNS解析示意图】


得出异常 IP 后,我们可以将其带入至 nCompass 内置视图 DNS 解析中,通过“DNS 解析示意图”中可以看出,异常 IP*.*.0.16 对应域名为 telemetry.*******.com,经过 DNS 与 CMDB 的排查得出 telemetry.*******.com 非本公司正常域名。


故障定位

通过 F5 将 0.16 加入黑名单进行拦截后,整体服务端 Reset 下降明显,Limiting closed port  RST Respond 相关告警趋势明显下降。由此可见,造成 Limiting closed port  RST Respond 相关告警量突增的原因就是由 0.16 导致。


【告警趋势示意图】


将异常 IP 的访问进行拦截后,可以通过上图“告警趋势示意图”看出,告警趋势明显下降。


分析流程代码化

nCompass 作为新一代数据可视化智能分析平台,不仅拥有可视化分析能力,可以快速定位故障所在,同时,系统还支持将运维人员分析问题的经验代码化,将个体经验留存至系统知识库中,此后再有类似告警产生,系统将自动调用先前录入的智能分析脚本。

【代码化示意图】


如上图“代码化示意图”所示,在每一次解决问题之后,nCompass 可以将分析经验进行代码化,当在出现类似问题时,可以直接进行调用,一键分析问题,提高运维效率。如果您是一位编程高手或是遇有复杂的分析场景,产品也提供 Python 编辑器,来实现复杂的数据分析脚本。


智能分析

当告警产生,系统将自动调用智能知识库,给出故障的详细分析报告。报告内容包括分析对象、异常现象、分析结论、排错具体命令、后续建议等,同时报告中还会提供详尽的数据分析过程数据,以支撑分析结论,为运维人员下一步处置提供决策支持。


【智能分析报告示意图】


nCompass 采用多源数据的采集方式,不仅可以基于流量进行分析,还支持与 DNS、CMDB 等进行对接,实现更深层次的关联分析。如上图“智能分析报告示意图”所示可以看出,分析对象为 VLAN2007,在 8 月 22 日,发生了异常 REST 日志现象,我们不仅通过流量对其进行分析,还通过 DNS 与 CMDB 的自动调用来确定域名为异常域名,并且针对现象给出合理建议。

nCompass 流量分析平台从告警出现-数据回溯-数据分析-故障定位-分析流程代码化-智能分析六个方面为运维人员实现了从人工分析到智能分析的转变,在提供大量数据支撑的同时,还为运维人员提供一键式的故障分析能力,大幅降低了运维数据分析时对某些特定领域内专业经验的依赖,提升了团队的整体排障效率。为运维人员真正解决了日常运维故障定位难、运维工作繁重、重复性高、没有标准流程的困扰,实现运维故障“简单、快速,一键输出分析结果”。

(备注:本文中的图片均为 demo 数据演示,并不具备任何真实性,若您对该稿件内容有任何疑问或质疑,请与我们联系。)

发布于: 刚刚阅读数: 4
用户头像

智维数据

关注

还未添加个人签名 2022-11-01 加入

还未添加个人简介

评论

发布
暂无评论
从人工分析到智能分析,流量分析如何快速上手?_智能运维_智维数据_InfoQ写作社区