应用交付可视化助力互联网行业提升办公网效率与满意度
❶
大型公司的运维痛点
互联网巨头 X 在全球员工数万人,业务覆盖上百个国家与地区。IT 作为技术支撑部门,服务的对象主要是企业内部员工,要保障办公网络流畅、稳定,支撑数万员工高效办公,网络部门面临不少监控难题:
1、之前的监控体系主要基于基础架构层的硬件、资源监控,对于负载设备所承载的应用服务质量缺少监控能力;
2、负载日志监控体系分散,各个监控工具各自独立,有问题时才能进行数据回溯,缺乏故障预警能力;
3、目前的监控体系仍然存在盲区,无法做到业务级别的数据洞察,因此对用户体验常常缺乏感知;
4、由于负载前后端地址转换复杂,给故障排查带来了较大挑战,运维效率急需提升;
5、伴随公司业务高速发展,网络端需要应对业务复杂度不断提升以及团队规模持续变大的挑战,为减少因故障带来的组织效率影响,因此需要更好的管控应用风险。
X 公司如何保障业务端流转高效、稳定的同时消除应用交付的盲区,提升运维服务能力、效率与满意度?
❷
网络访问需要稳定快速,合规有序
智维数据提供解决方案
基于客户的以上需求,智维数据的方案理念是:搭建一套以用户为核心的监控体系。借助负载设备承载应用、业务及用户访问的特性,从负载数据中实时抓取用户的每一次访问,通过负载配置和日志数据,分析设备性能与用户体验情况,通过用户的真实访问数据,来监控数据中心关键业务的运行状态,当真实用户访问出现异常时,运维人员可以快速感知,对常规问题实现自动化处置,降低故障的影响。
❸
应用场景
低成本,轻量级,快速搭建应用服务质量监控系统
由于 X 公司之前的监控体系主要基于网络设备的性能数据,想要了解应用服务质量的情况,如果以流量镜像方式进行监控需部署大量采集点,成本较高;原有的几个监控平台可以对负载设备的日志进行采集,但对负载日志缺乏解读能力,查找关键问题需要耗费网络部门大量时间;网络部也测试过其他第三方平台,由于产品逻辑过于复杂,厂商光对接负载配置就花了好几天,且日志对接和读取都出现了问题。这使得运维人员很为难,有没有部署更灵活,对接成本更低的解决方式?
此时,智维数据的技术团队提出了新的方案,因为 X 公司需要监控的业务应用都承载在负载均衡上,通过智维数据自主研发的灵珑应用交付管理平台采集关键负载节点的日志数据,读取 HTTP 日志,就可以分析应用性能,而不需要按原始流量数据去做分析,这种部署方式按采集点进行费用核算,没有日志量的限制,将为 X 公司节约数倍的成本。
而在分析能力上,这种方式支持 HTTP、SSL、TCP 的业务层面分析,并按关键指标输出不同场景的可视化分析视图及分析建议,可读性强,为后面应用故障排查及用户体验分析提供了可靠数据基础。
应用交付一体化监控,消除传统日志监控盲区
X 公司原有的监控体系比较分散,设备告警由各自的设备产生并通过内部整合至自建的内部协同平台,但对负载日志缺乏监控,存在监控盲区。在发生应用交付设备问题时,需要通过负载设备进行逐一的日志回溯,原有的日志通过表格形式存档,回溯过程繁琐,只能呈现数据无法分析数据,需要人工解读海量日志,为运维端带来较大工作负担。
X 公司通过对接灵珑自动获取了全量的负载设备日志,以可视化报告的方式展现重要信息和分析结果。在告警层面,X 公司过去的告警功能偏向于传统的 ZABBIX 告警,对只能采集部分设备性能指标,如 CPU,内存,接口带宽等,但缺乏分析、预测能力。
现在,使用灵珑平台,除设备和日志外还包含审计、应用维度,150 + 标准化的监控分析指标,2000+异常日志的解释及处理建议,能自动输出分析报告,包含事故原因,事故影响范围,解决方案建议等,分析场景可结合负载自身配置信息,除了输出业务性能之外,还可以输出负载失败的记录(例如 DNS 没有走智能 DNS、会话保持异常分析等);结合 iRules,可以定向对特定业务做解码处理,获取业务信息;对于加密流量数据的分析,无需额外的解密。灵珑的分析模式为应用交付模式,贴合全代理架构展示,实现负载连接表持久化,更好的展示应用交付中的业务场景。
应用使用质量监控,提升用户体验
X 公司在全球上百个地区设有办公室,为了有效进行跨部门沟通协作,需要一套高效的远程办公和网络调度的机制。以前的解决方式主要依赖运维人员手动,当出现节点故障或访问人数过多的时候,就需要运维人员手动切换节点,完成 DNS 解析、甚至是节点部署工作。然而由于缺乏线路监控,难以判断切换时采用的是否为最优线路,而频繁的切换操作,工作负担也较大。
现在,通过灵珑结合流量监控信息,就可以很好的解决这一问题。首先运维人员可通过流量监控查看访问慢是否由于线路问题导致,保障每一次的切换都是最优路径;其次,如果线路本身没有问题,那么可以进一步通过灵珑的业务画像能力和数据缝合查看应用承载的负载均衡前后端信息,判断是哪一个通讯节点出现了故障。
比如,之前有业务部门反馈应用不可用,此时运维人员也查看到灵珑的事件异常告警,显示 DNS 解析出现异常,通过灵珑的日志查询功能,最后发现是负载日志的 iRules 出现了配置问题,本应该由 IPV6 业务出访,在负载端转换为 IPV4,导致整个访问不通。通过灵珑对日志、配置的查询和业务画像的联动分析能力,网络人员很快找到了 DNS 解析失败的原因。
流量缝合助力故障快速排查
协同系统打开慢,是大型公司网络运维经常遇到的问题,由于内部用户众多,应用交付节点多、构架复杂,需要快速定位故障点就非常困难。过去,对于已发生的故障需要等故障再次发生才能进行回溯,在故障处理过程中,由于每次排查可能并不是同一个地址,按之前设定的线路去查只能定位到线路而无法定位到 IP,难以一次解决问题根源。
现在,有了灵珑平台,运维人员实现了对这类的问题的高效处置:1 通过客户端域名与 DNS 域名解析,服务端口去查找,先确认公网的映射地址,通过流量监控查看,此时可确认数据传输有问题,但问题是负载导致还是公网导致,仍无法确认。2 通过灵珑的流量缝合能力,对接负载前后端的通讯对,发现从运营商 A 出去的线路访问正常,而运营商 B 的线路有异常,通过灵珑点开“事件详情”,发现是特定某一个 IP 转换出去有问题,其他 IP 是没有问题的。3 最后定位到这个 IP 跟负载的某个映射地点起了冲突,导致回包有问题,因为不同的 IP 被交换机拦截了。以前常见却总是难排查的问题,现在通过灵珑强大的分析能力,运维人员三步即可精确了解到是哪一个 IP 产生了问题。
结合智能基线,实现业务运行状态监控与运行趋势预测
过去,X 公司对应用交付的运维方式是响应式的被动运维,而随着业务规模与人员的双重增长,公司对运维团队的能力也提出了新的要求。如何实时洞察业务状态,并准确预测应用运行趋势成为团队想要提升的重点。
拿 DNS 来说,当灵珑预警 DNS 现在转发率低,则预示着的业务有可能在未来出现问题。 灵珑通过对历史数据进行分析,形成智能基线,比如该业务过去平均成功率为 90%,下偏离如果超过 5%,系统将出现告警,此时运维人员可具体查看这个下降是什么导致的。
一种是服务端有问题没有响应,第二是在转发过程中一些节点出现了问题导致数据包没发出去,需要确定这个数据包到底是在哪个节点断掉了。通过流量数据补充,结合灵珑流量缝合能力,平台可自动绘制业务交互地图,灵珑将以可视化视图的方式将告警内容与分析结果进行展现,服务端是否异常,通讯节点是否异常,通过视图一目了然。原来一个复杂的应用交付问题,借助灵珑的智能分析与可视化能力,现在不再需要负载技术专家的参与,也能获得专家级的排查结果。
❹
总 结
X 公司通过部署灵珑应用交付管理平台,对应用服务质量监控、应用交付一体化监控、用户体验监控、快速故障排查、应用趋势洞察五个方面实现了能力提升,消除了应用交付盲区,提升了对负载设备和网络性能的管理能力。对跨国运营的互联网公司来说,要应对变化的国际局势与竞争挑战,保持企业高效运营,应用质量与网络质量是员工数字化办公的效率基础,灵珑提供了应用交付专家级的赋能,为团队办公效率和使用满意度提升提供了有效的可视化分析工具。
版权声明: 本文为 InfoQ 作者【智维数据】的原创文章。
原文链接:【http://xie.infoq.cn/article/4fcef12d37ddc38f79579ac1d】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论