巧用观测云可用性监测(云拨测)
前言
做为系统运维或者开发,很多时候我们需要能够实时感知我们所运维的系统和服务的情况,比如以下的场景:
系统上线前测试:包括功能完整性检查,确保页面元素(如图像、视频、脚本等)都能够正常加载,了解系统的性能是否达到预期标准也至关重要。
服务质量监控:日常可用性监测,对于提供在线服务的企业,无论是网站应用、移动应用还是 API 服务,都需要持续监控其可用性。当企业的用户分布在不同的地理区域时,不同地域的网络条件和用户体验可能会有所不同。
网络故障排查:当用户反馈服务无法正常访问或访问速度慢时,需要判断是网络问题还是服务本身的问题,同时需要与正常时期的数据进行对比,能够更清晰地了解网络故障的程度和范围。
第三方服务依赖监测:如支付接口、地图服务接口等,需要对这些第三方接口进行性能和可用性监测,确保接口的稳定性和响应速度。
这个时候,云拨测可以做为一种有效手段来实现这些目标。云拨测是一种通过云计算技术模拟用户访问行为,对网络、网站、应用程序等进行可用性和性能检测的工具。
而观测云的可用性监测(即云拨测),开箱即用,并具有以下特点:
便捷的部署与使用:无需复杂的安装和配置过程,在你在线注册账号后,即可快速开通并开始使用观测云的可用性监测服务,大大节省了时间和精力,能让企业迅速将监测能力应用到实际业务中,及时发现和解决问题。
广泛的监测覆盖范围:支持国内华北、华东、西南、西北等四大地域,以及海外多个节点,可对不同地域的站点、API 等进行可用性监测,确保在全球范围内的服务质量和性能;同时涵盖移动、电信、联通三大网络运营商网络的多个节点。
多维度的监测能力:支持 HTTP、TCP、ICMP、WEBSOCKET 等多种协议,帮助你确保其网站、应用程序等的核心页面和功能始终可用,及时发现页面加载缓慢或无法访问等问题。
多维度结果查看:在可用性监测概览,可以从地理和趋势两个维度分析当前拨测任务下目标对象的应用性能,包括响应时间、往返时间、连接时间、可用率等等
灵活的告警配置:根据不同的监测指标和业务需求,你可以自定义告警规则,如设置当某个 URL 在特定地域和网络运营商下的不可用次数达到一定阈值时触发告警,告警方式包括钉钉群通知、短信通知等,确保相关人员能够及时收到告警信息并采取相应的措施,有效降低故障对业务的影响。
不仅如此,观测云的可用性监测还可以提供更多灵活的配置和高级的场景。
自定义拨测节点
除了开箱即用的节点,观测云支持自建拨测节点的管理。企业可依据自身业务特点和需求,在特定的地理位置或网络环境中建立节点,例如在内网环境中部署节点,进行可用性的监测。
而自建节点的部署也非常方便,只需如此简单几步:
访问观测云的可用性监测菜单 -> 自建节点管理,新建节点,填写相关信息
获取 AK SK 等相关信息,后续配置 DataKit 时使用
根据所需要的地理位置和网络,在云主机或虚拟机中安装 DataKit
将之前步骤中相关配置信息填入 conf.d/network/dialtesting.conf ,重启 DataKit 即可
可用性监测查看器
可用性查看器支持通过多种查询和分析方式查看拨测任务的详细数据。可以自定义时间范围、进行数据筛选、多维度分析,并导出数据进行进一步的查看和分析。
在查看器,点击某个数据即可查看对应的拨测数据详情,可查看到属性、测试性能、响应详情、响应头、响应内容等具体内容,当鼠标点击属性字段,支持以下操作:
筛选字段值:即添加该字段至查看器,查看与该字段相关的全部数据
反向筛选字段值:即添加该字段至查看器,查看除了该字段以外的其他数据
添加到显示列:即添加该字段到查看器列表进行查看
复制:即复制该字段至剪贴板
这个使用体验,就和使用观测云的日志查看器、应用链路调用的查看器,是同样的体验。观测云查看器的使用,可以进一步参考使用文档:https://docs.guance.com/getting-started/function-details/explorer-search/
同时,查看器支持分析模式,点击右侧蓝色的分析按钮,即可进入。支持基于 1-3 个标签进行多维度分析统计,并支持多种数据图表分析方式,并导出数据进行进一步的查看和分析
灵活的拨测指标设置
可用性监测的结果,保存在日志中。可以基于日志生成指标,按照设定的频率统计可用性监测结果的变化和趋势。生成的指标可以在图表查询和监控告警中进行进一步的分析和应用。例如:统计总次数和失败次数,设置监控器,例如在某些场景里面,可能并不是每一次拨测结果超时都当成失败,而是有一定的阈值,比如当 5 分钟内有大于等于 2 次失败,才认为是有问题,触发告警。
评论