绘制监控页面的一些最佳实践
当使用监控系统获取监控数据以后,我们需要对数据进行展示和可视化,在数据可视化的监控看板上展示尽可能多的数据是很诱人的,特别是 Prometheus 这样的系统能够针对各种应用程序提供如此丰富的监控指标。当可视化的监控看板上展示了太多新的的时候会让查看变的困难,即使是对应的专家也很难看出这个仪表盘要表达的含义。
比起尝试在一个监控看板中展示获取到的所有数据其实有更好的方法来处理,比如对于主机监控,可以从两个方面去划分,第一个,只看故障,正常的指标隐藏掉不看,比如对于很大的网络系统,一些服务的高延迟就是问题,只展示这个信息。第二个,按照使用场景去划分,比如这 3 台主机是一个类别,另外两台是另一个类别。
所以与其在单个页面的监控看板上展示所有的信息,不如进行拆分,拆分成单个的小的监控看板,通过链接和跳转来关联。
对于监控看板的绘制,发现以下指导方针非常有效:
在一个监控看板上最好不超过 5 个图形,。
在每个图形上不超过 5 条线。如果它是一个堆叠/区域图,你可以得到更多。
当使用所提供的控制台模板示例时,避免在右边的表中有超过 20-30 个条目。
如果你发现自己监控看板上的内容超过了这些标准,那么尽量去降低不太重要的信息数量,这样可以保持监控看板的重要性,不会让关键信息消失在茫茫的数据海洋。
另外可以将一些子系统的监控内容整理到另一个新的监控看板当中,通过这样的拆分,来保持单个监控看板的整洁和效率。一些不太重要的数据也可以不展示,临时需要的时候通过表达式浏览器查询一下。
对于有多个集群的,比如公司里有多套 Redis 集群,那么不要将这些集群监控指标都绘制在同一个监控看板中,可以提供一个总览的监控看板只放置关键的几条指标,剩下的将集群名称作为变量,以集群为监控维度,去绘制一个可以随便这集群名称变化而变化的监控看板。这样是比较好的方法。
版权声明: 本文为 InfoQ 作者【耳东@Erdong】的原创文章。
原文链接:【http://xie.infoq.cn/article/c4b158c714ad1621f56512c66】。未经作者许可,禁止转载。
评论