写点什么

Prometheus Exporter (二十)Lustre Exporter

作者:耳东@Erdong
  • 2021 年 12 月 08 日
  • 本文字数:1030 字

    阅读完需:约 3 分钟

Prometheus Exporter (二十)Lustre Exporter

本文已经收录在 Prometheus 合集 Prometheus 都可以采集那些指标?-- 常用 Exporter 合集 中。


存储系统有很多,在并行文件系统中,Lustre 基本是翘楚,在 HPC 领域,Lustre 基本是事实标准,类似 Kubernetes 在容器编排领域的地位。


Lustre 有一段时间是开源,后来被 Intel 收购了,最近几年又开源了出来。


针对 Lustre 的监控,惠普开源了一个 Lustre Exporter,官方仓库地址是 https://github.com/HewlettPackard/lustre_exporter ,这个工具挺好用的。最新版本是 v2.0.0,发布于 2017 年 12 月 05 ,到现在 3 年多没有更新了,我在 2019 年的时候还在这个版本监控 v2.10 的 Lustre,应该问题不大。如果真的出现问题,那么只能自己修复或者联系作者了。不过惠普对这个的力度不大,有一些 Issue 不太回应。

安装运行

Lustre Exporter 直接下载二进制文件包,就可以。


./lustre_exporter <flags>
复制代码


命令行参数有这些:


  • collector.ost=disabled/core/extended

  • collector.mdt=disabled/core/extended

  • collector.mgs=disabled/core/extended

  • collector.mds=disabled/core/extended

  • collector.client=disabled/core/extended

  • collector.generic=disabled/core/extended

  • collector.lnet=disabled/core/extended

  • collector.health=disabled/core/extended


当用户没有提交参数的值的时候,上述命令行参数的默认值为"extended"。


一个简单的例子,将 ost 的采集关闭了,mdt 的设置为了 core,其他全部是 extended 。


./lustre_exporter --collector.ost=disabled --collector.mdt=core --collector.mgs=extended
复制代码


disabled 表示关闭该项采集 core 表示采集这一项核心的,关键的指标。extended 表示采集这一项所有的指标。

小结

这个 Lustre 的插件是惠普公司开源的,挺好使用的,之前还有同事对这个 Exporter 提交过 Fix,也合并了。Lustre 方面有问题尽量找 李希 的文章去看,李希 作为开发者在网络上分享了大量的一手资料和文档,另外现在也有 Lustre 用户大会了,DDN 主办的,可以和 李希 面对面交流。2019 年有幸和李希面对面交流了一些 Lustre 监控相关的内容,他们也推出了一个监控的 Agent 的,叫 LustrePerfMon ,基于 Influxdb 做的,仓库地址是 https://github.com/DDNStorage/LustrePerfMon 。LustrePerfMon 最近也 2 年多没有更新了,不过里边的监控指标和思路值的作为 Lustre 监控的教科书来进行参考。


针对 HPC 集群,Lustre Exporter 、Node Exporter、Infinband Exporter、Slurm Exporter 这些加起来,差不多就全了,差啥补啥就行。

发布于: 3 小时前阅读数: 7
用户头像

耳东@Erdong

关注

还未添加个人签名 2020.05.24 加入

主要研究分享运维技术,专注于监控、CICD、操作系统、云原生领域,公众号【耳东学堂】,知识星球同名,坚持原创,希望能和大家在运维路上结伴而行 邮箱:erdong@mail.erdong.site

评论

发布
暂无评论
Prometheus Exporter (二十)Lustre Exporter