基于 Prometheus+Grafana 打造企业级 Flink 监控系统
在进入本文之前,我先问大家一个问题,你们公司或者业务系统上是如何对生产集群上的数据同步任务、实时计算任务或者是调度任务本身的执行情况和日志的呢?可能你会回答是自研或者 ELK 系统或者自研的系统。
原文链接:《基于Prometheus+Grafana打造企业级Flink监控系统》
但是随着容器技术的发展,Kubernetes 已然成为大家追捧的容器集群管理系统。Prometheus 作为生态圈 Cloud Native Computing Foundation(简称:CNCF)中的重要一员,其活跃度仅次于 Kubernetes,现已广泛用于 Kubernetes 集群的监控系统中。
在 Flink 任务的监控上,本文将简要介绍 Prometheus 的组成和相关概念,并实例演示 Prometheus 的安装,配置及使用。并最终形成一套 Flink 任务监控的解决方案。
Prometheus 来龙去脉
Prometheus 是由前 Google 工程师从 2012 年开始在 Soundcloud 以开源软件的形式进行研发的系统监控和告警工具包,自此以后,许多公司和组织都采用了 Prometheus 作为监控告警工具。Prometheus 的开发者和用户社区非常活跃,它现在是一个独立的开源项目,可以独立于任何公司进行维护。为了证明这一点,Prometheus 于 2016 年 5 月加入 CNCF 基金会,成为继 Kubernetes 之后的第二个 CNCF 托管项目。
最初,Prometheus 被用在微服务系统的监控上,微服务的落地一直都是业界重点关注的问题,其中除了部署难外,最大的问题就是集群监控、系统配置和系统治理等方面的带来的挑战。
2019 年 Flink 横空出世后,随之而来的运维、监控成为大家关注的重点。作为新一代的监控框架,就像网易在实践过程提出的一样,Prometheus 具有以下特点:
灵活的数据模型:在 Prometheus 里,监控数据是由值、时间戳和标签表组成的,其中监控数据的源信息是完全记录在标签表里的;同时 Prometheus 支持在监控数据采集阶段对监控数据的标签表进行修改,这使其具备强大的扩展能力;
强大的查询能力:Prometheus 提供有数据查询语言 PromQL。从表现上来看,PromQL 提供了大量的数据计算函数,大部分情况下用户都可以直接通过 PromQL 从 Prometheus 里查询到需要的聚合数据;
健全的生态: Prometheus 能够直接对常见操作系统、中间件、数据库、硬件及编程语言进行监控;同时社区提供有 Java/Golang/Ruby 语言客户端 SDK,用户能够快速实现自定义监控项及监控逻辑;
良好的性能:在性能方面来看,Prometheus 提供了 PromBench 基准测试,从最新测试结果来看,在硬件资源满足的情况下,Prometheus 单实例在每秒采集 10w 条监控数据的情况下,在数据处理和查询方面依然有着不错的性能表现;
更契合的架构:采用推模型的监控系统,客户端需要负责在服务端上进行注册及监控数据推送;而在 Prometheus 采用的拉模型架构里,具体的数据拉取行为是完全由服务端来决定的。服务端是可以基于某种服务发现机制来自动发现监控对象,多个服务端之间能够通过集群机制来实现数据分片。推模型想要实现相同的功能,通常需要客户端进行配合,这在微服务架构里是比较困难的;
成熟的社区:Prometheus 是 CNCF 组织第二个毕业的开源项目,拥有活跃的社区;成立至今,社区已经发布了一百多个版本,项目在 GitHub 上获得的 star 数超过了 3.8 万。
可以这么说,Prometheus 天生为监控而生。
Prometheus 架构和组件
Prometheus 的整体架构以及生态系统组件如下图所示:
Prometheus Server 直接从监控目标中或者间接通过推送网关来拉取监控指标,它在本地存储所有抓取到的样本数据,并对此数据执行一系列规则,以汇总和记录现有数据的新时间序列或生成告警。可以通过 Grafana 或者其他工具来实现监控数据的可视化。
Prometheus 生态圈中包含了多个组件,Prometheus 的主要模块包括:Prometheus server, exporters, Pushgateway, PromQL, Alertmanager 以及图形界面。其中许多组件是可选的:
Prometheus Server: 用于收集和存储时间序列数据。
Client Library: 客户端库,为需要监控的服务生成相应的 metrics 并暴露给 Prometheus server。当 Prometheus server 来 pull 时,直接返回实时状态的 metrics。
Push Gateway: 主要用于短期的 jobs。由于这类 jobs 存在时间较短,可能在 Prometheus 来 pull 之前就消失了。为此,这次 jobs 可以直接向 Prometheus server 端推送它们的 metrics。这种方式主要用于服务层面的 metrics,对于机器层面的 metrices,需要使用 node exporter。
Exporters: 用于暴露已有的第三方服务的 metrics 给 Prometheus。
Alertmanager: 从 Prometheus server 端接收到 alerts 后,会进行去除重复数据,分组,并路由到对收的接受方式,发出报警。常见的接收方式有:电子邮件,pagerduty,OpsGenie, webhook 等。
一些其他的工具。
Prometheus 的工作流程如下:
Prometheus 通过配置文件中指定的服务发现方式来确定要拉取监控指标的目标(Target)。
接着从要拉取的目标(应用容器和 Pushgateway),发起 HTTP 请求到特定的端点(Metric Path),将指标持久化至本身的 TSDB 中,TSDB 最终会把内存中的时间序列压缩落到硬盘。
Prometheus 会定期通过 PromQL 计算设置好的告警规则,决定是否生成告警到 Alertmanager,后者接收到告警后会负责把通知发送到邮件或企业内部群聊中。
Prometheus 的数据模型和核心概念
Prometheus 所有采集的监控数据均以指标(metric)的形式保存在内置的时间序列数据库当中(TSDB):属于同一指标名称,同一标签集合的、有时间戳标记的数据流。除了存储的时间序列,Prometheus 还可以根据查询请求产生临时的、衍生的时间序列作为返回结果。
上面这段话是不是听起来十分拗口?我们用人话来解释一下:
Prometheus 所采集到的数据被定义为【指标】。存储的数据为【时间序列】,所谓时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。而存储的数据库为自带的时序数据库 TSDB。
指标名称和标签
Prometheus 中每一条时间序列由指标名称(Metrics Name)以及一组标签(键值对)唯一标识。其中指标的名称(metric name)可以反映被监控样本的含义(例如,httprequeststotal — 表示当前系统接收到的 HTTP 请求总量),指标名称只能由 ASCII 字符、数字、下划线以及冒号组成,同时必须匹配正则表达式 [a-zA-Z:][a-zA-Z0-9:]*。
标签的名称只能由 ASCII 字符、数字以及下划线组成并满足正则表达式 [a-zA-Z][a-zA-Z0-9]*。其中以 _作为前缀的标签,是系统保留的关键字,只能在系统内部使用。标签的值则可以包含任何 Unicode 编码的字符。
样本
在时间序列中的每一个点称为一个样本(sample),样本由以下三部分组成:
指标(metric):指标名称和描述当前样本特征的 labelsets;
时间戳(timestamp):一个精确到毫秒的时间戳;
样本值(value): 一个 folat64 的浮点型数据表示当前样本的值。
指标类型
Prometheus 的客户端库中提供了四种核心的指标类型。
Counter:代表一种样本数据单调递增的指标,即只增不减,通常用来统计如服务的请求数,错误数等。
Gauge:代表一种样本数据可以任意变化的指标,即可增可减,通常用来统计如服务的 CPU 使用值,内存占用值等。
Histogram 和 Summary:用于表示一段时间内的数据采样和点分位图统计结果,通常用来统计请求耗时或响应大小等。
讲到这里,读者是不是有所顿悟?还记得 Flink 中的指标类型吗?Flink 也提供了四种类型的监控指标,分别是:Counter、Gauge、Histogram、Meter。
Prometheus 的安装
我们可以在官网下载 Prometheus 的安装包:https://prometheus.io/download/ 。这里我们同时安装 Prometheus 和 Grafana,然后进行解压:
启动:
访问本地的 http://localhost:9090/ 即可以看到 Prometheus 的 graph 页面。
安装 grafana
启动:
访问 http://localhost:3000/ 可以看到 grafana 界面。
当然,Prometheus 还有很多其他组件服务于不同的场景,例如 pushgateway 和 nodeexporter。他们各自的作用可以在官网查看。我们暂时不做介绍。
这里假设我们要监控每一个服务器的状态,这时候我们就需要 node_manager 这个组件。
我们也是直接安装启动:
将 node_exporter 添加到 Prometheus 服务器,我们请求一下本地的 http://localhost:9090/ 可以看到当前机器的一些指标:
总之,如果你要监控不同的目标,那么就需要安装 Prometheus 体系中不同的组件。关于详细的安装过程和配置过程我们不做过多展开,大家可以网上搜索有非常多的教程。
使用 Prometheus+Grafana+nodeManager+pushgateway 构建 Flink 任务的监控系统
我们先来看一下整体的监控架构:
这里面有几个核心的组件:
Flink App : 这是我们需要监控的数据来源
Pushgateway+nodeManger : 都是 Prometheus 生态中的组件,pushGateway 服务收集 Flink 的指标,nodeMnager 负责监控运行机器的状态
Prometheus : 我们监控系统的主角
Grafana: 可视化展示
关于这四个组建的安装,我们不在仔细描述,大家可以参考网上的资源,我们重点讲述一下配置文件。
首先,flink.yaml 文件的配置:
prometheus.yml 中的配置:
然后我们把 Flink 集群、nodeManager、pushGateway、Prometheus、Grafana 分别启动起来。
由于上面一句配置好 Flink、 nodeManager、pushGateway,并且在 Grafana 中已经添加了 prometheus 数据源,所以 Grafana 中会自动获取到 flink job 的 metrics 。我们进入 Grafana 首页,点击 New dashboard,创建一个新的 dashboard。
选中之后,即会出现对应的监控指标
对于 Flink 任务,我们需要监控的指标包括 JobManager 服务器状态、Checkpoint 情况、程序运行时长、Taskmanager 内存,流量。甚至可以加上 operator 的进出流量用来定位反压问题。
业界典型应用
事实上 Prometheus 自从一出世,便受到了关注,我们用同程艺龙数据库监控系统的实践来看一下生产上是如何使用 Prometheus 的。
目前同程的整体监控架构设计如下图所示:
其中几个关键的组件如下:
Agent
这是同程用 golang 开发的监控信息采集 agent,负责采集监控指标和实例日志。监控指标包括了该宿主机的相关信息(实例、容器)。
Pushgateway
官方提供的组件,因为 Prometheus 是通过 pull 的方式获取数据的,如果让 Prometheus Server 去每个节点拉数据,那么监控服务的压力就会很大,我们是在监控几千个实例的情况下做到 10s 的采集间隔(当然采用联邦集群的模式也可以,但是这样就要需要部署 Prometheus Server。再加上告警相关的东西以后,整个架构会变的比较复杂。)。所以 agent 采取数据推送至 pushgateway,然后由 Prometheus Server 去 pushgateway 上面 pull 数据。这样在 Prometheus Server 在写入性能满足的情况下,单台机器就可以承载整个系统的监控数据。考虑到跨机房采集监控数据的问题,我们可以在每个机房都部署 pushgateway 节点,同时还能缓解单个 pushgateway 的压力。
Prometheus Server
Prometheus Server 去 pushgateway 上面拉数据的时间间隔设置为 10s。多个 pushgateway 的情况下,就配置多个组即可。为了确保 Prometheus Server 的高可用,可以再加一个 Prometheus Server 放到异地容灾机房,配置和前面的 Prometheus Server 一样。如果监控需要保留时间长的话,也可以配置一个采集间隔时间较大的 Prometheus Server,比如 5 分钟一次,数据保留 1 年。
Alertmanager
使用 Alertmanager 前,需要先在 Prometheus Server 上面定义好告警规则。支持邮件、微信、webhook 多种类型,告警是通过 webhook 的方式,将触发的告警推送至指定 API,然后通过这个接口的服务进行二次加工。
Grafana
Prometheus 完美支持 Grafana,可以通过 PromQL 语法结合 Grafana,快速实现监控图的展示。为了和运维平台关联,通过 url 传参的方式,实现了运维平台直接打开指定集群和指定实例的监控图。
目前同程基于 Prometheus 的监控系统,承载了整个平台所有实例、宿主机、容器的监控。采集周期 10S,Prometheus 一分钟内每秒平均摄取样本数 9-10W。仅仅使用一台物理机(不包括高可用容灾资源)就可以承载当前的流量,并且还有很大的容量空间(CPU\Memory\Disk)。如果未来单机无法支撑的情况下,可以扩容成联邦集群模式。
干掉ELK | 使用Prometheus+Grafana搭建监控平台
利用InfluxDB+Grafana搭建Flink on YARN作业监控大屏
欢迎关注,《大数据成神之路》系列文章
版权声明: 本文为 InfoQ 作者【王知无】的原创文章。
原文链接:【http://xie.infoq.cn/article/f1d8ceccf32686a13978d4efc】。文章转载请联系作者。
评论