写点什么

软件测试 | 普罗米修斯 - HTTP API 调用 PromQL

  • 2023-03-01
    北京
  • 本文字数:3183 字

    阅读完需:约 10 分钟

简介

Prometheus API 使用了 JSON 格式的响应内容。 当 API 调用成功后将会返回查询结果。所有的 API 请求均使用以下的 JSON 格式:

{  "status": "success" | "error",  "data": <data>,
// Only set if status is "error". The data field may still hold // additional data. "errorType": "<string>", "error": "<string>"}
复制代码

我们可以通过如下的 get 请求向普罗米修斯发送查询请求:

http://promurl:port/api/v1/query?query=kube_pod_container_info&time=1636457100
复制代码
  • api 路径都是/api/v1/query

  • 有两种查询类型, 这里面我们用的查询类型就是 query 类型(还有另一个叫 query_range)

  • 在路径和查询类型后跟着的就是 PromQL 语句了。

  • 最后的 time 是时间戳, 代表着查询的时间基线。 就是我们的 PromQL 是以哪个时间点为基准查询的。 我们说过普罗米修斯本身就是一个时序数据库。它默认保存 14 天的数据, 超过 14 天就会自动删除。 所以这个时间戳可以让我们以过去某个时间点为基础进行查询。如果在 UI 上查询的话,只能以当前时间为基线进行查询。

下面贴一个例子看一下我们查询的 json 结果是什么样子的:

$ curl 'http://localhost:9090/api/v1/query?query=up&amp;time=2015-07-01T20:10:51.781Z'{   "status" : "success",   "data" : {      "resultType" : "vector",      "result" : [         {            "metric" : {               "__name__" : "up",               "job" : "prometheus",               "instance" : "localhost:9090"            },            "value": [ 1435781451.781, "1" ]         },         {            "metric" : {               "__name__" : "up",               "job" : "node",               "instance" : "localhost:9100"            },            "value" : [ 1435781451.781, "0" ]         }      ]   }}
复制代码

响应数据类型

当 API 调用成功后,Prometheus 会返回 JSON 格式的响应内容,格式如上小节所示。并且在 data 节点中返回查询结果。data 节点格式如下:

{  "resultType": "matrix" | "vector" | "scalar" | "string",  "result": <value>}
复制代码

PromQL 表达式可能返回多种数据类型,在响应内容中使用 resultType 表示当前返回的数据类型,包括:

  • 瞬时向量:vector

当返回数据类型 resultType 为 vector 时,result 响应格式如下:

[  {    "metric": { "<label_name>": "<label_value>", ... },    "value": [ <unix_time>, "<sample_value>" ]  },  ...]
复制代码

其中 metrics 表示当前时间序列的特征维度,value 只包含一个唯一的样本。

  • 区间向量:matrix

当返回数据类型 resultType 为 matrix 时,result 响应格式如下:

[  {    "metric": { "<label_name>": "<label_value>", ... },    "values": [ [ <unix_time>, "<sample_value>" ], ... ]  },  ...]
复制代码

其中 metrics 表示当前时间序列的特征维度,values 包含当前事件序列的一组样本。

  • 标量:scalar

当返回数据类型 resultType 为 scalar 时,result 响应格式如下:

[ <unix_time>, "<scalar_value>" ]
复制代码

由于标量不存在时间序列一说,因此 result 表示为当前系统时间一个标量的值。

  • 字符串:string

当返回数据类型 resultType 为 string 时,result 响应格式如下:

[ <unix_time>, "<string_value>" ]
复制代码

字符串类型的响应内容格式和标量相同。

区间数据查询

使用 QUERY_RANGE API 我们则可以直接查询 PromQL 表达式在一段时间返回内的计算结果。

GET /api/v1/query_range
复制代码

URL 请求参数:

  • query=: PromQL 表达式。

  • start=: 起始时间。

  • end=: 结束时间。

  • step=: 查询步长。

  • timeout=: 超时设置。可选参数,默认情况下使用-query,timeout 的全局设置。

当使用 QUERY_RANGE API 查询 PromQL 表达式时,返回结果一定是一个区间向量:

{  "resultType": "matrix",  "result": <value>}
复制代码

需要注意的是,在 QUERY_RANGE API 中 PromQL 只能使用瞬时向量选择器类型的表达式。

例如使用以下表达式查询表达式 up 在 30 秒范围内以 15 秒为间隔计算 PromQL 表达式的结果。

$ curl 'http://localhost:9090/api/v1/query_range?query=up&amp;start=2015-07-01T20:10:30.781Z&amp;end=2015-07-01T20:11:00.781Z&amp;step=15s'{   "status" : "success",   "data" : {      "resultType" : "matrix",      "result" : [         {            "metric" : {               "__name__" : "up",               "job" : "prometheus",               "instance" : "localhost:9090"            },            "values" : [               [ 1435781430.781, "1" ],               [ 1435781445.781, "1" ],               [ 1435781460.781, "1" ]            ]         },         {            "metric" : {               "__name__" : "up",               "job" : "node",               "instance" : "localhost:9091"            },            "values" : [               [ 1435781430.781, "0" ],               [ 1435781445.781, "0" ],               [ 1435781460.781, "1" ]            ]         }      ]   }}
复制代码

实战演示

最近做了一个资源优化专项,目的是实际了解一下业务运行时产品 160+ 的服务每个服务所使用的 cpu 和内存情况。 并对比他们申请的 request 和 limit 的值,计算服务是否申请了过多的资源导致资源浪费。 所以我们要通过 HTTP PromQL 把相关的数据查询出来。

prom_url = 'http://1.117.219.41:30778'start_time = str(int(datetime.strptime("09/11/2021 19:25:00", "%d/%m/%Y %H:%M:%S").timestamp()))end_time = str(int(datetime.strptime("09/11/2021 21:25:00", "%d/%m/%Y %H:%M:%S").timestamp()))result = {}
r = requests.get( url='{prom_url}/api/v1/query_range?query=sum(node_namespace_pod_container%3Acontainer_cpu_usage_seconds_total%3Asum_rate%7Bcluster%3D%22cls-hchrqyex%22%7D)%20by%20(pod)&amp;start={start}&amp;end={end}&amp;step=30'.format( start=start_time, end=end_time, prom_url=prom_url))datas = r.json()['data']['result']
for data in datas: pod_name = data['metric']['pod'] cpu_usages = [] for c in data['values']: cpu_usages.append(float(c[1])) max_value = max(cpu_usages) avg_value = statistics.mean(cpu_usages) result[pod_name] = { 'cpu_max_usage': max_value, 'cpu_avg_usage': avg_value }
复制代码

上面代码中的 PromQL 是sum(node_namespace_pod_container:container_cpu_usage_seconds_total:sum_rate) by (pod) 首先 node_namespace_pod_container:container_cpu_usage_seconds_total:sum_rate 是一个预定义的查询别名。 有些查询语句过于复杂,所以我们可以给复杂的语句一个别名, 这样在使用 的时候就比较方便了。 而我们使用的这个别名就如同它的名字一样, 是查询每个容器的 cpu 使用率的。 因为一个 pod 里可能会有多个容器, 所以需要使用 sum by (pod) 的方式统计出每个 pod 的 cpu 使用率总和。 这里我们使用的就是一个 query_range 的查询类型。 因为我们希望查询在测试期间的 2 个小时内 cpu 使用率的最大值和平均值。 所以我们在请求最后使用step=30这个参数来指定每隔 30s 计算一次指标,然后我们在使用 start 和 end 参数指定了一个时间范围。所以在指定的这 2 个小时内,每隔 30s 就会使用 PromQL 查询一次,这样返回结果里我们就有了很多个采样数据, 反应了随着时间变化 CPU 使用率的情况。 这时候我们再编写 python 代码把返回的 json 取出来计算最大值和平均值即可。


搜索微信公众号:TestingStudio 霍格沃兹的干货都很硬核

用户头像

社区:ceshiren.com 微信:ceshiren2023 2022-08-29 加入

微信公众号:霍格沃兹测试开发 提供性能测试、自动化测试、测试开发等资料、实事更新一线互联网大厂测试岗位内推需求,共享测试行业动态及资讯,更可零距离接触众多业内大佬

评论

发布
暂无评论
软件测试 | 普罗米修斯 - HTTP API调用PromQL_测试_测吧(北京)科技有限公司_InfoQ写作社区