写点什么

如何监控 Nginx 的 upstream 后端 server

发布于: 2021 年 02 月 22 日


之前写过一篇文章,介绍Nginx如何监控各server流量,主要是通过新增第三方 status 模块查看所有 server 及 upstream 状态进行查看,之后总有人问有没有办法监控 upstream 并进行告警,所以今天介绍一下,完整的 upstream 监控及告警方法


应用:nginx/Tengine

模块:ngx_http_upstream_check_module

监控:zabbix

告警:企业微信/钉钉


如果你是 tengine,只要是 1.4 以上版本,直接默认开启该模块了,如果你是 nginx,需要重新编译 nginx,添加该模块,编译方法这里不多说了,下载源码,用--add-module 添加编译即可


upstream_check 模块提供主动式后端服务器健康检查功能,下面是该模块提供的一些指令


  • check

Syntax: check interval=milliseconds [fall=count] [rise=count] [timeout=milliseconds] [default_down=true|false] [type=tcp|http|ssl_hello|mysql|ajp] [port=check_port]Default: interval=30000 fall=5 rise=2 timeout=1000 default_down=true type=tcpContext: upstream
复制代码

该指令可以打开后端服务器的健康检查功能,指令后面的参数意义是:interval:向后端发送的健康检查包的间隔

fall(fall_count):如果连续失败次数达到 fall_count,服务器就被认为是 down

rise(rise_count):如果连续成功次数达到 rise_count,服务器就被认为是 up timeout:后端健康请求的超时时间

default_down:设定初始时服务器的状态,如果是 true,就说明默认是 down 的,如果是 false,就是 up 的。默认值是 true,也就是一开始服务器认为是不可用,要等健康检查包达到一定成功次数以后才会被认为是健康的 

type:健康检查包的类型,现在支持以下多种类型

  • tcp:简单的 tcp 连接,如果连接成功,就说明后端正常

  • ssl_hello:发送一个初始的 SSL hello 包并接受服务器的 SSL hello 包

  • http:发送 HTTP 请求,通过后端的回复包的状态来判断后端是否存活

  • mysql:向 mysql 服务器连接,通过接收服务器的 greeting 包来判断后端是否存活

  • ajp:向后端发送 AJP 协议的 Cping 包,通过接收 Cpong 包来判断后端是否存活

port:指定后端服务器的检查端口,你可以指定不同于真实服务的后端服务器的端口,比如后端提供的是 443 端口的应用,你可以去检查 80 端口的状态来判断后端健康状况。默认是 0,表示跟后端 server 提供真实服务的端口一样该选项出现于 Tengine-1.4.0


  • check_keepalive_requests

Syntax: check_keepalive_requests request_numDefault: 1Context: upstream
复制代码

该指令可以配置一个连接发送的请求数,其默认值为 1,表示 Tengine 完成 1 次请求后即关闭连接


  • check_http_send

Syntax: check_http_send http_packetDefault: "GET / HTTP/1.0"Context: upstream
复制代码

该指令可以配置 http 健康检查包发送的请求内容。为了减少传输数据量,推荐采用”HEAD”方法。当采用长连接进行健康检查时,需在该指令中添加 keep-alive 请求头,如:”HEAD / HTTP/1.1\r\nConnection: keep-alive\r\n\r\n”。 同时,在采用”GET”方法的情况下,请求 uri 的 size 不宜过大,确保可以在 1 个 interval 内传输完成,否则会被健康检查模块视为后端服务器或网络异常


  • check_http_expect_alive

Syntax: check_http_expect_alive [ http_2xx | http_3xx | http_4xx | http_5xx ]Default: http_2xx | http_3xxContext: upstream
复制代码

该指令指定 HTTP 回复的成功状态,默认认为 2XX 和 3XX 的状态是健康的


  • check_shm_size

Syntax: check_shm_size sizeDefault: 1MContext: http
复制代码

所有的后端服务器健康检查状态都存于共享内存中,该指令可以设置共享内存的大小。默认是 1M,如果你有 1 千台以上的服务器并在配置的时候出现了错误,就可能需要扩大该内存的大小


  • check_status

Syntax: check_status [html|csv|json]Default: check_status htmlContext: location
复制代码

显示服务器的健康状态页面。该指令需要在 http 块中配置。在 Tengine-1.4.0 以后,你可以配置显示页面的格式。支持的格式有: html、csv、 json。默认类型是 html。你也可以通过请求的参数来指定格式,假设‘/status’是你状态页面的 URL, format 参数改变页面的格式

比如:

/status?format=html/status?format=csv/status?format=json
复制代码

下面是一个 HTML 状态页面的例子(server number 是后端服务器的数量,generation 是 Nginx reload 的次数。Index 是服务器的索引,Upstream 是在配置中 upstream 的名称,Name 是服务器 IP,Status 是服务器的状态,Rise 是服务器连续检查成功的次数,Fall 是连续检查失败的次数,Check type 是检查的方式,Check port 是后端专门为健康检查设置的端口)



下面是 json 格式



监控数据就是从这里获取,在 zabbix 的 agent 中添加脚本如下:

#!/usr/bin/env python# -*- coding:utf-8 -*-# @Time : 2021/1/13 11:49# @Author : lijunpeng# @File tengine_status.py
import jsonimport urllib3
def call_api(): url = 'http://localhost/status?format=json' http = urllib3.PoolManager() up_status = http.request('Get',url).data.decode('utf-8') up_status = json.loads(up_status) upstreams = [] for upserver in up_status['servers']['server']: status = {'{#UPSTREAM}': upserver['upstream'], '{#UPNAME}': upserver['name'], '{#UPINDEX}': upserver['index'], '{#UPSTATUS}': upserver['status'], '{#RISE}': upserver['rise'], '{#FALL}': upserver['fall']} upstreams.append(status) result = { "data": upstreams}
return result
if __name__ == '__main__': try: print(call_api()) except Exception as e: print(e)
复制代码


这里主要是把 status 返回的数据处理成 zabbix 需要的格式,因为我是用 zabbix 自动发现功能,所以这里直接写成遍历 server,执行脚本输出如下:



数据收集就没问题了,接着在 zabbix 中添加自动发现规则



接着添加监控项原型


监控项原型主要是获取 upstream 后端 server 状态,接着添加触发器



监控很简单,就添加完了,当 upstream 后端 server 状态 down 掉就会触发规则,将告警信息通过告警媒介发送到企业微信,当然你也可以是钉钉或短信,看你自己配置的告警媒介



恢复后通知:



发布于: 2021 年 02 月 22 日阅读数: 20
用户头像

有一点想法的电脑维修工 2020.07.14 加入

一位有些想法的技术爱好者

评论

发布
暂无评论
如何监控Nginx的upstream后端server