IoT 物联网平台运行监控最佳实践——设备管理运维类
IoT 云产品运行监控
1.监控告警功能介绍
IoT 物联网平台对接云监控的监控指标分为两大类:系统事件报警和阈值报警。系统事件报警以 IoT 物联网平台的性能指标为主;阈值报警以客户业务指标数值变化为主。
2.IoT 物联网平台监控配置实战
2.1 系统事件报警
阿里云 IoT 物联网平台作为一款公有云产品,对设备连接频率,数据上报频率,下行指令频率,消息流转频率等指标都有使用限制约定。比如下图所展示部分使用限制:
完整产品使用限制文档,请参阅:https://help.aliyun.com/document_detail/30527.html
当我们使用 IoT 物联网平台时,一旦触发了使用限制条件,就会被限流,影响我们业务正常运行。结合云监控产品我们就可以第一时间感知到异常,以便做相应业务调整。
云监控中对接的 IoT 物联网平台的系统事件有如下几种:
当前账号每秒最大连接请求数达到上限
当前账号每秒发布请求数达到上限
当前账号每秒到达规则引擎的请求数达到上限
当前账号每秒发给设备的请求数达到上限
任一设备上行消息 QPS 达到上限
任一设备下行消息 QPS 达到上限
我们进入云监控控制台,左侧导航栏找到事件监控,然后点击报警规则标签,在系统事件下,点击创建事件报警按钮。详细配置如下:
点击确定,我们就创建了一条监控告警规则。
2.2 阈值报警
IoT 物联网平台和云监控对接的阈值报警指标如下:设备在线相关:
实时在线设备数(MQTT)
物模型通信相关:
设备事件上报失败数
设备属性上报失败数
设备属性设置失败数
设备服务调用失败数
规则引擎流转相关:
规则引擎消息流转次数(DATAHUB)
规则引擎消息流转次数(FC)
规则引擎消息流转次数(MNS)
规则引擎消息流转次数(MQ)
规则引擎消息流转次数(OTS)
规则引擎消息流转次数(RDS)
规则引擎消息流转次数(REPUBLISH)
规则引擎消息流转次数(TSDB)
上行消息相关:
发送到平台的消息量(MQTT)
发送到平台的消息量(CoAP)
发送到平台的消息量(HTTP)
发送到平台的消息量(HTTP/2)
发送到平台的消息量(LoRa)
下行消息相关:
平台发出的消息量(MQTT)
平台发出的消息量(HTTP/2)
平台发出的消息量(LoRa)
我们进入云监控控制台,左侧导航栏找到报警服务,然后点击报警规则,在阈值报警下,点击创建报警规则按钮。参考如下:
首先,选择产品物联网平台,根据业务选择资源范围和具体监控的产品实例。
其次,我们需要配置报警规则触发条件。比如下图:以 1 分钟为维度,统计在线设备数量。当连续 3 次统计设备数量都小于 15000 时,就触发业务告警。
最后,我们配置告警接收人和通知方式。云监控默认可以支持电话,短信,邮件,钉钉群机器人等多种通知方式。也可以通过配置 webhook 的方式,触发客户业务回调函数。
阈值告警配置成功后,我们就可以在列表里看到已经生效的告警规则,查看告警历史。
物联网平台产品介绍详情:https://www.aliyun.com/product/iot/iot_instc_public_cn
阿里云物联网平台客户交流群
评论