写点什么

IoT 物联网平台运行监控最佳实践——设备管理运维类

作者:阿里云AIoT
  • 2023-03-09
    浙江
  • 本文字数:1209 字

    阅读完需:约 4 分钟

IoT 云产品运行监控

1.监控告警功能介绍

IoT 物联网平台对接云监控的监控指标分为两大类:系统事件报警阈值报警。系统事件报警以 IoT 物联网平台的性能指标为主;阈值报警以客户业务指标数值变化为主。

云监控控制台:https://cloudmonitor.console.aliyun.com/#/alarmservice/product=&searchValue=&searchType=&searchProduct=


2.IoT 物联网平台监控配置实战


2.1 系统事件报警

阿里云 IoT 物联网平台作为一款公有云产品,对设备连接频率,数据上报频率,下行指令频率,消息流转频率等指标都有使用限制约定。比如下图所展示部分使用限制:

image.png

完整产品使用限制文档,请参阅:https://help.aliyun.com/document_detail/30527.html

当我们使用 IoT 物联网平台时,一旦触发了使用限制条件,就会被限流,影响我们业务正常运行。结合云监控产品我们就可以第一时间感知到异常,以便做相应业务调整。

云监控中对接的 IoT 物联网平台的系统事件有如下几种:

  • 当前账号每秒最大连接请求数达到上限

  • 当前账号每秒发布请求数达到上限

  • 当前账号每秒到达规则引擎的请求数达到上限

  • 当前账号每秒发给设备的请求数达到上限

  • 任一设备上行消息 QPS 达到上限

  • 任一设备下行消息 QPS 达到上限

我们进入云监控控制台,左侧导航栏找到事件监控,然后点击报警规则标签,在系统事件下,点击创建事件报警按钮。详细配置如下:

image.png


点击确定,我们就创建了一条监控告警规则。

image.png


2.2 阈值报警

IoT 物联网平台和云监控对接的阈值报警指标如下:设备在线相关:

  • 实时在线设备数(MQTT)

物模型通信相关:

  • 设备事件上报失败数

  • 设备属性上报失败数

  • 设备属性设置失败数

  • 设备服务调用失败数

规则引擎流转相关:

  • 规则引擎消息流转次数(DATAHUB)

  • 规则引擎消息流转次数(FC)

  • 规则引擎消息流转次数(MNS)

  • 规则引擎消息流转次数(MQ)

  • 规则引擎消息流转次数(OTS)

  • 规则引擎消息流转次数(RDS)

  • 规则引擎消息流转次数(REPUBLISH)

  • 规则引擎消息流转次数(TSDB)

上行消息相关:

  • 发送到平台的消息量(MQTT)

  • 发送到平台的消息量(CoAP)

  • 发送到平台的消息量(HTTP)

  • 发送到平台的消息量(HTTP/2)

  • 发送到平台的消息量(LoRa)

下行消息相关:

  • 平台发出的消息量(MQTT)

  • 平台发出的消息量(HTTP/2)

  • 平台发出的消息量(LoRa)

我们进入云监控控制台,左侧导航栏找到报警服务,然后点击报警规则,在阈值报警下,点击创建报警规则按钮。参考如下:

image.png


首先,选择产品物联网平台,根据业务选择资源范围和具体监控的产品实例。

image.png


其次,我们需要配置报警规则触发条件。比如下图:以 1 分钟为维度,统计在线设备数量。当连续 3 次统计设备数量都小于 15000 时,就触发业务告警。

image.png


最后,我们配置告警接收人和通知方式。云监控默认可以支持电话,短信,邮件,钉钉群机器人等多种通知方式。也可以通过配置 webhook 的方式,触发客户业务回调函数。

image.png


阈值告警配置成功后,我们就可以在列表里看到已经生效的告警规则,查看告警历史。

image.png


物联网平台产品介绍详情:https://www.aliyun.com/product/iot/iot_instc_public_cn


阿里云物联网平台客户交流群

用户头像

阿里云AIoT

关注

物联网内容搬运者 2022-04-22 加入

还未添加个人简介

评论

发布
暂无评论
IoT物联网平台运行监控最佳实践——设备管理运维类_监控_阿里云AIoT_InfoQ写作社区