AWS OpenSearch 可观测最佳实践

AWS OpenSearch 介绍
OpenSearch 是一种全面开源搜索和分析引擎,使用案例包括日志分析、实时应用程序监控、点击流分析等。Amazon OpenSearch Service 是一项托管服务,让用户能够在 AWS 云中轻松部署、运行并扩展 OpenSearch 集群。
观测云
观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。
采集器配置
登陆观测云控制台
点击【集成】菜单,选择【云账号管理】
点击【添加云账号】,选择【AWS】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
点击云账号详情页的【集成】按钮,在未安装列表下,找到 AWS OpenSearch,点击【安装】按钮,弹出安装界面安装即可。

关键指标

场景视图
登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “opensearch”, 选择 “AWS OpenSearch 监控视图”,点击 “确定” 即可添加视图。

监控器(告警)
观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。
登录观测云控制台,点击「监控」 -「新建监控器」,输入 “aws opensearch”, 选择对应的监控器,点击 “确定” 即可添加。

搜索线程池已拒绝任务数突增
ThreadpoolSearchRejected_Average:表示在一定时间内,OpenSearch 集群中搜索线程池中被拒绝的任务数量的平均值。该指标反映了搜索请求由于线程池队列已满而被拒绝的情况。最近 15 分钟被拒绝数大于等于 100 时,发出严重告警。

主分片和副分片分配异常
ClusterStatus_red_Average:表示 OpenSearch 集群处于红色状态的平均时间占比,红色状态意味着集群中至少有一个主分片及其副本未分配给任何节点,值为 0 表示集群运行正常,值大于 0 表示集群有部分时间处于红色状态。当集群完全处于红色状态时发出严重告警。

节点 CPU 使用率过高
CPUUtilization_Average 用于衡量 OpenSearch 集群中节点的平均 CPU 使用率,当节点的 CPU 使用率大于等于 90% 时,发出严重告警,当 CPU 使用率大于等于 80% 小于 90% 时,发出重要告警。

总结
通过将 AWS OpenSearch 的原生监控数据集成到观测云平台,用户可以实现对 OpenSearch 的实时性能监控、资源使用分析以及安全事件的可视化。观测云的高级分析和可视化功能,如实时仪表板、智能告警和根因分析,能够帮助用户快速定位问题、优化成本,并确保数据的高可用性和安全性。这种结合不仅提升了监控的效率和准确性,还通过集中管理的方式简化了运维流程,使用户能够更好地应对复杂的云环境挑战。
评论