运维工程师必备利器|一招实现运维智能化!
现如今,随着日益增速的业务环境,运维在企业中的角色越来越重要。如何在错综复杂的 IT 系统架构中降低现场故障处理时间、提高运维效率,是每个 IT 运维工程师都必不可少的技能。
为解决上述运维人员困境,2021 年 12 月 30 日,云智慧 AIOps 社区邀请云智慧开发运维工程师 Larry Zhang 在线分享了开源运维管理平台 OMP 的功能特性、使用场景等关键内容,更是通过实践操作详细地介绍了如何通过 OMP 实现运维智能化。
简介
OMP 是云智慧自主设计研发,集轻量级、聚合型、智能运维为一体的综合运维管理平台,具备纳管、部署、监控、巡检、自愈、备份、恢复等功能。通过减轻交付难度,提升运维自动化、智能化,进而提升运维整体效率,保障业务运行的连续性和安全性。
功能特性介绍
主机纳管
OMP 支持页面添加和批量添加两种方式纳管主机。添加过程中 OMP 会验证主机 SSH 连接信息,验证通过后即可创建主机。此外,主机创建完成后 OMP 会自动安装 Agent 端,安装完成后也会自动对主机进行监控。点击监控按钮可以查看主机监控面板,通过主机详情页面也可以查看主机详细信息及历史记录。
服务发布
OMP 支持页面上传和后端扫描两种方式发布服务包。使用者可以根据实际情况选择适合的方式发布服务包,OMP 会对服务包进行验证,验证通过后,即可成功发布。 服务包发布成功后,会在应用商店中展示所发布的服务列表,使用者可以点击查看进入到服务详情页面,查看服务详细信息。
服务管理
在应用商店点击安装,选择服务版本后,进入安装流程。涉及到依赖信息的服务,OMP 会自动将依赖服务显示出来,保障服务安装完后的可用性。 此外,使用者可根据选择的服务数量,进行服务分布和服务配置修改。安装过程中,OMP 会优先安装依赖服务,点击“查看详细安装信息”后 可查看安装脚本输出内容。安装完成后 OMP 会自动对服务监控,在服务列表中可以对服务进行停止、启动、重启、卸载等操作。
监控告警
异常清单中会展示正在处于告警状态指标数据,帮助使用者了解当前异常主机、服务。通过点击监控按钮,可以查看该服务的监控面板。告警记录可以帮助使用者查看历史告警信息,通过点击监控按钮,可以查看该服务的监控面板。此外,监控设置中使用者可以根据实际情况,配置监控组件的地址信息,也可以开启邮件推送,选择告警信息接受邮件。
状态巡检
OMP 中巡检共分为 3 个维度,分别是 深度分析、主机巡检、组件巡检,在巡检记录中选择所需的巡检内容即可。巡检执行完成后,可以在线查看,或者导出巡检报告,也可以通过邮件推送报告到指定邮箱。
默认指标
使用者可以在指标中心统一设置默认的告警指标,告警指标会对巡检、监控同时生效,当主机或服务资源使用超过阈值时,触发告警。
系统设置
当纳管主机或服务需要升级或维护时,可以开启维护模式。维护模式下,OMP 会抑制所有告警通知。通过邮件设置,可以设置发件邮箱信息。
使用场景分析
多云环境集成
快速部署环境
主机批量管理
自动监控告警
资产信息记录
实践答疑解惑
OMP 中巡检的目的是什么?
巡检的目的主要是对主机和服务时间做状态快照,以此可以查看该时间段主机和服务的状态。
巡检和监控的区别是什么?
巡检的颗粒度更细一些,主要是对内核等信息进行监控;而监控只会对主机 CPU 等级别信息的一个监控。
OMP 中监控是用什么技术实现的?
目前是通过 prometheus 操作实现。
OMP 能采集到设备上的日志吗?
目前 OMP 采集的是服务日志,可在安装包中指明服务日志路径进行日志采集。
OMP 所有组件都开源了吗?
是的,目前 OMP 所有的组件均已开源。欢迎大家登陆 Github 或 Gitee 点赞支持~
OMP GitHub 地址:https://github.com/CloudWise-OpenSource/OMP
OMP 国内镜像地址:https://gitee.com/CloudWise/OMP
讲师介绍:Larry Zhang (张磊) ,云智慧服务工程部-服务效能二部运维开发工程师,致力于云智慧开源项目运维管理平台(OMP)的产品研发,支撑内部交付体系快速部署监控产品,拥有丰富的运维管理平台和 PaaS 平台设计开发经验。
评论