运维工程师核心工作是什么?用什么运维工具好?
很多企业都有自己的运维工程师,但仍有很多工程师不清楚自己的职责,不知道核心工作是什么,导致运维工作很混乱,很忙碌,天天加班。今天我们就简单探讨一下,运维工程师核心工作是什么?用什么运维工具好?
运维的核心工作其实就是为了维护 IT 设备和系统的稳定,甭管硬件、网络、安全什么的,无论黑猫白猫抓到老鼠就是好猫。
这里有一点要说下,云计算时代下的运维和传统运维在工作内容还是有差距的,从过去的机房、交换机、存储、带宽等实体设施,到云服务上的虚拟产品,从实到虚的变化,更多的工作其实在操作端,云主机资源的模板化,为不同业务团队配置性能合适的主机模板,以及主机资源申请、创建、交付、运维以及最终的释放销毁的全生命周期管理,还有应用程序和支持软件的安装部署/交付和升级,集群性能负载均衡调配、服务器的批量脚本操作、数据库维护、主机的监控、运维日常工作的审计等等,当然了,多云情况下,各云使用的费用情况也需要统计和分析。
而这其中,如何及时发现问题,并在问题造成事故之前就解决了才是最难的,这就需要我们拥有事前监控、事中处置的运维能力,当然了,好的运维工具就必不可少。
1)事前监控与告警
行云管家支持多种监控数据获取方式:支持从公有云厂商/私有云平台通过 API 获取监控数据,也支持通过行云管家 Agent 获取监控数据,同时也对接了如 SNMP 等第三方监控平台 API 对资源的监控数据进行获取。
行云管家覆盖支持了几乎所有的监控指标,包括 CPU、内存、磁盘、进程、网络流量等 20 多项监控指标。
支持手机短信、电子邮件、微信/企业微信、钉钉等多种实时告警手段,且不仅仅止步于告警事件的通知,还提供了进一步的告警处理能力,运维工程师可直接通过移动终端即可对故障进行处理。
2)事中自动化运维处置
在自动化运维方面,行云管家支持业界知名的 SaltStack/ansible 运维工具库 ,并支持用户新建各类自定义 Shell/Python/PowerShell/CMD 脚本,能够批量对主机执行脚本、命令,以及将文件批量分发至目标主机、批量从多台主机采集文件,实现对多台主机的各种批量运维操作。
同时,用户可以根据业务要求编排运维任务,设置各种触发条件,一旦触发后,系统能够自动执行相应的已编排好的任务,例如:云主机自动升级、应用自动部署等,极大的降低应用部署与管理成本,提高业务敏捷性,满足企业用户对自动化运维的需求。
A、命令控制台
命令控制台提供了一种轻量化的批量执行命令的方法,可同时对多台主机批量执行命令。用户无需提前编写命令,而是可以随时对所选主机执行任何命令,并实时查看命令输出,主机输出界面更友好。
B、脚本控制台
通过脚本控制台可以将预定义的脚本导入到行云管家中的主机上执行,实现同时对多台主机批量执行指定脚本的功能,并支持脚本的自定义。
C、会话控制台
可同时批量打开多台主机的会话,将日常高频运维的主机加入会话控制台中,方便日常批量打开会话的场景。
D、文件分发与采集
将文件批量分发到指定主机,或将指定主机的文件采集到指定位置,适合主机批量打补丁/批量采集应用日志等场景。
E、任务编排与执行
将需要执行的作业流程化、模板化,并可指定规则按需执行。
免费试用:https://www.cloudbility.com/cmp.html?refid=infoq-tlj-wenzhang-cmp
评论