如何建设 IT 运维流程与体系
实现运维管理从传统被动式服务转变为主动预防服务,以流程贯穿整个运维管理过程,实现运维管理的标准化、规范化和流程化是目前企业信息化建设急需解决的问题。
1、标准化
比如说,数据中心经常要进行巡检,不同的人巡检,其效果是不一样的,因为不一样水平的人能够发现的问题不尽相同。那么针对硬件、小型机、x86、存储等,做到这些环节的巡检标准化,甚至可以用软件来统一实现是否可行?把巡检标准化这个难题给解决了。现在不管哪个员工到现场,根据这份标准化流程和分析方法做出来的巡检报告质量能保证水平基本一致。从这件事情我们可以窥见标准化的重要性。
2、自动化
一旦能够标准化了,下一步就可以考虑运维的自动化了。现在很多企业都在谈论运维自动化,但如果企业运维的各种工具、平台、知识体系都不标准化,怎么能做到自动化?即使做出来了,这种自动化也是虚的。在做运维自动化的过程中,企业采集了大量指标,做了大量的监控告警,但每天成百上千个告警跳出来,根本解决不完——这不是在做自动化,而是给我们的运维添乱、添堵,给运维人员造成巨大的精神压力。所以说,考虑自动化之前,一定要先考虑运维标准化,当我们能把运维的一系列工作包括采集、分析、监控、操作等全部标准化了,自动化的问题也会迎刃而解。
3、可视化
自动化实现后还需要做可视化,为什么呢?这是必须完成的一个环节,它可以把采集到的大量数据通过一种可视化方式表现出来,很好地把一些指标向运维人员展示并在一定程度上解放运维人员,降低运维成本。但是在做可视化的过程中,我们不能再走以前的老路。以前我们使用的运维自动化工具都是一些商业软件,并且这些商业软件通常是基于网管式方法,这些网管软件面面俱到,但是不够专业。举个例子,比如说现在有一个业务系统,这个系统里面有 12 个网络设备、90 个服务器,不同的人关注的点是不一样的,但是专业的网管软件只能采集一套数据。因此这里就涉及在引入可视化时,不单单要把数据展示出来,还要做到场景化运维。对于哪怕同一个拓扑图,网管人员、安全人员和业务人员会根据自身关注的指标体系,看到不一样的内容,即不同的人关注不同的场景。
当我们把前面所有步骤都完成了,后续就可以实践智能化了,也就是引入大数据分析。通过大数据分析,我们能够发现以前很多关注不到的问题,一些以我们的知识能力达不到的分析层面。至此,我们的运维流程和体系就逐步完善起来了,同时智能化的大数据分析对我们的 IT 运维来说也是很好的补充。
版权声明: 本文为 InfoQ 作者【穿过生命散发芬芳】的原创文章。
原文链接:【http://xie.infoq.cn/article/247d5ab4dab58ab8897805f93】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论