写点什么

建设专业化运维服务团队必要性

作者:太乙闲人
  • 2023-12-26
    北京
  • 本文字数:5098 字

    阅读完需:约 17 分钟

建设专业化运维服务团队必要性

信息系统的生命周期涵盖:设计、开发、测试、部署上线、运行维护。其中,运行维护阶段是信息系统生命周期中的关键环节,其执行效果直接影响系统是否能达到预期的运行目标。为了实现这个目标,我们必须建立一个以业务服务为导向的专业化运维服务团队,为行业提供高效、优质的运维服务,确保系统的稳定运行和用户体验的优化,最终为行业的高质量发展提供信息化支持。

 

一、开发与运维的关系

 

在一个信息系统中,开发是第一步,运维是第二步。软件系统在开发过程中存在的稳定性问题,在运维阶段可能会被放大。从信息系统整个生命周期管理过程来看,80%的基本工作可能发生在运维阶段,运维的任务也相对繁多。运维的价值体现在解决开发过程中忽略的问题,如程序本身的性能不优、内存泄漏、结构耦合、日志不规范等,这些问题都会给系统运维带来许多困扰,还会降低软件系统的稳定性。在信息系统运维中,我们可以将其运维价值分为三个层次:第一层,提供低成本、高质量、高效、可扩展的基础运维服务,保证业务持续稳定运行;第二层,通过运维数据的挖掘和分析,为业务发展方向提供决策支持;第三层,提供基础的 IT 计算服务,除了服务企业自身,还可以服务外部客户,进一步为企业创造价值。

 

从基层职位看,运维和开发的分工有很大的区别。开发主要负责设计和编码,主要考虑功能和非功能的实现;运维则负责系统上线后的稳定、高效运行。在所需技术上,开发重点在各种开发语言、开发框架、持续集成环境、软件工程、算法以及对应的业务等方面,对底层的运行环境关注较少,尤其在上云环境后,更少关心负载均衡、高可用等非功能需求。而运维的重点在于系统运行的各种环境,从机房、网络、存储、物理机、虚拟机等基础架构,到数据库、中间件平台、云平台、大数据平台、安全管控、运维开发(AIOps 负责开发运维工具和平台),其关注点并不在业务流程的设计和实现,而是对这些平台的使用、管理和优化。

 

开发团队以信息系统的建设为目标,通过使用软件开发技术实现业务流程的信息化,只要系统具有预定的功能,能够支持业务开展,就可以达到目标。开发工作是短期行为,后期优化以软件为目标对象。而运维团队以可量化的服务为目标,确保信息系统包含的所有组件能够正常运行,进一步支持公司业务的正常开展。运维工作是长期行为,是一个持续不断对服务行为进行优化的过程,服务的目标对象是人与信息系统的结合。

 

目前流行的 DevOps 提出“谁开发谁运维、开发运维一体化”,但具体如何实施并没有明确的说明。特别是“谁开发谁运维”,这明显是不符合实际情况的。试想一下,一个开发人员开发的应用服务都由他自己来运维,他能运维几个应用服务?然后又有多少时间能继续做开发?到最后岂不是所有开发人员都成了运维人员。DevOps 开发运维一体化并不是让开发去做运维,而是使开发和运维通过一些机制有机结合、高效统一,成为一个整体,从而消除开发团队和运维团队之间的隔阂,有效提升应用服务的研发和运维运营效率。开发运维一体化追求的是开发和运维的利益一致,而不是一个人既做开发也做运维。这需要通过一定的机制和借助相应的工具等来保证,使开发和运维之间能够有活动关节、有润滑剂。开发运维一体化的重点在于提升运维的效率,包括应用、环境、平台、工具、基础设施资源等。

 

术业有专攻,开发与运维各有所长。开发应更专注于业务流程的便利性与自动化,而运维更专注于系统的安全性、稳定性、隐患的预见性、问题的快速排查处理,保障业务的连续性和用户操作的体验性。

 

二、运维服务专业化的体现

 

让专业的人做专业的事,是现代社会给所有行业带来的最有价值的观念之一。建立专业的运维团队能够降低企业在非主业方面的人力成本、管理成本,把最大的优势和力量放在对企业核心内容的运营和管理上。专业的运维团队的价值可以通过以下几个方面体现:

 

1.    运维服务的高优质性:运维服务的体现是我们向行业各级单位的业务操作人员提供高质量的服务,支撑各信息系统的正常运行。服务的本质是规范,并且文明;能让用户真切地感知到运维人员的服务态度和体贴入微的技术支持,帮助用户快速、优质地解决在业务操作过程中遇到的实际问题。

 

2.    运维服务流程的规范性:IT 服务管理体系的建立和有效运行,从服务方层面看,体系的建立提供了更好的控制、更高的效率和更多改进的机会;从客户层面看,体系的建立确保了服务方所提供的 IT 服务能真正满足业务需求并保持一致,提高了 IT 系统的可靠性和可用性,增强了对最佳实践、目标利益和服务管理中可能的问题的理解,保障了客户 IT 系统的持续稳定运行,从而实现了客户 IT 投资价值的最大化。通过体系运行标准要求,可以帮助服务提供者在战略层面和 IT 服务过程层面设计量化的 IT 服务绩效目标和 IT 服务管理过程指标,一方面保证了经营结果能达到战略目标的要求,提高公司 IT 服务战略的执行力和 IT 服务的可持续发展;另一方面,确保能提供满足客户需求、符合服务级别的持续可靠的 IT 服务,并不断提升 IT 服务管理的成熟度。

 

3.    运维团队的高稳定性:运维团队中的员工流失将会造成工作的被动,有时可能会降低问题的解决速度甚至会影响到用户的业务正常操作,新加入的员工由于工作经验有限,且不能快速上手,工作效率也较低,这势必会造成企业工作质量的下降,从而影响客户的满意度。尤其是大批量的员工离职,势必会造成公司整体服务质量的下降,导致企业客户满意度的急剧下降,企业也面临着危机。有一个稳定的运维团队将会为行业带来更多的体验与价值。

 

4.    运维服务的高满意度:运维服务的核心是服务,服务的最高境界是达到人性服务和非人性服务,人性服务就是人对人服务,非人性服务就是服务过程中的辅助平台和设施给人的感受。建立一个专业化运维服务团队,首先要提高运维服务的服务素质,达到人性服务要求,其次要建立一个专业化的服务平台,从呼叫中心建设到问题反馈平台及服务质量监督渠道等,让所有提出人员能感受到专业和尊重。行业用户在与这些专业人员交流时能感受到服务的专业性。最终让信息系统业主方和使用方均满意。

 

5.    运维服务质量的监督管理:建立运维服务质量监督管理体系的目的是为确保公司提供的运维服务满足客户所需的服务质量,寻找公司服务实施过程中存在的问题和缺陷,为服务改进活动的有效实施提供目标和方向,保证组织的服务质量稳定可控并持续提升。通过内部建立的一套质量监控体系和定期用户满意度调查双管其下的方式确保服务质量能够满足服务级别要求,确保运维服务满意度达成,也可以让用户放心交给专业运维团队为行业提供专业服务。做好运维服务质量管理可以有效提升 IT 运营价值,全面降低 IT 运维成本,改善用户体验,增强企业的口碑。具体来说,对于 IT 运维服务的供方,需要通过对服务过程能力和服务质量的量化,检查自身存在的问题和改善的机会,帮助服务组织以最符合成本的方式提供满足客户需求的 IT 服务产品;对于 IT 运维服务的需方,需要通过对供方 IT 服务能力的量化评价选择符合需要的供应商,同时,也需要通过对服务质量的量化来检验供方提供的实际服务是否满足双方的服务等级。

 

6.    运维服务人员的业务高熟悉度:运维服务人员对业务的熟悉将有助于与用户进行沟通,熟练掌握业务操作方法将能从业务操作人员的角度去考虑问题,去帮助用户解决系统可能发生的异常现象,最终能快速应对和解决用户提出的问题。

 

7.    运维服务人员的高专业性:运维服务人员不仅要具备业务操作能力、问题解决能力、良好的服务态度,更要具备较高的专业性,在操作系统掌握的基础上,还需掌握计算、网络、存储、数据库、中间件及业务架构方面的知识。运维人员的专业性体现在以下三个核心竞争力上:

 

- 操作系统原理的掌握:现在很多应用和服务还是运行在 Linux 或者 unix 操作系统上,所以对应出现问题应该怎么去排查,性能怎么去优化,监控怎么去做,而这些都是需要对操作系统原理和架构清楚的,所以操作系统是运维的核心对象,也是最基础的。

 

- 业务和架构的深入掌握:运维会负责不同产品,它们之间的区别到底是什么,运维人员需对所负责的业务和架构的深入理解。比如某人是做存储的,对整个存储的架构,整个链路,底层的理解,以及关联的存储网络、存储硬件的了解和掌握,是非专业人员不可替代的部分。

 

- 运维方法论的深入掌握:运维人员要具有一套利用什么知识、用什么样的方式、方法来解决用户提出或系统发生的问题。如熟练掌握 shell 语言,能够具备脚本编写能力,提高自动化运维水平;熟练掌握数据库运行机制,优化参数提高数据库运行效率;熟练掌握云平台运行和维护原理,提升云平台运维水平。

 

这些专业技能和核心竞争力的提升能够快速应对用户发现的问题和解决系统可能出现的隐患,提升运维服务水平。

 

8.    运维服务的安全性:信息系统的安全性包括硬件基础设施、软件漏洞、系统产生的文件或数据、数据通信及接触系统的人。从各方面都需要有一个专业运维团队来保障信息系统的安全性。

 

- 一个专业的运维团队经过内训、规章制度和公司文化等方面的培养,对一个公司来说安全是其生存的生命线,将会直接促使员工真正认识到安全的重要性,并能按照安全的要求和管理方式去做任何事,融入到每个员工的内心中。

 

- 一个专业的运维团队根据系统的运行特点会提前做好安全保障措施,所有运维人员能按照安全保障措施开展所有运维工作,真正实现安全的落实。

 

9.    高可用的应急预案制定:系统或整个支撑平台一旦出现了异常,将可能影响某个企业或整个行业的生产计划执行,对于运维人员来说此时最急于快速给出解决方案恢复系统的运行,如有应急预案将使运维人员能够轻松应对且能快速给予处理,快速恢复系统可用性,使用户感知的服务体验更好。

 

10.   具有系统隐患及业务需求匹配度的高预判性:企业的业务随着经营变化对信息系统的配置要求也可能发生变化,为了精准的预测到业务变化,需要有一个专业团队对系统进行监测和分析,并根据业务趋势去提前进行优化,确保在业务高峰期信息系统能够顺利支撑。

 

系统在开发建设时可能存在一些隐患,在建设时并未意识到可能存在的风险,特别是一个行业性的信息系统,存在的隐患可能影响范围比较广,如不能及时发现和改进将会影响整个行业的业务进行。如有一个专业的运维团队通过运维人员的测试和研究,可以提前发现系统的隐患并给予解决。

 

三、统一建设系统运维面临的问题

 

1.    如何处理不同场景下的运维问题:行业针对不同业务建立不同的业务系统,各个业务系统之间有互联和数据交互,有时可能需要两个系统去共同去解决才可以解决用户的问题。如有一个专业运维团队,他的信念是为行业提供优质的运维服务,他会去协调不同的运维服务商去联合解决问题。行业系统业务操作水平参差不齐,提出的问题各式各样,有一个专业运维团队,统一入口定期会整理行业遇到的共性问题向行业发布;专业运维团队将会进一步考虑服务的本质,不管是操作水平低的还是高的服务水平要保持一致,不会因人而异。

 

2.    如何保障用户的服务质量:服务质量的有效保障,对一个信息系统的运维的目的和意义来说是不言而喻的。有一支专业运维团队按照 ISO20000 和 ISO9001 体系去运行和管理是可以保障业主方的服务质量。

 

3.    如何保障行业信息数据安全:非专业运维团队由于人员流动、安全意识宣贯、安全监督体系缺失,如给行业提供运维服务将可能面临核心系统数据泄露安全风险。行业自有专业运维团队将会大大降低信息安全风险。

 

4.    如何选择运维模式:行业现在有多种运维模式存在,如:行业统一管理、行业各企业自行管理、统一和分散相结合的管理,自主运营、混合运营、全外包服务或半外包服务的方式、行业内自建公司运营等。行业统建系统如何选择运维模式,更好的为行业提供高效、优质的运维服务,是我们值得思考和亟需解决的问题。

 

四、总结

 

以行业用户业务为中心,不断提升服务质量,提升行业最终用户体验,不断提升运维效率,提高系统管理的效能为目标,建立一支为行业服务的专业运维服务团队将能真正实现 IT 系统的价值运维、效率运维、可度量运维和安全运维。

 

价值运维:通过端到端的维护过程,关注终端用户的体验,优化对核心业务的质量保证,体现运维的价值。


效率运维:对系统管理的效率,如故障处理,日常巡检等技术类效率,对运维人员,运维流程等的管理效率,从而实现对系统运维效率的控制。

 

安全运维:实现系统运维的安全,运维人员的安全,信息和数据的安全。

 

以上的论述清晰地描绘了建设专业化运维服务团队的必要性,它不仅能够提高信息系统的稳定性和用户体验,还能够为行业的高质量发展提供信息化支持。这就是我们需要建立专业化运维服务团队的原因。

用户头像

太乙闲人

关注

李鹏 2023-12-24 加入

中烟信息副总 《IT运维之道》作者

评论

发布
暂无评论
建设专业化运维服务团队必要性_DevOps_太乙闲人_InfoQ写作社区