IT 服务管理三重奏:SLA、SLO、SLI
ITSM 一直在为用户寻求更好的用户体验,传统的框架虽然有价值,但往往无法满足用户和企业的数字需求,因为也缺乏评估方法及服务质量。
SRE 和 ITSM 相交的一个核心原则是 SLA 的概念,虽然 SLA 长期以来一直是 ITSM 的一部分,但 SRE 引入了服务级别目标(SLO)和服务级别指标(SLI)。
SLA、SLO、SLI 会优先考虑 IT 服务台和员工之间的共同目标,专注于清晰的沟通,并增强用户体验。让我们深入了解如何从根本上重塑 IT 组织的服务交付方法。
SLA协议
SLA 服务水平协议是指 IT 服务台与员工之间的正式协议,此基本协议通过为服务分配责任来为预期服务设定基本规则桌面团队,包括详细的升级协议。
例如,基于云的 ERP 系统的 SLA 可能会指定每月正常运行时间保证或定义应以多快的速度恢复服务,即停机事件的解决时间。
SLA 还概述了超过停机时间阈值的主动或被动升级操作,升级操作可能包括通知相应的利益相关者有关停机时间的信息,提高事件工单的优先级,甚至同时执行所有这些升级。
这样的话,SLA 有助于确保 IT 服务台和员工在整个服务交付过程中的透明度!
SLO 服务级别目标
SLO 服务级别目标也是 SLA 的一个组成部分,是为 IT 服务台团队精心设计的、具体的、数字化的目标。它们为特定服务定义所需的性能级别,将 SLA 的承诺转化为可操作的目标。
SLO 对于划分良好和不良服务的阈值级别至关重要,SLO 目标表示为各种指标,例如正常运行时间百分比、工单的平均解决时间或员工满意度分数。
继续以 ERP 系统为例,在指定正常运行时间保证的 SLA 中,公司可能会将所有与停机相关的事件的正常运行时间 SLO 设置为 99.95%,并将解决时间范围设置为 20 分钟。
SLO 大多在内部设置,以建立清晰、可衡量的目标,从而帮助 IT 团队专注于其目标。这些内部 SLO 与 SLA 中提到的 SLO 在某种程度上有所不同。
例如,公司可能会将内部 SLO 设置为 99.99% 的正常运行时间和 12 分钟的解决时间,超过了 SLA 为不可预见的情况创建缓冲区。内部 SLO 和承诺级别之间的这个缓冲区允许发生小错误,并且定义为异常。
这样的话,可以使团队在小问题成为大问题前优先去解决!
SLI 服务级别指标
SLI 服务级别指标是用于跟踪 SLO 进度的可衡量指标,这意味着,它可以衡量 IT 团队的服务与预设 SLO 的合规性。
SLI 通常以百分比来衡量,它的范围从 0% 到 100%
如常规 ERP 系统中,SLA 规定了正常运行时间百分比,而 SLO 设置为 99.5% 的正常运行时间,SLI 将是正常运行时间的实际度量,可能是 99.66%。分辨时间帧的 SLO 为根据所需的 SLO 目标测量的单个工单的实际解决时间。例如,SLI 可以是 17 分钟,这比 20 分钟的 SLO 目标要短。
并非每个 SLO 都应该作为 SLI 来衡量,评估直接影响员工的指标至关重要,并且只需跟踪这些指标。例如,在 ERP 系统中,跟踪数字 的用户登录次数或平均用户活动持续时间并不能告诉您有关服务有效性的太多信息。
相反,SLI 可以是衡量工作时间、响应和解决时间的系统可用性,或内部违反 SLO 的票证数量的度量。通过监控这些指标,服务台团队可以及早发现并解决潜在问题,防止它们像滚雪球一样发展成重大问题和升级。
一旦您完全掌握了 SLA、SLO 和 SLI 是什么,您就可以根据反馈进行高效工作!
SLA 定义了对员工的期望,而 SLO 是 SLA 中要实现的个人目标。为了分析团队是否达到 SLO,则需要测量 SLI。
最后再通过分析 SLI 数据,可确定需要改进的领域。如果团队一直错过 SLO 并且 SLI 评级较低,则可以重新对 SLA 和 SLO 优化。
SLA、SLO、SLI 对比
总之
· SLA 是 IT 服务台和员工之间的总体协议;
· SLO 是为满足 SLA 而设置的内部目标;
· SLI 是 SLA 中提到的衡量 IT 服务的指标!
ServiceDesk Plus 包含的这三重奏使 IT 服务台团队能够为员工设定明确的期望,在潜在问题影响服务交付之前快速识别,可将 IT 服务保持在最高水平!
评论