ITSM 流程落地经验之事件管理
直达原文:ITSM流程落地经验之事件管理
在众多流程中,事件管理流程是很多组织在实践中优先考虑的选择,也是在企业内部 IT 部门与业务部门衔接中出现最多的一类场景,有效的落地事件流程可以快速提现 IT 部门价值,同时能为业务部门带来显著收益的一种方式。
在事件管理流程中,如何通过快速派单、快速解决等活动以实现“快速恢复服务至正常服务水平”的目标?结合历史经验我们做一些简单的实践分享。
有效设置事件优先级
如何有效确定优先级是大部分 IT 管理者认为最困难的事项。有效确定优先级是按照事件对业务的影响来判断的。优先级的计算方式是:优先级 = 影响 x 紧急程度,紧急程度指的是事件必须在多快的时间内得到解决,影响则是事件的影响面。
例如影响广大用户的核心业务系统的事件应该始终排在第一位(即 1 级),但是日常工作中普遍出现的事件通常是影响个别用户的事件(通常是 3 级或者 4 级)。
决定事件的严重性时需要考虑的一些问题:
企业生产力受到的影响
有多少用户受到影响
有多少系统受到影响
受影响的系统对组织的重要程度
四个级别能够适用于大部分组织,一般不会超过五个,太多的级别会让 IT 工程师在判定的时候难以抉择。
示例:某个 IT 组织的优先级策略
提升时效控制
快速记录
在事件管理中,想要实现事件的快速记录,需要编制一个简单又信息完备的事件记录单,并且结合工具的能力,使用结构化字段和模板化的方式,完成事件的快速记录。
快速转派
确保和提升工作效率的核心能力在于快速有效地分派事件单。这涉及到依据事件的类别进行迅速识别,界定其与不同支持小组之间的关联,从而精准地决定事件应被分派给哪个处理团队,以确保事件得到及时且专业的处理。
那如何编制这份事件分类和小组映射的表格,以实现较好的效果呢?
事件的分类使用 IT 团队内部通用且互相认可的描述,可以考虑按服务内容分类,或按技术能力分类,以及按资源类型分类。如果难以开始,可以考虑使用按照资源类型或系统进行分类,但是这种方式的技术语言中,对于最终用户自行发起的事件,难以准确判断对应的分类。
映射的处理团队可以是小组,也可以是具体的人员,如果存在组内多个人承担相同的职责的情况下,可以到组,如果每个人的分工明确,就可以直接到人。
快速处理
快速处理事件是非常关键的一步,要想达到这个目标,有两项必要的准备工作,分别是“工具化”和“标准化”。
工具化指的是在处理的工作中,结合各种工具技术,例如脚本、远程工具等。
示例:删除超期日志文件
#!/bin/sh
# 日志文件目录
log_dir="/logs"
# 日志文件保留天数
max_days=7
echo "清理超期日志文件"
find "${log_dir}" -name "*.log" -type f -mtime +"${max_days}" -exec rm -rf {} \;
嘉为蓝鲸流程中调用脚本
标准化指的是使用 SOP 的方式,标准化记录处理某些常见事件的固定操作步骤。
示例:服务器故障排除 SOP
故障排除
当服务器出现硬件故障,通过以下步骤排除:
确定故障原因。依次查看电源、硬盘、内存、主板、处理器等,如条件许可,可使用替换法检测各硬件。
恢复固件缺省配置。比如去除第三方厂商备件和非标配备件;清除 CMOS,恢复资源初始配置。
快速关闭
事件单的关闭的前提是提交事件的用户确认事件已经得到了解决,通过现代化工具中通常具备的邮件或 IM 工具的回访方式,对于普通事件,设置默认无回复关闭的期限(如 3 天);对于高优先级事件采取人工一对一的方式进行回访。
适当的升级事件
事件的升级分为技术升级和管理升级,两者互为补充。技术升级指的是当前环节的工程师的技术水平无法满足处理,需要升级至其他技能水平更高的人员或小组的升级方式。管理升级是指需要更高权限级别的管理人员介入确保更充足的资源的升级方式。
升级策略的目的是,对于不同优先级的事件,确保分配到合适的资源进行解决。因此需要定义事件升级的时间框架。当达到某个时间点时,如事件还未解决,将触发相应的事件升级路径。
某 IT 组织的事件升级策略示例
某一级事件处理时限示例
这个表中描述了针对某一级别的事件的各角色的处理时限要求,以及在其中做的努力程度描述。
以上是事件管理的部分经验,组织在可以结合这些方法,并结合现代化的技术能力进行适当的调整和优化,以达到事件管理的核心目标。
直达原文:ITSM流程落地经验之事件管理
评论