写点什么

运维数字化

用户头像
春如夏花
关注
发布于: 2020 年 12 月 13 日
运维数字化

引言

最近和一些朋友聊起运维的未来和发展,大家很担心在云计算时代下,运维工作一方面会逐步被自动化和智能化取代,一方面随着年龄增长竞争力在减弱。很现实的问题,我也基于这些年在运维工作的经验,和大家聊聊运维数字化的转型


数字化运维

首先什么是数字化,简单点就是没有纸质的,全部通过 信息/流程/报表形式进行程序化的数据交换。做过运维的同学会会发现,运维有着天然的数字基因,日志/监控/大数据/运维平台/发布管理/CMDB。在数字化转型的大趋势下,运维更是要拥抱数据。一切皆数据



日志驱动



1.日志无价

日常运维过程,我们有大量的日志,包括 业务日志,前端日志,后端日志,APM 日志,监控数据,安全日志,流水线日志等等。

运维应该思考如何充分利用日志提升运维的价值。


一个基于日志的运维平台


2.规则化

日志+规则 agent+告警平台,实现:分单,现场快照,诊断分析,动作。


可以参考开源告警规则,针对不同日志开发不同规则告警。像 zabbix, Prometheus, open-falcon 都有告警规则设置,也可以看一些开源的规则引擎。


开源告警:

GitHub - bosun-monitor/bosun: Time Series Alerting Framework

规则引擎:

GitHub - kiegroup/drools: Drools is a rule engine, DMN engine and complex event processing (CEP) engine for Java.


3.工单化

用工厂流水线视角看待研发过程,在流水线的每个环节采集日志,形成对应工单(需求工单,错误工单,告警工单,发布工单,故障工单等),工单最终目的:降本增效 知识沉淀。


错误日志工单闭环系统

  1. 系统错误日志+代码提交记录 生成错误工单 推送给研发;

  2. 研发确认后进入版本计划;

  3. 发布后错误单自动消失;

  4. 根据研发线上错误情况,生产绩效数据。


项目管理



运维工作大体两类: 计划性工作+计划外工作。核心目标: 减少 计划外工作占比。

1.管理数字化

用项目管理的方式来做运维:把公司当作我们客户,借助项目管理方式,做好 目标、人员、进度、风险和成本 的管理。

项目分类:可以从 KPI 提取项目类别,比如:效率提升/稳定性优化/成本优化/架构优化等。

立项方式:随时随地立项,只要可以归属某种分类,就可立项。方式包括自主立项或者推动研发部门作为项目负责人,成员可跨部门。

项目进度:负责人每日关注项目进度情况,识别风险。


2.车间主任

建议运维都去工厂车间去参观,了解一个物品是如何被生产出来。运维也一样,你把自己当作车间主任,产品研发是一个流水线。车间主任要关注:

  1. 目前的吞吐量和生产能力如何?

  2. 某个环节除故障时候,如何快速消除?

  3. 是否存在瓶颈点,如何消除?

  4. 上下游如何高效配合?



3.不断降低例外

可以通过下面几个方式:

  1. 建设完善的故障处理流程

  2. 每日巡检,保证监控和告警系统本身的稳定性;

  3. 遵循 2/8 原则,关注核心业务;

  4. 自愈能力建设,通过数据和规则匹配能做部分自愈功能。


故障处理流程:


企业架构



学会用企业架构视角去解决运维问题。可以参考 TOGAF 的架构方案,了解公司的 业务场景、应用系统、数据方案和基础技术架构。站在 CTO/CEO/CIO 的角度思考,既要懂业务也要会管理。

运维是面向客户的最后一个触达点,必须熟悉业务流程和系统。因此我们:

  1. 业务价值链和商业画图;

  2. 维护系统架构图;

  3. 和业务部门学习并形成业务排错指南;

  4. 大数据方案;


TOGAF 阶段方法:


个人比较喜欢这 2 本书:

《SRE:Google运维解密》((美)Betsy Beyer(贝特西 拜尔)等)【简介_书评_在线阅读】 - 当当图书 (dangdang.com)

《凤凰项目 一个IT运维的传奇故事 修订版》([美]吉恩·金 凯文·贝尔 乔治·斯帕福德)【简介_书评_在线阅读】 - 当当图书 (dangdang.com)


总结

运维部门工作,是公司长期可持续发展的基石。持续保证业务可靠性,是公司业务对外最后的守护者。作为运维从业者,应从公司角度和企业目标去做事情。


最后送一个寓言故事给大家:


两个工人一起在工地里搬石头,很累,汗流浃背。

一位老者过来问之:你们在干嘛?

一人回答说:在搬石头。

另一人回答说:在修教堂。

十年后:

回答在搬石头的人依然在搬石头,唯一不变的是背有点驮了。

而另一个回答在修教堂的人已经成了一个令人尊敬的牧师了。

运维工作是盖教堂。


发布于: 2020 年 12 月 13 日阅读数: 3078
用户头像

春如夏花

关注

成长与动力 2018.11.09 加入

纷纷扰扰的世界,你需要一个安静的时刻,聆听自己。

评论 (2 条评论)

发布
用户头像
很好奇一点:当前的公司,“计划性工作:计划外工作“ 比例大概是多少?P(PPT)语言应用广泛么?
2020 年 12 月 20 日 19:30
回复
玉俊兄,现在工作主要面向客户技术咨询,运维少了。 之前的一份运维工作经验是这样:具体比例没算过,我核心目标之一就是减少计划外工作,理想情况是0。 然后关于PPT这块,现在用的比较多,但是以架构图和总结性的为主,内容还是要自己脑子里才行。
2020 年 12 月 24 日 13:39
回复
没有更多了
运维数字化