《Google SRE 工作手册》系列读书分享之 组织视角下的金融企业 SRE 实践探讨 (视频 + 文字版)
引言
本期分享主题是组织视角下的金融企业 SRE 实践探讨,本期分享内容为金融企业 SRE 现状与挑战、金融企业运维组织的 SRE 演进、运维平台工具与 SRE 文化实践的融合,以及统一告警/应急中心等工具建设分享。
一、金融企业 SRE 现状与挑战
(1)金融企业的 SRE 现状
理念吸收和实践探索阶段
没有专门的 SRE 岗位
缺少 SRE 在金融行业的实践案例
缺少 SRE 相关行业规范及标准指引
工具及平台建设缺少对 SRE 理念和实践的融合
(2)金融企业的 SRE 挑战
cons
人员技能的挑战
单一领域运维专家
工程能力与工程思维
组织文化的挑战
工程文化
协作模式
敏稳双态的系统形态
强监管对工具及平台建设的挑战
pros
运维体系化建设长期投入
专业领域工具较多
较完备规范的制度及流程
丰富的“来自生产的智慧”
(3) 数字化运维体系方法论
二、金融企业运维组织的 SRE 演进
应用运维-生产的智慧
系统业务架构、技术架构、部署架构等
历史故障经验
应急预案
特定业务行为与系统行为表现(跑批、秒杀、活跃行情等)
沉淀在专家头脑中不利于组织级能力沉淀
运维研发
工程思维
专业开发能力
新技术、理念接受快
缺少运维经验
对运维组织、流程、工作内容缺少理解
工具不好用
需求梳理不到位
运营推广受阻
协同融合
运维专家参与需求梳理与产品设计
平台及工具沉淀生产智慧
组织级知识共享
利于推广运营
利于新理念和实践的引入和融合
激发创新
三、运维平台工具与 SRE 文化实践的融合
流程与工作机制的 SRE 融合
OnCall 值班管理
控制负载(告警/异常)
灵活公平的 Oncall
明确的值班流程与任务
线上化自动化的值班工具/工作台
异常事件管理(MTTR)
发现
响应
处置
根因定位
预案启动
应急指挥
发起集结
外部报告
风险揭示
复盘
监控管理
SLA/SLO/SLI
基于 SLO 的告警
SLI 指标及告警
错误预算
发布管理
CI/CD
制品规范
流水线规范
参数配置规范
发布评审
金丝雀发布
运维平台及工具建设与 SRE 的融合
四、统一告警/应急中心等工具建设分享
(1) 统一告警平台
(2) 统一告警平台-深度消费 CMDB
(3)统一告警平台-ChatOps/多端操作
(4)统一告警平台-更多可能性
(5)统一告警平台-与 SRE 实践的融合
(6)应急中心
(7)应急中心-可观测
五、互动答疑(Q&A)
周光杰
某金融机构数字化运维研发,拥有十多年运维工作经验,负责过银行核心系统、证券互联网系统、运维平台研发,目前负责持续交付、统一监控、日志分析等相关运维研发工作。
Q1:金融企业的 IT 组织架构是否比较固化?金融企业研发、运维分开很多年了,对于目前这样一个运维研发一体化来讲,带来更多是机遇还是挑战?哪个成分更多?
A1:不同的规模的金融企业,它的 IT 组织架构可能会有所不同。大型的国有银行及中型股份制商业银行,基本上都是研发、测试、运维三个中心,且每个中心各个团队之间分工都是比较细化、比较专业。但是对像我所在的券商来讲的话,组织架构还算是比较扁平化的。研发、测试、运维,沟通起来我觉得是没有什么障碍,协作起来是比较密切的。金融企业研发和运维的分离,对运维研发一体化来讲,是有机遇也有挑战。机遇的话,研运分离可能会把更多的精力去聚焦在自己关注的领域,会做的更专业。挑战的话, SRE 或者 DevOps 理念比较强调协作共享,研运分离之后会有一些协作方面的一些挑战,有一些横向的工作,推动起来就会有一定的困难。
Q2:为什么金融企业如此强调合规性,和行业监管有什么关系?这个监管的合规性在日常 IT 工作里面体现的多吗?
A2:还是比较多的,因为金融行业它是一个强监管的行业,金融企业的 IT 系统的稳定性也是关系到民生的,所以它的一个稳定性还有合规性是至关重要的。不管是银保监会(现在叫做金融监督管理总局),还是证监会或者是证券行业协会,对金融企业的 IT 的监管都是从严的。如果说是有严重的稳定性事故的话,那甚至会影响到金融企业的展业,也影响到金融企业的评级,所以金融企业普遍都是非常关注系统的稳定性,这种对稳定性的要求也非常契合强调可靠性的 SRE。
Q3:目前金融行业的 DevOps 实施情况怎么样?有哪些主要的成功点?还有哪些不足?
A3:我觉得 DevOps 的理念在金融行业的接受度以及实践是挺多的。每年都有很多金融行业的研发团队会去过 DevOps 的认证,它确实会给研发效能带来改善,提升研发规范性及研发效能。金融企业的 DevOps 实施也有一些难点。第一点,标准化是比较难做的。因为像金融行业的话,比如说我们公司所在的证券行业,有比较多的第三方供应商采购的系统,交付制品比较难推动做标准化;第二点,金融行业,普遍是研运分离的,它的系统也是各自建设的,对于 DevOps、CI/CD 项目的实施,需要很多个不同的系统之间去做对接,另外开发环境和生态环境要做隔离,研发不能操作生产环境等等合规要求,都会给工具链的建设带来一些技术上面的挑战。最后,金融行业普遍对变更发布,有严格的流程管控和严格的审批,需要从审批链和工具链两个维度去考虑,把工具链和审批链做一个融合,然后尽量减少断点。
Q4:就您而言,认为金融企业是否真的适合 SRE 或者 DevOps?为什么?
A4:我觉得是合适的,特别是 SRE,关注的就是系统的稳定性,稳定性对金融行业来讲,就是生命线。如果说这套理论和实践它是能够提升系统稳定性的,那金融行业是有动力去实践的。金融企业的业务是越来越复杂,因为展业需要新上的系统也越来越多,交付频次也是越来越高,系统之间的一个架构非常的复杂,上下游交互非常多,像微服务等新技术的采用,如果缺乏治理的话,导致微服务泛滥,对运维来讲是一个挑战。所以,采用 SRE 也好, DevOps 也好,能够给系统稳定性以及价值交付效能带来改善,我觉得还是值得投入和实践的。
往期视频回看:
官方网站:www.sretraining.cn
版权声明: 本文为 InfoQ 作者【雅菲奥朗】的原创文章。
原文链接:【http://xie.infoq.cn/article/1a2e39c9979fcb191f5ac15f4】。文章转载请联系作者。
评论