写点什么

《Google SRE 工作手册》系列读书分享之 组织视角下的金融企业 SRE 实践探讨 (视频 + 文字版)

作者:雅菲奥朗
  • 2024-07-11
    上海
  • 本文字数:2249 字

    阅读完需:约 7 分钟


引言

本期分享主题是组织视角下的金融企业 SRE 实践探讨,本期分享内容为金融企业 SRE 现状与挑战、金融企业运维组织的 SRE 演进、运维平台工具与 SRE 文化实践的融合,以及统一告警/应急中心等工具建设分享。


一、金融企业 SRE 现状与挑战


(1)金融企业的 SRE 现状


  • 理念吸收和实践探索阶段

  • 没有专门的 SRE 岗位

  • 缺少 SRE 在金融行业的实践案例

  • 缺少 SRE 相关行业规范及标准指引

  • 工具及平台建设缺少对 SRE 理念和实践的融合


(2)金融企业的 SRE 挑战

cons

  • 人员技能的挑战

  • 单一领域运维专家

  • 工程能力与工程思维

  • 组织文化的挑战

  • 工程文化

  • 协作模式

  • 敏稳双态的系统形态

  • 强监管对工具及平台建设的挑战

pros

  • 运维体系化建设长期投入

  • 专业领域工具较多

  • 较完备规范的制度及流程

  • 丰富的“来自生产的智慧”


(3) 数字化运维体系方法论



二、金融企业运维组织的 SRE 演进


应用运维-生产的智慧

  • 系统业务架构、技术架构、部署架构等

  • 历史故障经验

  • 应急预案

  • 特定业务行为与系统行为表现(跑批、秒杀、活跃行情等)

沉淀在专家头脑中不利于组织级能力沉淀


运维研发

  • 工程思维

  • 专业开发能力

  • 新技术、理念接受快

  • 缺少运维经验

  • 对运维组织、流程、工作内容缺少理解

  • 工具不好用

  • 需求梳理不到位

  • 运营推广受阻

 

协同融合

  • 运维专家参与需求梳理与产品设计

  • 平台及工具沉淀生产智慧

  • 组织级知识共享

  • 利于推广运营

  • 利于新理念和实践的引入和融合

  • 激发创新



三、运维平台工具与 SRE 文化实践的融合


流程与工作机制的 SRE 融合

  • OnCall 值班管理

  • 控制负载(告警/异常)

  • 灵活公平的 Oncall

  • 明确的值班流程与任务

  • 线上化自动化的值班工具/工作台

 

异常事件管理(MTTR)

  • 发现

  • 响应

  • 处置

  • 根因定位

  • 预案启动

  • 应急指挥

  • 发起集结

  • 外部报告

  • 风险揭示

  • 复盘

 

监控管理

  • SLA/SLO/SLI

  • 基于 SLO 的告警

  • SLI 指标及告警

  • 错误预算

 

发布管理

  • CI/CD

  • 制品规范

  • 流水线规范

  • 参数配置规范

  • 发布评审

  • 金丝雀发布


运维平台及工具建设与 SRE 的融合





四、统一告警/应急中心等工具建设分享


(1)  统一告警平台



 (2)  统一告警平台-深度消费 CMDB



(3)统一告警平台-ChatOps/多端操作



(4)统一告警平台-更多可能性



(5)统一告警平台-与 SRE 实践的融合



(6)应急中心



(7)应急中心-可观测



五、互动答疑(Q&A)



周光杰

某金融机构数字化运维研发,拥有十多年运维工作经验,负责过银行核心系统、证券互联网系统、运维平台研发,目前负责持续交付、统一监控、日志分析等相关运维研发工作。


Q1:金融企业的 IT 组织架构是否比较固化?金融企业研发、运维分开很多年了,对于目前这样一个运维研发一体化来讲,带来更多是机遇还是挑战?哪个成分更多?

A1:不同的规模的金融企业,它的 IT 组织架构可能会有所不同。大型的国有银行及中型股份制商业银行,基本上都是研发、测试、运维三个中心,且每个中心各个团队之间分工都是比较细化、比较专业。但是对像我所在的券商来讲的话,组织架构还算是比较扁平化的。研发、测试、运维,沟通起来我觉得是没有什么障碍,协作起来是比较密切的。金融企业研发和运维的分离,对运维研发一体化来讲,是有机遇也有挑战。机遇的话,研运分离可能会把更多的精力去聚焦在自己关注的领域,会做的更专业。挑战的话, SRE 或者 DevOps 理念比较强调协作共享,研运分离之后会有一些协作方面的一些挑战,有一些横向的工作,推动起来就会有一定的困难。


Q2:为什么金融企业如此强调合规性,和行业监管有什么关系?这个监管的合规性在日常 IT 工作里面体现的多吗?

A2:还是比较多的,因为金融行业它是一个强监管的行业,金融企业的 IT 系统的稳定性也是关系到民生的,所以它的一个稳定性还有合规性是至关重要的。不管是银保监会(现在叫做金融监督管理总局),还是证监会或者是证券行业协会,对金融企业的 IT 的监管都是从严的。如果说是有严重的稳定性事故的话,那甚至会影响到金融企业的展业,也影响到金融企业的评级,所以金融企业普遍都是非常关注系统的稳定性,这种对稳定性的要求也非常契合强调可靠性的 SRE。


Q3:目前金融行业的 DevOps 实施情况怎么样?有哪些主要的成功点?还有哪些不足?

 A3:我觉得 DevOps 的理念在金融行业的接受度以及实践是挺多的。每年都有很多金融行业的研发团队会去过 DevOps 的认证,它确实会给研发效能带来改善,提升研发规范性及研发效能。金融企业的 DevOps 实施也有一些难点。第一点,标准化是比较难做的。因为像金融行业的话,比如说我们公司所在的证券行业,有比较多的第三方供应商采购的系统,交付制品比较难推动做标准化;第二点,金融行业,普遍是研运分离的,它的系统也是各自建设的,对于 DevOps、CI/CD 项目的实施,需要很多个不同的系统之间去做对接,另外开发环境和生态环境要做隔离,研发不能操作生产环境等等合规要求,都会给工具链的建设带来一些技术上面的挑战。最后,金融行业普遍对变更发布,有严格的流程管控和严格的审批,需要从审批链和工具链两个维度去考虑,把工具链和审批链做一个融合,然后尽量减少断点。


Q4:就您而言,认为金融企业是否真的适合 SRE 或者 DevOps?为什么?

A4:我觉得是合适的,特别是 SRE,关注的就是系统的稳定性,稳定性对金融行业来讲,就是生命线。如果说这套理论和实践它是能够提升系统稳定性的,那金融行业是有动力去实践的。金融企业的业务是越来越复杂,因为展业需要新上的系统也越来越多,交付频次也是越来越高,系统之间的一个架构非常的复杂,上下游交互非常多,像微服务等新技术的采用,如果缺乏治理的话,导致微服务泛滥,对运维来讲是一个挑战。所以,采用 SRE 也好, DevOps 也好,能够给系统稳定性以及价值交付效能带来改善,我觉得还是值得投入和实践的。


往期视频回看:


官方网站:www.sretraining.cn

发布于: 刚刚阅读数: 3
用户头像

雅菲奥朗

关注

专注于“互联网时代”的IT培训和咨询 2024-07-04 加入

雅菲奥朗是国内知名的IT培训与咨询公司,是SRE的实践者与引领者。我们秉承“知识创新、方法创新、实践创新”的核心理念,基于在多家知名企业的成功落地经验,持续引入国际先进SRE的理念和方法论。

评论

发布
暂无评论
《Google SRE工作手册》系列读书分享之 组织视角下的金融企业SRE实践探讨 (视频+文字版)_运维_雅菲奥朗_InfoQ写作社区