写点什么

《Google SRE 工作手册》系列读书分享之美图 SRE 团队的「稳定性运营」实践篇一(视频 + 文字版)

作者:雅菲奥朗
  • 2024-07-11
    上海
  • 本文字数:1280 字

    阅读完需:约 4 分钟

《Google SRE工作手册》系列读书分享之美图SRE团队的「稳定性运营」实践篇一(视频+文字版)


引言

本期分享主题是美图 SRE 团队的稳定性运营实践本期分享内容为 SRE 的目标 &挑战、指导破局的理论框架。


一、SRE 的目标 &挑战


VUCA 时代



SRE 的目标: 寻求三个核心职责之间的平衡



核心职责与企业发展的关系



SRE 的困境


人手不足

  • 业务线众多且复杂

  • 琐事过多

  • 低效的咨询或求助

  • 例行的工作事项

  • 新人培养成本高

  • 风吹草动 捉襟见肘


稳定性压力大

  • 技术栈多样 更新快

  • 服务发布频率高

  • 历史技术债务

  • 告警消息满天飞

  • 战战兢兢 如履薄冰

  • 忙于救火 疲于应付


工具不称手

  • 工具缺失或落后

  • 工具建设进度缓慢

  • 轮子众多 不成体系

  • 工具间数据割裂

  • 数据/行为的不一致性


成本管控压力大

  • 资源用量管控

  • 资源利用率管控

  • 资源容量规划和管控

  • 成本归集、分析、核算

  • 成本持续优化


SRE 的目标和挑战



二、指导破局的 「理论框架」


SRE 稳定性建设全景图(故障生命周期视角)



框架/体系 (DevXOps vs AppLifecycle)



框架/体系 (CI/CD → CI/CD/CO)



云成本管理运营平台能力评估

伴随着企业云资源投入的不断增加,企业需要从财务角度进行云服务的预算制定、成本核算、成本归集和成本优化,以实现对云服务的精细化管理、经济型使用。

云成本管理运营平台能力评估依据标准《面向云资源的财务运营能力通用成熟度模型》,面向于构建云资源财务运营能力的平台进行指导和评价,对云投入成本的合理性、实际效果进行整体、客观、清晰化的理解和评价。



SRE 稳定性运营体系(演进方向)



三、互动答疑(Q&A)



石鹏(东方德胜)

2016 年加入美图,运维技术专家,美图产品 SRE 负责人。目前在美图负责社区、商业化、实验室、影像 SaaS、创新等全线产品的运维保障工作,同时参与公司日志、监控等基础设施的建设。参与或主导过多次公司基础设施的调整、改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验和积累。业界多个技术峰会的分享嘉宾或出品人。 


Q1:关于各种 Ops 在 operate 阶段中,你们的宗旨是:不管白猫黑猫,能抓住耗子就是好猫。这句话具体是什么意思?其中抓住耗子指的是什么?

A1:不管白猫黑猫,不管你叫什么 OPS,只要它能够持续地帮我们去输出前面提的几个价值点,能够让我们更高效地、更高质量地去提升质量、提高效率、降低成本,那它就是一个好的 OPS,就是值得我们去探索的一个 OPS。这里其实隐含着一层信息,就是这个猫它所提供的价值是什么。这里讲的猫的“岗位职责”就是需要抓耗子,而不是像现在我们这个“撸猫”等行为中为人们提供了一些其他的价值。


Q2:在 SRE 稳定运营体系中,你们从以前的被动应对到现在主动出击,过程中是不是要做一些项目?像数据化、Automation、体系化、智能化?或者上一些平台?美图是大概做哪些事情?

A2:因为这一页 ppt 材料,它展示了我们整个的演进方向和思路,没有具体到我们在这个过程里边需要做什么。那说到这个的话,比如前面我们观测的部分与量化的部分,要从不同领域来看。比如商业领域,我们会去搞一些 BI。然后如果说我们是单纯指稳定性保障方向的,我们会去做各种可观测性的建设,我们会去关注服务的质量是什么样子的?研发效能方向,需求迭代的效率是什么样子的?然后平台的话,当然是会需要有一些平台去承载的,不同公司可能会不一样。


本期视频回看


官方网站:www.sretraining.cn

发布于: 刚刚阅读数: 5
用户头像

雅菲奥朗

关注

专注于“互联网时代”的IT培训和咨询 2024-07-04 加入

雅菲奥朗是国内知名的IT培训与咨询公司,是SRE的实践者与引领者。我们秉承“知识创新、方法创新、实践创新”的核心理念,基于在多家知名企业的成功落地经验,持续引入国际先进SRE的理念和方法论。

评论

发布
暂无评论
《Google SRE工作手册》系列读书分享之美图SRE团队的「稳定性运营」实践篇一(视频+文字版)_运维_雅菲奥朗_InfoQ写作社区