写点什么

服务韧性工程(SRE)论坛演讲实录 | 基于可观测性构建 SRE 运维体系经验分享

作者:雅菲奥朗
  • 2024-07-09
    上海
  • 本文字数:1847 字

    阅读完需:约 6 分钟

2024 年 5 月 24 日,第二届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中关村人才协会作为指导单位,中国移动通信集团浙江有限公司和 SRE 创新联合体(中关村人才协会 SRE 专委会)联合主办,中移动信息技术有限公司,PeopleCert,雅菲奥朗、观测云等单位协办。会议邀请了来自通信、金融、制造、互联网行业等 150 余位 SRE 领域专业人士,共同探讨在数字经济时代下,如何通过技术创新和最佳实践提升企业的服务韧性和运维效率,以及 SRE 和人工智能领域的最新发展、创新和未来趋势。


“无观测,不运维”。基于可观测性构建 SRE 运维体系是当前 IT 运维领域的一大趋势。随着微服务和云原生技术的广泛应用,现代软件系统的复杂性日益增加。在这样的背景下,可观测性成为了确保系统稳定性、可靠性和性能的关键能力。与传统监控相比,可观测性提供了一个更全面、实时且可操作的视角,帮助工程师快速定位问题并做出决策。在本次 2024 第二届服务韧性工程(SRE)论坛上,吉利汽车集团运维平台组负责人李珂,分享了其在构建基于可观测性的 SRE 运维体系方面的丰富经验。


李珂 吉利汽车SRE主任工程师

吉利汽车 SRE 主任工程师李珂,带来了题为《基于可观测性构建 SRE 运维体系》的精彩演讲。他强调了可观测性在确保系统稳定性、可靠性和性能方面的关键作用,分享了吉利汽车从传统监控向可观测性转变的过程,并介绍了吉利汽车在可观测平台建设方面的经验。他希望通过这次演讲,与业界同仁交流看法,分享使用心得,共同推动 SRE 运维体系的发展与进步。


一、从传统监控到可观测性 


用户体验可观测性通过用户行为追踪、性能指标监控和用户满意度评估等手段,全面评估系统用户体验,指导应用优化。应用性能可观测性则通过字节码注入方式,实现调用链全链路监控及代码级调用监控,指导开发人员优化代码、运维人员优化配置。此外,基础架构软件、基础设施和网络链路的可观测性,通过监控基础软件、机房硬件和网络流量等,实现资源瓶颈、可用性问题的快速发现和故障排除。


二、可观测体系的构建


在构建可观测体系时,有采集、传输、存储、展示和告警通知五个关键环节。采集环节需要适应全集团的监控需求,灵活支持业务变化。传输环节通过 ONEAGENT 实现数据接入方式的统一,保证数据处理的灵活性和数据一致性。存储环节采用高性能、低成本的方案,确保数据的可靠性和架构的可扩展性。展示环节通过灵活的数据展现形式和统一的查询语句,提供高效稳定的接口。告警通知环节则通过灵活的告警规则和渠道配置,实现统一的告警中心。


三、可观测性运维的落地实践


可观测性在运维中的落地实践,包括用户体验、应用性能、网络和基础架构的监控。通过数据分流、ETL 处理海量数据,确保数据一致性和秒级查询效率。展示环节通过用户体验看板、应用性能看板、网络拓扑和云平台运维告警等,支持多渠道且用户可自行订阅。告警环节则通过业务运维告警、完善的一二三线支持和应急预案,实现快速响应。


四、应用性能可观测的深入探讨


在应用性能可观测方面,包括 SAP、MES、Andon、ile、DSA 等系统模块的关键请求监控,涵盖了生产准备、生产执行、生产相关和追溯件采集等环节。这些监控不仅帮助开发和运维团队优化代码和配置,还提高了生产效率和产品质量。


五、工具平台提升可观测平台效率


为了提升可观测平台的效率,有运营可视化、告警中心、监控、视图、运营、主机、SLA、业务拓补等多个环节与工具平台。这些工具平台通过健康度大屏、告警数据、资源利用率、告警分析等多维度可视化,实现了数据的集中监控和管理。


六、可观测性在吉利内部的应用场景



在吉利汽车内部,可观测性的应用场景包括合并 metric、trace、log 至统一观测平台,实现接入、查看、分析的集中监控。此外,通过 CMDB+资源生命周期管理流程,解决了资产准确性及业务关联性问题,建立了故障响应及应急预案体系。


七、可观测性的未来发展


在可观测性的未来发展上,包括拨测、EBPF 等技术的应用,以及用户体验、稳定性保障、容量管理和成本控制等多个方面。通过这些技术的应用,可以进一步提升系统的可观测性,实现更高效的运维管理。


总结

随着技术的不断进步和业务需求的日益增长,可观测性已经成为现代 IT 运维不可或缺的一部分。通过李珂在 2024 第二届服务韧性工程(SRE)论坛上的分享,我们得以一窥吉利汽车集团在构建基于可观测性的 SRE 运维体系方面的先进实践和宝贵经验。从传统监控到全面可观测性的转变,不仅提高了系统的稳定性和可靠性,也为运维团队提供了更快速、更精准的问题定位和决策支持。我们期待在不久的将来,可观测性将带来更多创新的运维理念和实践,推动整个 IT 运维行业向更高效、更智能的方向发展。

发布于: 刚刚阅读数: 6
用户头像

雅菲奥朗

关注

专注于“互联网时代”的IT培训和咨询 2024-07-04 加入

雅菲奥朗是国内知名的IT培训与咨询公司,是SRE的实践者与引领者。我们秉承“知识创新、方法创新、实践创新”的核心理念,基于在多家知名企业的成功落地经验,持续引入国际先进SRE的理念和方法论。

评论

发布
暂无评论
服务韧性工程(SRE)论坛演讲实录 | 基于可观测性构建SRE运维体系经验分享_运维_雅菲奥朗_InfoQ写作社区