写点什么

程序摄像头 Trace Profiling:生产环境 10 分钟黄金时间快速排障手册

作者:KINDLING
  • 2023-01-09
    浙江
  • 本文字数:812 字

    阅读完需:约 3 分钟

程序摄像头Trace Profiling:生产环境10分钟黄金时间快速排障手册

1. 当前可观测性技术采用之后,运维 &开发普遍面临的问题

  • 指标太多:不知什么时候看何种指标

  • 依赖经验和百度:根据经验采用排除法去排查各种可能的异常指标。控制台、日志、trace 追踪、数据库管理平台……各种工具来回切换,需要运维和开发协作,将数据和信息有效组织起来,解决问题时间周期不可控

  • 依赖复现、日志埋点:生产环境是黑盒子,我们往往靠推理,根据现象反推系统行为,但是对于很多非必现问题无从下手

  • 排障门槛:专业 apm 等工具存在一定的学习门槛,排查方向的准确性和经验能力成正比,而生产故障需要快速响应

2. 程序摄像头 Trace Profiling:以标准化流程,分钟级定位全资源种类故障的根因

2.1 程序摄像头 Trace Profiling 的标准化步骤排障

  • 找:通过 Trace 系统,结合时间点,找出相关可能存在问题的关键 Trace

  • 查:通过关键 Trace,查询其对应的 Span 信息

  • 分析:分析 Span 信息中的何种指标与预期不符

2.2 程序摄像头 Trace Profiling 的排障效率:1-5-10 分钟级定位

业内的排障目标是 1 分钟发现,5 分钟响应,10 分钟解决问题,而通过使用程序摄像头,按标准化步骤,我们期望辅助开发和运维能在 10 分钟黄金时间内解决问题。

2.3 程序摄像头 Trace Profiling 的排障目标:定位全资源种类故障根因

程序摄像头 Trace Profiling 能够覆盖 CPU、内存、网络、存储等当前常见的资源维度,未来也许我们也可以去支持 GPU 的资源维度。所谓全资源维度指故障根因定位,即找出线上到底哪些资源不足而导致的故障根因。

我们整理了以下 5 种生产环境常见案例以及相应的 demo 试用环境,让大家体验如何通过程序摄像头 Trace Profiling 在 10 分钟黄金期内快速排障,大家可前往我们的官网查看体验:

​案例及demo演示环境​

  • CPU 耗时异常:CPU 不定时飙高怎么排查?

  • 应用与网络问题如何快速定位?

  • 如何高效排查生产环境文件 IO 问题?

  • 如何快速排查生产环境多线程问题?

  • 业务问题案例:通过报文判断生产环境 Spring 事务是否生效

2.4 关于程序摄像头 Trace Profiling

​Kindling官网地址​

​GitHub​

发布于: 刚刚阅读数: 3
用户头像

KINDLING

关注

还未添加个人签名 2022-11-10 加入

还未添加个人简介

评论

发布
暂无评论
程序摄像头Trace Profiling:生产环境10分钟黄金时间快速排障手册_Java_KINDLING_InfoQ写作社区