写点什么

一款体验故障定位的神器

作者:乒乓狂魔
  • 2025-03-22
    浙江
  • 本文字数:1100 字

    阅读完需:约 4 分钟

一款体验故障定位的神器

在使用可观测产品或监控工具做故障定位过程中,您是否遇到过以下问题:

  • 故障场景难以清晰定义

  • 对故障定位的级别和颗粒度不满意

  • 故障定位时间所需时间太长

  • 对于定位结果的可解释性总是摇头

  • 所有故障定位效果难以量化的问题

RootTalk SandBox 可以帮助您解决这块问题。注册即可体验快速故障定位的快感。

我们开放了大量在实际生产中常见的故障场景,只需一键注入故障,就能在 3 分钟之内获得一个详尽可解释的故障根因分析结果。分析结果直指根源,分析粒度深入到服务接口,连接池,函数堆栈,SQL 语句,进程,系统资源等级别。

当故障发生时,产生的关联告警太多,难以判断?基于根因收敛的告警会告诉你问题在哪,影响了哪些其它的服务,进程或系统。

01 注册登录,开始体验

登录网页 https://sandbox.databuff.com/

填写相应信息进行注册。

随后根据注册的用户名和密码即可登录。

利用 RootTalk SandBox 可以实现以下 2 种目的:

  • 通过故障注入演练,验证故障定位效果

  • 体验告警的根因收敛

02 故障注入演练,并验证定位效果

注入故障



点击注入故障后,通常需要等待 2 到 3 分钟,然后会自动弹出 DataBuff 平台的查看地址,点击跳转即可自动查看 DataBuff 平台。



验证故障定位能力

跳转到 DataBuff 平台后,即可查看到对应的故障信息。



点击查看故障详情。



页面中展示了这次注入故障的整个故障树。故障树的最后一个节点,即为根因节点,根因节点的第一个问题即为根本原因,可以验证该原因和注入的故障是否匹配,如果匹配则代表 DataBuff 平台定位成功。

对故障树的解读

  • 每个节点都是一个服务或者别的实体,如主机;

  • 每个节点都有自己的详细问题,按照出口、自身、入口的方式进行排序;

  • 每个问题都有更细粒度的维度下钻;

  • 每个下钻结果都有地址链接可验证。



整个故障树的排障流程非常符合人工的排障流程。点击链接,可以进一步验证。



03 告警的根因收敛体验

很多时候,当故障发生时,监测平台会触发大量的关联事件(比如 100 个事件),因此需要一定的收敛能力,对这些事件进行聚合并形成有效告警,降低对用户的干扰。

普通的告警收敛一般是通过时间、Tag 标签、服务名的方式进行收敛。以服务名为条件进行收敛的情况下,100 个事件中如果有 17 个受影响服务,就会形成 17 个告警。

告警的根因收敛则是将根因相同的事件收敛在一起。100 个根因相同的事件,最终只会形成 1 个告警,可以进一步降低干扰。

利用 RootTalk SandBox 可以体验 Databuff 的根因收敛能力。具体操作如下。

DataBuff 平台中开启 AI 收敛



关闭服务收敛,开启 AI 收敛。

注入故障

与上一节中的故障注入步骤相同,在此不再赘述。

在 DataBuff 平台上查看告警收敛效果



在这一条告警中,收敛了根因相同的各个服务的事件。



04 结尾

以上就是关于 RootTalk SandBox 的使用方法,快来注册体验吧~

用户头像

乒乓狂魔

关注

还未添加个人签名 2017-11-30 加入

还未添加个人简介

评论

发布
暂无评论
一款体验故障定位的神器_故障定位_乒乓狂魔_InfoQ写作社区