一款体验故障定位的神器

在使用可观测产品或监控工具做故障定位过程中,您是否遇到过以下问题:
故障场景难以清晰定义
对故障定位的级别和颗粒度不满意
故障定位时间所需时间太长
对于定位结果的可解释性总是摇头
所有故障定位效果难以量化的问题
RootTalk SandBox 可以帮助您解决这块问题。注册即可体验快速故障定位的快感。
我们开放了大量在实际生产中常见的故障场景,只需一键注入故障,就能在 3 分钟之内获得一个详尽可解释的故障根因分析结果。分析结果直指根源,分析粒度深入到服务接口,连接池,函数堆栈,SQL 语句,进程,系统资源等级别。
当故障发生时,产生的关联告警太多,难以判断?基于根因收敛的告警会告诉你问题在哪,影响了哪些其它的服务,进程或系统。
01 注册登录,开始体验
登录网页 https://sandbox.databuff.com/
填写相应信息进行注册。

随后根据注册的用户名和密码即可登录。

利用 RootTalk SandBox 可以实现以下 2 种目的:
通过故障注入演练,验证故障定位效果
体验告警的根因收敛
02 故障注入演练,并验证定位效果
注入故障

点击注入故障后,通常需要等待 2 到 3 分钟,然后会自动弹出 DataBuff 平台的查看地址,点击跳转即可自动查看 DataBuff 平台。

验证故障定位能力
跳转到 DataBuff 平台后,即可查看到对应的故障信息。

点击查看故障详情。

页面中展示了这次注入故障的整个故障树。故障树的最后一个节点,即为根因节点,根因节点的第一个问题即为根本原因,可以验证该原因和注入的故障是否匹配,如果匹配则代表 DataBuff 平台定位成功。
对故障树的解读
每个节点都是一个服务或者别的实体,如主机;
每个节点都有自己的详细问题,按照出口、自身、入口的方式进行排序;
每个问题都有更细粒度的维度下钻;
每个下钻结果都有地址链接可验证。

整个故障树的排障流程非常符合人工的排障流程。点击链接,可以进一步验证。

03 告警的根因收敛体验
很多时候,当故障发生时,监测平台会触发大量的关联事件(比如 100 个事件),因此需要一定的收敛能力,对这些事件进行聚合并形成有效告警,降低对用户的干扰。
普通的告警收敛一般是通过时间、Tag 标签、服务名的方式进行收敛。以服务名为条件进行收敛的情况下,100 个事件中如果有 17 个受影响服务,就会形成 17 个告警。
告警的根因收敛则是将根因相同的事件收敛在一起。100 个根因相同的事件,最终只会形成 1 个告警,可以进一步降低干扰。
利用 RootTalk SandBox 可以体验 Databuff 的根因收敛能力。具体操作如下。
DataBuff 平台中开启 AI 收敛

关闭服务收敛,开启 AI 收敛。
注入故障
与上一节中的故障注入步骤相同,在此不再赘述。
在 DataBuff 平台上查看告警收敛效果

在这一条告警中,收敛了根因相同的各个服务的事件。

04 结尾
以上就是关于 RootTalk SandBox 的使用方法,快来注册体验吧~
评论