惊喜!接入 skywalking 也能直接故障定位了

前言
skywalking 是一款开源的链路工具,经常被开发人员使用。然而其后端功能羸弱、上手门槛高、缺乏商业化支持、代码质量风险大,都成为其难以在客户生产环境大规模部署的原因。
databuff 作为一款商业化的可观测平台工具,为此专门开发了相关特性、用以接管 skywalking,能够实现 一键接入 skywalking、并直接给出故障定位的结果。你只需把 skywalking agent 的数据发送地址修改为 databuff server。
今天笔者就给大家演示一下接入 skywalking 的过程与效果,其他方面不做过多阐述:
1)使用 databuff 的 datahub 模块,一键接入 skywalking agent 数据;
2)使用 databuff 因果 AI 引擎,自动定位 demo 应用的故障原因;
接下来我们先构建一套测试环境,用以演示上述的功能效果。
01 测试环境说明
Demo 环境和操作背景:

图 1:测试环境部署拓扑
测试环境说明:
1)右边部署一套大模型 demo 应用,主要包含 3 个组件:LLM service(前端)、MYSQL、LLM;在应用上部署 skywalking agent;
2)左边部署一套 databuff 平台,平台包含 datahub(pipeline)管道、因果 AI 分析引擎等功能模块;

图 2:测试 Demo 的应用界面
接下来, 我们按下面的步骤执行:
1.Pipeline 创建:在 databuff datahub 平台上创建 Pipeline;
2.数据路由指定:配置 skywalking agent 文件,将数据接收地址指向 datahub ;
3.制造故障:在测试环境服务器上手动制造故障;
4.故障定位效果验证:在 databuff 上查看告警,及故障定位效果;
02 操作演示
2.1 Pipeline 创建
模版一键创建 Pipeline
DataHub 产品中预定义多种快速接入的模版,直接使用,一键创建,快速对接数据。

点开创建的 Pipeline,复制监听 URL

至此,databuff 平台上接入 skywalking 的配置完成。
2.2 数据路由指定
配置 skywalking 采集大模型应用服务的链路数据和 JVM 指标数据。
在 skywalking Agent config 中配置:
然后直接启动服务,便可轻松接入。

服务启动命令:
2.3 制造故障
在 demo 应用上,手动停止 mysql8(mysql8 为容器启动):
这里我们手动关闭 mysql 之后服务发出异常情况

2.4 故障定位效果验证
登录 databuff 平台,查看智能告警内容,并查看请求异常链路

点击告警详情中的根因分析,查看智能定位原因。
这里可以看出,我们的数据库 MySQL 实例异常,然后导致的接口调用异常。

2.5 其他
在完成故障注入与定位演示后,DataBuff 平台还提供了一系列辅助能力,帮助用户进一步理解应用运行状态和系统资源消耗。
2.5.1 查看接收数据
查看应用请求链路和服务 JVM 指标,调用情况和服务拓扑。
该大模型主要有 LLM_DEMO 问答系统,MySQL,还有第三方远程服务

查看调用远程大模型 API 链路信息,可以查看大模型应用与远程大模型调用的状态,耗时,以及该服务的一些系统资源指标。

2.5.2 查看智能告警内容
查看智能告警内容,并可调用链路观测,查看请求异常链路

2.5.3 查看 AI 智能分析
如果开启大模型 AI 配置,根因分析结果后,还会给出推荐处置内容,不但知道哪里有问题,还知道如何进行操作修复。

本次演示,我们通过 DataBuff 平台的 DataHub,通过深度整合 SkyWalking 链路数据,为企业提供全栈式智能可观测解决方案。对于很多已经部署了 skywalking 的客户,他们可以直接把数据路由到 databuff 平台,即将享受分钟级的应用性故障定位能力。
评论