写点什么

惊喜!接入 skywalking 也能直接故障定位了

  • 2025-09-23
    浙江
  • 本文字数:1545 字

    阅读完需:约 5 分钟

惊喜!接入 skywalking 也能直接故障定位了

原文地址:乘云数字databuff-云监测领导者,助力企业数字化转型

前言


skywalking 是一款开源的链路工具,经常被开发人员使用。然而其后端功能羸弱、上手门槛高、缺乏商业化支持、代码质量风险大,都成为其难以在客户生产环境大规模部署的原因。


databuff 作为一款商业化的可观测平台工具,为此专门开发了相关特性、用以接管 skywalking,能够实现 一键接入 skywalking、并直接给出故障定位的结果。你只需把 skywalking agent 的数据发送地址修改为 databuff server。


今天笔者就给大家演示一下接入 skywalking 的过程与效果,其他方面不做过多阐述:


1)使用 databuff 的 datahub 模块,一键接入 skywalking agent 数据;


2)使用 databuff 因果 AI 引擎,自动定位 demo 应用的故障原因;


接下来我们先构建一套测试环境,用以演示上述的功能效果。

01 测试环境说明

Demo 环境和操作背景:



​ 图 1:测试环境部署拓扑


测试环境说明:


1)右边部署一套大模型 demo 应用,主要包含 3 个组件:LLM service(前端)、MYSQL、LLM;在应用上部署 skywalking agent;


2)左边部署一套 databuff 平台,平台包含 datahub(pipeline)管道、因果 AI 分析引擎等功能模块;



​ 图 2:测试 Demo 的应用界面


接下来, 我们按下面的步骤执行:


1.Pipeline 创建:在 databuff datahub 平台上创建 Pipeline;


2.数据路由指定:配置 skywalking agent 文件,将数据接收地址指向 datahub ;


3.制造故障:在测试环境服务器上手动制造故障;


4.故障定位效果验证:在 databuff 上查看告警,及故障定位效果;

02 操作演示

2.1 Pipeline 创建

模版一键创建 Pipeline


DataHub 产品中预定义多种快速接入的模版,直接使用,一键创建,快速对接数据。



点开创建的 Pipeline,复制监听 URL



至此,databuff 平台上接入 skywalking 的配置完成。

2.2 数据路由指定

配置 skywalking 采集大模型应用服务的链路数据和 JVM 指标数据。


在 skywalking Agent config 中配置:


collector.backend_service=192.168.50.247:31800
复制代码


然后直接启动服务,便可轻松接入。



服务启动命令:


# cd到大模型应用服务目录cd /home/langchat/langchat-server/target# java -jar启动大模型服务java  -javaagent:/home/skywalking-agent/skywalking-agent.jar Dskywalking.agent.service_name=LLM_DEMO -jar langchat-server.jar
复制代码

2.3 制造故障

在 demo 应用上,手动停止 mysql8(mysql8 为容器启动):


[root@host254 target]# docker stop mysql8mysql8
复制代码


这里我们手动关闭 mysql 之后服务发出异常情况


2.4 故障定位效果验证

登录 databuff 平台,查看智能告警内容,并查看请求异常链路



点击告警详情中的根因分析,查看智能定位原因。


这里可以看出,我们的数据库 MySQL 实例异常,然后导致的接口调用异常。


2.5 其他

在完成故障注入与定位演示后,DataBuff 平台还提供了一系列辅助能力,帮助用户进一步理解应用运行状态和系统资源消耗。

2.5.1 查看接收数据

查看应用请求链路和服务 JVM 指标,调用情况和服务拓扑。


该大模型主要有 LLM_DEMO 问答系统,MySQL,还有第三方远程服务



查看调用远程大模型 API 链路信息,可以查看大模型应用与远程大模型调用的状态,耗时,以及该服务的一些系统资源指标。


2.5.2 查看智能告警内容

查看智能告警内容,并可调用链路观测,查看请求异常链路


2.5.3 查看 AI 智能分析

如果开启大模型 AI 配置,根因分析结果后,还会给出推荐处置内容,不但知道哪里有问题,还知道如何进行操作修复。



本次演示,我们通过 DataBuff 平台的 DataHub,通过深度整合 SkyWalking 链路数据,为企业提供全栈式智能可观测解决方案。对于很多已经部署了 skywalking 的客户,他们可以直接把数据路由到 databuff 平台,即将享受分钟级的应用性故障定位能力。


用户头像

聚焦数字化可观测赛道 2023-06-25 加入

让您的业务运行更安全更稳定

评论

发布
暂无评论
惊喜!接入 skywalking 也能直接故障定位了_可观测_乘云数字DataBuff_InfoQ写作社区