写点什么

传统可观测性的尽头,是 LLM 可观测性的起点

作者:Yakun
  • 2025-05-28
    广东
  • 本文字数:1499 字

    阅读完需:约 5 分钟

传统可观测性的尽头,是LLM可观测性的起点

作者:吴亚昆,塞讯科技 VP

深耕可观测性行业多年。曾在知名智能制造及互联网公司建设基础架构及运维体系,也在可观测性头部厂商负责售前和解决方案。


当我们谈论“可观测性”时,默认的语境一直是微服务架构、容器调度、指标告警、链路追踪这些已经在业界成熟多年且工程体系高度标准化的范式。


而在大模型(LLM)应用逐步成为企业核心能力的今天,传统可观测性的范式,正在触碰它的边界。


不是它无用,而是它不够。


可观测性不是日志、指标和链路的堆砌


传统可观测性体系的底层假设,是系统是可拆解的、行为是确定的、根因是可溯源的。


知名开源方案 Prometheus 可以帮你捕捉 CPU 和内存等时序指标的趋势,Jaeger/OTel 可以串起服务间的调用链路,ELK 可以让你对日志进行全文搜索。


这些工具在面对服务雪崩、数据库连接耗尽、容器资源竞争时游刃有余。


但一旦进入大模型应用的语境,情况开始变得棘手:

  • 模型输出不再是固定路径里的函数返回,而是生成带有概率性的字符;

  • 一个 prompt 的响应结果,无法通过 response time 和 status code 判断是否“正常”;

  • 出现 hallucination 幻觉的模型行为,从链路上看一切健康;

  • 同一个输入 prompt,在不同时间点或不通模型版本下,输出质量可能天差地别。


传统可观测性擅长告诉你“发生了什么”,却无能为力于“这合理吗?”


可观测性的“对象”变了


在传统系统中,我们观察的是“系统行为”,而在 LLM 应用中,我们观察的是“模型行为”。


后者更接近一个“人”——它会遗忘、会理解错上下文、会答非所问,甚至会胡说八道还一脸自信。


你不能用旧时代看机器的方式去评估一个复杂的 GenAI-based 的智能体应用。


我们不再观察机器的状态,而是在判断智能体的行为。


这是一种从系统到语义的迁移。


举个例子,当一个用户投诉“机器人胡说八道”时,传统的 Observability 平台给你的信息可能是:请求成功、延迟正常、服务健康。


但对于业务方而言,这没有任何价值,因为问题的本质是质量、不是可用性


这就是为什么我们看到越来越多的公司,开始引入“评估(Evaluation)”的能力——它补上了传统可观测体系对“语义正确性”和“业务目标契合度”完全无感的短板。


从数据到判断,从判断到信任


LLM 应用的可观测性,不再是单纯数据呈现,而是要构建“对行为的判断体系”。


它需要回答的问题,不再是“服务有没有挂”,而是:


  • 模型输出有没有符合人类常识?

  • 对用户问题的理解是否精准?

  • 是否遵循了业务设定的边界和风格?

  • 结果是否足够简洁、准确、有用?


这些都无法靠 Status code 和 Trace ID 得到答案,而是需要新的基础设施:

Prompt 版本管理、自动评估、Few-shot 标准示例、Embedding 检索上下文、跨模型对比分析等。


在人类系统中,信任来自对规则一致性的判断;

在智能系统中,信任则来自对“行为合理性”的持续观测。


不只是加一个插件,而是重构观测范式

所以,当我们在构建面向 LLM 应用的新一代可观测平台时,它不只是 传统可观测性平台 + 一个 LLM 监控插件,而是:


  • 从“监控运行”到“监控推理”;

  • 从“采集指标”到“评估输出”;

  • 从“系统健康”到“模型可信”;

  • 从“异常检测”到“行为归因”。


这是一种范式的跃迁,涉及的是新对象、新指标、新目标,当然也需要新工具。


模型是流动的认知,Prompt 是瞬时的意图,行为才是唯一可以被判断和反馈的真相。


写在最后


我们过去花了十几年建立了一整套可观测性基础设施,从 Metrics、Logs、Traces,到 Alerts、Dashboards、SLOs 等。


现在,面对 LLM 带来的生成式智能系统,我们需要从头再来一次——不是抛弃旧工具,而是认识到新世界有新的复杂度。


真正值得观测的,不再是“系统是否按预期运行”,而是“智能是否按预期思考”。


传统可观测性的尽头,是 LLM 可观测性的起点。


发布于: 3 小时前阅读数: 266
用户头像

Yakun

关注

技术通向可能,认知决定边界。 2018-03-26 加入

塞讯科技 VP,可观测性行业的一名砖瓦工。

评论

发布
暂无评论
传统可观测性的尽头,是LLM可观测性的起点_可观测性_Yakun_InfoQ写作社区