传统可观测性的尽头,是 LLM 可观测性的起点

作者:吴亚昆,塞讯科技 VP
深耕可观测性行业多年。曾在知名智能制造及互联网公司建设基础架构及运维体系,也在可观测性头部厂商负责售前和解决方案。
当我们谈论“可观测性”时,默认的语境一直是微服务架构、容器调度、指标告警、链路追踪这些已经在业界成熟多年且工程体系高度标准化的范式。
而在大模型(LLM)应用逐步成为企业核心能力的今天,传统可观测性的范式,正在触碰它的边界。
不是它无用,而是它不够。
可观测性不是日志、指标和链路的堆砌
传统可观测性体系的底层假设,是系统是可拆解的、行为是确定的、根因是可溯源的。
知名开源方案 Prometheus 可以帮你捕捉 CPU 和内存等时序指标的趋势,Jaeger/OTel 可以串起服务间的调用链路,ELK 可以让你对日志进行全文搜索。
这些工具在面对服务雪崩、数据库连接耗尽、容器资源竞争时游刃有余。
但一旦进入大模型应用的语境,情况开始变得棘手:
模型输出不再是固定路径里的函数返回,而是生成带有概率性的字符;
一个 prompt 的响应结果,无法通过 response time 和 status code 判断是否“正常”;
出现 hallucination 幻觉的模型行为,从链路上看一切健康;
同一个输入 prompt,在不同时间点或不通模型版本下,输出质量可能天差地别。
传统可观测性擅长告诉你“发生了什么”,却无能为力于“这合理吗?”
可观测性的“对象”变了
在传统系统中,我们观察的是“系统行为”,而在 LLM 应用中,我们观察的是“模型行为”。
后者更接近一个“人”——它会遗忘、会理解错上下文、会答非所问,甚至会胡说八道还一脸自信。
你不能用旧时代看机器的方式去评估一个复杂的 GenAI-based 的智能体应用。
我们不再观察机器的状态,而是在判断智能体的行为。
这是一种从系统到语义的迁移。
举个例子,当一个用户投诉“机器人胡说八道”时,传统的 Observability 平台给你的信息可能是:请求成功、延迟正常、服务健康。
但对于业务方而言,这没有任何价值,因为问题的本质是质量、不是可用性。
这就是为什么我们看到越来越多的公司,开始引入“评估(Evaluation)”的能力——它补上了传统可观测体系对“语义正确性”和“业务目标契合度”完全无感的短板。
从数据到判断,从判断到信任
LLM 应用的可观测性,不再是单纯数据呈现,而是要构建“对行为的判断体系”。
它需要回答的问题,不再是“服务有没有挂”,而是:
模型输出有没有符合人类常识?
对用户问题的理解是否精准?
是否遵循了业务设定的边界和风格?
结果是否足够简洁、准确、有用?
这些都无法靠 Status code 和 Trace ID 得到答案,而是需要新的基础设施:
Prompt 版本管理、自动评估、Few-shot 标准示例、Embedding 检索上下文、跨模型对比分析等。
在人类系统中,信任来自对规则一致性的判断;
在智能系统中,信任则来自对“行为合理性”的持续观测。
不只是加一个插件,而是重构观测范式
所以,当我们在构建面向 LLM 应用的新一代可观测平台时,它不只是 传统可观测性平台 + 一个 LLM 监控插件,而是:
从“监控运行”到“监控推理”;
从“采集指标”到“评估输出”;
从“系统健康”到“模型可信”;
从“异常检测”到“行为归因”。
这是一种范式的跃迁,涉及的是新对象、新指标、新目标,当然也需要新工具。
模型是流动的认知,Prompt 是瞬时的意图,行为才是唯一可以被判断和反馈的真相。
写在最后
我们过去花了十几年建立了一整套可观测性基础设施,从 Metrics、Logs、Traces,到 Alerts、Dashboards、SLOs 等。
现在,面对 LLM 带来的生成式智能系统,我们需要从头再来一次——不是抛弃旧工具,而是认识到新世界有新的复杂度。
真正值得观测的,不再是“系统是否按预期运行”,而是“智能是否按预期思考”。
传统可观测性的尽头,是 LLM 可观测性的起点。
版权声明: 本文为 InfoQ 作者【Yakun】的原创文章。
原文链接:【http://xie.infoq.cn/article/f7151790991d07f2e46f6220e】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论