塞讯科技参编,信通院《面向 LLM 应用的可观测性能力要求》正式发布!

2025 年 7 月 22 日,由中国信息通信研究院(下简称“中国信通院”)联合塞讯科技等行业各单位编制的标准《面向 LLM 应用的可观测性能力要求》正式发布,旨在规范和指导企业进行大模型应用可观测性能力建设。

随着生成式 AI 技术的广泛应用,LLM 在对话系统、RAG(检索增强生成)、智能体(Agent)等场景中展现出巨大潜力,同时基于大语言模型(LLM )以及 AI 生态技术栈构建的应用以及业务场景也越来越多,然而,LLM 通常包含十亿甚至数万亿级别的参数,其应用在生产落地中仍面临着模型不确定性大、架构链路复杂、用户体验难以评估等痛点,如何构建大模型应用的全链路可观测性体系,如何评估 LLM 应用可观测性的能力是否完善,业界目前缺乏统一的标准。

中国信通院基于前期的多项研究工作,与各行业专家通过多轮讨论,制定出了国内首个面向 LLM 应用的可观测性能力的分级要求。标准面向 LLM 应用在训练推理过程中的可观测建设工作,以数据的采集、建模、存储、应用为主线,对各环节所需能力进行标准化规范。

标准概况

标准介绍:面向 LLM 应用的可观测性能力要求框架分为数据采集、数据模型、数据存储和数据应用四大部分。数据模型层分为指标体系、日志和链路三个部分,其中指标体系各分层逻辑关系如下:
1)基础设施层:是 LLM 应用运行的物理或虚拟资源底座,为整个系统提供算力、存储和网络等基础支撑,是所有上层功能实现的前提。(本节对基础设施层的网络、存储、主机、操作系统、系统进程的指标进行规范)
2)中间件层:指 LLM 应用的中间件,是连接基础设施层与上层模型/应用的技术桥梁,提供标准化工具和接口,简化模型开发、部署和运维的复杂度。(本节对中间件层的 RAG、语义缓存、MCP、向量数据库指标进行规范)
3)模型层:是 LLM 应用的核心智能载体,包含预训练模型本身及相关的优化与适配组件,决定了应用的“认知能力”。(本节对模型层的模型指标、成本指标、评估指标、多模态评估指标进行规范)
4)模型服务层:负责将模型层的能力转化为可调用的服务,解决模型从“离线训练”到“在线应用”的工程化问题,确保高效、稳定地响应上层请求。(本节对模型服务层的性能指标、失败指标、计量指标进行规范)
5)应用层:是 LLM 技术面向终端用户的最终形态,基于模型服务层提供的能力,结合具体场景需求构建的产品或功能,直接解决用户问题。(本节对应用层的性能指标、内容质量、用户体验指标、失败指标进行规范)
标准内容预览
一、指标体系(模型服务层)
1、性能指标
1)支持监测模型服务的每秒处理请求量。
2)支持监测模型服务的请求响应时间。
3)支持监测模型服务的输入/输出 Token 消耗数、输入/输出 Token 消耗速率。
4)支持监测模型服务的首 Token 延时。
5)支持监测模型服务的最大并发连接数。
6)支持监测模型服务的吞吐量,即单位时间内处理的数据量。
2、失败指标
1)支持监测模型服务的服务失效率。
2)支持监测模型服务的推理超时率。
3)支持监测特定错误类型的出现频率,例如模型内部错误、输入格式错误等。
3、计量指标
1)支持按时间、消费者、模型维度统计模型服务的请求数。
2)支持按时间、消费者、模型维度统计模型服务的输入/输出 Token 数。
二、数据应用(会话分析)
会话分析:通过对 LLM 应用的会话数据进行分析,评估会话质量,确保会话安全与合规,优化会话管理和提高用户满意度。
1)支持会话数据和用户终端基本信息的整合能力,展示会话的上下文信息,如会话的开始时间、结束时间、会话时长等,以及用户的终端基本信息(包括机型、操作系统、应用版本、分辨率等)。
2)支持会话响应时间分析的能力,分析从用户发起请求到收到响应的总时间,以及会话中各个处理阶段的响应时间,如模型推理时间、数据传输时间等。
3)支持会话准确性分析的能力,对单次会话进行钻取分析,评估 LLM 应用对用户意图的理解准确。
4)支持会话一致性检查的能力,检查 LLM 应用在不同会话中对相同或相似问题的回答是否一致。
5)支持会话中用户行为模式识别的能力,分析用户在会话中的行为模式,如频繁重复提问、提前结束会话等,评估用户对回答的满意度。
▍关于 Lighthouse
Lighthouse 是由塞讯科技打造的全栈可观测平台。我们提供 LLM 调用链追踪、Prompt 管理、Token 分析、大模型评估等核心能力,帮助团队构建更可靠的大模型系统。
评论