写点什么

AI“语速”知多少?基于云拨测的国产大模型使用体验测评!

  • 2024-07-11
    上海
  • 本文字数:2283 字

    阅读完需:约 7 分钟

摘要:本文介绍了使用火山引擎云拨测产品对大语言模型进行“语速”测评的结果和过程,主要内容分为以下 4 部分:

  1. 影响 AI“语速”的指标

  2. 对主流大模型单轮对话 AI“语速”测评结果

  3. 如何使用云拨测监测 AI“语速”

  4. 火山引擎云拨测介绍


当今时代,LLM(Large Language Model)大语言模型技术不断推动着生成式 AI(Generative Artificial Intelligence)飞速发展,不论是在智能对话系统、虚拟助手、翻译领域,还是在个性化推荐、营销领域,AI 都展现出了惊人的效果和巨大的潜力。


随着厂商不断增多,针对大模型的测评也层出不穷,有测评准确性的、有让它们参加高考的、还有让它们写新闻的。今天的测评和你之前见过的都不一样,我们会使用火山引擎云拨测产品来测一测 AI“语速”。


影响 AI“语速”的指标


测评开始之前,我们需要确定控制 AI“语速”的因素。大语言模型的生成过程是基于已生成的部分逐步预测下一个词汇,为了适应大模型的工作特性,应用层面通常采用 Server-Sent Events(SSE)来保证模型输出的词句快速传递到用户侧,让用户感受到 AI 流畅的“语速”。


SSE 是一种基于 HTTP 协议的实时数据推送技术,通过维持一个 HTTP 的长连接,SSE 实现了服务器主动向客户端推送更新,增强了传统 HTTP 应用 Request - Response 通信模型的实时性,使客户端能够直接接收服务端的最新数据,无需轮询。


这个过程中,有 3 个指标直接影响用户体验:

  1. 首包时延:用户发送请求后收到 Reponse Header 第一个字节的耗时,即 AI 对用户的问题是否“立刻作答”;

  2. 接收时间:通常用来衡量网络传输速度,但使用 SSE 协议传输的大模型应用是一边处理,一边回复,因此接收时间也能衡量大模型的推理速度,即 AI 回答用户问题是否“吞吞吐吐”;

  3. 整体时延:AI 逐字词回复时,首包时延、接收时间、输出给用户的累计耗时,即 AI 回答用户问题是否“快且准”。



这 3 个指标正是我们使用火山引擎云拨测来测评 AI“语速”的关键。


主流大模型单轮对话 AI “语速”测评


此次测评选取了 4 款国产大模型,为求准确,都选取了支持长文本的模型对比。火山引擎云拨测通过大模型服务的单轮对话 OpenAPI 执行 HTTP 拨测任务,通过对大模型提出问题,围绕首包时延、接收时间、整体时延 3 个重要观测指标进行测评。


测试结果如下:

  • 首包时延:模型 D 和模型 B 表现较好,其次是模型 C、模型 A


  • 接收时间:表现排名依次为模型 C、模型 D、模型 A、模型 B


在测评接收时间时,我们有一个重要发现!模型 C 接收数据耗时非常短,不到 1ms,因此我们推测模型 C 使用了某种缓存机制,同样的问题不会重复经过 AI 推理,而是直接返回缓存的答案,感兴趣的小伙伴也可以试试自己测评,测评教程可见后文。


  • 整体时延:模型 C 和模型 D 表现较好,其次是模型 B、模型 A


测评总结

综合来看,只看整体时延,虽然模型 C 的表现最好,但是考虑到它可能应用某种缓存机制,从真实推理性能考虑,模型 D 表现最佳。模型 A 的大模型服务无论从推理性能还是网络性能都位于末流。


当然本次测评只从“语速”层面出发,属于大模型使用体验中的一部分,更多关于大模型的语义理解、知识库、回答合理性等复杂体验组合在一起才能组成完整的 AI 使用体验。


如果好奇此次测评选取的大模型都是哪些,你可以免费试用火山引擎云拨测产品,成为大模型的测评官。


如何使用云拨测监测 AI“语速”


火山引擎云拨测可以模拟全球用户在不同场景下的访问请求,周期性的监测用户终端到服务端的服务可用性、应用的稳定性和网络质量,支持 HTTP,TCP/UDP,DNS 等多种网络协议。


对话类应用广泛使用的 SSE 协议本质上是 HTTP 请求,因此可以通过云拨测的 HTTP 协议拨测来分析其性能。通过火山引擎云拨测的即时拨测功能,可以探测使用 SSE 协议的大模型对话接口,具体教程如下。


  1. 首先进入即时拨测创建页面,选择单协议->HTTP 协议



  1. 在高级配置中,可以填写所需的 HTTP 方法和 Request Body 内容,请求头中,可以填写必要的鉴权信息



3.在任务目标中,填写探测 URL,断言可以使用默认的配置



  1. 最后选择所需要发起探测的区域用来模拟真实用户所在网络环境,如下图



  1. 最后点击运行任务即可发起探测。

任务运行后,可以在任务分析页面看到当前探测的情况,包含了 HTTP 协议相关的丰富的统计数据。



通过详情页面,还可以进一步了解接口的返回内容详情。




这里我们可以清楚看到接口使用了 SSE 推送数据,消息格式也是符合标准的。


火山引擎云拨测


火山引擎云拨测是依托于字节跳动 19 亿用户业务下的数字体验监控最佳实践,以及基于全球分布的基础设施优势而打造的一款拨测产品。



通过分布在全球各地的监测节点来模拟用户访问云服务,火山引擎云拨测实现端到端的网络可用性、稳定性以及用户体验的可观测。帮助使用者快速发现、定位和诊断网络服务问题,提升用户体验。火山引擎云拨测拥有以下优势:

  • 覆盖全球的节点资源:云拨测支持全球范围的网络监测。1200+ 监测节点覆盖了全球范围的不同城市、不同运营商。同时支持私有监测节点的部署。

  • 开箱即用,低成本接入:云拨测提供可视化的控制台。无需研发介入,对业务代码、技术架构无侵入。

  • 多维分析诊断:交互式的图表,带来灵活的多维度对比下专业的分析诊断体验。

  • 智能报警:基于多维度、多指标、智能基线进行实时异常检测,支持多渠道通知您的团队,降低 MTTR。

  • 最佳实践:云拨测已帮助火山引擎多个云服务、飞书等技术团队监控网络质量,定位网络故障,协助提高服务可靠性,成为网络监控的最佳实践。


AI 测评官活动

扫码添加小助手,获取云拨测试用链接,使用云拨测完成大语言模型拨测即可获得一等奖,如果猜出了文中提到的模型 C,还能额外获得特等奖,奖品有限,先到先得哦~


▼活动推荐▼


目前火山引擎云拨测优惠活动进行中,不仅可以免费试用,还能享受买多少送多少、资源包限时 5 折的优惠!快去火山引擎官网免费申请试用~

用户头像

🛰搜索关注:VE_EdgeCloud 2018-10-09 加入

火山引擎边缘计算官方账号

评论

发布
暂无评论
AI“语速”知多少?基于云拨测的国产大模型使用体验测评!_AI_火山引擎边缘云_InfoQ写作社区