写点什么

司南大模型竞技场首期榜单:GLM-4 系列模型稳坐国内前列,智谱 AI 大模型实力强悍

作者:技术研究院
  • 2024-06-14
    湖北
  • 本文字数:1009 字

    阅读完需:约 3 分钟

6 月 13 日,司南 OpenCompass 和魔搭 ModelScope 联手推出的大语言模型竞技场 Compass Arena 公布首期大模型对战榜单。智谱 AI 的 GLM-4 w/search 排名仅次于 GPT-4o,位列国内大模型第一。相比 GLM-4,GLM-4 w/search 可以在交互过程中引入外部搜索引擎信息辅助内容生成。



Compass Arena 司南大模型竞技场是由司南 OpenCompass 团队和魔搭 ModelScope 团队共同推出的大语言模型 (LLM) 评测平台,旨在为国内的大语言模型领域引入一种全新的竞技模式,为广大互联网用户提供了一个匿名、随机的大语言模型竞技环境,以产生更加客观和真实的评价。Compass Arena 汇集了 Qwen-Max、GLM-4、abab6.5 以及 Llama 3 系列等 20 余个主流大语言模型,通过创新的竞技模式,让用户在直观体验比较不同模型的性能后,根据自己对生成内容质量的主观判断,自由评估选择生成效果更为出色的大模型。

Compass Arena 大模型竞技场首期对战榜单收集了截至 6 月 12 日接近 6000 条由用户真实反馈的大模型匿名对战数据,经过数据清洗和过滤后利用 Bradley-Terry 模型估计了大语言模型的竞技场 Elo 等级分数和 95%置信区间,并使用该等级分数对大模型进行排名。榜单中,智谱 AI 的 GLM-4 w/search 凭借回答环节引入外部搜索引擎信息能力的辅助,有效提升了生成内容的准确性和完整性,排名仅次于 GPT-4o 位列第二名,成为 Compass Arena 大模型竞技场首期对战榜单国内大模型第一名。



值得一提的是,智谱 AI 的 GLM-4 系列模型自发布以来便收获业内及广大用户认可,并多次在权威榜单与全球顶级大模型一较高下。清华《SuperBench 大模型综合能力评测报告》显示,GLM-4 在语义理解等方面的能力表现超过众多国际一流模型,在代码、智能体等方面,排名国内第一。在 SuperCLUE-Fin(SC-Fin)中文原生金融大模型测评基准中,GLM-4 斩获一项 A+及多项 A 级评价,在国内大模型中排名第一。

据了解,智谱 AI 于今年 1 月推出新一代基座大模型 GLM-4,并在 6 月初发布最新开源模型 GLM-4-9B,该模型拥有更强的基础能力,支持更长的上下文(最高支持 1M/约两百万字),有更精准的函数调用和 All Tools 能力,并在这个尺寸上首次具备了多模态能力。GLM-4-9B 综合能力相比 ChatGLM3-6B 提升 40%,全面超过 Llama-3-8B-Instruct,中文学科能力提升 50%,最高支持达 1 百万 tokens 长文本,支持多达 26 种语言,函数调用(Function Call)能力媲美 GPT-4-Turbo。

上述模型均已在智谱 AI MaaS 大模型开放平台上线,开发者可以通过 bigmodel.cn 便捷接入 GLM-4 全系列模型开放 API,从而体验智谱大模型的卓越性能。

用户头像

还未添加个人签名 2019-05-13 加入

还未添加个人简介

评论

发布
暂无评论
司南大模型竞技场首期榜单:GLM-4系列模型稳坐国内前列,智谱AI大模型实力强悍_技术研究院_InfoQ写作社区