写点什么

智源研究院推出全球首个包含文生视频的模型对战评测服务

作者:智源研究院
  • 2024-09-05
    北京
  • 本文字数:1061 字

    阅读完需:约 3 分钟

2024 年 9 月 4 日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval 大模型角斗场,覆盖国内外约 40 款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端,该服务还率先开放了国内首个移动端访问入口,为用户提供高效便捷的模型对战评测体验。

秉承 FlagEval 评测体系的科学、权威、公正、开放四大原则,大模型角斗场的评测过程采取匿名机制,在匿名对战中如出现已暴露或问题中试图暴露模型身份的对决评分将被视为无效,该条评测数据不对模型分数产生任何影响。



此外,FlagEval 大模型角斗场网页端首次引入了主观倾向阶梯评分体系,包含 A 远好于 B、A 略好于 B、AB 差不多、A 远好于 B、B 略好于 A、B 远好于 A 共 5 个梯度,其中“AB 差不多”又分为“都好与都不好”。这一阶梯胜负评测方法,相较于传统的 Arena 仅有的三个评分等级(“A 更优、B 更优、两者相似”),更能捕捉模型生成内容的细微差异,精确揭示模型性能差异,从而提供更丰富和深入的评测洞察。


为了降低评分细化带来的用户认知负荷增加,我们特别对打分展示形式进行了人性化设计。初步的产品试用结果已经验证了这一评测设计的有效性,用户的舒适度和操作流畅性均表现出色。


用户提交倾向程度评分结果后,可立即查看该轮模型对战结果。FlagEval 将对所有大模型角斗场用户评分进行汇总计算,根据收集的有效数据,最终形成角斗场榜单,对大模型对战能力进行公示。


为确保模型能力主观评测的覆盖范围,用户可与模型进行多轮交流和提问,以最大程度衡量模型输出与人类期望或偏好保持一致性。在模型匹配机制方面,FlagEval 大模型角斗场采取均匀采样、分流随机抽取的方式,以确保公平性。在模型对战机制方面,不支持对战过程中进行模型切换,只支持重开一轮,对战结束后,不支持用户继续提问、更改评分。


FlagEval 大模型角斗场可支持 Runway、Pika 以及爱诗科技 PixVerse、快手可灵(性能版)、字节即梦 2.0、智谱 AI 清影(Ying)、星火绘镜、Luma 等国内外文生视频模型。用户可从预设问题中进行任意选择,覆盖场景、动物、人物、想象等能力类型。


智源研究院推出 FlagEval 大模型评测体系以来,持续迭代和优化,FlagEval 大模型角斗场进一步拓展了智源在模型对战评测领域的技术布局和工具方法的研发。未来,智源将对模型对战评测的全链路数据,包括用户输入、模型输出的数据,进行开源,以促进大模型评测生态的发展。


扫描二维码进入 FlagEval 大模型角斗场移动端,

或访问官网体验模型对战 https://flageval.baai.ac.cn/#/home


用户头像

还未添加个人签名 2024-05-11 加入

北京智源人工智能研究院聚焦人工智能原始创新和核心技术,推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破,支撑北京建设成为全球人工智能学术思想、基础理论、顶尖人才、企业创新和发展政策的源头

评论

发布
暂无评论
智源研究院推出全球首个包含文生视频的模型对战评测服务_智源研究院_InfoQ写作社区