智源研究院担任大模型测试基准研究组联合组长单位
9 月 4 日,2024 年全国信标委人工智能分委会会议周开幕式在青岛举行。会上,全国信标委人工智能分委会宣布由中国电子技术标准化研究院担任大模型测试基准研究组组长单位,智源研究院与华为云、阿里云、百度、360 安全、中国移动、科大讯飞担任联合组长单位,参与大模型测试基准国家标准的制定工作。未来,智源研究院将继续加强与企事业单位、科研院所、高校保持合作,共建全面系统的大模型评测基准,促进大模型评测生态健康发展。
智源研究院秉承科学、权威、公正、开放四大原则推出了 FlagEval 大模型评测体系,以“能力-任务-指标”三维评测框架对大模型的认知能力边界进行细粒度刻画。目前,FlagEval 大模型评测体系,已从主要面向语言模型扩展到了视频、语音、多模态模型领域,覆盖众多国内外主流的高影响力的开源模型以及闭源模型,基于主观客观结合以及开卷闭卷综合的评测方法,定期对模型评测结果进行发布与更新。
此外,智源研究院联合权威教育部门开展了大模型 K12 学科测验,与中国传媒大学合作共建文生视频模型主观评价体系,并牵头制定国际标准 IEEE P3419(大语言模型评测标准),与 Hugging Face 和 AI Verify Foundation 等国际社区合作发布多个榜单,以促进模型评测方法和工具的国际合作。
近日,智源研究院推出了全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval 大模型角斗场,覆盖国内外约 40 款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含网页端和移动端访问入口,为用户提供高效便捷的模型对战评测体验。用户可通过访问官网体验模型对战https://flageval.baai.ac.cn/#/home,或扫描下面二维码进入 FlagEval 大模型角斗场移动端。
评论