大模型评测技术研讨会暨国际标准 IEEE P3419 第二次工作组会议成功召开
7 月 12 日,由北京智源人工智能研究院主办的大模型评测技术研讨会暨国际标准 IEEE P3419 第二次工作组会议在智源大厦举办,来自百度、信通院、移动、联通、电信、浪潮、南方电网、南瑞、清华、北航等互联网大厂、科研机构、运营商、知名高校以及海外的 50 余位专家参加了此次会议。
智源研究院副院长兼总工程师林咏华出席会议并致辞。林咏华表示:“大模型评测工作是推动大模型产业发展的风向标。当前大模型评测工作仍然需要进一步准确反映大模型的真实能力,满足产业实际需求并促进大模型的技术发展”。
大模型评测技术研讨会上,智源研究院智能评测组负责人杨熙分享了报告《大语言模型的幻觉检测》。
杨熙指出,目前大语言模型容易产生幻觉,生成的内容可能与既定知识相冲突或不忠实于原始来源。现有的幻觉基准测试主要关注句子或段落级别的幻觉检测,忽略了对话级别的评估、幻觉定位和理由解释,也主要针对事实性幻觉,而低估了忠实性幻觉,常常依赖于劳动密集型或非专业化的评估者。
为了解决上述问题,智源研究院联合北京大学提出了幻觉检查数据集 HalluDial,该数据集是全球第一个全面的大规模自动对话级别幻觉评估基准,且涵盖了自发性和诱导性幻觉情景,覆盖了事实性和忠实性幻觉。此外,还引入了一个专门的大语言检测模型 HalluJudge,首次支持幻觉定位 & 解释。目前全球最大对话场景的大模型幻觉检测数据集 HalluDial 以及首个支持幻觉定位 & 解释的大语言检测模型 HalluJudge 均已在 Github 上开源。
HalluDial 以及 HalluJudge 的开源链接:https://github.com/FlagOpen/HalluDial
百度文心一言评估产品负责人吕雪莹、中国移动研究院 AI 标准化研究员聂锦燃、中国信通院人工智能研究所业务主管韩旭分别分享了大模型评估方法体系与实践。
在 IEEE P3419 工作组主席林咏华和秘书王晓敏的主持下,国际标准 IEEE P3419 第二次工作组会议顺利召开,参会专家积极讨论了国际标准《大语言模型评测》的目的、范围、评测框架、能力维度,以及未来 IEEE P3419 工作组的工作安排以及发展规划。
本次会议为大模型评测技术厂商提供了一个开放的交流平台,通过各大厂商专家的专题分享报告以及会上交流,使参会者更深入了解了当前大模型评测技术框架、进展以及挑战,推进了大模型评测技术发展以及产业落地。未来,智源研究院将继续积极参与大模型评测技术国家以及国际标准的制定工作,与成员单位共同推进大模型评测标准工作的蓬勃发展。
IEEE P3419 人工智能大模型评估工作组于 2023 年成立,是 IEEE 计算机学会/人工智能标准委员会下设成立的专注于大模型评估标准化研究的工作组,由智源研究院林咏华副院长担任工作组主席,目前已启动一项国际标准《大语言模型评测》(Standard for Large Language Model Evaluation)的编制工作。为保证该项标准的广泛代表性和科学适应性,现邀请国内外相关企业、高校、科研机构等单位加入该工作组共同参与国际标准编制工作(有意向者可联系工作人员:liuying@baai.ac.cn)。
了解智源评测更多细节,请浏览官网https://flageval.baai.ac.cn/#/home
评论