评估机器翻译模型性别偏见的数据集发布
近年来,机器翻译系统在准确性和流畅性方面取得显著进步。随着应用范围扩大,确保其公平性、无偏见和准确性变得尤为重要。例如,即使输入文本中的性别信息在语言语境中明确无误,机器翻译系统仍可能错误转换人物性别,这类错误会严重影响翻译的正确性与公平性。
为解决该问题,某机构翻译团队开发了 MT-GenEval 评估基准,相关论文已在 2022 年自然语言处理实证方法会议(EMNLP)发表。该数据集具有以下特点:
真实数据基础:基于维基百科真实语料构建,包含英语到阿拉伯语、法语、德语等 8 种语言的 1150 个文本片段,每个片段均配备专业人工翻译参考。
性别平衡设计:通过人工标注创建反事实样本(如将"他是王子"改为"她是公主"),确保测试集性别分布均衡。
双重评估指标:
性别准确率:检测翻译结果是否包含反事实参考中的性别词汇
性别质量差距:比较不同性别子集的 BLEU 分数差异
语言特性覆盖:特别关注从英语(弱性别标记)到强语法性别语言(如西班牙语)的转换挑战,要求模型能根据上下文正确推断名词、形容词等的性别形式。
该数据集首次为复杂真实场景下的性别翻译准确性评估提供了系统化工具,自动评估指标在八种语言中均达到 80%以上的 F 值。研究团队期望通过该资源的开放促进多语言性别翻译准确性的研究进展。更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)或者 我的个人博客 https://blog.qife122.com/公众号二维码

办公AI智能小助手
评论