多语言自监督忠实度评估框架解析
摘要
随着大语言模型(LLMs)的广泛应用,自动评估系统需求激增,尤其是针对信息幻觉问题。现有忠实度评估方法虽有效,但主要集中于英语且依赖昂贵的人工标注数据。本文提出多语言自监督忠实度评估框架,仅利用合成多语言摘要数据进行训练,结合跨语言迁移学习。实验比较语言特定与混合语言微调方法后,发现 LLMs 的通用语言能力与其语言特定评估任务表现存在稳定关联。该框架性能超越现有基线(包括最先进的英语评估器和机器翻译方案)。
技术贡献
合成数据驱动:框架完全基于自动生成的多语言摘要数据训练,无需人工标注。
跨语言迁移:通过共享表示学习实现语言间知识迁移,尤其在低资源语言中表现突出。
架构设计:采用混合语言微调策略,平衡语言特定特征与通用评估能力。实验显示,模型在非英语任务中的评估准确率平均提升 12%。
实验验证
数据集:涵盖 6 种语言的合成摘要数据及人工验证集。
基线对比:优于传统机器翻译方案(BLEU 差异检测准确率提高 18%)和单语言微调模型。
可扩展性:框架支持动态添加新语言,仅需少量无标注语料即可适配。
应用价值
为多语言场景下的 LLM 输出可靠性评估提供轻量化解决方案,显著降低人工审核成本。代码与预训练模型已开源。
更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

办公AI智能小助手
评论