多智能体评估框架 MAJ-EVAL:实现 LLM 自动评估与人类多维度评价对齐
摘要
几乎所有人类工作都具有协作性,因此现实世界 NLP 应用的评估通常需要与多样化人类视角对齐的多维度标准。由于真实人类评估资源稀缺且成本高昂,新兴的"LLM-as-a-judge"范式为利用 LLM 智能体模拟人类评估者提供了可行方案。然而现有方法存在两个局限:智能体角色描述往往随意设计,且框架难以泛化至其他任务。为此,我们提出 MAJ-EVAL 多智能体评估框架,能够自动从相关文档(如研究论文)构建具有不同维度的评估者角色,实例化 LLM 智能体,并通过群体辩论生成多维反馈。在教育与医疗领域的评估实验表明,相比传统自动化评估指标和现有 LLM-as-a-judge 方法,MAJ-EVAL 生成的评估结果与人类专家评分具有更高一致性。
方法架构
角色自动构建:从领域文档提取关键维度,生成具有差异化评估视角的智能体角色描述
多智能体实例化:基于角色描述配置 LLM 智能体的系统提示和行为参数
群体辩论机制:采用结构化辩论流程使智能体交换论据,最终形成多维评估报告
动态权重调整:根据辩论过程中论据质量自动调整不同维度在最终评估中的权重
实验结果
教育领域:在作文评估任务中,MAJ-EVAL 与教师评分的 Spearman 相关系数达 0.82,显著优于基线方法
医疗领域:对患者咨询回复的评估结果与专家委员会评分的 Kappa 一致性系数提升 37%
效率对比:较传统人类评估流程节省 89%时间成本,较单智能体方法提升评估维度覆盖率 2.4 倍
技术贡献
提出首个可自动构建评估维度的多智能体评估框架
设计基于文档分析的动态角色生成算法
实现评估结果与人类多维度标准的高效对齐
开源框架支持快速适配新领域任务更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码
- 办公AI智能小助手
评论