首次引入 GPT-4o!图像自动评估新基准来啦
卡奥斯智能交互引擎是卡奥斯基于海尔近 40 年工业生产经验积累和卡奥斯 7 年工业互联网平台建设的最佳实践,基于大语言模型和 RAG 技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。
详情戳:https://datayi.cn/w/nP21p1VR
面对层出不穷的图像生成技术,一个新问题摆在眼前:
缺乏统一标准来衡量这些生成的图片是否符合人们的喜好
对此,来自清华、西交大、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员共同推出了一项新基准 DreamBench++。
通过收集不同的图像和提示,团队利用 GPT-4o 实现了符合人类偏好的自动评估。
简单来说,通过精心设计 prompt 以及引入思维链提示和情境学习,团队让 GPT-4o 在图像评估过程中学会了像人类一样思考,并展现其思考过程。
为了测试效果,团队以 7 名专业人类标注员的打分为基准,对 7 种不同的图像生成方法进行了评估。
结果显示 DreamBench++与人类评价高度一致。
更多细节接下来一起瞅瞅~
什么是 DreamBench++?
DreamBench++是一个全新的评估工具,它在个性化图像评估领域实现了两项关键技术突破。
引入支持多模态的 GPT-4o,同时实现与人类偏好的深度对齐以及自动化评估
推出了一个更为全面和多元化的数据集
与人类对齐的自动化评估
尽管 GPT-4o 支持多模态输入,但在保留评估中的细微差异时面临挑战。
在评价不同方法的个性化效果时,研究人员选择直接打分而非对比,因为对比可能会受到不同方法生成的图像顺序的影响,而且两两对比需要更长的标注时间。
为了确保评估的准确性和一致性,研究人员设计了包含以下要素的 prompt:
任务描述,明确评估的目标和要求。
评分标准解释,详细说明评估的依据。
评分范围定义,设定评分的量化标准。
格式规范,确保评分的统一性和可比性。
评分规则涵盖了形状、颜色、纹理以及面部细节(特别针对人和动物),以全面评估图像的个性化效果。
最后,为了收集无偏的人类偏好数据,研究团队招募了 7 名经过专业培训、充分理解个性化任务的人类标注员。他们的标注结果被用作人类打分的基准,以确保评估结果的客观性和可靠性。
更全面的个性化数据集
为了确保评估过程的公正性和无歧视性,DreamBench++的研究人员构建了一个新的个性化数据集。
这一数据集的构建过程涵盖了以下几个关键步骤:
获取主题关键词:团队挑选以及生成了一系列可用于个性化生成的主体名称,如猫、钟表、男人等,共 200 个关键词,分为物体(objects)、活物(living objects),以及风格化图片(style)三种类型。
图片收集:收集来源包含 Unsplash, Rawpixel 和 Google Image Search。接着,从这些图片中挑选了背景干净、主体占比大的图片,以确保图像的清晰度和识别度。
prompt 生成:引导 GPT-4o 生成不同复杂程度的 prompt。这些 prompt 的复杂性与生成任务的难度相对应,即越复杂的 prompt 对应越具有挑战性的生成任务。
实验结果
在 DreamBench++平台上,研究团队对 7 种不同的图像生成方法进行了评估。
这些方法涵盖了基于训练的、无需训练的,以及基于多模态大语言模型(MLLM)的多种方案。
评估结果显示:
在图像相似性方面,DINO-I 和 CLIP-I(现有的图像自动评估指标)的评分往往高于人类的评价。
而在文本遵循方面,CLIP-T 的评分则相对较低。
相比之下,GPT-4o 在这两方面的评分均更接近人类的打分。
团队推测上述结果背后的原因是,GPT-4o 和人类评价者都会综合考虑多个视觉元素,如形状、轮廓、纹理,以及人或动物的面部细节等,最终给出一个综合性的评分。
这种评价方式更符合人类的直觉和偏好,因为它不仅仅关注单一的方面,而是全面地评估图像的各个方面。
此外,团队还对不同图像生成方法在 DreamBench++上的生成结果进行了可视化展示。
在评估图像生成结果的保持主体情况时,DreamBench++与人类评估者达到了 79.64%的一致性。
在遵循文本指令生成图像的能力方面,DreamBench++的一致性高达 93.18%。
从数据来看,DreamBench++的人类一致性比 DINO score 高出 54.1%,比 CLIP score 高出 50.7%。
这也侧面说明,通过设计 prompt,能够让 GPT-4o 较为准确地捕捉和反映人类的审美和偏好。
另外,Dreambench++的数据集多样性更高,与 DreamBench 相比,finetune-based 方法在 DreamBench++上的表现会下降。
团队推测这可能是因为他们在 DreamBench 上调整了参数,而 DreamBench 的种类并不全面。
同时,Emu2 在非自然或复杂图像上的表现也会下降。
这些都说明 DreamBench++更全面的数据集暴露了已有的个性化方法中的新问题。
目前相关论文及数据集已公开,感兴趣可以进一步了解。
论文:https://arxiv.org/abs/2406.16855开源地址:https://huggingface.co/papers/2406.16855
评论