首次引入 GPT-4o！图像自动评估新基准来啦

2024-06-27
山东
本文字数：1894 字
阅读完需：约 6 分钟

卡奥斯智能交互引擎是卡奥斯基于海尔近 40 年工业生产经验积累和卡奥斯 7 年工业互联网平台建设的最佳实践，基于大语言模型和 RAG 技术，集合海量工业领域生态资源方优质产品和知识服务，旨在通过智能搜索、连续交互，实时生成个性化的内容和智能化产品推荐，为用户提供快速、可靠的交互式搜索服务，首创了聚焦工业领域的智能交互引擎。

详情戳：https://datayi.cn/w/nP21p1VR

面对层出不穷的图像生成技术，一个新问题摆在眼前：

缺乏统一标准来衡量这些生成的图片是否符合人们的喜好

对此，来自清华、西交大、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员共同推出了一项新基准 DreamBench++。

通过收集不同的图像和提示，团队利用 GPT-4o 实现了符合人类偏好的自动评估。

简单来说，通过精心设计 prompt 以及引入思维链提示和情境学习，团队让 GPT-4o 在图像评估过程中学会了像人类一样思考，并展现其思考过程。

为了测试效果，团队以 7 名专业人类标注员的打分为基准，对 7 种不同的图像生成方法进行了评估。

结果显示 DreamBench++与人类评价高度一致。

更多细节接下来一起瞅瞅~

什么是 DreamBench++？

DreamBench++是一个全新的评估工具，它在个性化图像评估领域实现了两项关键技术突破。

引入支持多模态的 GPT-4o，同时实现与人类偏好的深度对齐以及自动化评估
推出了一个更为全面和多元化的数据集

与人类对齐的自动化评估

尽管 GPT-4o 支持多模态输入，但在保留评估中的细微差异时面临挑战。

在评价不同方法的个性化效果时，研究人员选择直接打分而非对比，因为对比可能会受到不同方法生成的图像顺序的影响，而且两两对比需要更长的标注时间。

为了确保评估的准确性和一致性，研究人员设计了包含以下要素的 prompt：

任务描述，明确评估的目标和要求。
评分标准解释，详细说明评估的依据。
评分范围定义，设定评分的量化标准。
格式规范，确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节（特别针对人和动物），以全面评估图像的个性化效果。

最后，为了收集无偏的人类偏好数据，研究团队招募了 7 名经过专业培训、充分理解个性化任务的人类标注员。他们的标注结果被用作人类打分的基准，以确保评估结果的客观性和可靠性。

更全面的个性化数据集

为了确保评估过程的公正性和无歧视性，DreamBench++的研究人员构建了一个新的个性化数据集。

这一数据集的构建过程涵盖了以下几个关键步骤：

获取主题关键词：团队挑选以及生成了一系列可用于个性化生成的主体名称，如猫、钟表、男人等，共 200 个关键词，分为物体（objects）、活物（living objects)，以及风格化图片（style）三种类型。
图片收集：收集来源包含 Unsplash, Rawpixel 和 Google Image Search。接着，从这些图片中挑选了背景干净、主体占比大的图片，以确保图像的清晰度和识别度。
prompt 生成：引导 GPT-4o 生成不同复杂程度的 prompt。这些 prompt 的复杂性与生成任务的难度相对应，即越复杂的 prompt 对应越具有挑战性的生成任务。