NeurIPS 2025 | 从数据微调到反馈优化!可灵团队提出基于人类反馈的视频生成训练范式

在大语言模型领域,基于人类反馈的训练范式(RLHF 等)已被证明能够显著提升模型的推理能力和文本生成质量。以 OpenAI GPT 系列为代表的众多模型在后训练阶段均采用了类似的训练范式。然后,在视频生成领域,基于人类偏好的研究仍处于起步阶段,其有效性和应用方式尚缺乏明确的共识。如何构建高质量的偏好数据集?如何训练稳健的视频奖励模型?如何将人类反馈或奖励模型有效应用于视频生成模型的训练?这些基础性问题亟待解决。
针对上述问题和挑战,香港中文大学、清华大学和快手可灵团队联合发表论文《Improving Video Generation with Human Feedback》, 提出了面向基于流匹配的现代视频生成模型的综合对齐管线。该管线涵盖了反馈数据收集、奖励模型训练和模型偏好对齐三个关键环节,系统性地验证了人类反馈在提升视频画面质量、运动质量和指令一致性等方面的有效性。目前该论文已被 NeurIPS 2025 会议录用。
论文标题:Improving Video Generation with Human Feedback
[全文内容速览]
在该工作中,我们开发了系统级的视频生成模型对齐管线,通过引入人类反馈机制全面提升视频生成模型的综合表现。该管线包含四个核心组件:
1. 大规模人类偏好数据集
我们构建了一个大规模人类偏好标注数据集,涵盖来自 12 个主流视频生成模型的 18.2 万条偏好标注样本,从画面质量、运动质量、文本-视频一致性等多个维度对生成视频进行评估。
视频奖励模型 VideoReward
我们系统性地研究了基于视觉语言模型(VLM)的视频奖励模型构建方法,深入探索了数据标注、模型架构、训练策略等关键设计选择对奖励模型性能的影响机制。
评测基准 VideoGen-RewardBench
我们发布了 VideoGen-RewardBench 评测基准,这是一个专门用于评估视频奖励模型的测试榜单,包含由主流视频生成模型产出的视频样本及对应的人类偏好标注。
4. 视频偏好对齐算法
我们将三种偏好对齐算法适配至基于流匹配的视频生成模型训练,包括两种训练时策略(Flow-DPO 和 Flow-RWR),以及一种推理时增强策略(Flow-NRG)。
一、偏好数据构建
我们基于 12 个文本生成视频模型和 16,000 个独立文本提示,生成了 10.8 万条视频样本,并构建了包含 18.2 万个标注三元组的偏好数据集(每个三元组由"文本提示 + 两段生成视频 + 人类偏好判断"组成)。
标注员从三个核心维度对视频对进行评估:视觉质量(VQ),运动质量(MQ),文本对齐(TA)。针对每个维度,标注员需要在两段视频之间做出偏好选择:A 胜 / 平局(Tie)/ B 胜。
除成对比较外,我们还引入了绝对评分机制:标注员在相同三个维度上,以 1-5 Likert 量表为每段视频独立打分。这种"成对比较 + 绝对评分"的双通道标注方式,使我们能够系统性地对比两种数据收集策略的优劣,为后续奖励模型训练提供更有效的监督信号。
二、VideoReward(多维视频奖励模型)
基于构建的偏好数据集,我们训练了 VideoReward 奖励模型,并在模型设计中探索了三个关键问题:
1. 建模方式:回归模型 vs. Bradley-Terry 模型
由于训练数据同时包含绝对评分和成对偏好两种标注,我们对比了两类建模方法:
回归模型:直接预测视频的绝对分数
Bradley-Terry(BT)模型:基于成对比较建模相对偏好
实验表明,BT 模型在各种数据规模下均持续优于回归方法。随着数据量增大,两者性能差距有所收敛,但 BT 始终保持领先。
平局处理:显式建模"Tie"标注
传统 BT 模型通常会丢弃“平局”标签,导致信息损失。我们的研究发现,显式纳入平局标注能显著提升奖励模型的鲁棒性和准确性。因此,我们采用 BTT(Bradley-Terry with Ties)作为损失函数,完整刻画人类偏好的细微差异。
3. 维度解耦:独立建模多维评估
若多个评估维度共享单一表征,容易导致维度间的相互干扰——例如,与文本相关的上下文信息可能"污染"本应独立的视觉质量判断。为此,我们为每个维度引入专用 token,使模型能够独立提取各维度特征,实现真正解耦的多维度评估能力。
三、VideoGen-RewardBench:奖励模型评测基准
现有的奖励模型评测数据集主要基于早期 T2V 模型(如 CogVideo、ModelScope 等)的输出,难以反映奖励模型对当前最先进模型(如 Sora、Kling、即梦等)的评测水平。为填补这一空白,我们构建了 VideoGen-RewardBench。
我们精心设计了 25000 个评测三元组,由专业标注员在视觉质量、运动质量、文本对齐三个维度上进行成对偏好标注。特别地,我们引入了"整体质量"维度,作为跨维度奖励模型的统一评价标准。
我们采用双基准评测策略:
VideoGen-RewardBench(主要基准):评估奖励模型在最新一代 T2V 模型上的表现
GenAI-Bench(补充基准):评估奖励模型在早期 T2V 模型上的泛化能力
实验表明,我们提出的 VideoReward 奖励模型在 VideoGen-RewardBench 上显著优于现有基线方法,同时在 GenAI-Bench 等外部基准上也展现出良好的泛化能力,验证了我们设计选择的有效性。
四、视频对齐
后训练的最终目的是为了将预训练模型的输出分布与人类偏好对齐,我们将这一目标表述为:
我们将三种对齐算法推广至基于流匹配的视频生成模型,包括两种训练策略(Flow-DPO 和 Flow-RWR)和一种推理时增强技术(Reward Guidance)。·
Flow-DPO:
Flow-RWR:
Reward Guidance:
我们对三种对齐算法与基线模型、监督微调(SFT)进行了系统比较。实验发现,Flow-DPO 在我们的场景中表现最优。
一个有趣的观察是:使用恒定β系数的 Flow-DPO 优于时间步依赖β的版本,而后者是从 Diffusion-DPO 算法直接推导而来。我们推测,时间步依赖的β可能导致不同时间步上的训练不均衡,因为 T2V 模型在不同噪声水平下共享模型权重,恒定β能提供更稳定的优化信号。
五、总结与展望
视频生成模型的后训练范式不应止步于“如何收集高质量数据进行微调”,更要关注“如何基于反馈信号持续优化模型”。本研究通过构建大规模偏好数据集、训练多维解耦的 VideoReward 模型,以及将 Flow-DPO 等对齐算法引入流匹配框架,系统性地探索了人类反馈在视频生成中的应用路径。我们的核心发现是:当前视频生成模型的天花板远未触及。通过偏好对齐,模型在视觉呈现、动态表达和语义理解上都实现了肉眼可见的跃升——这不仅验证了 RLHF 在视频领域的可行性,更揭示了一个事实:人类反馈能够有效弥合技术指标与真实偏好之间的鸿沟,让模型真正学会"什么是好视频"。
本研究的意义不仅体现在性能指标的提升,更在于为视频生成领域建立了一套端到端的人类反馈对齐方法论——从数据标注到奖励建模,再到算法适配,每个环节都有可借鉴的经验和开源工具支持。VideoReward 的开源也降低了后续研究的门槛。这套完整的后训练管线有望在长视频叙事、定制化生成、交互式生成等更复杂场景中释放更大潜力,推动视频生成技术的进一步发展。







评论