前言:本文提出VideoDPO方法,通过改进直接偏好优化(DPO)来解决视频扩散模型存在的视觉质量与文本-视频对齐问题。作者设计了OmniScore综合评分系统,同时评估视频质量和语义对齐度,并开发自动化流程生成偏好对数据,无需人工标注。实验表明,该方法显著提升了生成视频的视觉保真度和语义一致性,为多维度偏好对齐提供了有效解决方案。
目录
动机
随着计算能力的快速提升和训练数据规模的不断增大,生成式扩散模型在视频生成质量和多样性方面取得了令人瞩目的进展。然而,当前的视频扩散模型在生成质量和文本-视频语义对齐两方面往往不能满足用户偏好,最终损害用户满意度。
这些问题通常是由预训练数据引起的,考虑到预训练数据的大量,过滤掉所有低质量的数据是具有挑战性的。具体来说,有两种类型的低质量数据普遍存在。首先,对于视频本身,一些样本存在低分辨率、模糊和时间不一致的问题,这对生成的视频的视觉质量产生了负面影响