扩散模型与强化学习(10):解读第一个视频生成DPO的工作VideoDPO

 扩散模型与强化学习(0):专栏汇总与导航-CSDN博客

前言:本文提出VideoDPO方法,通过改进直接偏好优化(DPO)来解决视频扩散模型存在的视觉质量与文本-视频对齐问题。作者设计了OmniScore综合评分系统,同时评估视频质量和语义对齐度,并开发自动化流程生成偏好对数据,无需人工标注。实验表明,该方法显著提升了生成视频的视觉保真度和语义一致性,为多维度偏好对齐提供了有效解决方案。

目录

动机

方法

Omni Score

自动偏好对生成


动机

随着计算能力的快速提升和训练数据规模的不断增大,生成式扩散模型在视频生成质量和多样性方面取得了令人瞩目的进展。然而,当前的视频扩散模型在生成质量和文本-视频语义对齐两方面往往不能满足用户偏好,最终损害用户满意度。

这些问题通常是由预训练数据引起的,考虑到预训练数据的大量,过滤掉所有低质量的数据是具有挑战性的。具体来说,有两种类型的低质量数据普遍存在。首先,对于视频本身,一些样本存在低分辨率、模糊和时间不一致的问题,这对生成的视频的视觉质量产生了负面影响

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉迷单车的追风少年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值