[AI Microsoft VASA-1] 以音频驱动的逼真实时生成的对话脸部

原创

已于 2024-04-24 18:00:40 修改 · 1.4k 阅读

·

34

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #音视频 #微软

于 2024-04-24 17:35:18 首次发布

肖像 + 声音 = 视频，该领域，最早阿里EMO，之后腾讯MuseV，AniPortrait。

最近，微软出了 VASA-1，这个效果是真好。排第一。可惜没放出源码。我们来看下。

简而言之：单张肖像照片+语音音频=在实时生成的超逼真对话脸部视频中，具有精确的唇音同步、栩栩如生的面部行为和自然的头部运动。

teaser

摘要

我们介绍了VASA，一个框架，用于在给定单张静态图像和语音音频片段的情况下，生成具有吸引力的视觉情感技能（VAS）的虚拟角色的栩栩如生的对话脸部。我们的首款模型，VASA-1，不仅能够产生与音频精确同步的唇部运动，还能捕捉到广泛的面部细微差别和自然的头部运动，从而增强了真实感和生动感的感知。核心创新包括一个在面部潜在空间中工作的整体面部动态和头部运动生成模型，以及使用视频开发出这样一种富有表现力和解耦的面部潜在空间。通过包括对一组新指标进行评估在内的大量实验，我们展示了我们的方法在各个方面显著优于以往的方法。我们的方法不仅提供了高质量的视频，具有逼真的面部和头部动态，还支持在可忽略的起始延迟下以高达40帧每秒的速度在线生成512x512的视频。这为模拟人类对话行为的逼真化头像的实时交互铺平了道路。

（注意：本页面上的所有肖像图像均为由StyleGAN2或DALL·E-3生成的虚拟、不存在的身份，除了蒙娜丽莎。我们正在探索为虚拟的、互动的角色生成视觉情感技能，而不是模仿现实世界中的任何人。这只是一个研究演示，没有产品或API发布计划。另请参阅本页面底部的更多我们的负责任AI考虑。）

逼真度和生动性

我们的方法不仅能够产生精确的唇音同步，还能生成丰富表达的面部细微差别和自然的头部运动。它可以处理任意长度的音频并稳定输出无缝的对话脸部视频。

生成的可控性

我们的扩散模型接受可选信号作为

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。