肖像 + 声音 = 视频,该领域,最早阿里EMO,之后腾讯MuseV,AniPortrait。
最近,微软出了 VASA-1,这个效果是真好。排第一。可惜没放出源码。我们来看下。
简而言之:单张肖像照片+语音音频=在实时生成的超逼真对话脸部视频中,具有精确的唇音同步、栩栩如生的面部行为和自然的头部运动。
摘要
我们介绍了VASA,一个框架,用于在给定单张静态图像和语音音频片段的情况下,生成具有吸引力的视觉情感技能(VAS)的虚拟角色的栩栩如生的对话脸部。我们的首款模型,VASA-1,不仅能够产生与音频精确同步的唇部运动,还能捕捉到广泛的面部细微差别和自然的头部运动,从而增强了真实感和生动感的感知。核心创新包括一个在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及使用视频开发出这样一种富有表现力和解耦的面部潜在空间。通过包括对一组新指标进行评估在内的大量实验,我们展示了我们的方法在各个方面显著优于以往的方法。我们的方法不仅提供了高质量的视频,具有逼真的面部和头部动态,还支持在可忽略的起始延迟下以高达40帧每秒的速度在线生成512x512的视频。这为模拟人类对话行为的逼真化头像的实时交互铺平了道路。
(注意:本页面上的所有肖像图像均为由StyleGAN2或DALL·E-3生成的虚拟、不存在的身份,除了蒙娜丽莎。我们正在探索为虚拟的、互动的角色生成视觉情感技能,而不是模仿现实世界中的任何人。这只是一个研究演示,没有产品或API发布计划。另请参阅本页面底部的更多我们的负责任AI考虑。)
逼真度和生动性
我们的方法不仅能够产生精确的唇音同步,还能生成丰富表达的面部细微差别和自然的头部运动。它可以处理任意长度的音频并稳定输出无缝的对话脸部视频。
生成的可控性
我们的扩散模型接受可选信号作为