OmniTalker:基于上下文视听风格复刻的实时文本驱动说话人像生成

paper:https://arxiv.org/pdf/2504.02433v1

github:截止目前暂未开源。

OmniTalker supports lip-syncing in over 40 languages, including English, Spanish, French, German, Chinese, Japanese, Arabic, and many more. The AI adapts to language-specific mouth movements for authentic results regardless of the spoken language.

相关主页:OmniTalker | Free AI Photo to Talking Video with Lip Sync

一、核心技术点

OmniTalker 是一个端到端的文本驱动对话头生成框架,核心技术点围绕 “文本到音视频同步生成” 与 “风格复制” 展开:

  • 双模态并行生成:通过双分支扩散 transformer(DiT)架构,音频分支从文本合成梅尔频谱图,视觉分支预测精细头部姿态和面部动态,实现语音与视频的同步生成。
  • 跨模态融合机制:采用 MM-DiT 注意力机制的音视频融合模块,动态权衡两种模态的重要性,确保时间同步和风格一致性,解决传统级联方法中 “音频 - 视觉脱节” 问题。
  • 上下文风格嵌入:从单段参考视频中提取语音风格(如音色、语调)和面部风格(如表情、头部姿态),无需额外风格提取模块,支持零样本场景下的风格复制。
  • 流匹配训练:基于流匹配(Flow Matching)技术训练模型,相比传统扩散模型提升训练效率和收敛速度,同时支持实时推理(25 FPS)。

二、模型结构

OmniTalker 的架构包含三大核心组件,整体流程如图 2 所示:

  1. 输入表示层

    • 文本输入(驱动文本 Td​ 和参考音频转文本 Tr​)通过 ConvNeXt-V2 转换为嵌入特征,支持中文拼音和拉丁语字符;
    • 参考音频提取梅尔频谱图,经 MLP 编码为音频特征 xa;参考视频提取面部 blendshape 系数(表情)、头部姿态(6D RT)和眼球运动参数,编码为视觉特征 xv。
  2. 核心网络层

    • 上下文风格嵌入模块:对参考音视频特征进行零填充以匹配目标序列长度,通过模态特定编码器提取风格动态特征;
    • 双分支 DiT 网络:先通过 22 个音视频 DiT 块进行跨模态交互,再通过各自 4 个单模态 DiT 块细化特征,保留跨模态上下文的同时优化单模态质量;
    • 音视频融合模块:在 DiT 块中通过 Query-Key-Value 注意力机制融合音频与视觉特征,确保 “唇形与语音同步”“表情与语调匹配”。
  3. 输出解码层

    • 音频特征经声码器(Vocos)解码为语音;视觉特征通过基于 GAN 的渲染器生成 512×512 分辨率视频(30 FPS),最终输出包含头部姿态、面部表情和眼球运动的完整对话视频。

三、创新点

OmniTalker 针对传统方法的局限性提出四大创新:

  1. 统一多模态框架:打破 “文本转语音(TTS)+ 音频驱动对话头” 的级联 pipeline,避免计算冗余、误差累积和音视频风格不匹配问题,首次在零样本场景下联合建模语音与面部风格。
  2. 上下文风格复制能力:通过参考视频的 “文本 - 音频 - 视频” 三元组关联学习,自动捕捉风格特征(如 “兴奋时的挑眉 + 快语速”),相比 StyleTalk 等方法,不仅复制表情,还能匹配语音与姿态的语义关联(如 “疑问时的歪头 + 语调上扬”)。
  3. 实时高效推理:模型参数仅 0.8B,结合流匹配技术简化优化过程,实现 25 FPS 实时生成,显存需求低,中端设备可运行。
  4. 大规模多模态训练:构建包含 690 小时(500 小时中文 + 190 小时英文)的音视频文本数据集,覆盖 TED 演讲、访谈等场景,通过自动预处理 pipeline(含人脸检测、语音识别等)保证数据质量。

四、解决的核心问题

针对传统文本驱动对话头生成的两大痛点,OmniTalker 提出针对性解决方案:

  • 级联 pipeline 的固有缺陷:传统方法通过 “TTS + 音频驱动视频” 的级联方式生成,导致计算冗余(重复特征提取)、误差累积(前序模块误差传递至后序)、音视频风格脱节(如 “严肃文本配笑脸”)。OmniTalker 以端到端框架消除级联依赖,通过跨模态融合模块直接对齐文本语义与音视频特征。
  • 风格建模的片面性:现有方法多仅关注面部风格(如表情),忽略语音风格(如语调)与语义的关联。OmniTalker 联合建模 “语音 - 面部” 双风格,例如从参考视频中学习 “愤怒时的低吼 + 皱眉” 关联,生成时保持风格一致性。
  • 实时性与泛化性平衡:通过流匹配技术提升训练效率,结合 0.8B 轻量参数设计,在保证 512×512 分辨率视频质量的同时,实现 25 FPS 实时推理,远超 StyleTalk(18 FPS)、SadTalker(25 FPS 但风格保留差)等方法。

五、实验验证效果

在 690 小时多语言数据集(含中文、英文)上的实验显示:

  • 音频质量:词错误率(WER)在中文场景达 1.52%,英文场景达 1.83%,优于 CosyVoice、F5-TTS 等主流 TTS 方法,且引入视觉监督后音频感知质量进一步提升。
  • 视频质量:在 PSNR(20.028)、SSIM(0.735)、FID(19.579)等指标上均居最优,尤其在风格保留上,表情 FID(E-FID=0.08)和姿态 FID(P-FID=0.12)较现有方法提升一个数量级,能精准复现参考视频的头部运动幅度与频率。
  • 同步性:唇同步指标(Sync-C=5.354)虽略低于部分方法,但主观评估显示其更符合 “语义 - 表情” 关联(如 “疑问句配歪头”)。

 相关技术交流群:672907582
加群请备注(进群后请告知):来自CSDN。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值