paper:https://arxiv.org/pdf/2504.02433v1
github:截止目前暂未开源。
OmniTalker supports lip-syncing in over 40 languages, including English, Spanish, French, German, Chinese, Japanese, Arabic, and many more. The AI adapts to language-specific mouth movements for authentic results regardless of the spoken language.
相关主页:OmniTalker | Free AI Photo to Talking Video with Lip Sync
一、核心技术点
OmniTalker 是一个端到端的文本驱动对话头生成框架,核心技术点围绕 “文本到音视频同步生成” 与 “风格复制” 展开:
- 双模态并行生成:通过双分支扩散 transformer(DiT)架构,音频分支从文本合成梅尔频谱图,视觉分支预测精细头部姿态和面部动态,实现语音与视频的同步生成。
- 跨模态融合机制:采用 MM-DiT 注意力机制的音视频融合模块,动态权衡两种模态的重要性,确保时间同步和风格一致性,解决传统级联方法中 “音频 - 视觉脱节” 问题。
- 上下文风格嵌入:从单段参考视频中提取语音风格(如音色、语调)和面部风格(如表情、头部姿态),无需额外风格提取模块,支持零样本场景下的风格复制。
- 流匹配训练:基于流匹配(Flow Matching)技术训练模型,相比传统扩散模型提升训练效率和收敛速度,同时支持实时推理(25 FPS)。
二、模型结构
OmniTalker 的架构包含三大核心组件,整体流程如图 2 所示:
-
输入表示层
- 文本输入(驱动文本 Td 和参考音频转文本 Tr)通过 ConvNeXt-V2 转换为嵌入特征,支持中文拼音和拉丁语字符;
- 参考音频提取梅尔频谱图,经 MLP 编码为音频特征 xa;参考视频提取面部 blendshape 系数(表情)、头部姿态(6D RT)和眼球运动参数,编码为视觉特征 xv。
-
核心网络层
- 上下文风格嵌入模块:对参考音视频特征进行零填充以匹配目标序列长度,通过模态特定编码器提取风格动态特征;
- 双分支 DiT 网络:先通过 22 个音视频 DiT 块进行跨模态交互,再通过各自 4 个单模态 DiT 块细化特征,保留跨模态上下文的同时优化单模态质量;
- 音视频融合模块:在 DiT 块中通过 Query-Key-Value 注意力机制融合音频与视觉特征,确保 “唇形与语音同步”“表情与语调匹配”。
-
输出解码层
- 音频特征经声码器(Vocos)解码为语音;视觉特征通过基于 GAN 的渲染器生成 512×512 分辨率视频(30 FPS),最终输出包含头部姿态、面部表情和眼球运动的完整对话视频。
三、创新点
OmniTalker 针对传统方法的局限性提出四大创新:
- 统一多模态框架:打破 “文本转语音(TTS)+ 音频驱动对话头” 的级联 pipeline,避免计算冗余、误差累积和音视频风格不匹配问题,首次在零样本场景下联合建模语音与面部风格。
- 上下文风格复制能力:通过参考视频的 “文本 - 音频 - 视频” 三元组关联学习,自动捕捉风格特征(如 “兴奋时的挑眉 + 快语速”),相比 StyleTalk 等方法,不仅复制表情,还能匹配语音与姿态的语义关联(如 “疑问时的歪头 + 语调上扬”)。
- 实时高效推理:模型参数仅 0.8B,结合流匹配技术简化优化过程,实现 25 FPS 实时生成,显存需求低,中端设备可运行。
- 大规模多模态训练:构建包含 690 小时(500 小时中文 + 190 小时英文)的音视频文本数据集,覆盖 TED 演讲、访谈等场景,通过自动预处理 pipeline(含人脸检测、语音识别等)保证数据质量。
四、解决的核心问题
针对传统文本驱动对话头生成的两大痛点,OmniTalker 提出针对性解决方案:
- 级联 pipeline 的固有缺陷:传统方法通过 “TTS + 音频驱动视频” 的级联方式生成,导致计算冗余(重复特征提取)、误差累积(前序模块误差传递至后序)、音视频风格脱节(如 “严肃文本配笑脸”)。OmniTalker 以端到端框架消除级联依赖,通过跨模态融合模块直接对齐文本语义与音视频特征。
- 风格建模的片面性:现有方法多仅关注面部风格(如表情),忽略语音风格(如语调)与语义的关联。OmniTalker 联合建模 “语音 - 面部” 双风格,例如从参考视频中学习 “愤怒时的低吼 + 皱眉” 关联,生成时保持风格一致性。
- 实时性与泛化性平衡:通过流匹配技术提升训练效率,结合 0.8B 轻量参数设计,在保证 512×512 分辨率视频质量的同时,实现 25 FPS 实时推理,远超 StyleTalk(18 FPS)、SadTalker(25 FPS 但风格保留差)等方法。
五、实验验证效果
在 690 小时多语言数据集(含中文、英文)上的实验显示:
- 音频质量:词错误率(WER)在中文场景达 1.52%,英文场景达 1.83%,优于 CosyVoice、F5-TTS 等主流 TTS 方法,且引入视觉监督后音频感知质量进一步提升。
- 视频质量:在 PSNR(20.028)、SSIM(0.735)、FID(19.579)等指标上均居最优,尤其在风格保留上,表情 FID(E-FID=0.08)和姿态 FID(P-FID=0.12)较现有方法提升一个数量级,能精准复现参考视频的头部运动幅度与频率。
- 同步性:唇同步指标(Sync-C=5.354)虽略低于部分方法,但主观评估显示其更符合 “语义 - 表情” 关联(如 “疑问句配歪头”)。
相关技术交流群:672907582
加群请备注(进群后请告知):来自CSDN。