最新开源tts，支持时时对话，延迟低于25ms，多规则适配多场景前段时间分享了一个sparktts效果很不错，硬件依赖也低，还没看过的可以去看一下一键包：新开源TTS，零样本克隆声音，还能自-CSDN博客

本文链接：https://blog.csdn.net/sinat_37574187/article/details/146524766

最新开源tts，支持时时对话，延迟低于25ms，多规则适配多场景

原创云天河世界大模型

2025年03月25日 06:59 北京

前段时间分享了一个sparktts效果很不错，硬件依赖也低，还没看过的可以去看一下一键包：新开源TTS，零样本克隆声音，还能自主创建声音，只需要6G显存，文末一键包，最近又发现一款不错的tts，相比sparktts克隆声音更快，适合有时时对话需求的场景，话不多说，直接上干货，哈哈，项目支持本地和在线测试，文中有链接，可以直接测试。

概述

Orpheus TTS是建立在Llama-3B主链上的开源文本到语音系统。 Orpheus展示了使用LLM进行语音合成的新兴功能。它以其接近人类的自然情感表达、超低延迟的实时输出以及强大的零样本语音克隆能力，还将延迟压缩到令人惊叹的 25-50 毫秒，完美适配实时对话场景。并且提供了从 150M 到 3B 参数的四种型号，满足不同场景的需求。支持零样本语音克隆和灵活的情感控制，可让每个人都能轻松定制专属音色。

能力

类似人类的语音：自然语调，情感和节奏，优于SOTA封闭源模型
零拍的语音克隆：克隆声音而无需以前的微调
引导的情感和语调：带有简单标签的控制语音和情感特征
低延迟：〜200ms的实时应用程序流延迟，可降低至〜100ms，并使用输入流。

流推理示例

克隆这个仓库

<span style="color:rgba(0, 0, 0, 0.9)"><span style="background-color:#ffffff"><code>git <span style="color:#ca7d37">clone</span> https://github.com/canopyai/Orpheus-TTS.git