最新开源tts,支持时时对话,延迟低于25ms,多规则适配多场景 前段时间分享了一个sparktts效果很不错,硬件依赖也低,还没看过的可以去看一下一键包:新开源TTS,零样本克隆声音,还能自

最新开源tts,支持时时对话,延迟低于25ms,多规则适配多场景

原创 云天河 世界大模型
 2025年03月25日 06:59 北京

    前段时间分享了一个sparktts效果很不错,硬件依赖也低,还没看过的可以去看一下一键包:新开源TTS,零样本克隆声音,还能自主创建声音,只需要6G显存,文末一键包,最近又发现一款不错的tts,相比sparktts克隆声音更快,适合有时时对话需求的场景,话不多说,直接上干货,哈哈,项目支持本地和在线测试,文中有链接,可以直接测试。

概述

Orpheus TTS是建立在Llama-3B主链上的开源文本到语音系统。 Orpheus展示了使用LLM进行语音合成的新兴功能。它以其接近人类的自然情感表达、超低延迟的实时输出以及强大的零样本语音克隆能力,还将延迟压缩到令人惊叹的 25-50 毫秒,完美适配实时对话场景。并且提供了从 150M 到 3B 参数的四种型号,满足不同场景的需求。支持零样本语音克隆和灵活的情感控制,可让每个人都能轻松定制专属音色。

能力

  • 类似人类的语音:自然语调,情感和节奏,优于SOTA封闭源模型

  • 零拍的语音克隆:克隆声音而无需以前的微调

  • 引导的情感和语调:带有简单标签的控制语音和情感特征

  • 低延迟:〜200ms的实时应用程序流延迟,可降低至〜100ms,并使用输入流。

流推理示例

克隆这个仓库

    <span style="color:rgba(0, 0, 0, 0.9)"><span style="background-color:#ffffff"><code>git <span style="color:#ca7d37">clone</span> https://github.com/canopyai/Orpheus-TTS.git
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包

    打赏作者

    具身机器人与医疗AI曾小健

    你的鼓励将是我创作的最大动力

    ¥1 ¥2 ¥4 ¥6 ¥10 ¥20
    扫码支付:¥1
    获取中
    扫码支付

    您的余额不足,请更换扫码支付或充值

    打赏作者

    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值