使用插件
JvoiceLiv(语音识别)
Runtime Audio Importer(语音合成)
Ynnk Voice Lip-sync(语音合成+口型驱动)
Metahuman
Varest+腾讯混元大模型
使用的公司内部语音服务器
本文讲述数字人流程,提供大致思路
1.本地部署语音识别服务器
2.UE内初始化语音服务器
3.初始化激活服务器,开始收录玩家讲话内容(例如这个插件,激活流程便比较简单)
4.使用Varest插件自己选择post或get进行对接混元大模型(这是公司密钥打个码)
5.对接语音服务器,将大模型返回的回答变成语音返回到手里(也是公司内部的服务器要塞个码),因为我这里返回的是字节数组,我需要先判定是否等于200
6.ynnk插件进行口型合成(这里可以将语音服务器返回的音频拿过来,插件的speak节点可以播放音频进行口型驱动)总体来说UE数字人流程是比较清晰的,难点在寻找可用大模型,口型驱动优化,Metahuman模型替换,制作数字人的方式也是非常多元化的。语音识别有许多替换方案,口型驱动audio 2 face效果应该会更好一点。希望提供的思路会对迷茫的读者提供帮助