- 博客(9)
- 资源 (2)
- 收藏
- 关注
转载 UVR-MDX-NET模型总结对比
以下是对 MDX-Net 系列模型的总结对比表格,帮助读者快速了解各个模型的特点和适用场景。模型名称特点与优势适用场景主流音频分离模型,支持多任务处理一般音乐制作、音频分离高质量人声提取模型,支持 fine-tuning人声提取、背景音乐去除高质量乐器与人声分离模型专业音乐制作、乐器与人声分离高质量乐器分离模型专业音乐制作、乐器分离高质量乐器分离模型,针对复杂音频场景优化复杂音乐场景、乐器分离高质量乐器分离模型,支持高分辨率音频高分辨率音频处理、乐器分离。
2025-07-10 11:27:51
59
原创 EMO2论文分享
因此,在运动生成阶段,生成共语音手部运动作为视频生成下一阶段的驱动信号。实验表明,视频生成模型只能产生合理的上半身运动,只给出了手的控制信号,此外,与现有的运动生成方法(如 DiffSHEG、Talkshow 和 CoCoGesture)相比,释放对身体手臂和其他部位的控制进一步增加了上半身运动的表现力和强度。,在训练帧中**使用了MANO手部检测的手部置信度分数,**作为条件输入,以提高生成的手的质量。1. 确定了音频和手部运动之间的强相关性,并提出了一个简化的两阶段框架,用于音频驱动的手势生成。
2025-04-23 17:10:51
778
原创 F5-TTS论文、代码学习分享
通过简化输入建模、优化扩散架构与采样策略,实现高效且高质量的非自回归语音合成。一个基于E2 TTS模型的模型,通过ConvNeXt文本建模DiT架构轻量化与动态采样策略,解决了传统非自回归TTS的收敛慢、对齐差、推理效率低等痛点,实现了高效、鲁棒的语音合成。
2025-04-23 17:04:15
1098
原创 LatentSync论文-代码学习分享
视频+音频->视频口型同步更像是一个视频到视频的编辑框架,需要保持嘴巴以外的区域与输入视频一致图像+音频->视频音频驱动人像动画更像是一个图像到视频的动画框架,可以改变头部的运动,甚至面部表情,整体框架的差异导致了唇形同步:Wav2Lip、Diff2LipMuseTalkMyTalk音频驱动的肖像动画:EMO、HalloEchoMimicVASA-1DreamTalkSadTalker。
2025-04-23 16:59:42
936
2
原创 【多模态大模型】Janus-Pro+ms-swift 推理-微调
我们介绍使用ms-swift对deepseek-ai/Janus-Pro-7B进行微调(注意:目前只支持图像理解的训练而不支持图像生成)。这里,我们将展示可运行的微调demo,并给出自定义数据集的格式。conda create -n swift #创建虚拟环境。如果要使用自定义数据集进行训练,你可以参考以下格式,并指定。在开始微调之前,请确保您的环境已准备妥当。微调完成,保存到output。是一个ocr的数据集 如图。
2025-03-04 17:21:15
1619
5
原创 【AIGC】Stable diffusion的lora微调
根据上一章节已经部署成功Stable diffusion webui。这章适用lora微调。
2025-02-13 09:41:07
686
原创 【YOLOv11】训练和推理自己的数据集-coco8为例
1.配置虚拟环境和数据准备:官网下载文件、下载coco8 数据集这个可以运行官网自带的.sh文件获取,如果需要用自己打标签的数据集如labelimg 需要将他的文件转换为如下格式,这个网上可以找到脚本.结果best.pt保存到当前train_coco8.py 同一个文件runs/detect/train/yolov8-py310-lj是我的虚拟环境如下,anaconda的环境创建、安包等我将不再赘述。3.导入预训练模型yolov11.pt,使用自己的数据集训练。2.编写yolo数据集配置文件。
2025-01-22 18:00:51
395
原创 【AIGC】stable diffusion webui安装指导
我的出现下载预训练模型的报错,然后我就去huggingface下载模型,将他的safetensors文件放在了 diffusion-webui-master/models/Stable-diffusion/v2-1_768-ema-pruned.safetensors.国内先换源,然后直接运行自动安装文件如下,等待时间,他就会自动打开浏览器到webui界面,或者会给出网址。安包可以换源,如在命令后面加上 -i http://pypi.douban.com/simple/再运行./webui.sh。
2025-01-22 10:34:36
344
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人