自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (2)
  • 收藏
  • 关注

转载 UVR-MDX-NET模型总结对比

以下是对 MDX-Net 系列模型的总结对比表格,帮助读者快速了解各个模型的特点和适用场景。模型名称特点与优势适用场景主流音频分离模型,支持多任务处理一般音乐制作、音频分离高质量人声提取模型,支持 fine-tuning人声提取、背景音乐去除高质量乐器与人声分离模型专业音乐制作、乐器与人声分离高质量乐器分离模型专业音乐制作、乐器分离高质量乐器分离模型,针对复杂音频场景优化复杂音乐场景、乐器分离​高质量乐器分离模型,支持高分辨率音频高分辨率音频处理、乐器分离。

2025-07-10 11:27:51 59

原创 EMO2论文分享

因此,在运动生成阶段,生成共语音手部运动作为视频生成下一阶段的驱动信号。实验表明,视频生成模型只能产生合理的上半身运动,只给出了手的控制信号,此外,与现有的运动生成方法(如 DiffSHEG、Talkshow 和 CoCoGesture)相比,释放对身体手臂和其他部位的控制进一步增加了上半身运动的表现力和强度。,在训练帧中**使用了MANO手部检测的手部置信度分数,**作为条件输入,以提高生成的手的质量。1. 确定了音频和手部运动之间的强相关性,并提出了一个简化的两阶段框架,用于音频驱动的手势生成。

2025-04-23 17:10:51 778

原创 F5-TTS论文、代码学习分享

通过简化输入建模、优化扩散架构与采样策略,实现高效且高质量的非自回归语音合成。一个基于E2 TTS模型的模型,通过ConvNeXt文本建模DiT架构轻量化与动态采样策略,解决了传统非自回归TTS的收敛慢、对齐差、推理效率低等痛点,实现了高效、鲁棒的语音合成。

2025-04-23 17:04:15 1098

原创 LatentSync论文-代码学习分享

视频+音频->视频口型同步更像是一个视频到视频的编辑框架,需要保持嘴巴以外的区域与输入视频一致图像+音频->视频音频驱动人像动画更像是一个图像到视频的动画框架,可以改变头部的运动,甚至面部表情,整体框架的差异导致了唇形同步:Wav2Lip、Diff2LipMuseTalkMyTalk音频驱动的肖像动画:EMO、HalloEchoMimicVASA-1DreamTalkSadTalker。

2025-04-23 16:59:42 936 2

原创 【多模态大模型】Janus-Pro+ms-swift 推理-微调

我们介绍使用ms-swift对deepseek-ai/Janus-Pro-7B进行微调(注意:目前只支持图像理解的训练而不支持图像生成)。这里,我们将展示可运行的微调demo,并给出自定义数据集的格式。conda create -n swift #创建虚拟环境。如果要使用自定义数据集进行训练,你可以参考以下格式,并指定。在开始微调之前,请确保您的环境已准备妥当。微调完成,保存到output。是一个ocr的数据集 如图。

2025-03-04 17:21:15 1619 5

原创 【AIGC】Stable diffusion的lora微调

根据上一章节已经部署成功Stable diffusion webui。这章适用lora微调。

2025-02-13 09:41:07 686

原创 【YOLOv11】训练和推理自己的数据集-coco8为例

1.配置虚拟环境和数据准备:官网下载文件、下载coco8 数据集这个可以运行官网自带的.sh文件获取,如果需要用自己打标签的数据集如labelimg 需要将他的文件转换为如下格式,这个网上可以找到脚本.结果best.pt保存到当前train_coco8.py 同一个文件runs/detect/train/yolov8-py310-lj是我的虚拟环境如下,anaconda的环境创建、安包等我将不再赘述。3.导入预训练模型yolov11.pt,使用自己的数据集训练。2.编写yolo数据集配置文件。

2025-01-22 18:00:51 395

原创 【AIGC】stable diffusion webui安装指导

我的出现下载预训练模型的报错,然后我就去huggingface下载模型,将他的safetensors文件放在了 diffusion-webui-master/models/Stable-diffusion/v2-1_768-ema-pruned.safetensors.国内先换源,然后直接运行自动安装文件如下,等待时间,他就会自动打开浏览器到webui界面,或者会给出网址。安包可以换源,如在命令后面加上 -i http://pypi.douban.com/simple/再运行./webui.sh。

2025-01-22 10:34:36 344

原创 【机器学习】决策树信用卡盗刷分类-sklearn

数据挖掘信用卡盗刷分类问题

2021-12-20 17:41:07 228

数据挖掘使用机器学习模型实现预测信用卡盗刷.docx

使用决策树,knn,朴素贝叶斯,随机森林模型实现预测信用卡盗刷.docx

2021-12-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除