ComfyUI+通义万相 Wan2.1系列生成视频教程

一、Wan2.1系列

Wan2.1 系列是阿里巴巴通义实验室推出的开源视频生成模型套件,共有 4 个模型,包括文生视频的 Wan2.1-T2V-1.3B 和 Wan2.1-T2V-14B,以及图生视频的 Wan2.1-I2V-14B

在权威评测集 VBench 中,Wan2.1 以总分 86.22% 的成绩登上榜首位置,大幅领先了 Sora、Minimax、Luma、Gen3、Pika 等国内外视频生成模型

具体来说,Wan2.1开源了文生视频和图生视频两种模型。

其中,文生视频模型有1.3B和14B两种大小,图生视频模型大小都是14B,不过,一个是480P,另一个是720P。

大尺寸14B版本主打高性能,但1.3B小版本适合消费级显卡,只需要 8.2GB 显存就可以生成 480P 高质量视频。

也即是说,只要你有一张4060显卡(8G显存),就能跑得动这个模型,并且可以在大约4分钟以内生成5秒的480p视频。

刚好,ComfyUI官方也支持了Wan2.1模型,所以,这篇文章就带大家一步一步在本地部署Wan2.1模型。

二、ComfyUI

ComfyUI 和大家熟知的 WebUI 一样,都是 Stable Diffusion 的一种用户界面,可以实现文生图、图生图、图像处理、AI 视频生成等操作。但 ComfyUI 是节点式模块化的界面,需要用户自己搭建工作流,而且各方面的资源比较松散,需要自己安装部署,因此入门难度较高,不适合零基础的 AI 绘画小白,一般都推荐大家先掌握 Stable Diffusion WebUI 的用法,再学习 ComfyUI。

ComfyUI 越来越受欢迎,是因为用户可以按需要搭建自定义工作流,高效完成各种图像生成任务,很多最新的 AI 技术比如 SVD、InstantID 发布没多久就能在 ComfyUI 中用上,这点是 WebUI 做不到的;ComfyUI 会将图像生成流程保存为工作流(workflow)文件,下次使用时直接拖入界面加载就行,这样不仅方便自己复用已有工作流,还能轻松借用大神的生成作品;而且 ComfyUI 对低显存用户也更友好,在 WebUI 中容易爆显存生成任务在 ComfyUI 中可以顺利完成。

下载

夸克网盘
链接:https://pan.quark.cn/s/fed0656eb3f1

打开链接,只需要下载ComfyUI-aki-V202504版-无需密码.zip,其他文件不需要下载。

安装

解压zip文件,得到文件夹ComfyUI-aki-V202504版-无需密码,进入目录ComfyUI-aki-V202504版

双击文件,绘世启动器.exe

第一次打开,会提示安装组件windowsdesktop-runtime,安装提示下载安装即可。

安装完成,首页效果如下:

 点击左侧的高级选项-->环境维护-->安装PyTorch,选择最新版本CUDA 12.8,点击安装。

安装需要一点时间,请耐心等待

 

点击版本管理,更新到最新版本

三、ComfyUI模型文件下载

clip_vision下载

打开下面这个页面,下载clip_vision:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision

下载文件

 下载到本地后,移到下载到本地后,移到ComfyUI整合包的ComfyUI\models\clip_vision目录下。

diffusion_models下载

打开下面这个页面,下载diffusion_model:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models

Wan2.1模型支持文生视频和图生视频两种方式,每种方式下又有14B和1.3B两种尺寸的模型,其中:

  • 文生视频
    • wan2.1_t2v_1.3B的模型,最大只支持生成832×480像素视频
    • wan2.1_t2v_14B的模型,支持1280×720像素和832×480像素视频
  • 图生视频
    • wan2.1_i2v_480p_14B的模型,最大支持生成832×480像素视频
    • wan2.1_i2v_720p_14B的模型,最大支持生成1280×720像素视频

同时,每个尺寸的模型下也有多个模型,根据生成质量的优劣,按照如下原则选择(质量等级从高到低):

fp16 > bf16 > fp8_scaled > fp8_e4m3fn

结合自己的显存大小,我选择这两个模型下载到本地:

文生视频:wan2.1_t2v_1.3B_fp16.safetensors,wan2.1_t2v_14B_fp16.safetensors
图生视频:wan2.1_i2v_480p_14B_fp8_scaled.safetensors

 

然后移到ComfyUI-aki-V202504版\ComfyUI\models\diffusion_models目录下面。

text_encoders下载

打开下面这个页面,下载text_encoders:

  • 如果显存 >= 12G,选择第一个text_encoder下载
  • 如果显存 < 12G,选择第二个text_encoder下载

选择第一个下载

 下载到本地后,移到下载到本地后,移到ComfyUI整合包的ComfyUI\models\text_encoders目录下。

vae下载

打开下面这个页面,下载vae:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae

 下载到本地后,移到下载到本地后,移到ComfyUI整合包的ComfyUI\models\vae目录下。

四、工作流下载

打开下面这个页面,下载工作流:

https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/example%20workflows_Wan2.1

我们根据第三步下载的diffusion_model,相对应地选择第一个和第三个工作流下载:

下载到本地后,移到下载到本地后,移到ComfyUI整合包的ComfyUI\user\default\workflows目录下。

五、文生视频

第一步,打开秋叶启动器,确保是最新版本,点击左上角,一键启动。

启动完成后,会自动打开网页: http://127.0.0.1:8188/

 

第二步,点击左边侧栏,打开文生视频工作流。

 第三步,调整diffusion_model、text_encoder和vae的配置,选择之前下载好的模型。

 

注意必须要手动选择,umt5 xxl fp16.safetensors

注意必须要手动选择,这里选择wan2.1 t2v 1.3B fp16.safetensors

注意必须要手动选择,wan 2.1 vae.safetensors

第四步,在CLIP文本编码器框输入正向提示词

这里的提示词如下:

复制代码
阳光明媚的草原上,一位年轻的中国美女正在欢快地散步,镜头采用中景拍摄,完美捕捉到她全身的曼妙姿态。她有着标志性的可爱脸型,瓜子脸搭配长发自然卷,淡妆之下,笑起来时左右脸颊上绽放出两个浅浅的酒窝,尽显青春活力与甜美气质。淡蓝色连衣裙上点缀着白色与淡黄色小花,领口微微敞开,裙摆轻柔垂落至脚踝,随着微风轻轻摆动,展现出玲珑有致的身材曲线,健康优雅。她脚蹬一双舒适凉鞋,漫步绿草如茵的草地,阳光温柔洒落,为她披上一层柔和金辉,她时而轻笑,时而低头细嗅青草芬芳,满溢轻松愉悦。广袤草原延伸至远方,黄、红、紫等各色野花星星点点,蓝天白云高远澄净,共同勾勒出清新自然的夏日画卷,映衬着她活力四溢的年轻身姿。
复制代码

 

 完整流程如下:

 

最后点执行按钮,开始生成视频。

 

注意看,左上角会显示进度,中间顶部会显示CPU,内存,GPU的使用率

 

生成过程中,GPU使用率会很高

 

不过不用担心,大概2分钟左右,就可以完成了。

 

生成完成后,左下角,会播放效果

 

生成的图片,会保存在目录ComfyUI-aki-V202504版\ComfyUI\output

会出现一个ComfyUI_00001_.webp文件,打开文件,效果如下:

这是1.3b的效果,花草有点模糊,人物轮廓比较清晰的,就是整体人物形态不太正常。

 

接下来,使用14b,测试效果

 

提示词如下:

一位身穿传统服饰的女性,她正坐在户外,双手合十,眼睛注视前方,似乎在进行祈祷。背景是绿色的树木和植物,植物清晰可见,阳光透过树叶洒在她的身上,营造出一种宁静、祥和的氛围。她的服装以淡雅的白色和粉色为主,带有精致的花纹,整体风格非常优雅。

显卡有点吃力,需要等待20分钟

效果如下:

这个就比较正常了,妥妥的一个大美女

六、图生视频

第一步,点击左边侧栏,打开图生视频工作流。

第二步,调整diffusion_model、text_encoder、clip_vision和vae的配置,选择之前下载好的模型。

 

注意必须要手动选择,umt5 xxl fp16.safetensors

 注意必须要手动选择,这里是wan2.1i2v 480p 14B fp8 scaled.safetensors

 注意必须要手动选择,wan 2.1 vae.safetensors

 注意必须要手动选择,clip vision h.safetensors

第三步,上传图片

点击upload,上传本地图片

图片下载地址为:https://img2.baidu.com/it/u=3946513537,3753906297&fm=253&fmt=auto&app=138&f=JPEG?w=800&h=1200

 

在CLIP文本编码器框输入正向提示词

文本内容:

一位年轻美丽的女性,她面带灿烂的微笑,眼神明亮而温柔。她端着一盆色彩鲜艳、水果种类丰富的水果沙拉。她迈着轻快而优雅的步伐向我走来,仿佛带着满满的活力与清新之感。

 

修改图片尺寸,因为图片是800x1200的,所以保存的图像,尺寸也要和原始图片一致才行。

 

图生视频的工作流,完整如下:

 

从上图可以看到,图生视频的工作流相比文生视频,有两个主要的区别:

1、多了一个clip_vision的节点;

2、diffusion_model换成了图生视频的模型。

 

最后点执行按钮

开始生成视频。

 

注意:耗时会比较长,因为用的是14b模型,16GB显存有点吃力。

整个过程,大概持续了35分钟,最后看一下效果图。

 

我噻,效果还是比较惊艳了,尤其是她笑的笑容,爱了爱了...

七、webp转换为mp4

WebP简介

在众多图像格式中,WebP 是一种特殊的格式。它由 Google 开发,采用有损和无损压缩技术来减小文件大小,同时保持图像质量。此外,该格式还支持动画图像,其外观和感觉与 GIF 相似,但 WebP 的压缩率和质量比 GIF 更好。动画 WebP 文件可以包含具有不同压缩级别的一系列帧。目前,它的主要使用场景是浏览器上的静态图像。

 

上面的工作流程,最终输出的都是webp文件,如果需要转换为mp4文件,需要使用python代码实现,这个比较简单。

市场有一些专业软件,也可以实现,但是需要收费,很麻烦。

 

安装模块

安装 Pillow 和 OpenCV 库

pip install pillow opencv-python

转换脚本

convert_script.py

复制代码
import cv2
import numpy as np
from PIL import Image

def webp_to_mp4(webp_path, mp4_path, fps=30):
    # 打开 WebP 文件
    image = Image.open(webp_path)

    # 获取帧的尺寸
    width, height = image.size

    # 创建视频写入对象
    fourcc = cv2.VideoWriter_fourcc(*'mp4v')
    video = cv2.VideoWriter(mp4_path, fourcc, fps, (width, height))

    # 遍历 WebP 文件的每一帧并写入视频
    try:
        while True:
            frame = np.array(image.convert('RGB'))
            frame = cv2.cvtColor(frame, cv2.COLOR_RGB2BGR)
            video.write(frame)
            image.seek(image.tell() + 1)
    except EOFError:
        pass

    # 释放资源
    video.release()

# 示例用法
webp_to_mp4('input.webp', 'output.mp4', fps=30)
复制代码

这个脚本利用 Pillow 库读取 WebP 文件的每一帧,然后用 OpenCV 将这些帧写入 MP4 视频文件。

 

fps 参数是 “frames per second”(每秒帧数)的缩写,它定义了视频每秒显示的帧数,决定了视频的流畅度。以下是它的具体含义及常见取值:

具体含义

  • 数值越大,视频越流畅:例如,fps=30 表示每秒播放 30 帧图像,画面会比较流畅,适合一般的视频需求。
  • 数值越小,视频可能卡顿:如果设置得太低,如 fps=5,画面可能会显得卡顿,适合一些对流畅度要求不高的场景。

常见取值

  • 电影:通常使用 24 帧每秒,这是电影行业的标准。
  • 视频:常见的是 30 帧每秒,适合大多数视频需求。
  • 游戏:一些游戏可能会使用更高的帧率,如 60 帧每秒甚至更高,以提供更流畅的视觉体验。

 

 

执行代码

python convert_script.py

会得到一个文件output.mp4

文件也不大,1.3MB

 

打开视频文件,能播放就可以了

 

 

本文参考链接:

https://zhuanlan.zhihu.com/p/30647063188

https://blog.csdn.net/weixin_59486588/article/details/147836457

 

原创作者: xiao987334176 转载于: https://www.cnblogs.com/xiao987334176/p/18891735
<think>首先,用户的问题是关于如何在ComfyUI中部署通义模型的。系统指令要求我使用中文回答,结构清晰,逐步解决问题,并保证回答真实可靠。我需要参考提供的引用内容。 回顾引用: - 引用[1]:介绍了通义Wan2.1,是一个多模态生成模型,支持文生视频等。 - 引用[2]:描述了在丹摩平台上部署SD3与ComfyUI的文生图功能。 - 引用[3]:讨论了ComfyUI的优势和部署通义Wan2.1的教程链接。 - 引用[4]:详细说明了部署通义Wan2.1ComfyUI中的硬件要求和工作流。 用户意图明确:了解如何在ComfyUI中部署通义模型。 我的回答需要结构化: 1. **介绍背景**:简要解释通义ComfyUI2. **步骤分解**:提供清晰的部署步骤,参考引用内容。 3. **注意事项**:包括硬件要求、依赖安装等。 4. **生成关问题**:根据系统指令,在末尾添加关问题。 关键步骤从引用中提取: - 从引用[3]和[4]:部署需要下载模型、配置环境、安装依赖。 - 引用[4]:硬件要求高,显存需求大(44GB for 512x512, 53GB for 1280x720)。 - 引用[3]:提到ComfyUI工作流的优势,如自定义工作流、高效处理。 部署步骤大致: 1. **准备硬件**:确保GPU满足显存要求。 2. **下载模型**:从官方来源下载通义Wan2.1模型。 3. **安装ComfyUI**:如果尚未安装,设置ComfyUI环境。 4. **配置依赖**:安装必要的Python包和依赖。 5. **设置工作流**:导入或创建ComfyUI工作流文件。 6. **运行模型**:启动ComfyUI并加载工作流进行生成。 回答结构: - 开头:介绍主题。 - 步骤1:硬件准备。 - 步骤2:下载模型。 - 步骤3:安装ComfyUI。 - 步骤4:配置环境。 - 步骤5:部署工作流。 - 结尾:总结和注意事项。 - 关问题:添加3个关问题。 确保LaTeX格式正确:用户问题中没有数学表达式,所以可能不需要,但如果有,用$...$或$$...$$。 引用标识:在回答中自然地添加引用标识,如[^1]、[^2]等,基于提供的引用。 系统指令说“引用[1]:通义Wan2.1强势开源...”,所以我可以在回答中引用这些。 最终回答: - 用中文。 - 清晰分段。 - 末尾添加关问题。</think>### 如何在ComfyUI中部署通义模型 通义Wan2.1是阿里云通义实验室推出的开源多模态生成模型,支持文生视频、图生视频等功能,适用于影视、广告和短视频创作领域[^1]。ComfyUI是一个灵活的AI工作流工具,支持自定义工作流,能高效处理图像和视频生成任务,尤其对低显存用户友好[^3]。部署过程需要较高硬件配置,并涉及模型下载、环境配置和工作流设置。下面我将分步指导您完成部署,确保过程可靠且易于操作。 #### 步骤1: 确认硬件要求 在开始部署前,请确保您的GPU满足显存需求: - 生成512×512分辨率视频:至少需要44GB显存。 - 生成1280×720分辨率视频:至少需要53GB显存[^4]。 使用命令`nvidia-smi`检查显存大小。如果硬件不足,考虑使用云服务(如阿里云GPU实例)或选择通义的较小版本(如13亿参数极速版)。 #### 步骤2: 下载通义模型 从官方渠道下载通义Wan2.1模型: - 访问通义实验室GitHub仓库或阿里云平台,下载模型文件(通常为`.pth`或`.safetensors`格式)。 - 推荐下载版本:专业版(140亿参数)或极速版(13亿参数),后者对硬件要求较低[^1]。 - 将模型文件保存到本地目录,例如`ComfyUI/models/wan2.1/`。 #### 步骤3: 安装ComfyUI 如果尚未安装ComfyUI,请按以下步骤设置: 1. **克隆ComfyUI仓库**: ```bash git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI ``` 2. **创建Python虚拟环境**(推荐使用Python 3.10+): ```bash python -m venv venv source venv/bin/activate # Linux/macOS venv\Scripts\activate # Windows ``` 3. **安装依赖包**: ```bash pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu121 # 根据CUDA版本调整 pip install -r requirements.txt ``` 确保安装所有依赖,以避免兼容性问题[^2]。 #### 步骤4: 配置模型和环境 将通义模型集成到ComfyUI1. **复制模型文件**:将下载的模型文件(如`wan2.1-i2v-14b.safetensors`)放入`ComfyUI/models/checkpoints/`目录。 2. **安装额外依赖**:通义基于3D VAE与DiT技术,需安装特定包: ```bash pip install diffusers transformers accelerate ``` 3. **验证环境**:运行`python main.py --help`测试ComfyUI是否正常启动。 #### 步骤5: 部署工作流并运行 ComfyUI使用工作流文件(JSON格式)定义生成流程: 1. **获取工作流文件**: - 从官方教程或社区下载预定义工作流(如文生视频工作流)[^3]。例如,引用[3]提供了工作流直取链接。 - 将工作流文件(如`wan2.1_workflow.json`)保存到本地。 2. **加载工作流**: - 启动ComfyUI:`python main.py`。 - 在ComfyUI界面中,拖入工作流文件或手动构建流程(输入节点连接模型节点)。 3. **运行生成**: - 输入文本提示(如“一只飞翔的鸟”)或上传图片。 - 点击生成按钮,ComfyUI将调用通义模型输出视频。 - 示例输出目录:`ComfyUI/output/`。 #### 注意事项 - **性能优化**:如果显存不足,尝试降低分辨率或使用批处理大小调整[^3]。 - **常见问题**:部署失败时,检查CUDA版本和依赖冲突;参考社区教程(如引用[3]和[4])获取更多帮助。 - **安全建议**:在隔离环境中测试,避免影响系统稳定性。 部署完成后,您可以在ComfyUI中高效生成视频,享受其自定义工作流的优势[^3]。整个过程基于开源文档,确保可靠性。如果您遇到问题,建议查阅通义官方指南或ComfyUI社区支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值