StableDiffusion之多模态大模型以及本地部署调用

最新推荐文章于 2025-06-17 15:54:19 发布

IT-ZXT888

最新推荐文章于 2025-06-17 15:54:19 发布

阅读量754

点赞数 14

CC 4.0 BY-SA版权

文章标签： stable diffusion 数据库人工智能自然语言处理深度学习

本文链接：https://blog.csdn.net/2301_79454275/article/details/148216781

StableDiffusion详解
1Stable Diffusion 简介
在这里插入图片描述

2.Stable Diffusion 运行原理

3.Stable Diffusion 处理流程

4.Stable Diffusion应用场景

下面开始介绍其他多模态大模型以及本地化部署调用

本地部署CogVideoX-5B文生视频模型
1.1 模型介绍
1.2 环境安装
1.3模型下载
1.4 运行代码
1.5 生成效果
使用ollama部署Llama-3.2-11B-Vision-Instruct-GGUF实现视觉问答
2.1 模型介绍
2.2 预期用途
2.3 安装ollama
2.4 安装 Llama 3.2 Vision 模型
2.5 运行 Llama 3.2-Vision
一.本地部署CogVideoX-5B文生视频模型
1.1 模型介绍
CogVideoX是清影同源的开源版本视频生成模型。下表展示我们在本代提供的视频生成模型列表相关信
息。
模型名 CogVideoX-2B
CogVideoX-5B (教程模
型)
CogVideoX-5B-I2V
模型介绍
入门级模型，兼顾兼容
性。运行，二次开发成本
低。
视频生成质量更高，视觉
效果更好的更大尺寸模
型。
CogVideoX-5B 图生视
频版本。
推理精度
FP16*(推荐), BF16,
FP32，FP8*，INT8，不支
持INT4
BF16(推荐), FP16,
FP32，FP8*，INT8，不
支持INT4
单GPU显
存消耗
SAT FP16: 18GB
diffusers FP16: 4GB起*
diffusers
INT8(torchao): 3.6G起*
SAT BF16: 26GB
diffusers BF16 : 5GB起*
diffusers
INT8(torchao): 4.4G起*
多GPU推
理显存消
耗
FP16: 10GB* using
diffusers
BF16: 15GB* using
diffusers
推理速度
(Step =50,FP/BF16)
单卡A100: ~90秒单卡
H100: ~45秒
单卡A100: ~180秒单卡
H100: ~90秒
微调精度 FP16 BF16
微调显存
消耗
47 GB (bs=1, LORA) 61
GB (bs=2, LORA) 62GB
(bs=1, SFT)
63 GB (bs=1, LORA) 80
GB (bs=2, LORA) 75GB
(bs=1, SFT)
78 GB (bs=1, LORA)
75GB (bs=1, SFT,
16GPU)
提示词语言
English*
提示词长
度上限
226 Tokens
视频长度 6 秒
帧率 8 帧 / 秒
视频分辨
率
720 * 480，不支持其他分
辨率(含微调)
位置编码 3d_sincos_pos_embed 3d_rope_pos_embed
3d_rope_pos_embed
+learnable_pos_embed
1.2 环境安装

# diffusers>=0.30.3
# transformers>=0.44.2
# accelerate>=0.34.0
# imageio-ffmpeg>=0.5.1
pip install --upgrade transformers accelerate diffusers imageio-ffmpeg

1.3模型下载
1.4 运行代码

import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a
wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature
acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas
gather, watching curiously and some clapping in rhythm. Sunlight filters through
the tall bamboo, casting a gentle glow on the scene. The panda's face is
expressive, showing concentration and joy as it plays. The background includes a
small, flowing stream and vibrant green foliage, enhancing the peaceful and
magical atmosphere of this unique musical performance."
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-5b",
torch_dtype=torch.bfloat16
)
pipe.enable_sequential_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()
video = pipe(
prompt=prompt,
num_videos_per_prompt=1,
num_inference_steps=50,
num_frames=49,
guidance_scale=6,
generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]
export_to_video(video, "output.mp4", fps=8)

1.5 生成效果
会生成一张高清图
二. 使用ollama部署Llama-3.2-11B-Vision-InstructGGUF实现视觉问答
2.1 模型介绍
Llama 3.2-Vision 是一系列多模态大语言模型（LLM），包括预训练和指令调优的图像推理生成模型，大小分别为11B和90B（输入为文本+图像/输出为文本）。Llama 3.2-Vision 指令调优模型针对视觉识别、图像推理、字幕生成以及回答关于图像的一般问题进行了优化。这些模型在常见的行业基准测试中表现优于许多可用的开源和闭源多模态模型。
模型开发者: Meta
模型架构: Llama 3.2-Vision 基于 Llama 3.1 文本模型构建，后者是一个使用优化的Transformer架构的自回归语言模型。调优版本使用有监督的微调（SFT）和基于人类反馈的强化学习（RLHF）来与人类对有用性和安全性的偏好保持一致。为了支持图像识别任务，Llama 3.2-Vision 模型使用了单独训练的视觉适配器，该适配器与预训练的 Llama 3.1 语言模型集成。适配器由一系列交叉注意力层组成，将图像编码器表示传递给核心LLM。
在这里插入图片描述
支持的语言: 对于纯文本任务，官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 的训练数据集包含了比这八种语言更广泛的语言。注意，对于图像+文本应用，仅支持英语。
开发者可以在遵守 Llama 3.2 社区许可证和可接受使用政策的前提下，对 Llama 3.2 模型进行其他语言的微调。开发者始终应确保其部署，包括涉及额外语言的部署，是安全且负责任的。
模型发布日期: 2024年9月25日
2.2 预期用途
预期用途案例： Llama 3.2-Vision旨在用于商业和研究用途。经过指令调优的模型适用于视觉识别、图像推理、字幕添加以及带有图像的助手式聊天，而预训练模型可以适应多种图像推理任务。此外，由于Llama 3.2-Vision能够接受图像和文本作为输入，因此还可能包括以下用途：

视觉问答（VQA）与视觉推理：想象一台机器能够查看图片并理解您对其提出的问题。
文档视觉问答（DocVQA）：想象计算机能够理解文档（如地图或合同）中的文本和布局，并直接从图像中回答问题。
图像字幕：图像字幕架起了视觉与语言之间的桥梁，提取细节，理解场景，然后构造一两句讲述故事的话。
图像-文本检索：图像-文本检索就像是为图像及其描述做媒人。类似于搜索引擎，但这种引擎既理解图片也理解文字。
视觉接地：视觉接地就像将我们所见与所说连接起来。它关乎于理解语言如何引用图像中的特定部分，允许AI模型基于自然语言描述来精确定位对象或区域。
2.3 安装ollama

#ollama版本需大于等于0.4.0
curl -fsSL https://ollama.com/install.sh | sh
#查看ollama版本
ollama --version

2.4 安装 Llama 3.2 Vision 模型

ollama run llama3.2-vision:11b

2.5 运行 Llama 3.2-Vision
将 images.png` 替换为你选择的图像路径。模型将分析图像并根据其理解提供响应。

ollama run x/llama3.2-vision:latest "Which era does this piece belong to? Give
details about the era: images.png"

然后会输出一张图并且下面会有一段英文解释。
至此，AI大模型全部更新完毕，我尽了自己的努力，希望能帮到一些学习者，技术是不断更新迭代的，需要一直保持积极学习钻研的精神一直学习下去，加油各位，大家一起进步！