使用 Ollama 部署 TinyLlama (1.1B) 的完整流程，包含直接拉取和手动部署两种方案

CherishTaoTao

已于 2025-04-09 18:29:28 修改

阅读量1.2k

点赞数 4

CC 4.0 BY-SA版权

文章标签： ai deepseek 人工智能

于 2025-02-01 15:54:49 首次发布

本文链接：https://blog.csdn.net/CherishTaoTao/article/details/145413022

以下是使用 Ollama 部署 TinyLlama (1.1B) 的完整流程，包含直接拉取和手动部署两种方案：

方案一：直接通过 Ollama 官方库部署（推荐）

1. 安装 Ollama

# Linux/macOS 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# Windows 用户：从官网下载安装包
# https://ollama.com/download

2. 拉取并运行 TinyLlama

# 自动下载模型（约 300MB）
ollama run tinyllama

# 测试问答
>>> 用一句话解释什么是人工智能
>>> 写一首关于春天的五言绝句

方案二：手动部署（适合网络差/离线环境）

1. 提前下载 TinyLlama GGUF 文件

下载地址：
TinyLlama-1.1B-Chat-v1.0.Q4_K_M.gguf
（约 300MB）

手动下载命令：

wget https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf

2. 创建 Modelfile

新建文件 TinyLlama-Modelfile（无后缀），内容：

FROM ./tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf
SYSTEM "你是一个响应简洁的助手，回答不超过50字。"
PARAMETER temperature 0.7
PARAMETER num_threads 4  # 根据CPU核心数调整

3. 导入模型到 Ollama

# 进入模型所在目录
cd ~/Downloads  # 假设GGUF文件在此目录

# 创建模型
ollama create tinyllama-custom -f TinyLlama-Modelfile

# 运行模型
ollama run tinyllama-custom

验证部署

1. 检查模型列表

ollama list
# 应显示：
# NAME              ID           SIZE   MODIFIED
# tinyllama-custom  xxxxxxx      300MB  2分钟前

2. 性能监控

# Linux/macOS 查看资源占用
htop  # 或 top

# Windows 用户：使用任务管理器查看CPU/内存

参数调优建议

在 Modelfile 中可添加以下参数优化性能：

PARAMETER num_threads 4       # CPU线程数（建议设为物理核心数）
PARAMETER num_gqa 1          # 减少注意力头分组（低配置设备必选）
PARAMETER repeat_penalty 1.2 # 抑制重复生成
PARAMETER seed 42            # 固定随机种子（测试时用）

常见问题解决

报错：Model file not found
- 确保 Modelfile 中的 FROM 路径正确
- 建议使用绝对路径：FROM /home/user/models/tinyllama.gguf
回复速度慢
- 减少 num_threads 值（如设为2）
- 添加 PARAMETER num_predict 32 限制生成长度

中文回复不流畅

TinyLlama 中文能力有限，可尝试以下方案：

SYSTEM "请用简体中文回答，语言简洁口语化。"
PARAMETER temperature 0.9  # 提高创造性

对比其他量化版本

量化等级	文件大小	精度	适用场景
Q4_K_M	300MB	高	平衡性能与速度
Q2_K	150MB	低	内存极度受限环境
Q8_0	600MB	最高	需要高精度推理

如需更小体积，可下载 Q2_K 版本：

wget https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/tinyllama-1.1b-chat-v1.0.Q2_K.gguf

通过以上步骤，10分钟内即可在本地完成 TinyLlama 的轻量化部署。建议先用默认参数运行，再根据硬件性能逐步调整优化。