Ollama 是一个轻量级的开源工具,允许你在本地运行各种大语言模型(LLM),包括支持加载和运行不同的 LLaMA 模型(如 7B、13B 和 70B 参数版本)。
Ollama还提供命令行界面(CLI)和Python API,这意味着开发者可以方便地集成到自己的项目中。同时,文档提到它支持量化等技术,这可能帮助减少内存使用并提高模型在旧设备上的运行效率,这对资源有限的环境特别有用,是AI应用中非常有用的工具。
通过 Ollama,你可以在自己的设备上方便地使用这些强大的模型,而无需依赖云服务。本文将详细指导你如何安装、配置和使用 Ollama。
一、安装 Ollama
系统要求
- 操作系统: 支持 Linux(推荐)、macOS 或 Windows。
硬件需求:
- CPU: 建议至少 4 核心,8GB 内存(运行较大的模型如 LLaMA 70B 可能需要更多内存)。
- GPU: 不是必须,但如果你有支持 CUDA 的 GPU,可以加速推理。
安装步骤
1. 在终端中安装 Ollama
你可以通过以下命令快速安装 Ollama:
对于 Linux 和 macOS:
curl -sLO https://ollama.ai/releases/ollama-linux-x86_64.tar.gz && tar xzf ollama-linux-x86_64.tar.gz && ./ollama install
对于 Windows(使用 WSL):
# 通过 WSL 安装,假设你已经启用了 WSL
curl -sLO https://ollama.ai/releases/ollama-linux-x86_64.tar.gz && tar xzf ollama-linux-x86_64.tar.gz && ./ollama install
安装完成后,确保将 ollama
命令添加到你的 PATH 环境变量中。
2. 验证安装
打开终端并运行:
ollama --version
如果显示版本号,则说明安装成功。
二、基本命令与操作
启动 Ollama 服务
Ollama 运行在服务器模式,可以通过以下命令启动:
# 在默认端口 11434 上运行
ollama serve
# 或者指定配置文件路径(后面会详细讲解)
ollama serve --config ./ollama/config.json
加载模型
Ollama 支持加载多种 LLaMA 模型,包括:
- llama2-7b
- llama2-13b
- llama2-70b
- 和其他社区贡献的模型。
下载并加载模型
运行以下命令下载并加载一个模型(以 llama2-7b
为例):
ollama pull llama2-7b
ollama serve --model llama2-7b
如果需要使用 GPU 加速(如果你的系统支持 CUDA),可以指定 GPU 设备:
# 使用 CUDA 加速(假设你有一个 NVIDIA 显卡)
OLLAMA_CUDA_DEVICE=0 ollama serve --model llama2-7b
调用模型进行推理
你可以通过以下几种方式调用 Ollama 模型:
方式 1: 直接在终端中使用 ollama
命令
# 提示模型生成代码(以 Python 示例)
$ ollama --model llama2-7b code "write a function to sort a list in Python"
方式 2: 使用 HTTP 接口
Ollama 提供了一个 RESTful API,可以通过 http://localhost:11434/api/predict
发送请求。例如:
curl -X POST http://localhost:11434/api/predict \
-H "Content-Type: application/json" \
-d '{"model":"llama2-7b","prompt":"write a function to sort a list in Python"}'
方式 3: 使用配置文件
你可以在 ollama/config.json
中配置默认的模型和参数,例如:
{
"default_model": "llama2-7b",
"temperature": 0.7,
"max_tokens": 2048
}
配置文件与高级功能
配置文件路径
Ollama 的配置文件位于 ~/.ollama/config.json
。你可以编辑这个文件来调整默认参数,例如:
{
"api_key": "your_openai_api_key", // 如果你使用 OpenAI 模型
"default_model": "gpt-3.5-turbo",
"temperature": 0.8,
"max_tokens": 4096
}
下载与管理模型
Ollama 提供了一个方便的命令来下载和管理模型:
# 查看 ollama 版本
ollama -v
# 列出所有可用模型
ollama list
# 下载特定模型(以 llama2-7b 为例)
ollama pull llama2-7b
# 卸载已下载的模型
ollama remove llama2-7b
完整命令集(可以输入ollama -h命令查看)
Usage:
ollama [flags]
ollama [command]
Available Commands:
serve Start ollama
create Create a model from a Modelfile
show Show information for a model
run Run a model
stop Stop a running model
pull Pull a model from a registry
push Push a model to a registry
list List models
ps List running models
cp Copy a model
rm Remove a model
help Help about any command
Flags:
-h, --help help for ollama
-v, --version Show version information
Use "ollama [command] --help" for more information about a command.
命令使用方法例子
查看 ollama 版本
ollama -v
ollama version is 0.5.7
查看已下载模型
ollama list
NAME ID SIZE MODIFIED
deepseek-r1:14b ea35dfe18182 9.0 GB 22 hours ago
deepseek-r1:8b 28f8fd6cdc67 4.9 GB 22 hours ago
deepseek-r1:7b 0a8c26691023 4.7 GB 22 hours ago
deepseek-r1:1.5b a42b25d8c10a 1.1 GB 22 hours ago
运行模型,即可进行提问
ollama run deepseek-r1:14b
>>>
使用不同的模型参数
你可以在调用时临时调整模型参数:
ollama --model llama2-13b --temperature 0.9 --max_tokens 256 "write a poem about AI"
三、进阶技巧
配置 GPU 支持
如果你有 NVIDIA 显卡并安装了 CUDA,可以通过以下方式加速推理:
# 指定使用特定的 GPU 设备(例如设备 ID 0)
OLLAMA_CUDA_DEVICE=0 ollama serve --model llama2-7b
# 或者直接在配置文件中设置
{
"cuda_device": 0,
"default_model": "llama2-7b"
}
调整内存使用
如果你的设备内存不足,可以尝试降低模型参数或使用量化模型:
# 使用 4-bit 量化模型(减少内存占用)
ollama pull llama2-7b --quantization 4
# 运行时指定较低的内存配置
ollama serve --model llama2-7b --mem 16G
使用代理服务器
如果你需要通过代理访问互联网,可以在运行 Ollama 服务时设置代理:
HTTP_PROXY=http://your-proxy:port ollama serve
示例场景
场景 1:本地代码生成
在终端中输入以下命令:
ollama --model llama2-7b code "write a function to calculate Fibonacci numbers in Python"
Ollama 将返回生成的代码并解释实现方式。
场景 2:批处理推理
你可以将多个请求写入一个文件 requests.json
,然后批量处理:
# requests.json 内容示例:
[
{"prompt": "write a hello world program in Java", "model": "llama2-7b"},
{"prompt": "explain quantum computing to me", "model": "gpt-3.5"}
]
# 批量调用
ollama batch -f requests.json
场景 3:与 IDE 集成
许多 IDE(如 VS Code)支持通过插件调用 Ollama 的 API,从而实现代码生成和自动补全功能。
四、常见问题
- 如何切换模型?
- 使用
ollama serve --model
指定不同的模型。
- GPU 支持是否需要额外的配置?
- 需要安装 CUDA 工具链并确保 NVIDIA 显卡支持 CUDA。可以通过设置
OLLAMA_CUDA_DEVICE
环境变量指定 GPU 设备。
- 如何管理下载的模型?
- 使用
ollama list
查看已下载的模型,使用ollama remove
卸载不再需要的模型。
- 是否支持自定义模型?
- Ollama 支持通过社区提供的模型进行扩展。你可以访问 TheBloke’s Hugging Face Models 获取更多模型。
五、总结
Ollama 是一个强大的本地推理工具,适用于开发者、数据科学家和任何需要快速生成内容的人群。通过灵活的配置和多样的接口支持,Ollama 能够帮助你高效地完成从代码生成到数据分析的各种任务。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!