Ollama模型交互全攻略

原创于 2025-09-13 13:15:00 发布 · 558 阅读

CC 4.0 BY-SA版权

文章标签：

Ollama 模型交互技术指南

Ollama 是一个开源的轻量级框架，用于在本地运行和交互大型语言模型（LLMs）。它支持多种模型，包括 LLaMA、Mistral 等，并提供简单的命令行和 API 接口。以下内容将详细介绍如何安装、配置及通过代码与 Ollama 交互。

安装与配置

从官方 GitHub 仓库下载并安装 Ollama。支持 macOS、Linux 和 Windows（通过 WSL）。以下为 Linux/macOS 的安装命令：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，启动服务并拉取模型（如 llama2）：

ollama pull llama2
ollama run llama2

基础命令行交互

通过 ollama run 直接与模型对话：

ollama run llama2 "写一首关于春天的诗"

输出示例：

春风轻拂绿柳枝，
花开满园蝶舞时。
细雨润物无声处，
万物复苏展新姿。

使用 Python API 交互

通过 HTTP 请求与 Ollama 的本地 API 交互。以下是一个完整的 Python 示例：

import requests

def query_ollama(prompt, model="llama2"):
    url = "http://localhost:11434/api/generate"
    data = {
        "model": model,
        "prompt": prompt,
        "stream": False  # 关闭流式响应
    }
    response = requests.post(url, json=data)
    return response.json()["response"]

# 示例调用
answer = query_ollama("解释量子计算的基本原理")
print(answer)

输出将包含模型生成的文本响应。

流式响应处理

对于长文本生成，启用流式响应可实时获取结果：

import requests

def stream_ollama(prompt, model="mistral"):
    url = "http://localhost:11434/api/generate"
    data = {
        "model": model,
        "prompt": prompt,
        "stream": True
    }
    with requests.post(url, json=data, stream=True) as response:
        for line in response.iter_lines():
            if line:
                chunk = json.loads(line.decode("utf-8"))
                print(chunk.get("response", ""), end="", flush=True)

stream_ollama("用Python写一个快速排序算法")

自定义模型与微调

Ollama 支持加载自定义模型。创建一个 Modelfile：

FROM llama2
# 设置系统提示词
SYSTEM """
你是一个专业的Python程序员助手，所有代码必须附带解释。
"""

构建并运行自定义模型：

ollama create mycoder -f Modelfile
ollama run mycoder

高级功能：嵌入生成

Ollama 可生成文本嵌入，用于语义搜索或聚类：

import requests

def get_embeddings(text):
    url = "http://localhost:11434/api/embeddings"
    data = {"model": "llama2", "prompt": text}
    response = requests.post(url, json=data)
    return response.json()["embedding"]

embedding = get_embeddings("深度学习框架对比")
print(f"Embedding length: {len(embedding)}")

性能优化技巧

硬件利用：通过环境变量启用 GPU 加速（需支持 CUDA）：
```
OLLAMA_LOAD_CUDA=1 ollama run llama2
```
批处理请求：在 API 请求中传入多个提示词以减少延迟。
模型量化：使用 4-bit 量化版本降低显存占用：
```
ollama pull llama2:7b-q4_0
```