本地运行大型语言模型(LLM)的实践指南-CSDN博客

本文链接：https://blog.csdn.net/yunwu12777/article/details/148926522

技术背景介绍

近年来，项目如 llama.cpp、Ollama、GPT4All 等的流行标志着在本地设备上运行大型语言模型（LLM）的需求日益增长。选择在本地运行 LLM，至少有两个重要的好处：隐私和成本。隐私上，数据不需要发送到第三方，避免了商业服务条款的限制；成本方面，无需支付推理费用，尤其是对于那些需要大量计算的应用，如长时间的模拟和总结。

核心原理解析

在本地运行 LLM，需要准备以下几个条件：

开源 LLM: 选择一个可以自由修改和分享的开源 LLM。
推理能力: 在设备上以可接受的延迟运行这些 LLM。

如今，用户可以访问快速增长的开源 LLM 集合，这些模型通过多个维度进行评估，如基础模型和微调方法。

代码实现演示(重点)

我们将展示如何使用 Ollama 来在 macOS 上运行 LLM，本地推理以及利用 GPU 加速的方法。

Ollama 快速入门

Ollama 提供了简便的方式在 macOS 上进行推理：

# 安装 langchain_ollama 库
%pip install -qU langchain_ollama

# 导入 OllamaLLM 并执行推理
from langchain_ollama import OllamaLLM

llm = OllamaLLM(model="llama3.1:8b")
response = llm.invoke("The first man on the moon was ...")
print(response)

使用 llama.cpp 进行本地推理

# 设置环境变量以启用 Metal 支持
%env CMAKE_ARGS="-DLLAMA_METAL=on"
%pip install --upgrade --quiet llama-cpp-python --no-cache-dir

# Python 代码使用 LlamaCpp
from langchain_community.llms import LlamaCpp
from langchain_core.callbacks import CallbackManager, StreamingStdOutCallbackHandler

llm = LlamaCpp(
    model_path="/path/to/model.bin",
    n_gpu_layers=1,
    n_batch=512,
    n_ctx=2048,
    f16_kv=True,
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
    verbose=True,
)

response = llm.invoke("The first man on the moon was ... Let’s think step by step.")
print(response)