技术背景介绍
近年来,项目如 llama.cpp、Ollama、GPT4All 等的流行标志着在本地设备上运行大型语言模型(LLM)的需求日益增长。选择在本地运行 LLM,至少有两个重要的好处:隐私和成本。隐私上,数据不需要发送到第三方,避免了商业服务条款的限制;成本方面,无需支付推理费用,尤其是对于那些需要大量计算的应用,如长时间的模拟和总结。
核心原理解析
在本地运行 LLM,需要准备以下几个条件:
- 开源 LLM: 选择一个可以自由修改和分享的开源 LLM。
- 推理能力: 在设备上以可接受的延迟运行这些 LLM。
如今,用户可以访问快速增长的开源 LLM 集合,这些模型通过多个维度进行评估,如基础模型和微调方法。
代码实现演示(重点)
我们将展示如何使用 Ollama 来在 macOS 上运行 LLM,本地推理以及利用 GPU 加速的方法。
Ollama 快速入门
Ollama 提供了简便的方式在 macOS 上进行推理:
# 安装 langchain_ollama 库
%pip install -qU langchain_ollama
# 导入 OllamaLLM 并执行推理
from langchain_ollama import OllamaLLM
llm = OllamaLLM(model="llama3.1:8b")
response = llm.invoke("The first man on the moon was ...")
print(response)
使用 llama.cpp 进行本地推理
# 设置环境变量以启用 Metal 支持
%env CMAKE_ARGS="-DLLAMA_METAL=on"
%pip install --upgrade --quiet llama-cpp-python --no-cache-dir
# Python 代码使用 LlamaCpp
from langchain_community.llms import LlamaCpp
from langchain_core.callbacks import CallbackManager, StreamingStdOutCallbackHandler
llm = LlamaCpp(
model_path="/path/to/model.bin",
n_gpu_layers=1,
n_batch=512,
n_ctx=2048,
f16_kv=True,
callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
verbose=True,
)
response = llm.invoke("The first man on the moon was ... Let’s think step by step.")
print(response)
应用场景分析
在本地运行 LLM 的典型应用场景包括:
- 隐私保护: 例如,处理个人日记或隐私数据的文本生成。
- 成本节约: 用于文本预处理(如抽取和标注)、内容总结、以及代理模拟等任务,减少或避免推理费用。
实践建议
- 选择合适的开源模型,并根据计算资源优化推理效率。
- 利用 GPU 加速推理过程,尽量减少延迟。
- 使用特定任务优化的提示,可以提高模型的响应质量。
如果遇到问题欢迎在评论区交流。
—END—