大模型学习笔记｜MaxKB 对接本地大模型时，选择 Ollma 还是 vLLM？

LLM大模型

于 2025-06-19 19:16:01 发布

阅读量555

点赞数 13

CC 4.0 BY-SA版权

文章标签：人工智能知识图谱 LLM AI大模型笔记学习知识库

本文链接：https://blog.csdn.net/DEVELOPERAA/article/details/148773388

在使用MaxKB开源知识库问答系统的过程中，除了对接在线大模型，一些用户出于资源配置、长期使用成本、安全性等多方面考虑，还在积极尝试通过Ollama、vLLM等模型推理框架对接本地离线大模型。而在用户实践的过程中，经常会对候选的模型推理框架进行多个维度的考察和对比。

在本文中，我们针对Ollama和vLLM这两款目前比较常用的模型推理框架，尝试从安装配置复杂性、性能、资源占用、成本、扩展性、推理性能等维度进行对比总结，仅供广大社区用户参考。

一、常见维度对比

Ollama

1. 安装和配置

■ 使用Docker容器部署，简化安装流程；

■ 支持多种操作系统（包括Windows、Mac和Linux），提供标准化的API接口。

■支持从huggingface/modelscope等平台下载的模型文件。

2. 性能

■ 在GPU环境下，推理速度显著优于CPU，支持OneAPI接入提升性能；

■ 显存占用相对较低，例如Qwen2.5:7b模型仅需6GB显存。

3. 资源占用

■ 在调用时加载模型，显存占用较低，适合在资源有限的环境中运行；

■ 支持多种大模型，包括Qwen2.5等。

4. 成本

■ 本地部署，需要本地机器硬件支持，成本取决于硬件配置。

（鉴于很多朋友无法下载ollama，这里给大家整理好了ollama的安装包，扫描领取即可↓↓↓↓）

vLLM

1. 安装和配置

■ 需要安装Python环境和相关依赖，对技术要求较高（也支持Docker）；

■ 支持从huggingface/modelscope等平台下载的模型文件。

2. 性能

■ 采用PagedAttention技术，提高内存利用率，支持高并发处理；

■ 在高用户负载下，vLLM官方给出的吞吐量比HuggingFace Transformers高出24倍，比Text Generation Inference高出3.5倍。

3. 资源占用

■ 模型加载常驻显存，显存占用相对较高，例如单卡16GB显存可能不足以运行Qwen2.5:7b模型；

■ 需要较高的计算资源，适合在高性能硬件环境中运行。

4. 成本

■ 本地部署，需要本地机器硬件支持，成本取决于硬件配置。

二、多机、多卡维度对比

在大模型多机、多卡的部署场景下，选择Ollama还是vLLM需要考虑以下两个关键因素：

1. 分布式扩展支持

■ vLLM提供了原生的多机多卡分布式支持，可以轻松地在多台机器上部署大模型，并且每台机器可以使用多个GPU进行推理。vLLM通过PagedAttention技术有效管理内存，显著提升推理效率；

■ Ollama虽然也支持多GPU环境，但其分布式部署能力相对较弱，可能需要额外的配置和优化来实现多机、多卡的高效运行。

2. 推理性能

■ vLLM在GPU上的推理速度显著提升，使用PagedAttention技术实现了比HuggingFace Transformers高14至24倍的吞吐量；

■ Ollama在GPU上的推理速度也非常快，但在多机、多卡环境下，vLLM的性能优势可能更加明显。

三、总结

总体而言，用户在使用MaxKB对接本地大模型时可以从以下三个维度进行重点考量：

■**技术基础和资源：**如果有较强的技术基础和硬件资源，可以选择vLLM以获得更高的性能和吞吐量。如果希望快速搭建和管理知识库，且对硬件资源要求不高，可以选择Ollama；

■ **成本考虑：**如果硬件资源有限，尤其是在只有CPU或者单卡的情况下，选择Ollama进行本地部署是一个不错的选择，能够满足大部分的场景需要。如果有一定的硬件资源，且需要MaxKB具备高性能的问答能力，可以选择vLLM，或者通过类似Xinference平台进行部署；

■**MaxKB应用场景：**简单来说，对于需要高效实时响应和高并发处理的问答场景，vLLM更为适合。对于需要快速搭建和灵活管理知识库的应用场景，Ollama更为适合。

当然，如果在实际私有化部署MaxKB的场景中，除了高性能的推理大模型外，还需要向量模型和重排模型，这个时候推荐部署Xinference进行统一管理和运行模型。

为了方便广大社区用户使用MaxKB开源知识库问答系统对接本地大模型，我们特别总结了如下表格：

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望