小模型时代来临~ 如何用ollama跑多个小模型提升并发性能, 用ollama吧

最新推荐文章于 2025-03-11 15:30:52 发布

qufuyun

最新推荐文章于 2025-03-11 15:30:52 发布

阅读量1.2k

点赞数 8

CC 4.0 BY-SA版权

文章标签：人工智能 java 后端

本文链接：https://blog.csdn.net/qufuyun/article/details/145614987

要想发挥OLLAMA的真正实力🎯, 还是要与JBoltAI搭配食用才能发挥其最大价值🤑😂, JBoltAI欢迎亲的随时关注哟🤩😚~

为什么要在一台机器上同一个小模型跑多个?

ollama的大模型最高并发上限是20个, 那么如果我们想进一步提高大模型的并发性能, 20个显然是无法满足我们的日常需求的, 如何做到呢? 今天小编就交给大家如何用ollama用一张显卡, 同一个小模型跑多个, 达到提升并发量的效果~~~ 那么开始吧

提前需要了解的几个点儿~

不要慌哦, 其实很简单~ 使用ollama run命令同一个大模型只能启用一次, 那么问题来了, 如果可以运行多个ollama, 那么是不是就可以同一个大模型启用多个了呢? 那么就需要这么几件事情需要做:

需要让docker拥有调用GPU的能力, 需要让docker知道具体调用哪张显卡, 毕竟有的亲机器上显卡很多~
需要让ollama知道调用哪张显卡!

听起来很复杂? 其实实现起来特别简单~

	docker run --gpus 0 -e CUDA_VISIBLE_DEVICES=0

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qufuyun

关注关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Ollama vs vLLM：并发性能深度评测

u013250861的博客

05-05

168

1.1 OllamaOllama 是一个简单易用的 LLM 部署工具，以其简洁的安装和用户友好的界面而闻名。它支持多种模型架构，并提供了丰富的命令行工具和图形化界面，适合快速原型设计和小规模部署。1.2 vLLMvLLM（Very Large Language Model）是一个高性能的推理引擎，专注于大规模语言模型的高效推理。它通过动态批处理、显存优化和多 GPU 支持，显著提升了推理速度和资源利用率。

多模态大模型初探索：通过ollama部署多模态大模型

xiezhipu的博客

01-08

2232

今天和同事聊天，聊到多模态大模型，感觉可以作为2025年的一个新的探索方向。希望和大家一起学习，一起进步。今天也是尝试了我能想到的最基本最快速地本地部署多模态大模型的方式，那便是使用ollama。ollama之前咱安装过，然后现在也是直接使用就好。

参与评论您还未登录，请先登录后发表或查看评论

Ollama 配置多并发和多模型

SecularBird的专栏

06-16

1万+

ollama新版已经支持了并发和多模型同时运行了，系统资源够的可以走起了。

Ollama部署攻略：调优技巧+最优配置=性能巅峰！

出发之前永远是梦想，上路之后永远是挑战。

02-18

1万+

Ollama配置参数调优

ollama加载多个相同模型（一）

qq_45079973的博客

10-23

4630

ollama加载多个相同模型

Ollama支持同时加载多个模型、单个模型同时处理多个请求

顺其自然~专栏

08-29

1万+

我们使用ollama 有一段时间了，Ollama是一个开源框架，主要用于在本地机器上运行和管理大型语言模型（LLM）。它有以下特点：1）易用性：Ollama设计简洁，使得即使是非专业用户也能轻松部署和管理大型语言模型。它通过提供命令行界面和集成Docker容器来简化部署过程。2）支持多种操作系统：Ollama支持MacOS、Linux以及Windows平台，这使得广泛的用户群体都能够使用这一工具。

Ollama显存优化

m0_57486465的博客

06-04

1万+

本文介绍了如何通过修改ollama模型的配置文件，指定加载进GPU的层数，从而优化模型推理效率。通过交互模式或修改模型配置文件，可以灵活设置GPU层数，提升模型的显存利用率，实现更高效的推理过程。

使用Ollama快速部署多种AI大模型

super_mochi1

07-19

974

Ollama部署AI大模型

零基础入门AI：一键本地运行各种开源大语言模型 - Ollama

python1234_的博客

06-20

1651

Ollama 是一个可以在本地部署和管理开源大语言模型的框架，由于它极大的简化了开源大语言模型的安装和配置细节，一经推出就广受好评，目前已在github上获得了46k star。不管是著名的羊驼系列，还是最新的AI新贵Mistral，等等各种开源大语言模型，都可以用Ollama实现一键安装并运行，支持的更多模型的列表可以查看Ollama官网。本文就让我们一起入门Ollama。

本地上百个大模型便携部署调用工具 Ollama 使用指南

热门推荐

数智笔记

04-14

2万+

Ollama 支持在 Modelfile 中导入 GGUF 模型：创建一个名为Modelfile的文件，使用FROM指令指定要导入的模型的本地文件路径。创建模型运行模型可以使用提示来自定义 Ollama 模型。例如，要自定义llama2创建一个Modelfile# 设置温度为 1 [值越高越有创造性，值越低越连贯]# 设置系统消息SYSTEM """""">>> hiHello!更多示例，请参考examples目录。有关使用 Modelfile 的更多信息，请参考Modelfile文档。

LLMChain使用初探 -- OLLaMA+LangChain搭建本地大模型

sinat_29950703的博客

02-20

2万+

LLMChain是一个简单的链，接受一个提示模板，使用用户输入格式化它并从LLM返回响应。其中，prompt_template是一个非常关键的组件，可以让你创建一个非常简单的链，它将接收用户输入，使用它格式化提示，然后将其发送到LLM。

AI学习指南Ollama篇-Ollama性能优化与监控

俞兆鹏的博客

01-28

3974

随着大语言模型（LLM）在本地部署中的广泛应用，性能优化和监控成为提升效率的关键。大语言模型通常对计算资源和内存有较高要求，而本地部署环境可能受到硬件资源的限制。因此，优化模型的性能并实时监控其运行状态，对于确保高效运行至关重要。监控关键性能指标：实时监控CPU、GPU利用率、内存占用、响应时间和吞吐量。通过显存优化、计算加速和并发优化提升效率：根据实际需求调整GPU资源分配、启用FlashAttention、量化模型、优化上下文窗口和并发量。定期评估优化效果。

ollama部署

lsdlq的博客

02-06

531

Ollama是一个用于在本地计算机上运行大型语言模型的命令行工具，用来进行模型拉取，模型运行，以及一共模型调用。

Ollama 企业级应用并发查询请求处理实测

02-17

1335

Ollama 在默认配置下会采用排队方式来处理查询情况，硬件利用率保持不变。

【技术解密】Ollama：本地化运行大型语言模型的强大工具

海棠AI实验室

01-08

4678

在GitHub 2024年度报告中，一个名为Ollama的开源项目脱颖而出，吸引了广泛的关注。Ollama凭借其独特的功能和优势，在竞争激烈的AI领域中迅速崭露头角。本文将深入探讨Ollama，从其基本原理、与同类软件的比较、在各种应用场景中的实际案例等方面，全面剖析其功能和优势，并展望其未来发展趋势。Ollama以其简单易用、轻量级的特点在用户中获得较高评价，特别适合注重快速部署和易用性的开发者。LocalAI则提供更丰富的功能，适合需要更多定制化和多模型支持的用户。

ollama 支持并发之后和 vllm 相比性能如何？我们测测看

arkohut的博客

05-20

2万+

ollama 支持了并发之后其吞吐量有了不小的提升，不过这能打得过 vllm 吗？这里详细记录测试的环境搭建和脚本准备。

自然语言处理:第五十三章 Ollama

victor_manches的博客

10-14

2537

代码： ollama/ollama: Get up and running with Llama 3.1, Mistral, Gemma 2, and other large language models. (github.com)官网： Ollama写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!写在前面: 笔者更新不易，希望走过路过点个关注和赞，笔芯!!!运行以下命令安装 Ollama： AMD Radeon GPU 支持虽

辣妈之野望 2 –Ollama配置技巧

ms44的专栏

02-08

1481

在0.1.13 之后的版本Ollama这可以让我们不需要排队。当然如果在同一台机器上运行，虽然不排队，但是并行计算所要求的GPU处理能力和显存要求还是一个总和。分布式就没这个问题。当然个人用户可以简单用用，也是不错。更多技术资讯下载:相关配图由微信小程序【字形绘梦】免费生成。

LInux+ollama的并发数,prompt和显存占用

最新发布

bagepython的博客

03-11

1352

测试结果:1.对于请求不超过并发数的请求,响应速度在0.2s以内,超出的请求响应时间较长.2.如果是初次请求,模型的启动时间较长.3.模型的prompt处理长度默认2k,在num_ctx值增大时,超过一个显卡显存数,num_ctx再增大,显存占用明显变大.

ollama怎么跑本地模型

02-01

### 如何在本地环境中运行Ollama模型 #### 准备工作为了能够在本地环境成功运行Ollama模型，首先要确保已按照官方指导完成了Ollama平台的安装。值得注意的是，在完成安装之后，用户的本地并不会自动拥有任何模型文件；这些需要单独从指定资源处获取[^1]。对于希望在中国大陆地区使用的开发者来说，推荐试用由阿里云开发的支持中文良好的千问（qwen）模型作为起点。 #### 获取模型访问官方网站提供的模型库页面https://ollama.com/library ，这里列出了所有受支持的大规模预训练模型供用户选择。针对具体需求挑选合适的版本下载——例如`llama3`或其他更贴合项目特性的选项，并遵循给出的操作说明来准备相应的依赖项和配置参数[^3]。考虑到网络条件可能带来的挑战，当常规途径难以顺利拉取远程仓库中的最新版时，则可考虑借助其他渠道预先取得目标架构及其权重文件副本再导入至本地实例中执行加载过程[^4]。 #### 启动与交互一旦上述准备工作就绪，即可利用命令行工具或者其他集成开发环境所提供的接口调用来激活选定的语言理解或生成服务端点。通常情况下这涉及到一系列初始化设置指令，比如定义监听地址、设定最大并发数等性能相关参数调整，以及必要的安全认证机制启用等等[^2]。以NodeJS为例，如果计划结合Open-WebUI这样的前端框架一起构建完整的应用解决方案的话，那么除了基本的服务部署之外还需要额外关注两者之间的兼容性和数据交换协议设计等方面的工作[^5]。 ```bash # 示例：假设已经正确设置了OLLAMA_HOME环境变量指向安装路径 $ cd $OLLAMA_HOME/models/qwen/ $ ollama serve & ```