Qwen3+Ollama本地部署MCP初体验

前言

小伙伴们端午快乐鸭,Qwen3已经发布一段时间了,热度依然不减;端午期间笔者尝试在本地体验Qwen3的能力,将所有过程分享给大家,大家一起动手试一试,一起玩转Qwen3;

当然除了本地这种模式,也可以选择云端的API,这里就不赘述了。

img

知识点

通过本文大家需要掌握以下知识点

  • Qwen3 相关知识
  • Ollama
  • Open WebUI (一个和ChatGPT类似的聊天的Web页面,支持ollama)
  • MCP 相关知识

MCP相关知识可以看这里: xxxx


Qwen3

阿里推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

img

img

开源了两个 MoE 模型的权重:Qwen3-235B-A22B,一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型,以及Qwen3-30B-A3B,一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。此外,六个 Dense 模型也已开源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 许可下开源。

ModelsLayersHeads (Q / KV)Tie EmbeddingContext Length
Qwen3-0.6B2816 / 8Yes32K
Qwen3-1.7B2816 / 8Yes32K
Qwen3-4B3632 / 8Yes32K
Qwen3-8B3632 / 8No128K
Qwen3-14B4040 / 8No128K
Qwen3-32B6464 / 8No128K

ModelsLayersHeads (Q / KV)# Experts (Total / Activated)Context Length
Qwen3-30B-A3B4832 / 4128 / 8128K
Qwen3-235B-A22B9464 / 4128 / 828K

经过后训练的模型,例如 Qwen3-30B-A3B,以及它们的预训练基座模型(如 Qwen3-30B-A3B-Base),现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。对于部署,我们推荐使用 SGLang 和 vLLM 等框架;而对于本地使用,像 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 这样的工具也非常值得推荐。这些选项确保用户可以轻松将 Qwen3 集成到他们的工作流程中,无论是用于研究、开发还是生产环境。

官网地址:https://qwenlm.github.io/zh/blog/qwen3/ 下文将使用Ollama进行Qwen3本地化


Ollama

Ollama 是一个轻量级、用户友好的框架,旨在让用户在本地运行开源大型语言模型,如 Llama 3、DeepSeek-R1、Gemma、Mistral、Qwen 等。它通过 Modelfile 将模型权重、配置和数据打包成一个统一包,类似于 Docker 镜像的概念,优化了模型的设置和 GPU 使用。Ollama 的核心优势在于隐私性、灵活性和离线可用性,特别适合对数据安全有高要求的场景。

主要特点

本地运行:

  • 所有数据处理都在本地进行,无需将敏感数据发送到云端,保障隐私和安全。
  • 支持离线使用,无需互联网连接即可运行模型,适合无网络环境下的应用。

广泛的模型支持:

  • 支持多种开源模型,包括 Llama 3.2、Gemma 2、Mistral、Codestral 等,适用于文本生成、代码生成、翻译等任务。
  • 用户可从官方模型库拉取预训练模型,或通过 Modelfile 创建自定义模型。

跨平台兼容性:

  • 支持 macOS、Linux 和 Windows(Windows 支持为预览版)。
  • 可在本地设备或虚拟专用服务器(VPS)上运行,适合个人项目或团队协作。

用户友好的接口:

  • 主要通过命令行界面(CLI)操作,适合技术用户快速拉取、运行和管理模型。
  • 支持第三方图形用户界面(如 Open WebUI),提供更直观的操作体验。

API 集成:

  • 提供 REST API,支持 Python、JavaScript 等编程语言集成。
  • 与 LangChain、LlamaIndex 等框架无缝集成,方便构建复杂 AI 应用。
安装和使用步骤

下载和安装: 访问 Ollama 官网 或 GitHub 页面,下载适用于您操作系统的安装包。 Linux 和 macOS 用户可通过以下命令快速安装:

curl -fsSL https://ollama.com/install.sh | sh

Windows 用户需下载安装程序并按提示操作。

拉取模型:

使用 CLI 拉取所需模型,例如:

ollama pull llama3.2

可从 Ollama 模型库 查看可用模型。

运行模型:

通过命令运行模型并直接交互:

ollama run llama3.2

输入提示(如“解释机器学习基础”),模型将生成响应。

img

API 调用:

启动 Ollama 服务器:

ollama serve

使用 cURL 或编程语言调用 API,例如:

curl: http://localhost:11434/api/generate -d '{"model": "llama3.2", "prompt": "Why is the 
http   sky blue?"}'
相关资源

官方网站:https://ollama.com/ GitHub 仓库:https://github.com/ollama/ollama 模型库:https://ollama.com/library 社区支持:Ollama 的 Discord 社区或 GitHub Issues 页面

Ollama 是一个强大的工具,通过简化本地运行大型语言模型的流程,为用户提供了隐私、安全和灵活的 AI 解决方案。无论您是想开发 AI 应用、进行研究,还是仅想探索开源模型的潜力,Ollama 都是一个值得尝试的平台。通过其 CLI、API 和丰富的模型支持,您可以轻松将尖端 AI 技术带到本地设备上。


Ollama安装Qwen3

通过对ollama的学习,我们已经知道如何通过它安装模型,以下是安装Qwen3的命令

ollama run qwen3:14b

在ollama官网 Qwen3提供了

  • 0.6b
  • 1.7b
  • 4b
  • 8b
  • 14b
  • 30b
  • 32b
  • 235b

笔者的运行情况如下

img

当然你要运行其他模型可以在这里查找: https://ollama.com/search

img


Open WebUI

Open WebUI 是一个自托管的 Web 界面,旨在简化与大型语言模型的交互。它通过直观的 GUI 提供对模型的管理、配置和使用支持,特别适合希望在本地或私有环境中运行 AI 的用户。Open WebUI 支持多种模型运行器(如 Ollama)和 OpenAI 兼容的 API,并内置了检索增强生成(RAG)功能,可通过文档或网页增强模型的响应质量。它的核心优势包括完全离线运行、强大的扩展性和社区驱动的开发模式。

img

这里我本地运行qwen3:14已经能正常显示,可以用这个模型进行沟通对话

Open WebUI 的设计目标是“将 AI 技术普及化”,通过降低技术门槛,让非技术用户也能轻松使用尖端 AI 模型,同时为开发者提供灵活的定制选项。

Github地址:https://github.com/open-webui/open-webui

它提供了Docker等安装方式,笔者因为之前用过,使用的是本地源码运行;故之类不展示如何运行,更多资料参考官网地址。


Open WebUI支持MCP

最新版本的Open WebUI已支持MCP

Open WebUI开放了mcpo代理服务器(全称为MCP-to-OpenAPI proxy server),该协议允许你通过标准的 REST/OpenAPI 接口,直接使用基于 MCP(Model Context Protocol,模型上下文协议)实现的工具服务器——无需处理陌生或复杂的自定义协议。

如果你是终端用户或应用开发者,这意味着你可以通过熟悉的 REST 风格接口,轻松地与强大的 MCP 工具进行交互。

我们按照官方示例运行如下代码:

在这里插入图片描述

这段代码的意思在本地起一个时间转换的MCP服务;可以通过Open WebUI直接调用这个服务,为用户进行服务 如果你想自定义MCP服务,请参考这里: https://docs.openwebui.com/openapi-servers/mcp/

img

在Open WebUI配置在web页面的设置中,选择“tools” 配置上面启动的地址+端口就行

img

在配置好大模型(选择Qwen3模型)后,在聊天框中会出现工具图标,点击该图标,显示如下:

img

这表明我们基于MCP的工具服务已连接成功。

在Open WebUI进行对话,如下:

img

从上述的对话中可以看到,大模型调用了基于MCP的gutcurrenttime工具,并给出了正确回复。


总结

通过将 Qwen3 与 Ollama 结合进行本地部署,我成功体验了 MCP(模型-计算-平台)架构的强大潜力。这一过程不仅让我深入了解了 Qwen3 作为开源大型语言模型的卓越性能,还展示了 Ollama 在简化本地模型运行方面的便捷性和灵活性。从安装 Ollama、拉取 Qwen3 模型到优化硬件配置,整个部署流程清晰且高效,尤其适合注重数据隐私的开发者与企业用户。

在实际使用中,Qwen3 展现了出色的自然语言处理能力,无论是文本生成、问答还是代码补全,都表现得游刃有余。Ollama 的命令行界面和 API 支持让模型管理与集成变得简单,而其对 GPU 加速的优化显著提升了推理速度。通过 Open WebUI 的图形界面,我进一步体验了用户友好的交互方式,RAG 功能更是为定制化知识查询提供了便利。

然而,本地部署也面临一些挑战,例如硬件要求较高(推荐 16GB+ RAM 和独立 GPU)以及模型文件占用较大存储空间。对于初学者,配置环境和调试可能需要一定学习成本,但 Ollama 的文档和活跃社区提供了充足支持。

总的来说,Qwen3 与 Ollama 的组合为本地 AI 部署提供了高效、隐私安全的解决方案。无论是用于开发、研究还是个人探索,这一初体验让我对本地化 AI 应用的未来充满期待。未来,我计划进一步探索 Qwen3 的微调功能,并结合更复杂的 RAG 场景,为实际项目打造更强大的 AI 能力。

如何零基础入门 / 学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么我作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,希望可以帮助到更多学习大模型的人!至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

👉 福利来袭CSDN大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈

全套AGI大模型学习大纲+路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

read-normal-img

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉 福利来袭CSDN大礼包:《2025最全AI大模型学习资源包》免费分享,安全可点 👈

img

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

<think>嗯,用户想查询Qwen3 MCP本地部署的配置。首先,我需要回忆一下之前提供的引用内容,看看有没有相关的信息。引用[1]提到了如何使用Ollama本地运行Qwen3并支持MCP和工具使用,里面有具体的代码示例,配置步骤,这可能对用户有帮助。引用[2]和[3]也提到了本地部署的方法,比如使用Ollama、vLLM等工具。所以应该结合这些信息来回答。 用户的问题是关于Qwen3 MCP本地部署配置,需要明确MCP是什么。根据引用里的描述,MCP可能是指某种服务或协议,比如在工具配置里提到的&#39;mcpServers&#39;,有time和fetch的命令,可能和获取时间或数据有关。但用户可能更关注如何配置环境来支持MCP功能。 首先,我需要整理部署的步骤。根据引用[1],步骤包括配置本地模型、定义工具(包括MCP)、初始化助手、发送消息等。所以回答的结构应该分步骤说明,比如环境准备、模型配置、工具集成、运行验证等。 然后,要确保LaTeX格式正确,比如行内公式用$...$,独立公式用$$...$$。不过这个问题可能涉及代码较多,数学公式可能较少,但如果有参数或变量,需要正确应用格式。 还需要生成相关问题,可能涉及优化部署、验证方法、与其他工具的比较等。要确保问题相关且有用。 另外,用户提到的引用需要正确标注。例如,引用[1]中的代码示例,引用[2]中的部署工具,引用[3]中的模型版本和特性。需要确认这些信息是否准确对应到回答中。 可能需要注意用户的环境,比如是否需要安装Ollama,如何下载模型,配置API地址等。在引用[2]中提到了使用Ollama安装Qwen3-8B模型,用户可能需要先完成这些前置步骤。此外,引用[3]提到使用vLLM进行Docker部署,可能可以作为另一种部署方式的参考,但用户当前的问题更关注MCP的配置,所以可能以Ollama为主。 还需要检查代码是否正确,比如Python代码中的缩进、参数设置是否正确。例如,在配置llm_cfg时,model_server的地址是否正确,api_key是否为&#39;EMPTY&#39;。工具列表中的结构是否正确,比如是否包含mcpServers和code_interpreter。 最后,确保回答使用中文,结构清晰,分步骤说明,并附上相关问题和引用标注。</think>### Qwen3 MCP本地部署配置详解 Qwen3 MCP本地部署的核心是通过Ollama框架实现模型服务调用,结合MCP服务扩展工具能力。以下是具体配置流程: #### 一、基础环境准备 1. 安装Ollama服务(需v0.1.34+) ```bash curl -fsSL https://ollama.com/install.sh | sh ``` 2. 下载Qwen3模型(以8B为例): ```bash ollama run qwen3:8b ``` #### 二、模型服务配置 ```python llm_cfg = { &#39;model&#39;: &#39;qwen3&#39;, # 模型标识符 &#39;model_server&#39;: &#39;http://localhost:11434/v1&#39;, # Ollama默认API地址 &#39;api_key&#39;: &#39;EMPTY&#39;, # 本地部署无需验证密钥 &#39;temperature&#39;: 0.7 # 温度参数控制生成随机性 } ``` > 注:建议显存≥16GB,内存≥32GB以保证流畅运行[^2] #### 三、MCP工具集成 ```python tools = [ { # MCP服务定义 &#39;mcpServers&#39;: { &#39;time&#39;: { &#39;command&#39;: &#39;uvx&#39;, &#39;args&#39;: [&#39;mcp-server-time&#39;, &#39;--local-timezone=Asia/Shanghai&#39;] }, &#39;fetch&#39;: { &#39;command&#39;: &#39;uvx&#39;, &#39;args&#39;: [&#39;mcp-server-fetch&#39;] } } }, &#39;code_interpreter&#39; # 代码解释器工具 ] ``` 该配置实现: - 时区时间服务:通过`mcp-server-time`获取本地时间 - 数据获取服务:通过`mcp-server-fetch`执行数据抓取 - 代码解释器:支持Python代码执行[^1] #### 四、助手初始化与调用 ```python bot = Assistant(llm=llm_cfg, function_list=tools) messages = [{ &#39;role&#39;: &#39;user&#39;, &#39;content&#39;: &#39;查询当前上海时间并获取最新Qwen技术文档&#39; }] for response in bot.run(messages): print(response[-1][&#39;content&#39;]) ``` 典型输出结构: ``` 当前上海时间:2024-06-20 15:30:00 CST 已获取最新文档:https://qwenlm.github.io/blog/... ``` #### 五、验证部署 1. 检查Ollama服务状态: ```bash curl http://localhost:11434/api/tags ``` 2. 测试MCP服务响应: ```python import requests response = requests.post( &#39;http://localhost:11434/v1/chat/completions&#39;, headers={&#39;Authorization&#39;: &#39;Bearer EMPTY&#39;}, json={&#39;model&#39;: &#39;qwen3&#39;, &#39;messages&#39;: [{&#39;role&#39;:&#39;user&#39;,&#39;content&#39;:&#39;当前时间&#39;}]} ) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值