本地部署Qwen2大模型之六：几种AI大模型部署模式的比较

康顺哥

已于 2024-12-28 00:41:49 修改

阅读量1.2k

点赞数 30

CC 4.0 BY-SA版权

分类专栏： AI大模型 # 亲自动手在本地部署通义千问Qwen2大模型文章标签： ai 语言模型 AI编程 python llama 人工智能

于 2024-12-28 00:11:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/F8_11/article/details/144760616

昨天终于通过vLLM方式把Qwen2大模型部署成功并运行起来了，过程艰辛曲折，遇到了很多现实问题，有部署工具的不同选择，有不同硬件基础设施的差异，有软件版本与硬件的匹配，还有软件工具包之间的版本匹配，表现在很多方面，也尝试了很多的解决办法。正是在解决这些问题的过程中，我逐渐对AI大模型的部署有了比较清晰的了解，也形成了几种不同部署模式的概念。在这里我尝试做个简单总结，也许有认识不对的地方，回头再来修正吧，也是个逐渐深入的过程。

本地部署AI大模型特点的简单总结

一、vLLM方式部署大模型需要占用大量资源，包括计算资源和存储资源

在本地部署Qwen2大模型之三——模型启动参数的调整中，我使用的阿里云服务器的配置是：

结果，连编译vLLM源代码都做不了，编译直接卡死。

在本地部署Qwen2大模型之四——模型规模的选择中，我使用的个人笔记本电脑的配置是：

Intel Core i7-110510U处理器，4核8线程，4.9GHz；

16GB DDR4内存（原配8GB，我自己加装的16GB）；

256GB SSD硬盘；

AMD Radeon集成显卡，与系统共享内存，无GPU。

在这个笔记本上，编译vLLM非常流畅，在硬盘上存储大模型文件也没有问题，但是运行Qwen2-7B-Instruct模型则不行，内存不足，不管我怎么配置参数都会耗尽内存，被操作系统枪毙。通过dmsg观察，运行7B的模型，至少得34GB的内存，仅驻留内存就要15GB，所以在本地部署Qwen2大模型之一——Ollma方式部署中做前期调研时，说运行Qwen2-7B至少需要32GB的内存是不虚的。改为Qwen2.5-3B-Instruct后就可以运行起来了，但是速度很慢，一句16个中文字符的提示语（不包括标点符号，大概会转换为16个tokens，模型不同处理方式不同）和同样16个中文字符（同样是16个tokens）的一句回答，加载模型就花了40秒，生成回答则用了1分32秒，这还只是单用户的单个对话，这样的速度显然达不到实用要求。

所以要部署一个能够流畅运行的，支持多用户并发的，达到十亿级(xB)参数的大模型，所需要的硬件资源是惊人的，在目前阶段，一般个人和中小企业可能都难以企及。

二、目前的AI算力市场，英伟达(NVIDIA)已形成了绝对垄断

英伟达不仅在GPU硬件上领先，最关键的

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。