本地部署Qwen2大模型之六:几种AI大模型部署模式的比较

昨天终于通过vLLM方式把Qwen2大模型部署成功并运行起来了,过程艰辛曲折,遇到了很多现实问题,有部署工具的不同选择,有不同硬件基础设施的差异,有软件版本与硬件的匹配,还有软件工具包之间的版本匹配,表现在很多方面,也尝试了很多的解决办法。正是在解决这些问题的过程中,我逐渐对AI大模型的部署有了比较清晰的了解,也形成了几种不同部署模式的概念。在这里我尝试做个简单总结,也许有认识不对的地方,回头再来修正吧,也是个逐渐深入的过程。

本地部署AI大模型特点的简单总结

一、vLLM方式部署大模型需要占用大量资源,包括计算资源和存储资源

在 本地部署Qwen2大模型之三——模型启动参数的调整 中,我使用的阿里云服务器的配置是:

结果,连编译vLLM源代码都做不了,编译直接卡死。

 本地部署Qwen2大模型之四——模型规模的选择 中,我使用的个人笔记本电脑的配置是:

Intel Core i7-110510U处理器,4核8线程,4.9GHz;

16GB DDR4内存(原配8GB,我自己加装的16GB);

256GB SSD硬盘;

AMD Radeon集成显卡,与系统共享内存,无GPU。

在这个笔记本上,编译vLLM非常流畅,在硬盘上存储大模型文件也没有问题,但是运行Qwen2-7B-Instruct模型则不行,内存不足,不管我怎么配置参数都会耗尽内存,被操作系统枪毙。通过dmsg观察,运行7B的模型,至少得34GB的内存,仅驻留内存就要15GB,所以在本地部署Qwen2大模型之一——Ollma方式部署中做前期调研时,说运行Qwen2-7B至少需要32GB的内存是不虚的。改为Qwen2.5-3B-Instruct后就可以运行起来了,但是速度很慢,一句16个中文字符的提示语(不包括标点符号,大概会转换为16个tokens,模型不同处理方式不同)和同样16个中文字符(同样是16个tokens)的一句回答,加载模型就花了40秒,生成回答则用了1分32秒,这还只是单用户的单个对话,这样的速度显然达不到实用要求。

所以要部署一个能够流畅运行的,支持多用户并发的,达到十亿级(xB)参数的大模型,所需要的硬件资源是惊人的,在目前阶段,一般个人和中小企业可能都难以企及。

二、目前的AI算力市场,英伟达(NVIDIA)已形成了绝对垄断

英伟达不仅在GPU硬件上领先,最关键的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值