前两天,有位粉丝朋友,在本地部署大模型时,在安装flash_attn
遇到了很多问题,比如:
"flash_attn" module. while I tried to install flash_attn, It mentioned " RuntimeError: FlashAttention is only supported on CUDA 11 and above".
Linux、显卡、nvidia、CUDA/CUDNN、Pytorch、TensorFlow、PaddlePaddle,还有各种依赖库。
各种版本兼容,让很多朋友在学习 AI 的过程中,倒在了配置环境
的路上。
今日分享,将系统梳理上述概念之间的依赖关系,以及如何安装,希望给遇到类似问题的小伙伴,一点点帮助。
1. 显卡和驱动
跑大模型,自然免不了 Nvidia 家的显卡。
所以,第一步需要查看显卡类型。
通常来说,你的系统镜像出厂时可能已经装好 Nvidia 驱动,因此输入 nvidia-smi
,即可看到显卡类型。
重点需要关注的有下方三个红色框选:
最下方就是你的显卡型号,左上角是当前的显卡驱动版本,右上角是当前显卡驱动最高支持的 CUDA 版本(向下兼容),但并不代表环境中的 CUDA 版本!!!
所以,当你发现 CUDA 版本出问题时,记得来这里看看:右上角红框的数字是多少?
如果太低,意味着要更新显卡驱动了!
因为每个 CUDA 版本都有特定的最低驱动程序版本要求,比如 CUDA 12.0 驱动版本至少为 510.xxx。
怎么更新?
当前显卡能够支持的最高驱动版本,在哪查看?
前往 NVIDIA 官网:https://www.nvidia.com/en-us/drivers/
拿 RTX 3090 举例,点击 Find: