作者:RayChiu_Labloy
版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处
台式机系统版本:centos7.6(64位) 显卡:GTX 2060
预、查询命令
1、Linux查看显卡信息:(ps:若找不到lspci命令,可以安装 yum install pciutils) lspci | grep -i vga 2、使用nvidia GPU可以: lspci | grep -i nvidia 3、查看显卡驱动 cat /proc/driver/nvidia/version
一、前提准备
1.安装依赖环境(ubuntu的用apt-get,我没有安装kernel-devel):
yum install kernel-devel gcc -y
2.检查内核版本和源码版本,保证一致
ls /boot | grep vmlinu
rpm -aq | grep kernel-devel
#ubuntu 查看使用的内核 sudo dpkg --get-selections | grep linux
3.屏蔽系统自带的nouveau
centos的方式:
#查看命令:
lsmod | grep nouveau
#修改dist-blacklist.conf文件:
vim /lib/modprobe.d/dist-blacklist.conf
#将nvidiafb注释掉:
#blacklist nvidiafb
#然后添加以下语句:
blacklist nouveau
options nouveau modeset=0
ubuntu的方式:
先卸载安装的cuda:
sudo apt-get remove --purge nvidia*
新建编辑/etc/modprobe.d/blacklist-nouveau.conf
sudo vi /etc/modprobe.d/blacklist-nouveau.conf
#写入以下
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
更新内核(否则安装cuda会装不上):
sudo update-initramfs -u
重启:sudo reboot
4.重建initramfs image步骤(ubuntu系统我没有处理)
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)
5.修改运行级别为文本模式(ubuntu也没处理)
systemctl set-default multi-user.target
6.重新启动
reboot
二、本地安装驱动
1.在NVIDIA官网下载驱动(看起来ubuntu和centos通用)
网址:https://www.nvidia.cn/Download/index.aspx?lang=cn
2.安装过程
chmod +x NVIDIA-Linux-x86_64-440.64.run
./NVIDIA-Linux-x86_64-440.64.run
4.安装成功
二、安装cudaToolkit(就是CUDA啦)
1.在NVIDIA官网下载cuda
前往CUDA Toolkit 11.4 Downloads | NVIDIA Developer选择版本进行下载,下载完成后,上传至/opt/package/
遇到权限问题可以尝试找到下载链接后在服务器直接下载 ,例如:
wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/patches/1/cuda_10.2.1_linux.run
wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/patches/2/cuda_10.2.2_linux.run
然后开始安装(ubuntu我这里没加后边kernel参数):
cd /opt/package && chmod 777 cuda_10.2.89_440.33.01_linux.run
#注:--kernel-source-path=/usr/src/kernels/3.10.0-1062.7.1.el7.x86_64/参数要带上,不然会报
错,后面的内核版本改成自己的
./cuda_10.2.89_440.33.01_linux.run --kernel-source-path=/usr/src/kernels/3.10.0-1062.7.1.el7.x86_64/
如下图依次按照上边的方式安装:
添加到环境变量
sudo vim ~/.bashrc #内容如下
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.2/lib64
export PATH=$PATH:/usr/local/cuda-10.2/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-10.2
#切换root用户后,然后让生效配置并重启
su
source ~/.bashrc && reboot
nvcc -V #验证
三、安装cudnn7.6.5
前往cuDNN Archive | NVIDIA Developer下载对应的版本后,上传至/opt/package/cudnn/
下边说说centos和ubuntu两种系统下的cudnn安装:
centos的下载linux-x64的:
cd /opt/package/cudnn && tar -zxvf cudnn-10.2-linux-x64-v7.6.5.32.tgz
cp cuda/include/cudnn.h /usr/local/cuda-10.2/include/
cp cuda/lib64/libcudnn* /usr/local/cuda-10.2/lib64/
chmod a+r /usr/local/cuda-10.2/include/cudnn.h /usr/local/cuda-10.2/lib64/libcudnn*
ubuntu18.04的下载带18.04的三个包,然后安装命令如下:
sudo dpkg -i libcudnn7_7.6.5.32-1+cuda10.2_amd64.deb
sudo dpkg -i libcudnn7-dev_7.6.5.32-1+cuda10.2_amd64.deb
sudo dpkg -i libcudnn7-doc_7.6.0.56-1+cuda10.2_amd64.deb
然后接下来我们把.h文件复制到/usr/local/cuda/include文件夹下面,并修改权限:
sudo cp /usr/include/cudnn.h /usr/local/cuda/include
sudo chmod a+x /usr/local/cuda/include/cudnn.h
上边是ubuntu的deb包安装方式,有一次安装失败了,我采用了tar包直接解压配置的方式,如下:
tar -xzvf ./cudnn-linux-x86_64-8.4.1.50_cuda11.6-archive.tar.xz
sudo cp ./cuda/include/cudnn*.h /usr/local/cuda/include/
sudo cp ./cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
#查看cudnn版本,第一行是旧版本,第二行是新版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
以上就是两种系统的cudnn安装,下边验证(可能会装到家目录,也就是home你的账号下)
cd /root/NVIDIA_CUDA-10.2_Samples/
cd 1_Utilities/deviceQuery
make && ./deviceQuery
*********************************************这里是分界线*************************************************
补充: 后来下载了其他项目环境需要安装tf1的环境,选择了cuda10.0
tensorflow版本和cuda cudnn的版本对应关系参照 从源代码构建 | TensorFlow
所以要降低cuda的版本,依然和上边步骤一样下载cuda10.0和cudnn7.4安装就行,起初安装10.0失败报错:
The driver installation is unable to locate the kernel source. Please make s...
那么先按照网友的经验yum install dkms (不知道这步是不是多余的),再在安装cuda10.0的过程中,不要安装第一步的driver即可。
*********************************************这里是分界线*************************************************
有一次离线装CUDA,ncvv -V没有输出,到安装目录下./nvcc -V没问题,which nvcc看目录并不是安装的目录,后来做软链接可以了,ln -s 安装的源目录 目标目录
环境安装,BERT、GPT、T5 性能测试,和横向对比【100亿模型计划】_哔哩哔哩_bilibili
李牧大佬说的安装的方式有三种:
第一种系统级安装,直接安装CUDA大礼包,也就是cuda-Toolkit,里边会安装上驱动、运行时环境、开发环境等一系列东西,但是有时候会失败,因此最好还是先提前单独装驱动。
第二种只装系统级驱动,然后通过conda 安装cuda-toolkit,但是一个虚拟环境对应一套,比较占空间,但是兼容性比较好。
第三种类似第二种,先装系统级驱动,然后用nvidia-docker环境
【如果对您有帮助,交个朋友给个一键三连吧,您的肯定是我博客高质量维护的动力!!!】