centos7.6/ubuntu18.04安装显卡驱动_cuda10.2_cudnn7.6.5

本文详细介绍了在CentOS和Ubuntu系统中安装NVIDIA驱动、CUDA Toolkit及cuDNN的过程,并提供了环境变量配置方法及常见问题解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作者:RayChiu_Labloy
版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处


台式机系统版本:centos7.6(64位)     显卡:GTX 2060

预、查询命令

1、Linux查看显卡信息:(ps:若找不到lspci命令,可以安装 yum install pciutils) lspci | grep -i vga 2、使用nvidia GPU可以: lspci | grep -i nvidia 3、查看显卡驱动 cat /proc/driver/nvidia/version

一、前提准备

1.安装依赖环境(ubuntu的用apt-get,我没有安装kernel-devel):

yum install kernel-devel gcc -y

2.检查内核版本和源码版本,保证一致

ls /boot | grep vmlinu 
rpm -aq | grep kernel-devel
#ubuntu 查看使用的内核 sudo dpkg --get-selections | grep linux

3.屏蔽系统自带的nouveau

centos的方式: 


#查看命令:
lsmod | grep nouveau

#修改dist-blacklist.conf文件:
vim /lib/modprobe.d/dist-blacklist.conf

#将nvidiafb注释掉:
#blacklist nvidiafb 

#然后添加以下语句:
blacklist nouveau
options nouveau modeset=0

ubuntu的方式:

先卸载安装的cuda:

sudo apt-get remove --purge nvidia*

 新建编辑/etc/modprobe.d/blacklist-nouveau.conf  

sudo vi /etc/modprobe.d/blacklist-nouveau.conf
#写入以下
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

更新内核(否则安装cuda会装不上):

sudo update-initramfs -u

重启:sudo reboot

4.重建initramfs image步骤(ubuntu系统我没有处理)

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)

5.修改运行级别为文本模式(ubuntu也没处理)

systemctl set-default multi-user.target

6.重新启动

reboot

二、本地安装驱动

1.在NVIDIA官网下载驱动(看起来ubuntu和centos通用)

网址:https://www.nvidia.cn/Download/index.aspx?lang=cn

2.安装过程

chmod +x NVIDIA-Linux-x86_64-440.64.run

./NVIDIA-Linux-x86_64-440.64.run

 4.安装成功

二、安装cudaToolkit(就是CUDA啦)

1.在NVIDIA官网下载cuda

前往CUDA Toolkit 11.4 Downloads | NVIDIA Developer选择版本进行下载,下载完成后,上传至/opt/package/

遇到权限问题可以尝试找到下载链接后在服务器直接下载 ,例如:

wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/patches/1/cuda_10.2.1_linux.run
wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/patches/2/cuda_10.2.2_linux.run

然后开始安装(ubuntu我这里没加后边kernel参数): 

cd /opt/package && chmod 777 cuda_10.2.89_440.33.01_linux.run
#注:--kernel-source-path=/usr/src/kernels/3.10.0-1062.7.1.el7.x86_64/参数要带上,不然会报
错,后面的内核版本改成自己的
./cuda_10.2.89_440.33.01_linux.run --kernel-source-path=/usr/src/kernels/3.10.0-1062.7.1.el7.x86_64/

如下图依次按照上边的方式安装:

添加到环境变量

sudo vim ~/.bashrc #内容如下
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.2/lib64
export PATH=$PATH:/usr/local/cuda-10.2/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-10.2
#切换root用户后,然后让生效配置并重启
su
source ~/.bashrc && reboot
nvcc -V #验证

三、安装cudnn7.6.5 

前往cuDNN Archive | NVIDIA Developer下载对应的版本后,上传至/opt/package/cudnn/

下边说说centos和ubuntu两种系统下的cudnn安装: 

centos的下载linux-x64的: 

cd /opt/package/cudnn && tar -zxvf cudnn-10.2-linux-x64-v7.6.5.32.tgz
cp cuda/include/cudnn.h /usr/local/cuda-10.2/include/
cp cuda/lib64/libcudnn* /usr/local/cuda-10.2/lib64/
chmod a+r /usr/local/cuda-10.2/include/cudnn.h /usr/local/cuda-10.2/lib64/libcudnn*

ubuntu18.04的下载带18.04的三个包,然后安装命令如下:

sudo dpkg -i libcudnn7_7.6.5.32-1+cuda10.2_amd64.deb                                                                                           
sudo dpkg -i libcudnn7-dev_7.6.5.32-1+cuda10.2_amd64.deb
sudo dpkg -i libcudnn7-doc_7.6.0.56-1+cuda10.2_amd64.deb

 然后接下来我们把.h文件复制到/usr/local/cuda/include文件夹下面,并修改权限:

sudo cp /usr/include/cudnn.h /usr/local/cuda/include
sudo chmod a+x /usr/local/cuda/include/cudnn.h

上边是ubuntu的deb包安装方式,有一次安装失败了,我采用了tar包直接解压配置的方式,如下:

tar -xzvf ./cudnn-linux-x86_64-8.4.1.50_cuda11.6-archive.tar.xz
sudo cp ./cuda/include/cudnn*.h /usr/local/cuda/include/
sudo cp ./cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

#查看cudnn版本,第一行是旧版本,第二行是新版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2 

以上就是两种系统的cudnn安装,下边验证(可能会装到家目录,也就是home你的账号下)

cd /root/NVIDIA_CUDA-10.2_Samples/
cd 1_Utilities/deviceQuery
make && ./deviceQuery

*********************************************这里是分界线*************************************************

补充: 后来下载了其他项目环境需要安装tf1的环境,选择了cuda10.0

tensorflow版本和cuda cudnn的版本对应关系参照 从源代码构建  |  TensorFlow

所以要降低cuda的版本,依然和上边步骤一样下载cuda10.0和cudnn7.4安装就行,起初安装10.0失败报错:

The driver installation is unable to locate the kernel source. Please make s...

那么先按照网友的经验yum install dkms (不知道这步是不是多余的),再在安装cuda10.0的过程中,不要安装第一步的driver即可。

*********************************************这里是分界线*************************************************

有一次离线装CUDA,ncvv -V没有输出,到安装目录下./nvcc -V没问题,which nvcc看目录并不是安装的目录,后来做软链接可以了,ln -s 安装的源目录  目标目录 

环境安装,BERT、GPT、T5 性能测试,和横向对比【100亿模型计划】_哔哩哔哩_bilibili

李牧大佬说的安装的方式有三种:

第一种系统级安装,直接安装CUDA大礼包,也就是cuda-Toolkit,里边会安装上驱动、运行时环境、开发环境等一系列东西,但是有时候会失败,因此最好还是先提前单独装驱动。

第二种只装系统级驱动,然后通过conda 安装cuda-toolkit,但是一个虚拟环境对应一套,比较占空间,但是兼容性比较好。

第三种类似第二种,先装系统级驱动,然后用nvidia-docker环境

【如果对您有帮助,交个朋友给个一键三连吧,您的肯定是我博客高质量维护的动力!!!】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值