centos7.6/ubuntu18.04安装显卡驱动_cuda10.2_cudnn7.6.5

本文链接：https://blog.csdn.net/RayChiu757374816/article/details/119109080

本文详细介绍了在CentOS和Ubuntu系统中安装NVIDIA驱动、CUDA Toolkit及cuDNN的过程，并提供了环境变量配置方法及常见问题解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：RayChiu_Labloy
版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处

台式机系统版本：centos7.6（64位）显卡：GTX 2060

预、查询命令

1、Linux查看显卡信息：（ps：若找不到lspci命令，可以安装 yum install pciutils） lspci | grep -i vga 2、使用nvidia GPU可以： lspci | grep -i nvidia 3、查看显卡驱动 cat /proc/driver/nvidia/version

一、前提准备

1.安装依赖环境(ubuntu的用apt-get，我没有安装kernel-devel)：

yum install kernel-devel gcc -y

2.检查内核版本和源码版本，保证一致

ls /boot | grep vmlinu 
rpm -aq | grep kernel-devel
#ubuntu 查看使用的内核 sudo dpkg --get-selections | grep linux

3.屏蔽系统自带的nouveau

centos的方式：


#查看命令：
lsmod | grep nouveau

#修改dist-blacklist.conf文件：
vim /lib/modprobe.d/dist-blacklist.conf

#将nvidiafb注释掉:
#blacklist nvidiafb 

#然后添加以下语句：
blacklist nouveau
options nouveau modeset=0

ubuntu的方式：

先卸载安装的cuda:

sudo apt-get remove --purge nvidia*

新建编辑/etc/modprobe.d/blacklist-nouveau.conf

sudo vi /etc/modprobe.d/blacklist-nouveau.conf
#写入以下
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

更新内核(否则安装cuda会装不上)：

sudo update-initramfs -u

重启：sudo reboot

4.重建initramfs image步骤(ubuntu系统我没有处理)

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)

5.修改运行级别为文本模式(ubuntu也没处理)

systemctl set-default multi-user.target

6.重新启动

reboot

二、本地安装驱动

1.在NVIDIA官网下载驱动(看起来ubuntu和centos通用)

网址：https://www.nvidia.cn/Download/index.aspx?lang=cn

2.安装过程

chmod +x NVIDIA-Linux-x86_64-440.64.run

./NVIDIA-Linux-x86_64-440.64.run

4.安装成功

二、安装cudaToolkit（就是CUDA啦）

1.在NVIDIA官网下载cuda

前往CUDA Toolkit 11.4 Downloads | NVIDIA Developer选择版本进行下载，下载完成后，上传至/opt/package/

遇到权限问题可以尝试找到下载链接后在服务器直接下载，例如：

wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run
wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/patches/1/cuda_10.2.1_linux.run
wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/patches/2/cuda_10.2.2_linux.run

然后开始安装(ubuntu我这里没加后边kernel参数)：

cd /opt/package && chmod 777 cuda_10.2.89_440.33.01_linux.run
#注：--kernel-source-path=/usr/src/kernels/3.10.0-1062.7.1.el7.x86_64/参数要带上，不然会报
错，后面的内核版本改成自己的
./cuda_10.2.89_440.33.01_linux.run --kernel-source-path=/usr/src/kernels/3.10.0-1062.7.1.el7.x86_64/

如下图依次按照上边的方式安装：

添加到环境变量

sudo vim ~/.bashrc #内容如下
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.2/lib64
export PATH=$PATH:/usr/local/cuda-10.2/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-10.2
#切换root用户后，然后让生效配置并重启
su
source ~/.bashrc && reboot
nvcc -V #验证

三、安装cudnn7.6.5

前往cuDNN Archive | NVIDIA Developer下载对应的版本后，上传至/opt/package/cudnn/

下边说说centos和ubuntu两种系统下的cudnn安装：

centos的下载linux-x64的：

cd /opt/package/cudnn && tar -zxvf cudnn-10.2-linux-x64-v7.6.5.32.tgz
cp cuda/include/cudnn.h /usr/local/cuda-10.2/include/
cp cuda/lib64/libcudnn* /usr/local/cuda-10.2/lib64/
chmod a+r /usr/local/cuda-10.2/include/cudnn.h /usr/local/cuda-10.2/lib64/libcudnn*

ubuntu18.04的下载带18.04的三个包，然后安装命令如下：

sudo dpkg -i libcudnn7_7.6.5.32-1+cuda10.2_amd64.deb                                                                                           
sudo dpkg -i libcudnn7-dev_7.6.5.32-1+cuda10.2_amd64.deb
sudo dpkg -i libcudnn7-doc_7.6.0.56-1+cuda10.2_amd64.deb

然后接下来我们把.h文件复制到/usr/local/cuda/include文件夹下面,并修改权限:

sudo cp /usr/include/cudnn.h /usr/local/cuda/include
sudo chmod a+x /usr/local/cuda/include/cudnn.h

上边是ubuntu的deb包安装方式，有一次安装失败了，我采用了tar包直接解压配置的方式，如下：

tar -xzvf ./cudnn-linux-x86_64-8.4.1.50_cuda11.6-archive.tar.xz
sudo cp ./cuda/include/cudnn*.h /usr/local/cuda/include/
sudo cp ./cuda/lib64/libcudnn* /usr/local/cuda/lib64/
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

#查看cudnn版本，第一行是旧版本，第二行是新版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

以上就是两种系统的cudnn安装，下边验证(可能会装到家目录，也就是home你的账号下)

cd /root/NVIDIA_CUDA-10.2_Samples/
cd 1_Utilities/deviceQuery
make && ./deviceQuery

*********************************************这里是分界线*************************************************

补充：后来下载了其他项目环境需要安装tf1的环境，选择了cuda10.0

tensorflow版本和cuda cudnn的版本对应关系参照从源代码构建 | TensorFlow

所以要降低cuda的版本,依然和上边步骤一样下载cuda10.0和cudnn7.4安装就行，起初安装10.0失败报错：

The driver installation is unable to locate the kernel source. Please make s...

那么先按照网友的经验yum install dkms （不知道这步是不是多余的），再在安装cuda10.0的过程中，不要安装第一步的driver即可。

*********************************************这里是分界线*************************************************

有一次离线装CUDA，ncvv -V没有输出，到安装目录下./nvcc -V没问题，which nvcc看目录并不是安装的目录，后来做软链接可以了，ln -s 安装的源目录目标目录

环境安装，BERT、GPT、T5 性能测试，和横向对比【100亿模型计划】_哔哩哔哩_bilibili

李牧大佬说的安装的方式有三种：

第一种系统级安装，直接安装CUDA大礼包，也就是cuda-Toolkit,里边会安装上驱动、运行时环境、开发环境等一系列东西，但是有时候会失败，因此最好还是先提前单独装驱动。

第二种只装系统级驱动，然后通过conda 安装cuda-toolkit，但是一个虚拟环境对应一套，比较占空间，但是兼容性比较好。

第三种类似第二种，先装系统级驱动，然后用nvidia-docker环境

【如果对您有帮助，交个朋友给个一键三连吧，您的肯定是我博客高质量维护的动力！！！】