NVIDIA驱动出错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. Make sure t

本文档详细记录了解决NVIDIA驱动安装失败并导致GPU不可见的问题。首先确认BIOS中secure boot已禁用,然后尝试降低内核版本,但问题依旧存在。接着,通过安装DKMS和对应驱动模块,过程中遇到gcc版本问题,通过更新和配置gcc解决了该问题,最终成功安装了nvidia-vsrv-460.73.01驱动,并能正常使用nvidia-smi命令查看GPU状态。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

具体症状表现为:
1 . 显示驱动已安装
在这里插入图片描述
2 . 输入 nvidia-smi,报如下错误:

NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

在这里插入图片描述

3 . 在跑深度学习网络时,也显示找不到GPU

操作方式:

方案一:在BIOS界面,禁用secure boot,也就是设置为disable

本人结果:在BIOS界面,早已设置secure boot为disable,并没有解决问题。各位可以先尝试。

方案二:内核版本太高的问题,选择低版本的ubuntu系统进入
开机grub界面是:
在这里插入图片描述
第一行默认是高版本的,选择第二行Advanced options for Ubuntu然后再选择低版本的系统。
注:终端输入uname -r可以查看当前内核版本
在这里插入图片描述
本人结果:在低版本依旧无法解决问题。各位可以先尝试。

方案三:安装对应的驱动模块

查看对应驱动版本

cd /usr/src
ls

在这里插入图片描述

然后安装DKMS(Dynamic Kernel ModuleSupport):

sudo apt-get install dkms

重新安装对应nvidia的驱动模块(根据个人实际的版本号填写)

sudo dkms install -m nvidia -v srv-460.73.01

理论上成功就好了。

然而,我遇到报错:

ERROR: Cannot create report: [Errno 17] File exists: ‘/var/crash/nvidia-dkms-460-server.0.crash’
Error! Bad return status for module build on kernel: 4.15.0-140-generic (x86_64)
Consult /var/lib/dkms/nvidia/srv-460.73.01/build/make.log for more information.
在这里插入图片描述

解决方式:重新下载gcc

sudo apt install gcc-8
sudo update-alternatives --config gcc
sudo update-alternatives --remove-all gcc
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-8 10
sudo update-alternatives --install /usr/bin/cc cc /usr/bin/gcc-8 10

随后,问题解决,安装成功nvidia -v srv-460.73.01

在这里插入图片描述
然后输入nvidia-smi,成功!

在这里插入图片描述

参考文章:
https://blog.csdn.net/sazass/article/details/86747733
https://blog.csdn.net/JerryZhang__/article/details/108865176
https://blog.csdn.net/smcaa/article/details/86482872
https://blog.csdn.net/sinat_23619409/article/details/85220561
https://blog.csdn.net/missyoudaisy/article/details/104432746

### 解决方案 当遇到 `NVIDIA-SMI` 无法与 NVIDIA 驱动程序通信的问题时,通常是因为驱动未正确安装或运行环境存在问题。以下是可能的原因以及解决方案: #### 可能原因分析 1. **驱动版本不匹配**:已安装的 NVIDIA 驱动版本可能与当前 GPU 或操作系统需求不符[^1]。 2. **服务未启动**:某些情况下,即使驱动已安装完成,GPU 的相关服务(如 `nvidia-persistenced.service` 和 `nvidia-modprobe.service`)可能尚未正常加载[^2]。 3. **硬件兼容性问题**:如果使用的显卡型号较新而驱动版本过旧,则可能导致通信失败[^3]。 #### 检查方法 为了进一步确认问题所在,可以执行以下命令来获取更多信息: ```bash lsmod | grep nvidia ``` 上述命令用于查看内核模块中是否存在 NVIDIA 相关条目。如果没有输出任何内容,则表明驱动未能成功加载到内核中。 另外还可以尝试重新加载模块: ```bash sudo modprobe nvidia ``` #### 安装/修复步骤 对于已经通过 `sudo apt-get install -y cuda-drivers` 命令安装却仍然报错的情况,建议按照如下方式排查并解决问题: 1. 卸载现有驱动及其残留文件: ```bash sudo apt-get --purge remove "*cuda*" "nvidia*" ``` 2. 更新系统包索引表,并清理缓存数据: ```bash sudo apt update && sudo apt upgrade -y sudo apt autoremove -y ``` 3. 添加官方 PPA 资源库以便获得最新稳定版驱动支持: ```bash distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt update ``` 4. 再次安装适合本机配置的最佳推荐驱动组合: ```bash sudo ubuntu-drivers autoinstall ``` 5. 最后重启计算机使更改生效前先禁用 nouveau 开源图形栈以免冲突干扰: ```bash echo 'blacklist nouveau' | sudo tee -a /etc/modprobe.d/blacklist.conf echo 'options nouveau modeset=0' | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf sudo update-initramfs -u reboot now ``` 完成以上操作之后再试一次输入 `nvidia-smi` 查看状态是否恢复正常。 --- ### 注意事项 - 如果仍存在错误提示,请核查 BIOS 设置里是否有针对集成显卡优先级选项调整为独显模式开启;或者考虑更换更高适配性的专用驱动版本测试效果如何变化。 ---
评论 39
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值