[踩坑合集]NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver、ubuntu内核卸载

本文介绍了在Ubuntu22.04中处理NVIDIA驱动与内核版本不兼容问题的方法,包括安装DKMS工具、禁用自动更新、卸载多余内核以及更新grub。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

运行nvidia-smi后发现’NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver’,原因是linux内核自动更新导致的驱动版本和内核版本不匹配。

个人系统:

  • ubuntu22.04

1. 解决驱动问题

1. 查看已安装内核:

dpkg --get-selections |grep linux-image

在这里插入图片描述

2. 查看正在使用的内核

uname -a

显示出来的这个内核版本和原本正确的不匹配,应该安装正确的。

3. 查找自己安装的显卡驱动版本号

ll /usr/src/

在这里插入图片描述

最后一行看到显卡驱动的版本是 535.146.02

4. 安装和显卡驱动匹配的内核
使用dkms工具

sudo apt-get install dkms
sudo dkms install -m nvidia -v 535.146.02

安装完成后运行

nvidia-smi

应该成功了

5.禁用ubuntu 的自动更新

5.1 文件修改

sudo gedit /etc/apt/apt.conf.d/10periodic

将其中的1都改为0

5.2 图形界面禁用,打开software & updates,如下修改

在这里插入图片描述

5.3 命令行关闭内核更新

sudo apt-mark hold linux-image-generic linux-headers-generic 

显示

linux-image-generic set on hold.
linux-headers-generic set on hold.

即正确

2.卸载不用的内核

2.1 查看当前内核

uname -a

2.2 查看所有内核

dpkg --get-selections |grep linux

在这里插入图片描述

  • install是已经安装的内核
  • deinstall是已经移除但是没有完全删除的

2.3 移除无用内核

sudo apt-get remove linux-xxx-xxx

这样会让内核后边的install变成deinstall

2.4 删除无用内核(已移除,但是还有显示)

  • 想彻底移除但是不显示就:
sudo apt-get purge linux-xxx-xxx

2.5 更新所有内核版本

sudo update-grub
### 解决 Ubuntu 22.04 中 `nvidia-smi` 无法与 NVIDIA 驱动程序通信的问题 当遇到 `nvidia-smi` 无法与 NVIDIA 驱动程序正常通信的情况时,通常是因为驱动未正确加载或存在版本兼容性问题。以下是详细的排查和修复方法: #### 检查当前状态 首先确认系统中已安装的 NVIDIA 驱动版本以及模块是否被成功加载。 ```bash dpkg -l | grep nvidia-driver lsmod | grep nvidia ``` 如果发现模块未能加载,则可能是由于内核更新或其他原因导致新启动后丢失了必要的依赖关系[^1]。 #### 卸载现有驱动并清理残留文件 为了防止旧版驱动干扰新版安装过程中的配置工作,建议先彻底移除现有的 NVIDIA 软件包及其关联组件。 ```bash sudo apt-get purge '^nvidia-' sudo rm /etc/modprobe.d/nvidia.conf sudo rm /lib/firmware/nvidia/* ``` 上述命令会删除所有以 "nvidia-" 开头命名的相关软件包,并清除可能存在的自定义设置文件及固件数据。 #### 安装最新稳定版驱动 通过官方渠道获取最新的适用于当前系统的显卡驱动程序。对于 Ubuntu 用户来说,推荐使用 PPA 或者直接从官网下载.run 文件来完成这一操作;这里采用PPA方式为例说明: ```bash sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update sudo ubuntu-drivers autoinstall ``` 这组指令可以确保获得由社区维护且经过测试验证过的高质量图形栈支持方案。 #### 更新初始化ramdisk镜像 为了让更改生效,在重启之前还需要重建初始内存盘映像以便于引导阶段能够识别新的硬件加速特性。 ```bash sudo update-initramfs -u ``` 执行完毕之后就可以安全地关闭电源再重新开机尝试解决问题了。 #### 加入黑名单阻止开源 Nouveau 显示驱动自动激活 有时即使完成了以上步骤仍然会出现冲突现象,这时可以通过编辑 `/etc/modprobe.d/blacklist-nouveau.conf` 来禁用默认启用的开源显示驱动器。 ```bash echo 'blacklist nouveau' | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf echo 'options nouveau modeset=0' | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf ``` 最后再次运行 `update-initramfs -u` 并重启计算机使修改后的参数得到应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值