GPU运维工程师入门指南 (第二篇): NVIDIA驱动安装与问题排查
前言
在上一篇中,我们了解了GPU运维工程师的职责和GPU的基础架构。现在,我们将从理论进入本系列第一个,也是最关键的一个实战环节:安装NVIDIA驱动。
驱动是操作系统内核与GPU硬件沟通的桥梁。一次稳定、正确的驱动安装,是后续所有工作(CUDA、容器化、K8s调度)的基石。这个过程虽然看似简单,但由于涉及到内核、编译器和硬件,常常成为新手入门的第一个“拦路虎”。
本文将详细介绍驱动安装的全过程,包括:
- 安装前的环境准备。
- 三种主流安装方式的对比与选择。
- 安装后的验证步骤。
- 常见问题的诊断与排查。
一、安装前的准备工作 (Pre-installation Checks)
“磨刀不误砍柴工”,充分的准备可以规避90%的安装失败。在开始之前,请务必完成以下检查:
1. 确认系统识别到GPU硬件
执行命令,查看系统是否能在PCI总线上找到NVIDIA的设备。
lspci | grep -i nvidia
如果能看到类似 NVIDIA Corporation GA102 [GeForce RTX 3090]
的输出,说明硬件连接正常。如果没有任何输出,请先检查物理安装或BIOS设置。
2. 安装内核头文件与开发工具
NVIDIA驱动本质上是一个内核模块,它需要在你的系统上进行编译,因此必须有与当前内核版本完全一致的头文件和编译工具。
# 查看当前内核版本
uname -r
# --- 对于 Debian/Ubuntu ---
# 安装对应版本的内核头文件和编译工具链
sudo apt update
sudo apt install -y linux-headers-$(uname -r) build-essential
# --- 对于 RHEL/CentOS/Rocky Linux ---
# 安装对应版本的内核头文件和编译工具链
sudo dnf update
sudo dnf install -y kernel-devel-$(