linux系统安装slurm
时间: 2025-06-21 11:49:05 浏览: 11
### 安装和配置SLURM作业调度系统
在Linux系统上安装和配置SLURM作业调度系统是一个多步骤的过程,需要确保系统的依赖项已满足,并正确设置相关组件。以下是关于如何在Ubuntu或其他Linux发行版上完成这一任务的详细说明。
#### 1. 系统准备
在开始安装之前,确保所有节点(包括控制节点和计算节点)都已更新到最新状态。可以通过以下命令完成:
```bash
sudo apt update && sudo apt upgrade -y
```
此外,还需要安装一些必要的工具和库,例如`munge`用于身份验证。
```bash
sudo apt install -y munge
```
#### 2. 安装SLURM
从官方源或APT仓库中安装SLURM软件包:
```bash
sudo apt install -y slurm-wlm slurm-wlm-torque
```
这将安装SLURM及其相关组件[^1]。
#### 3. 配置MUNGE服务
MUNGE是SLURM的身份验证机制,需要在所有节点上运行并同步密钥。
- 在控制节点生成密钥:
```bash
sudo mkdir -p /etc/munge
sudo chmod 0700 /etc/munge
sudo dd if=/dev/urandom bs=1 count=1024 > /etc/munge/munge.key
sudo chmod 400 /etc/munge/munge.key
```
- 将生成的密钥分发到所有计算节点:
```bash
scp /etc/munge/munge.key user@compute-node:/etc/munge/
```
- 启动并启用MUNGE服务:
```bash
sudo systemctl start munge
sudo systemctl enable munge
```
#### 4. 配置SLURM
SLURM的主要配置文件位于`/etc/slurm-llnl/`目录下。关键文件包括`slurm.conf`、`cgroup.conf`等。
##### 4.1 编辑`slurm.conf`
使用文本编辑器打开配置文件:
```bash
sudo nano /etc/slurm-llnl/slurm.conf
```
配置内容应包括以下部分:
- 控制节点定义:
```text
ControlMachine=control-node
```
- 节点列表(假设有一个计算节点`compute-node`):
```text
NodeName=compute-node NodeAddr=192.168.1.10 CPUs=4 State=UNKNOWN
```
- 分区定义:
```text
PartitionName=normal Nodes=compute-node Default=YES MaxTime=INFINITE State=UP
```
##### 4.2 配置GPU资源(可选)
如果集群包含GPU资源,则需要额外配置以支持GPU调度。可以通过`GresTypes`参数指定GPU设备类型[^2]。例如:
```text
GresTypes=gpu
NodeName=compute-node Gres=gpu:4
```
此外,确保在启动后检查GPU设备文件与NVML编号之间的映射关系是否一致。
#### 5. 启动SLURM服务
在所有节点上启动SLURM服务:
```bash
sudo systemctl start slurmctld
sudo systemctl enable slurmctld
sudo systemctl start slurmd
sudo systemctl enable slurmd
```
#### 6. 测试SLURM
使用`sinfo`命令查看集群状态:
```bash
sinfo
```
提交一个测试作业以验证功能:
```bash
sbatch test_job.sh
```
其中,`test_job.sh`可以包含以下内容:
```bash
#!/bin/bash
#SBATCH --job-name=test_job
#SBATCH --output=output.txt
#SBATCH --time=00:05:00
#SBATCH --partition=normal
#SBATCH --nodes=1
#SBATCH --ntasks=1
echo "Hello, SLURM!"
```
### 注意事项
- 确保所有节点的时间同步(例如通过NTP服务)。
- 如果涉及GPU资源调度,建议定期检查设备文件与NVML编号的映射关系,以避免潜在问题[^2]。
阅读全文
相关推荐
















