ubuntu20.04 slurm
时间: 2025-05-09 22:21:22 浏览: 43
### 安装和配置 SLURM 调度系统
#### 准备工作
在开始之前,确保目标机器已成功安装 Ubuntu 20.04 操作系统。如果尚未安装,请按照官方文档完成操作系统的部署[^1]。
#### 更新软件源
为了确保所有依赖项是最新的,在安装前需更新 APT 缓存并升级现有包:
```bash
sudo apt update && sudo apt upgrade -y
```
#### 安装必要的工具和库
SLURM 的安装需要一些基础开发工具以及编译环境的支持。运行以下命令来安装这些必需的组件:
```bash
sudo apt install wget gcc make munge libmunge-dev openssl libssl-dev \
libmysqlclient-dev perl python3 python3-pip git -y
```
#### 下载并编译 SLURM
可以从 SLURM 的官方网站获取最新版本的源码包。以下是下载、解压和编译的过程:
1. **下载 SLURM 源码**
```bash
cd /tmp
wget https://download.schedmd.com/slurm/slurm-22.05.0.tar.bz2
tar xf slurm-22.05.0.tar.bz2
```
2. **配置编译选项**
进入解压后的目录,并执行 `./configure` 命令以设置构建参数。
```bash
cd slurm-22.05.0
./configure --prefix=/usr --sysconfdir=/etc/slurm --with-munge=/usr
```
3. **编译与安装**
执行以下命令完成编译和安装过程。
```bash
make && sudo make install
```
#### 配置 MUNGE 认证服务
SLURM 使用 MUNGE 来提供节点间的安全认证功能。启动并启用该服务如下所示:
```bash
sudo systemctl enable munged
sudo systemctl start munged
```
创建密钥文件以便于通信加密:
```bash
sudo mkdir -p /etc/munge/
sudo chmod 0700 /etc/munge/
sudo touch /etc/munge/munge.key
sudo chmod 0400 /etc/munge/munge.key
sudo chown munge:munge /etc/munge/munge.key
```
#### 初始化 SLURM 配置
编辑主要配置文件 `/etc/slurm/slurm.conf` 并定义集群的基本属性。下面是一个简单的例子供参考:
```plaintext
ControlMachine=ubuntu-node1
NodeName=ubuntu-node[1-2] NodeAddr=[IP地址范围] State=UNKNOWN
PartitionName=debug Nodes=ubuntu-node[1-2] Default=YES MaxTime=INFINITE State=UP
```
注意替换 `[IP地址范围]` 和其他占位符为实际值[^2]。
#### 启动 SLURM 控制守护进程
最后一步是激活 SLURM 的核心管理程序和服务端口监听状态:
```bash
sudo systemctl enable slurmd
sudo systemctl enable slurmctld
sudo systemctl start slurmd
sudo systemctl start slurmctld
```
验证服务是否正常运作可以尝试提交测试作业脚本或者查看当前队列状况:
```bash
sinfo
spartition
squeue
```
---
### 自动化方案推荐
对于希望简化整个流程的情况,可考虑采用 hpc4you 工具集中的 solo 版本来实现一键自动化部署。此方法特别适合熟悉程度较低的新手用户快速搭建实验性质的小型 HPC 环境[^3]。
---
阅读全文
相关推荐




