用超级计算机（超算）跑模型代码指南

思考加油站

已于 2024-03-20 11:32:21 修改

阅读量2.8k

点赞数 18

CC 4.0 BY-SA版权

分类专栏：计算机视觉从小白到精通文章标签： python

于 2024-03-19 21:48:33 首次发布

本文链接：https://blog.csdn.net/qq_43155641/article/details/136856348

计算机视觉从小白到精通专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了如何在Linux系统上安装Tabby远程终端，配置SSH访问，以及在超算环境中安装Anaconda、创建虚拟环境和使用相关LINUX指令。重点包括Anaconda的安装步骤、虚拟环境管理和超算平台的特定操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有问题请在评论区留言。文章通俗易懂是我的风格

1、安装步骤

Tabby安装与打开的方法在此网页。这个程序是一个远程终端，你可以远程操作超级计算机。超级计算机就是很多个计算机组成的集群，老师给了我一个账号，其实就是给我分配了一台电脑，这个电脑的系统是linux的系统，远程操作电脑只能通过Linux命令行来操作。

本人安装tabby的步骤如下（当然还有其他的工具，不过这个已经非常好用了）：

一个更现代的终端——Tabby_tabby设置中文-CSDN博客文章浏览阅读8.8k次。Tabby（以前称为Terminus）是一个高度可配置的终端仿真器、SSH 和串行客户端，适用于 Windows、macOS 和 Linux集成 SSH 和 Telnet 客户端和连接管理器集成串口终端主题和配色方案完全可配置的快捷键和多和弦快捷键拆分窗格记住你的标签PowerShell（和 PS Core）、WSL、Git-Bash、Cygwin、MSYS2、Cmder 和 CMD 支持通过 Zmodem 从/向 SSH 会话直接传输文件完整的 Unicode 支持，包括双角字符不会因_tabby设置中文https://blog.csdn.net/weixin_45965432/article/details/124090313

安装后就是登录账号，创建自己的配置。

2、使用

安装后登陆账号打开自己的配置，其实就相当于你输入了超算电脑的密码，你才就可以使用超算，用tabby远程到超算的命令行窗口，就是一个Linux操作系统的命令行界面（CLI）的输出指令界面，所有操作用linux指令进行（因为超算是linux系统的）。

然后安装anaconda。配置虚拟环境。运行项目。其他小细节介绍如下。不懂的请在评论区留言。

1、首先安装Anaconda
下载的网址：https://repo.anaconda.com/archive，找到自己对应要下载的版本，比如Anaconda3-2020.11-Linux-x86_64.sh，于是下载

下载命令：wget -c https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh

下载完后的安装命令： sh Anaconda3-2020.11-Linux-x86_64.sh

之后输入yes和一大段空格的后会弹出一个让你输入路径的地方，需要时改目录，更换默认安装位置

之后等待安装结束即可。

安装完了，你刷新一下，就出现(base)环境了。或者使用 conda activate 命令让conda激活

命令行窗口就是可以conda管控的了，就相当于原来的命令行窗口多了conda的功能，你可以用conda。有基础环境了。然后创建虚拟环境，在虚拟环境里面装包，运行项目

创建虚拟环境：

创建虚拟环境在虚拟环境可以把超算上自己的python环境和超算平台默认的python环境隔离开，避免冲突，同时也方便运行模型的代码。（创建虚拟环境的步骤和window下是一样的）

创建命令：conda create -n your_env_name python=3.6

创建python版本为3.6、名字为your_env_name的虚拟环境。your_env_name文件可以在Anaconda安装目录envs文件下找到。版本号和虚拟环境的名字自己可以更改。或者不安装python，之后再安装python

conda activate your_env_name(虚拟环境名称) 激活虚拟环境

conda deactivate 关闭虚拟环境

超算平台安装Anaconda和Tensorflow_超算安装anaconda-CSDN博客

在.bashrc文件里面加入全局变量可以快速激活虚拟环境。就是用你自己设置的环境变量代替激活虚拟环境的命令。这样我在命令行输入my_tf就可以直接激活我的环境（这一步没必要）

alias my_tf='conda activate your_env_name'

换源前记得更新一下.bashrc文件，因为按照anaconda的时候会写入环境变量，更新后才能调用conda（这一步没必要）

安装完后可换源：（换源后使用pip下载模块默认使用清华源，下载会快很多）

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
 
conda config --set show_channel_urls yes

安装完可以输入python看看默认的版本有没有发生变化。之后的操作就是跑你的代码了，将本地的文件传到超算运行，超算的文件传到本地。——看我关于深度学习conda常用指令那篇文章。

然后就是下载深度学习需要的工具了。因为有了镜像源，下载会快一些。还不能用pip，因为我没安pip。所以接下来就是安装pytorch、cuda啥的、然后其他的你需要用到的包

要将超级计算机（超算）到本地文件复制上，您可以使用以下方法：

你点开右上角SFIP就知道了

Tabby 使用指南：一个高度可配置的现代化终端模拟器 - 知乎 (zhihu.com)

如果您的本地系统是 Windows，而远程超算机是 Linux 系统，您可以使用以下方法将本地文件复制到远程超算机：

3、常用的你需要用到的LINUX指令

不知道的命令就GPT搜索比较快，但是可能会错，还是CSDN靠谱

sinfo//这是 Linux 或类 Unix 操作系统的命令行界面（CLI）的输出，用户正在执行命令 "sinfo"。"sinfo" 是 Slurm（Simple Linux Utility for Resource Management）集群管理工具的一个命令，用于显示有关集群当前状态的信息。

lscpu //查看电脑运算能力

sudo lshw -C display //lshw命令可用于获取系统硬件的详细信息，包括显卡。

lspci | grep -i vga //lspci命令用于显示PCI总线设备信息，包括显卡。可以通过筛选"VGA"相关的信息来查看显卡的详细信息。

ll //是 ls -l 的简写形式，它用于在Linux命令行界面（CLI）中显示当前目录中的文件和子目录的详细信息列表。比ls要详细

wget -c https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Windows-x86_64.exe

//下载网页文件

sh 文件名 //安装文件

salloc -p gpu_128G -N 1 -w gpu4 //分配GPU

ssh gpu4//分配GPU

yppasswd //修改密码

示例：ls - 显示当前目录中的文件和文件夹列表。

2.cd：更改当前工作目录。

示例：cd /home/user/Documents - 切换到 "/home/user/Documents" 目录。

3.pwd：显示当前工作目录的完整路径。

示例：pwd - 显示当前所在的目录路径。

4.cp：复制文件和目录。

示例：cp file1.txt file2.txt - 将 "file1.txt" 复制为 "file2.txt"。

5.mv：移动文件和目录，或重命名文件和目录。

示例：mv file.txt newfile.txt - 将 "file.txt" 重命名为 "newfile.txt"。

6.rm：删除文件和目录。

示例：rm file.txt - 删除名为 "file.txt" 的文件。

7.mkdir：创建目录（文件夹）。

示例：mkdir myfolder - 创建名为 "myfolder" 的文件夹。

8.rmdir：删除空目录。

示例：rmdir myfolder - 删除名为 "myfolder" 的空文件夹。

9.touch：创建空文件或更新文件的时间戳。

示例：touch file.txt - 创建名为 "file.txt" 的空文件。

10.cat：显示文件的内容。

示例：cat file.txt - 显示名为 "file.txt" 的文件的内容。

11.grep：在文件中搜索匹配的文本。

示例：grep "keyword" file.txt - 在 "file.txt" 中搜索包含 "keyword" 的行。

12.chmod：修改文件或目录的权限。

示例：chmod 755 file.txt - 将 "file.txt" 文件的权限设置为 rwxr-xr-x。

13.chown：更改文件或目录的所有者。

示例：chown user file.txt - 将 "file.txt" 的所有者更改为 "user"。

14.man：查看命令的帮助手册。

示例：man ls - 查看 "ls" 命令的帮助文档。

1 基本指令(在登录地址上操作)：

# 登入: 
ssh xxx
# 登出: 
exit
 
# 拷贝本地文件到远程服务器:(别登远程服务器！)
scp -r /Users/mengdanfan/PycharmProjects/cc2vec 1901110655@wm1-data.pku.edu.cn:~/
# 拷贝远程服务器文件到本地: 
scp -r 1901110655@wm1-data.pku.edu.cn:/gpfs/share/home/1901110655/snapshot/2021-06-28_20-29-08 ./
 
# 查看作业：
squeue -u 学号
 
# 查看分区：
sinfo
 
# 查看输出结果：
cat xxx.out
 
# module查看命令(查看有哪些环境)：
module avali
 
# load conda 环境命令：
module load anaconda/3.7.1
 
# 提交作业：
sbatch ***.sh

2 环境配置(在传输地址上操作)

# 加载基本环境
module load anaconda/3.7.1
 
# 安装虚拟环境
conda create -n FMDpython python=3.7
source activate FMDpython
 
# 在虚拟环境下加载模块
module load cudnn/9.0-v7.6
module load cuda/11.1
 
备注：还需要 在虚拟环境里安装 自己代码所需的安装包。 每次不用重新安装包，只需要加载虚拟环境即可。但是主机环境每次都会被重置。
 
# 查看所有的虚拟环境
conda info --envs
 
# 查看虚拟环境中安装了哪些python包
pip list

3 提交作业的脚本(在登录地址上操作)

#!/bin/bash
#SBATCH -o job.FMD1.%j.out
#SBATCH -p GPU
#SBATCH --qos=normal
#SBATCH -J FMD1
#SBATCH --get-user-env
#SBATCH --mail-type=FAIL
#SBATCH --mail-user=fanmengdan@pku.edu.cn
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=8
#SBATCH --gres=gpu:1
 
 
python /gpfs/share/home/1901110655/cc2vec/bfp/bfp_PNExtended.py
 
备注:代码中所有路径必须是绝对路径，pwd查看当前绝对路径。且每一轮的输出要到程序运行结束才会一次性输出到.out文件中。

3. 调用Anaconda模块
module load anaconda/2021.05
4. 创建Python3.7的虚拟环境（不是必须。不需要的话可以使用默认安装的环境）
conda create -n my_name python=3.7 # my_name 是虚拟环境名字
5. 虚拟环境下安装CUDA11.6+Pytorch1.12.1
sources activate my_name # 如果创建了虚拟环境，先激活虚拟环境。没创建则跳过
pip install torch==1.12.1+cu116 torchvision==0.13.1+cu116 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu116
# 安装成功，但通过print(torch.cuda.is_available())返回False，主要是未向云服务器请求分配GPU的原因
# 则需要申请GPU分配后才可以使用GPU
GPU分配申请：

1、salloc   --gpus=1    抢占一个计算节点
2、squeue    查看节点名，最后一列
3、ssh   gxxx   登录计算节点
此时，配置Pytorch环境完成！
.sh 文件的配置模板如下：（编辑器，编辑脚本中第三行，将xxx改为实际用conda创建的虚拟环境名，最后一行python命令后xxx.py修改为自己的代码文件或完整命令即可）

#!/bin/bash
module load anaconda/2021.05
source activate xxx 
export PYTHONUNBUFFERED=1
python xxx.py