conda CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --master_port=7777 --nproc_per_node=4 train.py -c configs/dfine/custom/dfine_hgnetv2_${model}_custom.yml --test-only -r model.pth

### 使用 Conda 环境与分布式训练为了实现多 GPU 训练并指定 CUDA 设备，可以通过 `torchrun` 工具来管理分布式环境，并利用 `CUDA_VISIBLE_DEVICES` 来控制可见的 GPU。以下是具体方法： #### 设置 Conda 环境确保当前工作目录处于激活的 Conda 环境下。如果尚未创建合适的环境，则可通过以下命令完成： ```bash conda create -n myenv python=3.8 conda activate myenv ``` 安装必要的依赖项，例如 PyTorch 和其他工具包。 --- #### 配置 CUDA 可见设备通过设置环境变量 `CUDA_VISIBLE_DEVICES` 控制哪些 GPU 被程序识别。例如，要使用第 0 和第 1 块 GPU 进行训练，可以在终端中输入以下命令： ```bash export CUDA_VISIBLE_DEVICES=0,1 ``` 此操作会隐藏其他未被列举的 GPU[^3]。 --- #### 启动分布式训练使用 `torchrun` 执行分布式的 Python 脚本。假设项目的入口脚本为 `train.py`，并且需要加载 YAML 配置文件和预训练权重路径，则完整的启动命令如下所示： ```bash torchrun --standalone --nnodes=1 --nproc_per_node=2 train.py \ --config configs/ecapa_tdnn.yml \ --pretrained_weights path/to/pretrained_model.pth ``` 上述命令解释： - `--standalone`: 表明这是一个单节点的任务。 - `--nnodes=1`: 指定仅在一个节点上运行。 - `--nproc_per_node=2`: 每个节点分配两个进程（对应两块 GPU）。 - `--config`: 加载自定义的 YAML 配置文件。 - `--pretrained_weights`: 提供预训练模型的路径或 URL[^2]。 --- #### 自定义配置文件 YAML 文件用于定义模型架构、数据增强策略以及其他超参数。例如，在 `configs/ecapa_tdnn.yml` 中可以调整以下选项： - **特征提取方法**: 将 `feature_method` 参数设为所需模式（如 MelSpectrogram 或 MFCC）。 - **数据增强配置**: 利用 `augment_conf_path` 指向特定的数据增强方案[^1]。 --- #### 测试阶段当训练完成后，同样可以通过类似的命令执行测试流程。只需替换脚本名称或将额外标志传递给现有脚本即可。例如： ```bash torchrun --standalone --nnodes=1 --nproc_per_node=2 test.py \ --config configs/ecapa_tdnn.yml \ --model_weights trained_model.pth ``` 此处，`test.py` 是专门设计用来评估模型性能的脚本；而 `trained_model.pth` 应该是之前保存的最佳模型权重文件。 --- #### 查看训练日志在训练期间，推荐启用 VisualDL 实时监控进度。其基本启动方式如下： ```bash visualdl --logdir=log --host 0.0.0.0 ``` 这允许用户打开浏览器访问可视化界面以跟踪损失曲线和其他指标变化情况。 ---

阅读全文

conda CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --master_port=7777 --nproc_per_node=4 train.py -c configs/dfine/custom/dfine_hgnetv2_${model}_custom.yml --test-only -r model.pth

相关推荐

Miniconda3-py38_4.9.2-MacOSX-x86_64.pkg

Miniconda3-py38_4.9.2-Linux-s390x.sh

Miniconda3-py38_4.9.2-MacOSX-x86_64.sh

ess.CalledProcessError: Command '['C:\\Users\\ps\\.conda\\envs\\yolov11\\python.exe', '-m', 'torch.distributed.run', '--nproc_per_node', '2', '--master_port', '53849', 'C:\\Users\\ps\\AppData\\Roaming\\Ultralytics\\DDP\\_temp_76f5u0mh2229078945520.py']' returned non-zero exit status 1.

(xyy) ylu@k8s-node1:~$ device = torch.device('cuda:2') bash: syntax error near unexpected token ('

[2025-07-09 23:29:52,669] torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: -9) local_rank: 0 (pid: 5617) of binary: /opt/conda/envs/tf/bin/python3.10

C#类库封装：简化SDK调用实现多功能集成，构建地磅无人值守系统

基于STM32F1的BLDC无刷直流电机与PMSM永磁同步电机源码解析：传感器与无传感器驱动详解

基于Java的跨平台图像处理软件ImageJ：多功能图像编辑与分析工具

MATLAB语音识别系统：基于GUI的数字0-9识别及深度学习模型应用 · GUI v1.2

c语言通讯录管理系统源码.zip

基于MATLAB的电力与天然气市场出清及多方博弈行为分析

c语言学生信息系统.zip

Jlink驱动V7.9免费下载

微电网仿真：Matlab Simulink下的风光储微电网模型及永磁直驱风机并网仿真

基于C#实现的wifi室内定位与人数统计项目+源码+项目文档（毕业设计&课程设计&项目开发）

大家在看

《极品家丁（七改版）》（珍藏七改加料无雷精校全本）(1).zip

密码：:unlocked::sparkles::locked:创新，方便，安全的加密应用程序

HkAndroidSDK.zip

matlab的欧拉方法代码-BEM_flow_simulation:计算流体力学：使用边界元方法模拟障碍物周围/附近的流动

基于YOLO网络的行驶车辆目标检测matlab仿真+操作视频

最新推荐

C#类库封装：简化SDK调用实现多功能集成，构建地磅无人值守系统

基于STM32F1的BLDC无刷直流电机与PMSM永磁同步电机源码解析：传感器与无传感器驱动详解

基于Java的跨平台图像处理软件ImageJ：多功能图像编辑与分析工具

MATLAB语音识别系统：基于GUI的数字0-9识别及深度学习模型应用 · GUI v1.2

c语言通讯录管理系统源码.zip

Teleport Pro教程：轻松复制网站内容

【跨平台开发者的必读】：解决Qt5Widgetsd.lib目标计算机类型冲突终极指南

普通RNN结构和特点

探讨通用数据连接池的核心机制与应用

【LabVIEW网络通讯终极指南】：7个技巧提升UDP性能和安全性