RuntimeError: CUDA error: invalid device ordinal

文章讲述了在使用PyTorch进行GPU训练时遇到的RuntimeError,原因在于用户权限导致设备编号映射不一致。作者解释了如何根据分配的GPU编号(6和7)在实际操作中正确地使用torch.device(cuda:0)和cuda:1来对应实际的GPU设备.

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

完整报错
RuntimeError: CUDA error: invalid device ordinal
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

描述
师兄告诉我分配给我的GPU编号为6和7,但是我在训练的时候使用

device = torch.device('cuda:6')

报如上错误。

解决
原因在于,虽然师兄分配给我的卡为6,7,但是在我自己登陆的用户里,对应映射的编号是0,1,我作为非管理员的用户看不到全局的卡的状态,只能看到映射后的编号。所以如果我使用代码

device = torch.device('cuda:0')

就是在使用编号为6的卡,代码

device = torch.device('cuda:1')

就是在使用编号为7的卡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值