解决cuda环境使用dgl

CHEN_RUI_2200

已于 2025-04-20 12:20:01 修改

阅读量1.8k

点赞数 28

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签： python 人工智能深度学习

于 2024-10-29 09:42:31 首次发布

本文链接：https://blog.csdn.net/u011564831/article/details/143320319

人工智能专栏收录该内容

75 篇文章

订阅专栏

Dgl 是实现图结构数据构造的工具包，想在gpu环境下使用它，如果安装的是pip install dgl

会有下面错误

dgl._ffi.base.DGLError: [09:10:13] /opt/dgl/src/runtime/c_runtime_api.cc:82: Check failed: allow_missing: Device API cuda is not enabled. Please install the cuda version of dgl.
Stack trace:
[bt] (0) /opt/miniconda3/envs/lora/lib/python3.10/site-packages/dgl/libdgl.so(dmlc::LogMessageFatal::~LogMessageFatal()+0x75) [0x7fd8d29508f5]
[bt] (1) /opt/miniconda3/envs/lora/lib/python3.10/site-packages/dgl/libdgl.so(dgl::runtime::DeviceAPIManager::GetAPI(std::string, bool)+0x202) [0x7fd8d2cbfd82]
[bt] (2) /opt/miniconda3/envs/lora/lib/python3.10/site-packages/dgl/libdgl.so(dgl::runtime::DeviceAPI::Get(DGLContext, bool)+0x1e1) [0x7fd8d2cbc361]
[bt] (3) /opt/miniconda3/envs/lora/lib/python3.10/site-packages/dgl/libdgl.so(dgl::runtime::NDArray::Empty(std::vector<long, std::allocator<long> >, DGLDataType, DGLContext)+0x13b) [0x7fd8d2cd783b]
[bt] (4) /opt/miniconda3/envs/lora/lib/python3.10/site-packages/dgl/libdgl.so(dgl::runtime::NDArray::CopyTo(DGLContext const&) const+0xc3) [0x7fd8d2d12043]
[bt] (5) /opt/miniconda3/envs/lora/lib/python3.10/site-packages/dgl/libdgl.so(dgl::UnitGraph::CopyTo(std::shared_ptr<dgl::BaseHeteroGraph>, DGLContext const&)+0x3ff) [0x7fd8d2e1f53f]
[bt] (6) /opt/miniconda3/envs/lora/lib/python3.10/site-packages/dgl/libdgl.so(dgl::HeteroGraph::CopyTo(std::shared_ptr<dgl::BaseHeteroGraph>, DGLContext const&)+0xf6) [0x7fd8d2d1e8c6]
[bt] (7) /opt/miniconda3/envs/lora/lib/python3.10/site-packages/dgl/libdgl.so(+0x51b686) [0x7fd8d2d2d686]
[bt] (8) /opt/miniconda3/envs/lora/lib/python3.10/site-packages/dgl/libdgl.so(DGLFuncCall+0x48) [0x7fd8d2cbb598]

这个错误表明 DGL（Deep Graph Library）未启用 CUDA（NVIDIA 的并行计算平台和编程模型）。具体来说，它提示您当前安装的 DGL 版本不支持 CUDA，因此不能利用 GPU 进行计算。

我们的原因是安装了 CPU 版本的 DGL，而不是支持 GPU 的 CUDA 版本

但是pip install dgl-cu122 报

ERROR: Could not find a version that satisfies the requirement dgl-cu122 (from versions: none)
ERROR: No matching distribution found for dgl-cu122

我们得去别处找dgl对应的cuda版本，好在官网上给出了下载地址

Dgl | Anaconda.org

在有gpu训练卡的环境上使用conda 切换到激活环境

conda activate myenv

再使用conda安装dgl-cu121

conda install -c dglteam/label/th24_cu121 dgl

安装完成

再运行dgl的训练脚本速度飞起

另外发现修改了一个问题

logits = model.forward(g, "_N")
labels = batch.label
loss = criterion(logits, labels)
f1 = evaluate_f1_score(
     logits.detach().to(device).numpy(), labels.detach().to(device).numpy()
)

将一个位于 GPU 上的 PyTorch 张量（tensor）直接转换为 NumPy 数组。PyTorch 不支持直接将 GPU 张量转换为 NumPy 数组。要解决此问题，需要先将张量移动到 CPU 上。

解决方案

在调用 .numpy() 方法之前，您需要使用 .cpu() 方法将张量从 GPU 移动到 CPU。修改代码如下：

logits.detach().cpu().numpy(), labels.detach().cpu().numpy()