【dgl学习】dgl.dataloader中链接预测任务的负采样方法neg_sampler详解

最新推荐文章于 2025-01-17 09:49:46 发布

�小台

最新推荐文章于 2025-01-17 09:49:46 发布

阅读量682

点赞数

CC 4.0 BY-SA版权

文章标签：学习 python

本文链接：https://blog.csdn.net/RachelLee6/article/details/133323632

dgl分批次进行链接预测任务时，会用到dataloader类，可以参考一下代码定义自己的dataloader。

dataloader = dgl.dataloading.DistEdgeDataLoader(
# dataloader = dgl.dataloading.EdgeDataLoader()
    graph, train_seeds, sampler,
    negative_sampler=dgl.dataloading.negative_sampler.Uniform(5),
    # negative_sampler=NegativeSampler(graph,args.negsample),
    batch_size=4,
    shuffle=True,
    drop_last=False,
    pin_memory=True,
    num_workers=False)

在设置自己的负采样方法时，总是存在问题，详细看了这里的负采样方法negative_sampler，作为记录。通过一个小例子理解一下该方法的使用：

g = dgl.graph(([0, 1, 2], [1, 2, 3]))
neg_sampler = dgl.dataloading.negative_sampler.PerSourceUniform(4)
neg_sampler(g, torch.tensor([0]))
>>>(tensor([0, 0, 0, 0]), tensor([3, 0, 2, 1]))

由上述示例可以看出，neg_sampler的输出结果是一个<class ‘tuple’>，头部为源节点，尾部为目标节点。dgl.dataloading.negative_sampler.PerSourceUniform(4)中的参数N(例子中为4)，是负采样的个数，neg_sampler使用时，需要输入图（g）还有选择的源节点（示例中为：torch.tensor([0])）。
主要了解到neg_sampler的结果是由两个tensor组成的tuple，所以自己在定义负采样方法的时候，也应该遵循这样的规则，否则会导致出错。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

�小台

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

用户文档-实战1

图挖掘领域，新晋砖家 ☞ 未来可期，欢迎和静静一起学习交流吖

02-09

428

第一章 1、同构/异构图创建+数据拷贝（cpu-gpu）简介步骤代码 ''' 目的 https://docs.dgl.ai/guide_cn/graph.html#guide-cn-graph 1）1.2 图、节点和边的构建 2）1.3 节点和边的特征 3）1.4 从外部源创建图从外部库创建图 https://docs.dgl.ai/guide_cn/graph-external.html#guide-cn-graph-external 从磁盘..

入门实战3

图挖掘领域，新晋砖家 ☞ 未来可期，欢迎和静静一起学习交流吖

02-06

345

目录 15、基于cora的2层GCN实现+可视化简介步骤（重写）代码实现结果 16、基于pubmed的GrapSage实现简介步骤代码实现结果 17、基于pubmed的GraphSage边预测简介步骤代码实现结果 18、基于item的推荐模型（目前没搞明白）简介步骤代码实现结果 19、大图训练（graphsage）简介步骤(重写）代码实现结果 15、基于cora的2层GCN实现+可视化简介步骤（重写）代码

参与评论您还未登录，请先登录后发表或查看评论

【DGL】定义邻居采样器和数据加载器

yuxeaotao的博客

04-14

3771

6.1 Training GNN for Node Classification with Neighborhood Samplinghttps://docs.dgl.ai/en/0.6.x/guide/minibatch-node.html#guide-minibatch-node-classification-sampler DGL提供了几个邻居采样类，这些类会生成需计算的节点在每一层计算时所需的依赖图。最简单的邻居采样器是MultiLayerFullNeighborSampler，它可获取节点.

【RS采样】A Gain-Tuning Dynamic Negative Sampler for Recommendation (WWW 2022)

chadlee

07-21

780

这样选出的负样本是得分靠近正样本的，可以为训练过程提供比较大的梯度，从而提供更多的信息。实验还发现，真实负样本的。的正样本集合和负样本集合，意味着每个正样本分别要对所有负样本算loss，等于所有的正样本共享了负样本信息，而不是一对一对的分别优化，效率更高，信息更多。文章提出一个基于期望增益的采样器，在训练过程中根据正负样本之间差距的期望的变化，动态指导负采样，可以识别假负样本。分析真实和虚假负样本的H和G的分布，可以看出在训练过程中H越来越高的是假负样本，真实负样本的G越来越高。用户交互过的物品集合，...

Negative sampling 负采样

咖乐部

02-19

944

1.负采样的目的：减少参数的计算量：每次让一个训练样本仅仅更新一小部分的权重目标词：正样本其他词：全都是负样本比如中间维度是300，输出的词典维度是10000。也就是有9999个负样本。如果按正常采样更新参数，那么在此需要更新一个300*10000的参数矩阵。而目标词之和前后若干词相关，离的太远的词对其影响不大，所以如果对每个目标词训练的时候，只更新她相邻的若干词的参数矩阵，那么计算量就将极大地减小对于大数据集，负采样只取2-5个词。对于小数据集，负采样去5-20个词 2.取词依..

使用DGL进行异构图元路径采样

myblog

10-21

1797

异构图元路径采样 import dgl import tqdm import os def construct_graph(): node_src = [1,2,0,3,4,5,6,7] node_dst = [2,0,1,1,1,6,7,8] data1 = (node_src,node_dst) data2 = (node_dst,node_src) hg = dgl.heterograph( {('paper','pa','autho

DGL入坑

weixin_45606655的博客

05-26

755

DGL教学文章目录DGL教学1. 数据集2. 图特征3. Graph Loader and Training4. 自定义图神经网络 DGL官方文档：https://docs.dgl.ai/index.html 1. 数据集 from dgl.data import DGLDataset class MyDataset(DGLDataset): def __init__(self, url=None, raw_dir=None,

Candidate sampling：NCE loss和negative sample

weixin_33842304的博客

12-07

610

在工作中用到了类似于negative sample的方法，才发现我其实并不了解candidate sampling。于是看了一些相关资料，在此简单总结一些相关内容。主要内容来自tensorflow的candidate_sampling和卡耐基梅隆大学一个学生写的一份notesNotes on Noise Contrastive Estimation and Negative Sampling，还...

图网络：从数据处理到DGL模型构建（GCN, GraphSAGE, RGCN）

褚骏逸的学习之路

08-03

8750

DGL异构图教程： https://docs.dgl.ai/tutorials/hetero/1_basics.html DGL v0.4 更新笔记： https://github.com/dmlc/dgl/releases DGL-KE代码及使用说明：训练知识图谱嵌入（Knowledge Graph Embedding）专用包 https://github.com/dmlc/dgl/tree/master/apps/kg DGL-Chem 模型库: 包括分子性质预测和分子结构生成等预训练模型。 https

代码库：DGL_基本框架

U got this

04-11

1946

文章目录导入数据集访问数据集 ndata edata节点信息边信息构造模型并训练构造dgl graph并查看图信息构造特征获取子图保存与加载模型自定义GNN moduleBuilt-in message and reduce function节点和边apply APIUser Defined FunctionLink PredictionGraph Classification(undone)Test import numpy as np import pandas as pd from matplotli

探索图神经网络（GNN）

hello.reader

12-27

1851

图神经网络是一类能够直接在图结构数据上进行学习和推理的神经网络模型。与传统神经网络不同，GNN能够有效地捕捉图中节点及其邻域之间的复杂关系，通过消息传递和节点表示更新机制，实现对节点、边和整个图的表示学习。GNN的核心思想是通过反复迭代的方式，将节点的特征与其邻居节点的信息进行融合，从而生成具有丰富语义信息的节点嵌入（node embeddings）。深度学习（Deep Learning）是机器学习的一个分支，通过多层神经网络来学习数据的高级特征表示。

图神经网络框架DGL教程-第4章：图数据处理管道

test

05-04

2220

第4章：图数据处理管道 DGL在 dgl.data 里实现了很多常用的图数据集。它们遵循了由 dgl.data.DGLDataset 类定义的标准的数据处理管道。 DGL推荐用户将图数据处理为 dgl.data.DGLDataset 的子类。该类为导入、处理和保存图数据提供了简单而干净的解决方案。 4.1 DGLDataset类 DGLDataset 是处理、导入和保存 dgl.data 中定义的图数据集的基类。它实现了用于处理图数据的基本模版。下面的流程图展示了这个模版的工作方式。即 Check

跟着官方文档学DGL框架第十四天——大型图上的随机训练之链接预测

beilizhang的博客

01-21

2073

参考资料 https://docs.dgl.ai/en/latest/guide/minibatch-link.html#guide-minibatch-link-classification-sampler http://www.voidcn.com/article/p-fsdktdik-bry.html 概述关于链接预测的概念和优化方法在“跟着官方文档学DGL框架第十天”上已经提到过。我们的目标还是得到节点表示，所以在随机训练时与节点分类和边分类的随机训练差不多，只是多了负采样过程。值得庆幸的是，

DGL教程【四】使用GNN进行链路预测

vincent_duan的专栏

11-26

7946

在之前的介绍中，我们已经学习了使用GNN进行节点分类，比如预测一个图中的节点所属的类别。这一节中我们将教你如何进行链路预测，比如预测任意两个节点之间是不是存在边。本节你将学到：构建一个GNN的链路预测模型在一个小的DGL数据集上训练和评估模型链路预测在很多应用中，例如社交推荐、商品推荐以及知识图谱补全中都存在链路预测，就是判断两个节点之间是不是存在一条边。本节将使用论文引用关系数据集，判断两篇论文是否存在引用关系。这个教程将链路预测定义为一个二分类的问题：将图中的每个边都视为正样本对不

GraphSAGE的一些理解以及一些模块的DGL的代码实现

最新发布

2501_90253882的博客

01-17

369

本来想画个图来展现一层层采样的汇聚过程的，但是感觉好像有点过于复杂了，那就直接从最后一步的结果来理解也是可以的吧，DGL邻居采样能够根据gnn的层数来得出对应得结果，计算的时候，只需要对应得block参与对应层gnn计算即可，这样实现了minbatch的计算，使得超大图得以轻松的训练。

基于GCN和DGL实现的图上 node 分类, 值得一看!!!

qq_25459495的博客

01-24

827

这里我们采用dgl官方实现的graphConv算子进行邻居节点信息的聚合，不进行邻居节点的采样。@欢迎关注微信公众号：算法全栈之路ifi!=0:returnh我们可以看到：这里的网络结构选择的是gcn。在上面的网络结构中，nn.ModuleList中放有2层的GraphConv卷积层，并在其中加入了dropout层。图卷基层之间也是可以加入dropout层的，和传统的深度学习DNN无任何区别。为了加深理解，我们可以重点关注下gcn模型的初始化参数以及输入输出参数。

【DGL教程】第6章大图上的随机训练

zzy979481894的博客

04-25

3572

官方文档：https://docs.dgl.ai/guide/minibatch.html 对于有上百万甚至上亿顶点和边的图无法使用全图训练，需要使用随机minibatch训练邻居采样方法在每个梯度下降步骤中，如果要计算某个顶点第L层的表示，根据消息传递，需要计算其全部或部分邻居第L-1层的表示，又需要计算这些邻居的邻居第L-2层的表示……这一过程一直持续到输入层。这一迭代过程构造了一个依赖图，从输出到输入，如下图所示 DGL提供了一些邻居采样器和使用邻居采样训练GNN的方法 1.使用邻居采样的顶点分

【DGL】链接预测

悲伤无声地涌出来

02-10

1905

dgl入门——链接预测

PaGE-Link：Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction，链接预测，边预测和解释

L_goodboy的博客

03-14

1099

PaGE-Link：Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction，链接预测，边预测和解释

dgl.nn.pytorch中edge_softmax的参数

04-27

在dgl.nn.pytorch中，edge_softmax函数的参数是边权重张量和图对象。具体来说，函数的定义如下： ```python def edge_softmax(graph, efeat): r"""Apply softmax over the edges of a graph. Description ----------- Given a graph and its edge features, this function computes the softmax over the edge features for each destination node. Suppose we have a graph with :math:`N` nodes, :math:`E` edges and feature size :math:`D`. If the input edge feature tensor is :math:`(E, D)`, the output tensor will be of shape :math:`(E, 1)`. Parameters ---------- graph : DGLGraph The graph to perform edge softmax. efeat : torch.Tensor The input edge feature tensor. Returns ------- tensor Softmax probability tensor with respect to the last dimension of efeat. Notes ----- * Input shape: :math:`(E, D)` * Output shape: :math:`(E, 1)` """ ``` 其中`graph`是DGLGraph对象，表示当前的图，`efeat`是维度为`(E, D)`的张量，其中`E`表示边的数量，`D`表示每条边的特征维度。函数返回的是一个维度为`(E, 1)`的张量，表示每条边的softmax概率。