- 博客(59)
- 收藏
- 关注
原创 08.创建自己的图神经网络数据集
尽管 PyG 已经包含了许多有用的数据集,但你可能希望使用自己记录的数据或非公开可用的数据来创建自己的数据集。自己实现数据集非常简单,你可能需要查看源代码来了解各种数据集是如何实现的。不过,我们会简要介绍搭建自己的数据集所需的内容。和。继承自,若整个数据集可放入 CPU 内存,则应使用该类。遵循的惯例,每个数据集都会被传入一个根文件夹,该文件夹指明了数据集的存储位置。我们将根文件夹分为两个子文件夹:一个是raw_dir,用于存放下载的原始数据集;另一个是,用于保存处理后的数据集。
2025-07-14 09:47:44
213
原创 07.异构图神经网络
大量现实世界的数据集以异质图(heterogeneous graphs )的形式存储,这促使在PyG(PyTorch Geometric )中为它们引入专门的功能。例如,推荐领域中的大多数图,如社交图,都是异质的,因为它们存储了关于不同类型实体及其不同类型关系的信息。本教程将介绍异质图如何映射到PyG,以及它们如何用作图神经网络(Graph Neural Network)模型的输入。异构图的节点和边附有不同类型的信息。因此,由于类型和维度的差异,单个节点或边特征张量无法容纳整个图的所有节点或边特征。
2025-07-12 17:07:59
275
原创 06.消息传递网络
本文摘要: PyTorch Geometric中的MessagePassing基类简化了图神经网络(GNN)的实现,用户只需定义消息函数(message)、更新函数(update)和聚合方案(aggr)。文章以GCN和EdgeConv为例,展示了如何使用该基类实现消息传递机制。GCN层通过添加自环、线性变换、归一化和聚合来更新节点特征;EdgeConv则利用节点间特征差异和MLP计算边信息,采用max聚合。两种实现都继承MessagePassing类,分别使用add和max聚合方式,并通过propagate
2025-07-10 19:43:52
1271
原创 05.第一个图神经网络训练
调用中,因此需要在之后应用(这一点在 PyG 的所有算子中都是一致的)。在这里,我们选择 ReLU 作为中间非线性函数,并最终输出一个关于类别的 softmax 分布。在了解了 PyG 中的数据处理、数据集、加载器和转换后,是时候实现我们的第一个图神经网络了!请注意,我们不需要使用转换器或数据加载器。我们将使用一个简单的 GCN 层,并在 Cora 引用数据集上复现实验。层,在网络的正向传播中被调用。请注意,非线性函数并未集成在。这就是实现你的第一个图神经网络所需的一切。
2025-07-10 11:46:53
237
原创 04.图神经网络的数据转换与增强
让我们来看一个例子,我们在 ShapeNet 数据集(包含 17,000 个 3D 形状点云和 16 个形状类别的每点标签)上应用变换。中转换图像和进行增强的常用方法。PyG 提供了自己的变换,这些变换期望一个。链接在一起,并在将处理后的数据集保存到磁盘(对象作为输入,并返回一个新的变换后的。)之前或访问数据集中的图(此外,我们还可以使用。
2025-07-10 11:39:56
396
原创 02.常用基准(官方)数据集
PyG提供了丰富的图数据集支持,包含三大类基准数据集:图分类数据集(如ENZYMES,含600个图)、半监督节点分类数据集(如Cora引用网络)以及3D点云/网格数据集。数据集加载简单,自动转换为标准Data格式,支持数据分割和随机打乱。ENZYMES示例展示了图分类任务的数据结构,而Cora示例则演示了节点分类任务,包含训练/验证/测试掩码。这些功能为图神经网络研究提供了便捷的数据处理基础。
2025-07-10 10:57:11
195
原创 01.图数据处理
本文介绍了PyG(PyTorch Geometric)中图数据结构的基本表示方法。使用torch_geometric.data.Data类描述图结构,包含节点特征矩阵(x)、边连接关系(edge_index)、边特征(edge_attr)等属性。通过示例展示了如何构建一个三节点四边的无向图,并解释了edge_index的两种表示方式(COO格式和索引元组)。文章还列出了Data类提供的实用方法,如节点/边数量统计、孤立节点检测、数据迁移到GPU等。这些功能为图神经网络模型的构建提供了基础数据结构支持。
2025-07-10 10:10:48
266
原创 pytorch的详细安装教程
本文详细介绍了PyTorch的CPU和GPU版本安装方法。CPU版可直接通过pip安装,GPU版安装需注意:1)确认显卡计算能力≥3.0;2)根据NVIDIA驱动和PyTorch版本选择匹配的CUDA版本;3)安装对应cuDNN库;4)创建虚拟环境后安装PyTorch。文中提供了具体操作步骤和版本匹配指南,并建议配置国内镜像源以加快下载速度。安装后可通过命令行工具验证CUDA和cuDNN是否正常工作。
2025-07-09 15:04:37
885
原创 算法训练第九天
首先将字符串用stip去掉两头的空白,然后将转为列表,然后开一个新的列表,将非空字符串放入,在用join将空格连接列表为字符串即可。
2025-06-05 19:37:10
192
原创 算法训练第七天
这道题如果用暴搜的方式去做的话,时间复杂度为O(N2logN),也会超时。此时可以使用两两组合的方式,前两个数组为一组,后两个数组为一组,遍历两组的和,可以将该问题转化为“两数相加”。此时时间复杂度为O(N^2)。
2025-06-03 20:45:34
240
原创 算法训练第六天
如果是python写的话,会很简单,只需要判断sorted返回的两个字符串是否相等即可,如果使用哈希的思想去解决的话,就开一个字典记录每个字符出现的次数,然后遍历一遍字典看每个字符出现的次数是否一致即可。
2025-06-02 16:08:07
195
原创 (四) 本地YARN集群的部署
本文详细介绍了Hadoop YARN集群的部署配置和启动流程。主要内容包括: YARN核心组件说明:ResourceManager、NodeManager等进程角色; 关键配置文件修改:mapred-env.sh、yarn-env.sh的环境变量设置,以及yarn-site.xml的资源调度参数配置; 集群启动命令:包括一键启停YARN集群、单独管理各进程、历史服务器操作等; 配置分发和WEB监控界面访问方法。提供了完整的YARN集群部署指导方案。
2025-05-29 16:20:49
505
原创 (三) HFDS的shell操作
Hadoop HDFS 操作指南摘要 本文介绍了HDFS的进程管理和文件系统操作两大部分。进程管理包括一键启停脚本和单进程控制方法,详细说明了启动关闭原理及操作命令。文件系统操作部分提供两套命令体系(hadoop/hdfs),涵盖目录创建、文件上传下载、内容查看、数据追加、文件移动删除等常用操作,并解释各命令参数功能。还包含回收站配置说明,是HDFS日常运维的实用参考手册。
2025-05-29 15:41:19
516
原创 (二) 本地HDFS集群环境部署
本文介绍了Hadoop集群的安装与配置过程,主要包括:下载安装包到node1节点并解压;详解Hadoop目录结构及各文件夹用途;配置workers、hadoop-env.sh、core-site.xml和hdfs-site.xml等核心文件;创建数据存储目录并同步到node2和node3节点;配置环境变量;授权hadoop用户;格式化文件系统并启动集群;通过9870端口访问HDFS管理页面。整个流程覆盖了从安装到启动Hadoop集群的关键步骤,为搭建分布式文件系统提供了完整指导。
2025-05-29 14:29:33
960
原创 (一) 本地hadoop虚拟机系统设置
开启node1,修改主机名为node1,并修改固定IP为:192.168.88.131同样的操作启动node2,node3修改node2主机名为node2,设置ip为192.168.88.132修改node3主机名为node3,设置ip为192.168.88.133。
2025-05-20 22:54:28
602
原创 这几种torch.randXX你都知道吗?
函数生成的张量类型范围/分布示例用途torch.rand随机浮点数张量均匀分布 [0, 1)生成指定形状的均匀分布随机浮点数张量随机浮点数张量均匀分布 [0, 1)生成与给定张量形状相同的均匀分布随机浮点数张量随机整数张量整数范围 [low, high)生成指定范围的随机整数张量随机整数张量整数范围 [low, high)生成与给定张量形状相同的指定范围的随机整数张量标准正态分布随机浮点数张量正态分布(均值 0,标准差 1)生成标准正态分布的随机浮点数张量。
2024-12-30 18:46:57
891
原创 浅谈torch.utils.data.TensorDataset和torch.utils.data.DataLoader
是一个将多个张量(Tensor)数据进行简单包装整合的数据集类,它主要的作用是将相关联的数据(比如特征数据和对应的标签数据等)组合在一起,形成一个方便后续用于训练等操作的数据集对象。例如,如果你有输入特征数据x(形状为)和对应的标签数据y(形状为),且它们都是类型,可以这样创建。
2024-12-30 18:13:36
698
原创 详解torch_geometric.data.InMemoryDataset
它主要用于将整个图数据集加载到内存中,方便后续快速地进行数据访问与操作,适用于数据集规模能够完全放入内存的情况,旨在简化图数据的加载、预处理以及供深度学习模型训练、评估等流程的使用。
2024-12-27 14:30:58
1208
原创 在程序执行过程中显示进度条之——tqdm
在执行一些耗时的操作时,例如遍历大规模数据集、训练复杂的机器学习模型(可能需要迭代很多轮次)或者处理大量文件等,若没有进度指示,很难直观知晓任务执行到了什么阶段以及大概还需要多久完成。tqdm就能很好地解决这个问题,它会在终端等输出界面动态显示一个进度条,展示当前任务的进度百分比、已耗时、预计剩余时间等信息,极大地提升了用户体验,并且方便你把控程序运行的时间情况。
2024-12-26 16:24:17
965
原创 使用1D CNN预测蛋白质二级结构
蛋⽩质的⼆级结构有3种模式:sheet, helix, loop。该项目为课后小练习,使用tensorflow2.10编写。想要数据集可添加博主微信获取:l283293400。输⼊:蛋⽩质的氨基酸序列(字⺟表20的字符串)输出:⼆级结构的类别(共3类)数据集:共3000个样本。
2024-05-24 11:04:24
540
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人