pytorch 数据载入

在PyTorch中,数据载入是训练深度学习模型的重要一环。
本文将介绍三种常用的数据载入方式:Dataset、DataLoader、以及自定义的数据加载器。

  1. 使用 Dataset 载入数据
    方法:
from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self, ...):
        # 初始化数据集
        # ...

    def __len__(self):
        # 返回数据集的大小
        return len(self.data)

    def __getitem__(self, idx):
        # 根据索引返回样本和标签
        return self.data[idx], self.labels[idx]

使用示例:

custom_dataset = CustomDataset(...)
  1. 使用 DataLoader 加载数据集
    方法:
from torch.utils.data import DataLoader

data_loader = DataLoader(
    dataset,
    batch_size=32,
    shuffle=True,
    num_workers=4,
    drop_last=True,
)

参数说明:
dataset: 要加载的数据集对象。
batch_size: 每个批次的样本数量。
shuffle: 是否在每个 epoch 开始时打乱数据。
num_workers: 用于数据加载的进程数。
drop_last: 是否丢弃最后一个不完整的批次。
使用示例:

for data, labels in data_loader:
    # 训练模型的逻辑
  1. 使用自定义的 Data Loader
    方法:
from torch.utils.data import DataLoader, IterableDataset

class CustomDataLoader(IterableDataset):
    def __init__(self, ...):
        # 初始化数据加载器
        # ...

    def __iter__(self):
        # 返回一个迭代器
        return iter(self.data)

使用示例:

custom_loader = CustomDataLoader(...)
for data in custom_loader:
    # 自定义数据处理逻辑

注意事项:
Dataset 和 DataLoader 是 PyTorch 提供的数据载入工具,通常能满足大多数情况。
自定义数据加载器 (IterableDataset) 可以用于特殊情况下的数据加载需求。
总结:
使用 Dataset 创建数据集对象,实现 lengetitem 方法。
使用 DataLoader 加载数据集,设置参数如 batch_size、shuffle 等。
可选地,使用自定义的数据加载器 (IterableDataset) 处理特殊情况下的数据载入需求。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

代码写注释

请赞赏我

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值