DataLoader中的采样Sampler

超级宇宙无敌暴龙战神

于 2024-12-27 16:37:20 发布

阅读量453

点赞数 4

CC 4.0 BY-SA版权

文章标签： python 深度学习机器学习

本文链接：https://blog.csdn.net/qq_56013891/article/details/144772578

我的python不是很好，就很疑惑sampler没有定义next()函数呀，DataLoader是如何调用sampler的？

sampler 本身并没有直接定义 next() 函数，而是通过继承 torch.utils.data.Sampler 类来实现的。

1. `Sampler` 是如何工作的？

Sampler 只是一个抽象基类，用于定义如何从数据集中选择样本。它不直接实现 next() 函数，而是通过 __iter__() 方法来生成一个迭代器，这个迭代器会返回一个个样本的索引。

DataLoader 使用 Sampler 返回的索引来从 Dataset 中提取样本。由于 Sampler 返回的是样本的索引，所以实际上它提供了一个迭代器，而这个迭代器在 DataLoader 中会被 next() 调用。

2. 具体例子：如何通过 `Sampler` 迭代

以 RandomSampler 为例，它的代码大致如下：

class RandomSampler(Sampler):
    def __init__(self, data_source):
        self.data_source = data_source
        self.num_samples = len(data_source)

    def __iter__(self):
        return iter(torch.randperm(self.num_samples).tolist())  # 返回一个随机排列的索引列表

在上面的代码中，RandomSampler 是继承自 Sampler 的自定义采样器。__iter__() 方法通过 torch.randperm(self.num_samples) 来生成一个随机的索引序列，然后返回一个迭代器。

当 DataLoader 使用 RandomSampler 时，它会通过 next() 调用这个迭代器来获取下一个索引。