昇思25天学习打卡营第4天|数据集Dataset

最新推荐文章于 2025-08-06 16:55:17 发布

ptyp

最新推荐文章于 2025-08-06 16:55:17 发布

阅读量483

点赞数 5

CC 4.0 BY-SA版权

分类专栏：昇思学习打卡营文章标签：学习

本文链接：https://blog.csdn.net/ptyp222/article/details/140024184

数据集 Dataset

介绍

之前说过，MindSpore是基于Pipeline，通过Dataset和Transformer进行数据处理。Dataset在其中是用来加载原始数据的。mindSpore提供了数据集加载接口，可以加载文本、图像、音频等，同时也可以自定义加载接口。此外还提供了预加载的数据集，可直接使用。

环境配置

import numpy as np
from mindspore.dataset import vision
from mindspore.dataset import MnistDataset, GeneratorDataset
import matplotlib.pyplot as plt

加载dataset

依然使用之前的图片及其标签数据集Mnist

train_dataset = MnistDataset("MNIST_Data/train", shuffle=False)

数据集迭代

数据集加载后，一般使用迭代的方式获取数据，再送入神经网络中训练。
访问的数据类型默认为Tensor，可以设置为Numpy output_numpy=True

def visualize(dataset):
    figure = plt.figure(figsize=(4, 4))
    cols, rows = 3, 3

    plt.subplots_adjust(wspace=0.5, hspace=0.5)

	# 这里进行每个数据点的迭代处理
    for idx, (image, label) in enumerate(dataset.create_tuple_iterator())