数据集 Dataset
介绍
之前说过,MindSpore是基于Pipeline,通过Dataset和Transformer进行数据处理。Dataset在其中是用来加载原始数据的。mindSpore提供了数据集加载接口,可以加载文本、图像、音频等,同时也可以自定义加载接口。此外还提供了预加载的数据集,可直接使用。
环境配置
import numpy as np
from mindspore.dataset import vision
from mindspore.dataset import MnistDataset, GeneratorDataset
import matplotlib.pyplot as plt
加载dataset
依然使用之前的图片及其标签数据集Mnist
train_dataset = MnistDataset("MNIST_Data/train", shuffle=False)
数据集迭代
数据集加载后,一般使用迭代的方式获取数据,再送入神经网络中训练。
访问的数据类型默认为Tensor,可以设置为Numpy output_numpy=True
def visualize(dataset):
figure = plt.figure(figsize=(4, 4))
cols, rows = 3, 3
plt.subplots_adjust(wspace=0.5, hspace=0.5)
# 这里进行每个数据点的迭代处理
for idx, (image, label) in enumerate(dataset.create_tuple_iterator())