Tensorflow2.0基础-笔记- tf.data模块使用

最新推荐文章于 2023-12-20 18:19:19 发布

原创最新推荐文章于 2023-12-20 18:19:19 发布 · 215 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow

tensorflow2.0 专栏收录该内容

13 篇文章

订阅专栏

本文介绍使用TensorFlow处理数据集的方法，包括数据切片、转换、打乱、重复及批处理等步骤。通过实例展示了如何从张量创建数据集，并进行有效预处理以供机器学习模型训练使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import tensorflow as tf
import numpy as np

dataset=tf.data.Dataset.from_tensor_slices([1,2,3,4,5,6,7,8,9]) #对数组进行切片存储
for e in dataset:
    print(e)                                                    #这样输出的是tf.Tensor类型
for e in dataset:
    print(e.numpy())                                            #转化成正常数组类型

dataset_2=tf.data.Dataset.from_tensor_slices([[1,2],[3,4],[5,6],[7,8]])
for e in dataset_2:
    print(e)
for e in dataset_2:
    print(e.numpy())

                                        #对字典进行切片，将会把abcd各一个数据拿出作为一个切片
dataset_3=tf.data.Dataset.from_tensor_slices({ 
    'a':[1,2,3,4],
    'b':[5,6,7,8],
    'c':[9,10,11,12],
    'd':[13,14,15,16]
})
for e in dataset_3:
    print(e)

for e in dataset_2.take(2):            #从切片集合中拿出2个切片
    print(e)


#从切片中，按顺序拿取5个数据进入缓冲区，随机从缓冲区拿取以一个放入队列中，将得到的新队列作为新的
#数据集。本质上是对数据进行打乱操作。缓冲区的大小影响着顺序的混乱程度
dataset=dataset.shuffle(5)   
for e in dataset:
    print(e)

dataset=dataset.shuffle(1)
for e in dataset:
    print(e)

#扩充数据集，参数count为重复的次数，count=3即将数据集扩充3倍，之前加入shuffle后，每次扩充的结果#也会被打乱
dataset=dataset.repeat(count=3)
for e in dataset:
    print(e)

#batch操作将数据按顺序3个3个的打包成一个新的数据，在参数为batch_size=3的情况下
dataset=dataset.batch(3)
for e in dataset:
    print(e)