Tensorflow中批量读取数据的案列分析及TFRecord文件的打包与读取资源-CSDN下载

65 浏览量 2020-09-16 14:46:43 上传评论收藏 76KB PDF 举报

主要介绍了Tensorflow中批量读取数据的案列分析及TFRecord文件的打包与读取,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧在TensorFlow中，高效地处理大量数据是训练深度学习模型的关键。本文将深入探讨如何在TensorFlow中批量读取数据，以及如何使用TFRecord文件进行数据的打包与读取。我们来看单一数据的读取方式。有两种常用的方法：`slice_input_producer()` 和 `string_input_producer()`。 1. `slice_input_producer()`：这个函数可以生成一个可随机访问的数据流，用于在训练过程中按顺序或随机地读取数据。例如，你可以将图片路径和对应的标签作为列表传递给它，然后通过`Session.run([images, labels])`获取数据。值得注意的是，`num_epochs=None`表示无限循环，`shuffle=True`则表示数据会被随机打乱。 ```python images = ['image1.jpg', 'image2.jpg', 'image3.jpg', 'image4.jpg'] labels = [1, 2, 3, 4] [images, labels] = tf.train.slice_input_producer([images, labels], num_epochs=None, shuffle=True) ``` 2. `string_input_producer()`：这种方法适用于读取文件列表。你需要创建一个文件队列，然后用`WholeFileReader()`读取文件内容。`key`是文件名，`value`是文件内容。 ```python filename = ['file1.txt', 'file2.txt'] file_queue = tf.train.string_input_producer(filename, num_epochs=None, shuffle=True) reader = tf.WholeFileReader() key, value = reader.read(file_queue) ``` 接下来，我们讨论批量数据的读取。这通常在训练模型时使用，因为它能提高效率并减少内存消耗。有两种常用的方法：`tf.train.batch()` 和 `tf.train.shuffle_batch()`。 1. `tf.train.batch()`：这个函数简单地将数据批量化，但不保证数据的随机性。例如，你可以设置`batch_size=2`来每次读取两个样本。 ```python tensors = ... batched_tensors = tf.train.batch(tensors, batch_size=batch_size) ``` 2. `tf.train.shuffle_batch()`：此函数不仅批量化数据，还会进行随机打乱，确保每个批次的样本是随机选取的。`capacity`参数定义了队列的最大容量，`min_after_dequeue`参数确保队列至少有这么多样本才能进行下一次随机选择。 ```python tensors = ... batched_tensors = tf.train.shuffle_batch(tensors, batch_size=batch_size, capacity=10*batch_size, min_after_dequeue=5*batch_size) ``` 在实际运行`Session.run()`之前，别忘了启动文件队列线程，使用`tf.train.start_queue_runners()`。现在，让我们转向TFRecord文件。TFRecord是一种二进制文件格式，用于存储序列化的TensorFlow数据。它方便数据的分发、存储和加载。 1. 数据打包成TFRecord：将数据写入TFRecord文件，你可以使用`tf.python_io.TFRecordWriter`。将数据转换为字符串并添加到`Example`消息中，然后使用`tf.train.Example`的`SerializeToString()`方法序列化，最后写入文件。 ```python writer = tf.python_io.TFRecordWriter('data.tfrecords') for data in dataset: example = tf.train.Example(features=tf.train.Features(feature={ 'image': tf.train.Feature(bytes_list=tf.train.BytesList(value=[data.image])), 'label': tf.train.Feature(int64_list=tf.train.Int64List(value=[data.label])) })) writer.write(example.SerializeToString()) writer.close() ``` 2. 读取TFRecord文件：使用`tf.parse_single_example()`解析TFRecord文件中的单个记录，然后用`tf.TFRecordReader`读取。 ```python reader = tf.TFRecordReader() key, serialized_example = reader.read(file_queue) features = tf.parse_single_example(serialized_example, features={ 'image': tf.FixedLenFeature([], tf.string), 'label': tf.FixedLenFeature([], tf.int64) }) image = tf.decode_raw(features['image'], tf.uint8) label = tf.cast(features['label'], tf.int32) ``` 总结起来，TensorFlow提供了多种方式来高效地读取和批量处理数据，以及利用TFRecord文件进行数据的持久化存储。理解和掌握这些方法对于构建大规模机器学习系统至关重要，它们能够帮助我们优化模型训练过程，提升性能，并简化数据管理。

资源推荐

资源详情

资源评论

Tensorflow中批量读取数据的案列分析及中批量读取数据的案列分析及TFRecord文件的打文件的打

包与读取包与读取

主要介绍了Tensorflow中批量读取数据的案列分析及TFRecord文件的打包与读取,文中通过示例代码介绍的非常

详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

单一数据读取方式：单一数据读取方式：

　　第一种：slice_input_producer()

# 返回值可以直接通过 Session.run([images, labels])查看，且第一个参数必须放在列表中，如[...]

[images, labels] = tf.train.slice_input_producer([images, labels], num_epochs=None, shuffle=True)

　　第二种：string_input_producer()

# 需要定义文件读取器，然后通过读取器中的 read()方法来获取数据（返回值类型 key,value），再通过 Session.run(value)查看

file_queue = tf.train.string_input_producer(filename, num_epochs=None, shuffle=True)

reader = tf.WholeFileReader() # 定义文件读取器

key, value = reader.read(file_queue) # key：文件名；value：文件中的内容

　　！！！num_epochs=None，不指定迭代次数，这样文件队列中元素个数也不限定（None*数据集大小）。

　　！！！如果它不是None，则此函数创建本地计数器 epochs，需要使用local_variables_initializer()初始化局部变量

　　！！！以上两种方法都可以生成文件名队列。

（随机）批量数据读取方式：（随机）批量数据读取方式：

batchsize=2　　# 每次读取的样本数量

tf.train.batch(tensors, batch_size=batchsize)

tf.train.shuffle_batch(tensors, batch_size=batchsize, capacity=batchsize*10, min_after_dequeue=batchsize*5) # capacity > min_after_dequeue

　　！！！以上所有读取数据的方法，在Session.run()之前必须开启文件队列线程 tf.train.start_queue_runners()

TFRecord文件的打包与读取文件的打包与读取

一、单一数据读取方式一、单一数据读取方式

第一种：slice_input_producer()

def slice_input_producer(tensor_list, num_epochs=None, shuffle=True, seed=None, capacity=32, shared_name=None, name=None)

案例1：

import tensorflow as tf

images = ['image1.jpg', 'image2.jpg', 'image3.jpg', 'image4.jpg']

labels = [1, 2, 3, 4]

# [images, labels] = tf.train.slice_input_producer([images, labels], num_epochs=None, shuffle=True)

# 当num_epochs=2时，此时文件队列中只有 2*4=8个样本，所有在取第9个样本时会出错

# [images, labels] = tf.train.slice_input_producer([images, labels], num_epochs=2, shuffle=True)

data = tf.train.slice_input_producer([images, labels], num_epochs=None, shuffle=True)

print(type(data)) # <class 'list'>

with tf.Session() as sess:

# sess.run(tf.local_variables_initializer())

sess.run(tf.local_variables_initializer())

coord = tf.train.Coordinator() # 线程的协调器

threads = tf.train.start_queue_runners(sess, coord) # 开始在图表中收集队列运行器

for i in range(10):

print(sess.run(data))

coord.request_stop()

coord.join(threads)

"""

运行结果：

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

评论收藏

内容反馈

weixin_38643212

粉丝: 3

Tensorflow中批量读取数据的案列分析及TFRecord文件的打包与读取

Tensorflow分批量读取数据教程

tensorflow TFRecords文件的生成和读取的方法

tfrecord数据集读取

一篇搞定TFRecord（内附代码+数据集）-附件资源

Tensorflow 实现将图像与标签数据转化为tfRecord文件

spark-tfrecord:从Apache Spark读取和写入Tensorflow TFRecord数据

tensorflow如何批量读取图片

Matlab批量读取mat格式文件

TensorFlow数据读取

matlab批量读取并处理.csv文件

matlab批量读取excel表格数据并处理画图(实操)

TensorFlow实现数据集读取代码示例

TFRecord文件读取

TensorFlow 读取CSV数据的实例

matlab中读取txt数据文件

MATLAB批量读取NC数据并计算年平均

MATLAB bin 文件 读取数据

批量读取NC文件并转为tif格式导出

Tensorflow MNIST 数据集打包

IDL读取数据文件程序整理

tfrecord使用代码

批量inp计算与数据读取_inp_matlab-abaqus_MATLABABAQUS_ABAQUSinp_abaqus批量_源

File_Batch_Processing.rar_batch_批量读取_批量读取文件

change_samefolder_delete_incomplete_data.zip_baddut_批量读取_批量读取文件、

C#MODBUSTCPIP批量读取基恩士PLCKV-7500.zip

批量读取EDF文件，并另存为.mat文件

算法的时间复杂度与空间复杂度

【实操教程】Coze工作流一键生成“励志情感”视频，零基础小白保姆级教学！

最新资源

MATLAB bin 文件读取数据