TensorFlow数据加载：预加载、占位符与文件读取

PDF文件

151KB | 更新于2024-08-31 | 22 浏览量 | 举报收藏

立即下载

"本文主要探讨了TensorFlow加载数据的三种方法，包括预加载数据、通过Feeding Python数据以及从文件中直接读取数据，并对每种方法的特点进行了详细阐述。" 在TensorFlow中，数据的加载是构建和训练深度学习模型的关键步骤。以下是三种加载数据的方式： 1. 预加载数据：这种方法是在构建图（Graph）时就将数据直接内嵌到图中。例如，可以创建两个常量节点`x1`和`x2`，然后进行加法运算得到`y`。在开启一个会话（Session）并运行会话时，数据已经存在于图中，不需要额外的输入。这种方式的优点是简单且高效，但当数据量较大时，由于整个图需要传输到Session，可能会遇到效率问题。 ```python import tensorflow as tf x1 = tf.constant([2, 3, 4]) x2 = tf.constant([4, 0, 1]) y = tf.add(x1, x2) with tf.Session() as sess: print(sess.run(y)) ``` 2. Feeding Python数据：这种方法使用占位符（Placeholder）来表示数据，然后在运行会话时通过`feed_dict`参数将Python生成的数据传递给后端进行计算。这种方式更加灵活，可以在运行时动态地输入不同数据，适用于数据集大小可变或者需要多次迭代的情况。然而，每次运行都需要手动提供数据。 ```python import tensorflow as tf x1 = tf.placeholder(tf.int16) x2 = tf.placeholder(tf.int16) y = tf.add(x1, x2) li1 = [2, 3, 4] li2 = [4, 0, 1] with tf.Session() as sess: print(sess.run(y, feed_dict={x1: li1, x2: li2})) ``` 3. 从文件中直接读取：这种方式适用于数据存储在文件系统中，例如CSV、TFRecords或HDF5等格式。TensorFlow提供了I/O操作接口，可以直接在图中读取文件。这种方式可以实现数据的批量处理和流式传输，特别适合大数据集和分布式训练。 ```python import tensorflow as tf # 假设数据存储在TFRecords文件中 filename_queue = tf.train.string_input_producer(["data.tfrecords"]) reader = tf.TFRecordReader() _, serialized_example = reader.read(filename_queue) features = tf.parse_single_example(serialized_example, features={ 'feature1': tf.FixedLenFeature([], tf.float32), 'feature2': tf.FixedLenFeature([], tf.int64) }) # 创建数据批处理 batch_features = tf.train.batch([features['feature1'], features['feature2']], batch_size=32) # 在会话中启动数据读取 with tf.Session() as sess: coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(coord=coord) try: while not coord.should_stop(): batch_data = sess.run(batch_features) # 处理数据 except tf.errors.OutOfRangeError: pass finally: coord.request_stop() coord.join(threads) ``` 这三种方式各有优缺点，选择哪种取决于具体的应用场景。预加载适合数据量较小的情况；Feeding Python数据适合数据动态变化或需要多次迭代的场景；从文件中读取数据则适用于大型数据集的批处理和分布式训练。根据项目需求，开发者可以根据数据量、效率和灵活性等因素来选择最适合的加载策略。

详解详解tensorflow载入数据的三种方式载入数据的三种方式

主要介绍了详解tensorflow载入数据的三种方式，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一

起跟随小编过来看看吧

Tensorflow数据读取有三种方式：

1. Preloaded data: 预加载数据

2. Feeding: Python产生数据，再把数据喂给后端。

3. Reading from file: 从文件中直接读取

这三种有读取方式有什么区别呢？我们首先要知道TensorFlow(TF)是怎么样工作的。

TF的核心是用C++写的，这样的好处是运行快，缺点是调用不灵活。而Python恰好相反，所以结合两种语言的优势。涉及计

算的核心算子和运行框架是用C++写的，并提供API给Python。Python调用这些API，设计训练模型(Graph)，再将设计好的

Graph给后端去执行。简而言之，Python的角色是Design，C++是Run。

一、预加载数据：一、预加载数据：

import tensorflow as tf

# 设计Graph

x1 = tf.constant([2, 3, 4])

x2 = tf.constant([4, 0, 1])

y = tf.add(x1, x2)

# 打开一个session --> 计算y

with tf.Session() as sess:

print sess.run(y)

二、二、python产生数据，再将数据喂给后端产生数据，再将数据喂给后端

import tensorflow as tf

# 设计Graph

x1 = tf.placeholder(tf.int16)

x2 = tf.placeholder(tf.int16)

y = tf.add(x1, x2)

# 用Python产生数据

li1 = [2, 3, 4]

li2 = [4, 0, 1]

# 打开一个session --> 喂数据 --> 计算y

with tf.Session() as sess:

print sess.run(y, feed_dict={x1: li1, x2: li2})

说明：在这里x1, x2只是占位符，没有具体的值，那么运行的时候去哪取值呢？这时候就要用到sess.run()中的feed_dict参

数，将Python产生的数据喂给后端，并计算y。

这两种方案的缺点：

1、预加载：将数据直接内嵌到Graph中，再把Graph传入Session中运行。当数据量比较大时，Graph的传输会遇到效率问

题。

2、用占位符替代数据，待运行的时候填充数据。

前两种方法很方便，但是遇到大型数据的时候就会很吃力，即使是Feeding，中间环节的增加也是不小的开销，比如数据类型

转换等等。最优的方案就是在Graph定义好文件读取的方法，让TF自己去从文件中读取数据，并解码成可使用的样本集。

三、从文件中读取，简单来说就是将数据读取模块的图搭好三、从文件中读取，简单来说就是将数据读取模块的图搭好

1、准备数据，构造三个文件,A.csv,B.csv,C.csv

$ echo -e "Alpha1,A1Alpha2,A2Alpha3,A3" > A.csv

$ echo -e "Bee1,B1Bee2,B2Bee3,B3" > B.csv

$ echo -e "Sea1,C1Sea2,C2Sea3,C3" > C.csv

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38562392

粉丝: 4

TensorFlow数据加载：预加载、占位符与文件读取

详解Tensorflow数据读取有三种方式（next_batch）

TensorFlow数据读取

Tensorflow MNIST 数据集打包

终端命令查看TensorFlow版本号及路径的方法

TensorFlow版Swin-Transformer代码实现详解

PLC梯形图符号详解与编程实例-Tensorflow CKPT节点解析

TensorFlow Ckpt节点详解：从单流程到PLC梯形图编程

Python学习手册第4版源代码详解

TensorFlow Keras中的目标检测技术详解

【TensorFlow 2.0中的数据处理】：实战技巧大公开

最新资源