Python 图像分类入门-CSDN博客

本文链接：https://blog.csdn.net/weixin_50233496/article/details/149040487

一、介绍

图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用 Python 进行图像分类的全过程。

二、环境搭建

在开始图像分类项目前，需要确保 Python 环境中安装了必要的库。主要包括：

TensorFlow：一个强大的深度学习框架，用于构建和训练神经网络模型。

Keras：基于 TensorFlow 的高级神经网络 API，简化了模型的搭建和训练过程。

NumPy：用于处理多维数组和矩阵运算，是深度学习中数据处理的基础库。

Matplotlib：用于数据可视化，方便查看图像数据和训练结果。

可以使用以下命令通过 pip 包管理器进行安装：

pip install tensorflow numpy matplotlib

若使用的是 Anaconda 环境，也可通过 conda 命令安装：

conda install tensorflow numpy matplotlib

三、数据集准备

（一）选择合适的数据集

常用的图像分类数据集有 MNIST（手写数字识别）、CIFAR - 10（包含 10 个类别的 60000 张 32x32 彩色图像）、Caltech 101/Caltech 256（分别包含 101 类和 256 类图像）等。以 CIFAR - 10 数据集为例，它是 Keras 库自带的，加载起来较为方便。

（二）加载数据集

使用 Keras 加载 CIFAR - 10 数据集的代码如下：

import tensorflow as tf

from tensorflow.keras.datasets import cifar10

# 加载数据集

(X_train, y_train), (X_test, y_test) = cifar10.load_data()

其中，X_train和y_train分别是训练集的图像数据和标签，X_test和y_test是测试集的图像数据和标签。

（三）数据预处理

为了提高模型的训练效率和性能，通常需要对数据进行预处理：

数据归一化：将图像像素值从 0 - 255 归一化到 0 - 1 范围，使模型更容易收敛。

X_train = X_train.astype('float32') / 255.0

X_test = X_test.astype('float32') / 255.0

2.标签编码：对于多分类问题，需要将标签转换为 one - hot 编码形式。

from tensorflow.keras.utils import to_categorical

y_train = to_categorical(y_train, 10)

y_test = to_categorical(y_test, 10)

四、构建图像分类模型

卷积神经网络（CNN）在图像分类任务中表现出色，它能够自动提取图像的特征。下面使用 Keras 构建一个简单的 CNN 模型。

（一）导入必要的库

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout

（二）搭建模型结构

# 构建卷积神经网络模型
model = Sequential()

# 第一个卷积层，32个3x3的滤波器，ReLU激活函数 通过卷积核在图像上滑动进行卷积操作，提取图像的局部特征
model.add(Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)))
# 第一个池化层，2x2的池化窗口  通常采用最大池化，对特征图进行下采样，减少特征图的尺寸，降低计算量。
model.add(MaxPooling2D((2, 2)))
# Dropout层，防止过拟合
model.add(Dropout(0.25))

# 第二个卷积层，64个3x3的滤波器，ReLU激活函数
model.add(Conv2D(64, (3, 3), activation='relu'))
# 第二个池化层，2x2的池化窗口
model.add(MaxPooling2D((2, 2)))
# Dropout层
model.add(Dropout(0.25))

# 展平层，将多维输入一维化
model.add(Flatten())
# 全连接层，64个神经元，ReLU激活函数
model.add(Dense(64, activation='relu'))
# Dropout层
model.add(Dropout(0.5))
# 输出层，10个神经元，softmax激活函数（用于多分类）
model.add(Dense(10, activation='softmax'))

卷积层（Conv2D）：通过卷积核在图像上滑动进行卷积操作，提取图像的局部特征。
池化层（MaxPooling2D）：通常采用最大池化，对特征图进行下采样，减少特征图的尺寸，降低计算量。
Flatten 层：将多维的特征图转换为一维向量，以便输入到全连接层。
全连接层（Dense）：对提取的特征进行分类，最后一层使用 softmax 激活函数，输出每个类别的概率。
Dropout 层：在训练过程中随机丢弃部分神经元，防止过拟合。

（三）编译模型

     model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

优化器（optimizer）：选择adam优化器，它是一种自适应学习率的优化算法，能够在训练过程中自动调整学习率。

损失函数（loss）：对于多分类问题，使用categorical_crossentropy交叉熵损失函数，用于衡量模型预测结果与真实标签之间的差异。

评估指标（metrics）：选择accuracy作为评估指标，用于在训练和测试过程中监控模型的准确率。

五、模型训练

（一）开始训练

使用预处理后的训练数据对模型进行训练，代码如下：

history = model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=20, batch_size=64, verbose=2)

训练数据（X_train, y_train）：输入训练集的图像数据和标签。

验证数据（validation_data）：使用测试集数据作为验证数据，在训练过程中监控模型在验证集上的性能，防止过拟合。

训练轮数（epochs）：设置为 20，表示模型将对整个训练数据集进行 20 次训练。

批量大小（batch_size）：设置为 64，即每次训练使用 64 张图像进行计算。

verbose：设置为 2，表示在训练过程中打印简洁的训练信息。在训练过程中，合理设置训练参数至关重要。epochs和batch_size的选择会影响模型的训练速度与效果，若epochs设置过大，可能导致过拟合；batch_size设置不合理，可能使模型收敛缓慢。verbose参数能帮助开发者实时了解训练进度，以便及时发现问题并调整训练策略。

（二）训练过程分析

在训练过程中，模型会输出每一轮训练的损失值和准确率，以及在验证集上的损失值和准确率。可以通过 Matplotlib 库绘制训练过程中的损失曲线和准确率曲线，以便更好地理解模型的训练情况。

# 绘制训练和验证的损失曲线

plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)

plt.plot(history.history['loss'], label='Train Loss')

plt.plot(history.history['val_loss'], label='Validation Loss')

plt.title('Loss')

plt.xlabel('Epoch')

plt.ylabel('Loss')

plt.legend()



# 绘制训练和验证的准确率曲线

plt.subplot(1, 2, 2)

plt.plot(history.history['accuracy'], label='Train Accuracy')

plt.plot(history.history['val_accuracy'], label='Validation Accuracy')

plt.title('Accuracy')

plt.xlabel('Epoch')

plt.ylabel('Accuracy')

plt.legend()



plt.show()

通过观察曲线，可以判断模型是否出现过拟合（训练集准确率高，验证集准确率低，且验证集损失值上升），以及模型是否收敛（损失值是否持续下降并趋于平稳）。

六、模型评估

训练完成后，需要在测试集上评估模型的性能：


test_loss, test_acc = model.evaluate(X_test, y_test, verbose=2)

print(f'\nTest accuracy: {test_acc}')

model.evaluate函数返回模型在测试集上的损失值和准确率。通过评估结果，可以了解模型在未见过的数据上的表现，判断模型的泛化能力。

七、模型预测

使用训练好的模型对新的图像进行预测：

加载并预处理新的图像，确保图像的尺寸和格式与训练数据一致。

使用model.predict函数进行预测，该函数返回一个概率数组，数组的每个元素表示图像属于对应类别的概率。

使用np.argmax函数获取概率最大的类别索引，即预测的类别。

示例代码如下：

# 加载新图像

img = image.load_img('new_image.jpg', target_size=(32, 32))

img = image.img_to_array(img)

img = np.expand_dims(img, axis = 0)

img = img / 255.0



# 预测

predictions = model.predict(img)

predicted_class = np.argmax(predictions)

print('Predicted class:', predicted_class)