YOLO 模型进行图像目标检测预测：代码详解与实践应用

原创已于 2025-07-10 10:56:15 修改 · 645 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#图像处理 #人工智能 #目标检测 #迁移学习 #分类 #python

于 2025-06-27 08:10:57 首次发布

目标检测专栏收录该内容

36 篇文章

订阅专栏

在计算机视觉领域，目标检测技术一直是研究和应用的热点。从传统的机器视觉方法到如今的深度学习模型，目标检测的精度和效率都得到了质的飞跃。其中，YOLO（You Only Look Once）系列模型凭借其出色的实时性和较高的检测精度，成为了众多开发者和研究者的首选工具。本文将围绕一段基于 Ultralytics 库的 YOLO 模型预测代码，详细解析其实现原理、参数含义以及在实际场景中的应用，帮助读者深入理解 YOLO 模型的预测过程。

代码整体框架与作用

我们先来看一下这段用于 YOLO 模型预测的代码：

import warnings

warnings.filterwarnings('ignore')

from ultralytics import YOLO

if __name__ == '__main__':

# Load the model with the correct path to the weights file

model = YOLO('runs/detect/yolo-DUO/weights/epoch10.pt') # Select your model.pt path

# Predict using the model

model.predict(source=r'C:\Users\Administrator\Desktop\UIQS\UIQS', # Directory containing images

imgsz=640, # Image size for predictions

project='AFWF-UIQS', # Output directory

name='AFWF-UIQS-原图', # Output folder name

save=True) # Save the predictions

这段代码看似简短，但却包含了 YOLO 模型预测的核心流程。它主要实现了以下功能：首先，导入必要的库并忽略可能出现的警告信息；然后，加载训练好的 YOLO 模型权重文件；最后，使用加载好的模型对指定目录下的图像进行目标检测预测，并将预测结果保存到指定的输出目录中。

接下来，我们将对这段代码进行逐行、逐部分的详细解析，深入了解每个步骤的具体作用和背后的原理。

库的导入与警告处理

代码的开头部分是库的导入和警告处理，这部分内容虽然简单，但对于保证代码的稳定运行和减少不必要的干扰信息至关重要。

import warnings

warnings.filterwarnings('ignore')

from ultralytics import YOLO

导入 warnings 库：warnings库是 Python 的标准库之一，用于处理程序运行过程中产生的警告信息。警告信息通常不会导致程序终止，但可能会干扰开发者对关键输出信息的观察。在实际开发中，合理处理警告信息可以让程序的输出更加清晰。

忽略警告信息：warnings.filterwarnings('ignore')这行代码的作用是忽略程序运行过程中产生的所有警告信息。在使用一些第三方库时，可能会因为版本更新、接口变化等原因产生大量警告信息，这些信息有时并不是错误，但会占用输出界面的空间。通过设置忽略警告，可以让我们更专注于模型预测的结果输出。不过，在调试程序时，有时需要查看警告信息来排查问题，这时可以将这行代码注释掉。

导入 YOLO 类：from ultralytics import YOLO从ultralytics库中导入了YOLO类。ultralytics是一个专注于计算机视觉任务的库，其中包含了 YOLO 系列模型的实现，方便开发者进行模型的训练、预测等操作。YOLO（You Only Look Once）是一种基于深度学习的目标检测算法，它的特点是将目标检测任务转化为一个回归问题，通过单次神经网络的前向传播即可同时预测目标的边界框和类别，具有速度快、精度高的优点。

主程序入口

在 Python 中，if __name__ == '__main__':是一个常用的代码结构，用于指定当模块被直接运行时执行的代码块。

if __name__ == '__main__':

这行代码的作用是判断当前模块是否是作为主程序运行。当模块被直接运行时，__name__变量的值为'__main__'，此时if条件成立，缩进部分的代码会被执行；当模块被其他程序导入时，__name__变量的值为模块的名称，此时if条件不成立，缩进部分的代码不会被执行。

这种结构的好处是可以将模块中的测试代码、示例代码等放在if __name__ == '__main__':下面，既方便在开发时直接运行模块进行测试，又不会在模块被导入时执行这些测试代码，避免对其他程序造成干扰。在我们的 YOLO 预测代码中，所有的模型加载和预测操作都放在了这个代码块中，确保了代码的独立性和可执行性。

加载 YOLO 模型

加载训练好的模型是进行预测的前提，这一步骤的核心是正确指定模型权重文件的路径，确保模型能够被成功加载。

# Load the model with the correct path to the weights file

model = YOLO('runs/detect/yolo-DUO/weights/epoch10.pt') # Select your model.pt path

YOLO 类的实例化：YOLO('runs/detect/yolo-DUO/weights/epoch10.pt')创建了一个YOLO类的实例，也就是加载了一个 YOLO 模型。这里的参数是模型权重文件的路径，权重文件中保存了模型训练过程中学习到的参数，这些参数决定了模型的检测能力。

模型权重文件路径：'runs/detect/yolo-DUO/weights/epoch10.pt'是模型权重文件的路径。从路径的命名来看，这个权重文件是在runs/detect/yolo-DUO目录下的weights文件夹中，文件名为epoch10.pt。其中，epoch10表示这个权重文件是模型在训练到第 10 个 epoch 时保存的。在模型训练过程中，通常会每隔一定的 epoch 保存一次模型权重，以便在训练中断或需要选择最优模型时使用。

不同的训练过程和模型配置会导致权重文件的路径不同，在实际使用时，需要根据自己的模型训练情况修改这个路径，确保能够正确找到对应的权重文件。如果路径错误，程序会抛出文件不存在的错误，导致模型加载失败。

模型的结构与权重的关系：需要注意的是，加载模型时，YOLO 类会根据权重文件自动推断模型的结构。YOLO 系列模型有多个版本，如 YOLOv5、YOLOv7、YOLOv8 等，不同版本的模型结构有所差异，但ultralytics库中的 YOLO 类能够兼容不同版本的权重文件，自动匹配相应的模型结构，这为开发者提供了很大的便利。

模型预测参数设置与执行

模型加载完成后，就进入了模型预测的核心环节，这部分代码指定了预测的输入源、图像尺寸、输出目录等关键参数，并执行预测操作。


# Predict using the model

model.predict(source=r'C:\Users\Administrator\Desktop\UIQS\UIQS', # Directory containing images

imgsz=640, # Image size for predictions

project='AFWF-UIQS', # Output directory

name='AFWF-UIQS-原图', # Output folder name

save=True) # Save the predictions

model.predict()方法是YOLO类中用于执行目标检测预测的核心方法，它接受多个参数来配置预测过程，下面我们将对每个参数进行详细解析。

source 参数：source=r'C:\Users\Administrator\Desktop\UIQS\UIQS'指定了预测的输入源，这里设置的是一个目录路径，表示模型将对该目录下的所有图像进行检测预测。source参数的取值非常灵活，除了目录路径外，还可以是单张图像的路径、视频文件的路径、摄像头的索引（用于实时检测）等。例如，如果要对单张图像进行预测，可以将source设置为该图像的具体路径，如source='test.jpg'；如果要进行实时摄像头检测，可以设置source=0（0 通常表示默认摄像头）。

路径字符串前的r表示这是一个原始字符串，在 Python 中，原始字符串可以避免反斜杠\被解释为转义字符。在 Windows 系统中，文件路径通常使用反斜杠\作为分隔符，使用原始字符串可以确保路径的正确解析，避免因转义字符导致的路径错误。

imgsz 参数：imgsz=640设置了模型进行预测时输入图像的尺寸，这里表示将图像的大小调整为 640x640 像素。在目标检测中，模型对输入图像的尺寸有特定要求，通常需要将输入图像调整到固定的尺寸后再输入到模型中。这是因为神经网络的输入层神经元数量是固定的，只有输入固定尺寸的图像才能保证网络的正常运行。

640x640 是 YOLO 系列模型常用的输入尺寸之一，这个尺寸在检测精度和计算效率之间取得了较好的平衡。如果设置的尺寸过大，会增加模型的计算量，降低预测速度；如果尺寸过小，则可能会丢失图像中的细节信息，影响检测精度。在实际应用中，可以根据具体的任务需求和硬件设备性能调整这个参数。需要注意的是，imgsz参数可以设置为一个整数（如 640，表示图像的宽度和高度都调整为该值），也可以设置为一个元组（如 (480, 640)，表示将图像的高度调整为 480，宽度调整为 640）。

project 参数：project='AFWF-UIQS'指定了预测结果的输出项目目录，所有与该项目相关的预测结果都将保存在这个目录下。设置项目目录可以将不同任务、不同模型的预测结果进行分类管理，避免文件的混乱。例如，在进行多个不同场景的目标检测任务时，可以为每个任务设置不同的project名称，使得各个任务的输出结果相互独立。

name 参数：name='AFWF-UIQS-原图'设置了输出文件夹的名称，该文件夹位于project指定的目录下，用于存放本次预测的具体结果文件。name参数的设置可以更细致地对预测结果进行分类，例如，在对同一批图像使用不同的模型参数进行预测时，可以通过不同的name来区分不同参数下的预测结果。这里的'AFWF-UIQS-原图'可能表示这是对UIQS相关的原始图像进行预测的结果。

save 参数：save=True表示在预测完成后保存预测结果。预测结果通常包括标注了目标边界框和类别信息的图像，这些图像可以直观地展示模型的检测效果。如果将save设置为False，则模型只会在控制台输出预测的相关信息（如目标的类别、置信度、边界框坐标等），而不会保存图像结果。在实际应用中，根据是否需要保留可视化的预测结果来设置该参数。

当model.predict()方法被调用后，模型会按照设置的参数对输入源中的图像进行处理：首先将图像调整到imgsz指定的尺寸，然后通过神经网络进行前向传播计算，得到目标的检测结果（包括目标的类别、置信度和边界框坐标），最后将检测结果可视化到图像上，并根据save参数的设置决定是否保存结果图像到project/name指定的目录中。

模型预测的工作流程

为了更好地理解model.predict()方法的内部工作机制，我们可以将模型的预测过程大致分为以下几个步骤：

输入数据读取与预处理：模型首先读取source参数指定的输入源中的图像数据。对于图像文件，会将其加载到内存中；对于视频文件或摄像头输入，会按帧读取图像。读取完成后，对图像进行预处理操作，主要包括将图像尺寸调整为imgsz指定的大小、进行归一化处理（将像素值从 0-255 转换到 0-1 或其他指定范围）、可能的色彩空间转换等。这些预处理操作是为了使输入图像符合模型的输入要求，确保模型能够正常进行计算。

神经网络前向传播：预处理后的图像被输入到 YOLO 模型的神经网络中进行前向传播计算。YOLO 模型的网络结构通常包含 backbone（主干网络）、neck（颈部网络）和 head（头部网络）三个部分。backbone 用于对输入图像进行特征提取，生成不同尺度的特征图；neck 部分对这些特征图进行融合和增强，以提高模型对不同大小目标的检测能力；head 部分则基于融合后的特征图进行目标的类别预测和边界框回归，输出目标的类别概率、置信度和边界框坐标等信息。

后处理操作：神经网络输出的原始结果需要经过后处理才能得到最终的检测结果。后处理主要包括非极大值抑制（NMS）操作，其目的是去除重叠度较高的冗余边界框，保留置信度最高的边界框。因为在目标检测中，模型可能会对同一个目标预测出多个边界框，NMS 操作可以筛选出最优的边界框，提高检测结果的准确性。

结果可视化与输出：经过后处理得到最终的检测结果后，模型会将这些结果可视化到原始图像上，在图像中目标的位置绘制边界框，并标注出目标的类别和置信度。然后，根据save、project和name等参数的设置，将可视化后的图像保存到指定目录，同时在控制台输出相关的预测信息，如检测到的目标数量、每个目标的类别和置信度等。

代码的实际应用场景

这段 YOLO 模型预测代码在实际生活和工作中有着广泛的应用场景，以下列举几个典型的例子：

工业质检领域：在工业生产过程中，对产品进行质量检测是确保产品质量的重要环节。以本文中可能涉及的UIQS（假设是某种工业产品的检测场景）为例，使用 YOLO 模型可以对产品的图像进行检测，识别出产品表面的缺陷（如划痕、污渍、变形等）。通过运行这段代码，加载训练好的缺陷检测模型，对生产线上的产品图像进行实时或批量预测，能够快速、准确地发现不合格产品，提高质检效率，降低人工成本。

安防监控领域：在安防监控系统中，需要对监控画面中的异常行为、可疑人员等进行实时检测和预警。使用 YOLO 模型可以对监控摄像头拍摄的视频流进行实时处理，检测出画面中的行人、车辆等目标，并判断其行为是否符合常规。通过调整代码中的source参数为摄像头索引，model.predict()方法可以实时读取摄像头画面并进行检测，将检测结果及时反馈给监控人员，有助于提高安防系统的响应速度和准确性。

交通管理领域：在交通管理中，YOLO 模型可以用于车辆检测、车牌识别、交通违章行为检测（如闯红灯、超速、逆行等）。将交通摄像头拍摄的视频或图像作为输入源，通过模型预测可以快速统计车流量、识别违章车辆，为交通管理部门提供数据支持和执法依据。代码中的save参数设置为True时，可以保存带有违章标识的图像，作为违章证据。

零售行业：在零售行业，YOLO 模型可以用于货架商品检测和库存管理。通过对货架图像进行预测，识别出商品的种类、数量和摆放位置，及时发现缺货、错放等问题，帮助商家优化库存管理和货架陈列。运行代码对货架图像进行批量处理，可以快速生成库存报告，提高零售运营的效率。

代码的扩展与优化

虽然这段代码实现了基本的 YOLO 模型预测功能，但在实际应用中，我们可以根据具体需求对其进行扩展和优化，以提高模型的实用性和性能。

增加预测结果的详细输出：默认情况下，model.predict()方法在控制台输出的信息较为简略。我们可以通过设置verbose=True参数（默认可能为True，具体取决于库的版本）来获取更详细的预测信息，如每个目标的边界框坐标（x1, y1, x2, y2）、置信度值等。例如：


results = model.predict(source=r'C:\Users\Administrator\Desktop\UIQS\UIQS',

imgsz=640,

project='AFWF-UIQS',

name='AFWF-UIQS-原图',

save=True,

verbose=True)

results变量中包含了所有图像的预测结果，我们可以遍历results来获取每个目标的详细信息，并将其保存到文本文件或数据库中，用于后续的分析和处理。

设置置信度阈值：模型在预测时，会对每个检测到的目标给出一个置信度值，表示模型对该目标检测结果的信任程度。置信度值越高，检测结果越可靠。我们可以通过设置conf参数来过滤掉置信度较低的目标，只保留置信度高于阈值的结果。例如，conf=0.5表示只保留置信度大于 0.5 的目标：


model.predict(source=r'C:\Users\Administrator\Desktop\UIQS\UIQS',

imgsz=640,

project='AFWF-UIQS',

name='AFWF-UIQS-原图',

save=True,

conf=0.5)