基于红外数据集（FLIR）训练YOLOv4

最新推荐文章于 2025-05-15 09:20:24 发布

Snow_cat123456

最新推荐文章于 2025-05-15 09:20:24 发布

阅读量1w

点赞数 25

CC 4.0 BY-SA版权

分类专栏：小白的自我成长

本文链接：https://blog.csdn.net/Snow_cat123456/article/details/111224096

1、引言

毕业设计是基于热红外图像的目标检测系统设计，老板要求做一些横向和纵向的实验对比作为支撑，自己基于项目构建的车载红外数据集只有4000多张，加上是自己手动标注的，直接用于实验对比说服力不够，加上标注的精度跟开源的标准数据集相比有一定差距，所以前期的实验还是要在公共数据集上做，最后再迁移到自己的数据集上来。

实验室之前采购了FLIR的红外摄像头，后面就关注到他们开源了一个比较大的带真实标签的红外数据集，官网地址为FLIR数据集，跟我手头数据集的应用场景非常相似，所以决定以该数据集作为前期实验的主要基准。后续的系统是要移植到NVIDIA Jetson NX上做实时目标检测，对目标检测网络的速度有比较高的要求，网上检索到目前SOTA的网络中YOLOv4各方面性能都不错，而且官网配备了详细的训练、调参、测试等教程，简直不要太贴心，所以先从YOLOv4开始我的对比之旅吧！

PS:后续如果实验顺利且有时间的话，我争取把后续的嵌入式算法移植部分也分享到网上，嘿嘿嘿

2、一个检索各领域SOTA文章的网站分享

在这个网站上可以找到各个领域目前排名靠前的文章以及其相应代码，感觉非常有用，点击这里

3、FLIR数据集

1）FLIR数据集下载地址，我在官网下载了很久都没成功，后面还是一个中科大的同学分享给我的（跪谢），有需要用于科研的同学下载不了的话可以通过博客联系我分享。

2）FLIR数据集简介：
一共有三个数据集，只有第一个缩减版的可供下载，其他两个是需要钱钱的，不过第一个对于我来说也够用了，训练集有8862张图像、测试集1366张图像，外加一个视频切割成的图像4224张。
在这里插入图片描述
可供下载的这个数据集只标注了person、car、bicycle、dog、other vehicle这五类目标，具体情况如下：

数据下载解压后会得到一个文件夹，里面包含了以下文件夹：

两个PDF文件是关于数据集的详细解释，我就不赘述啦，大家自己看哈

3）FLIR数据集处理
官网标签的数据格式是基于coco数据集的，也就是保存在.json文件中，要在YOLOv4上进行训练需要先转换标签的格式，我的操作步骤为先转voc格式（xml），再转YOLO格式，这部分话不多说，直接上代码，具体的解释我都放到代码里了：

json-to-xml.py

#-*-coding:utf-8-*-
import glob
import json
from lxml.etree import Element, SubElement, tostring
from xml.dom.minidom import parseString

classes = ['people', 'bicycle', 'car', 'vehicle']

# 定义json文件操作函数,读取json文件中的包围框信息和类别信息，并用于构建xml文件，这部分看不懂的可以先了解下json文件
def list_json(json_path, output_xml_path):
    json_files = glob.glob(json_path + "*.json")   # 列出文件夹中的所有后缀为.json的文件，用于批量操作

    # 对每一个.json文件进行操作
    for json_file in json_files:
        # 以只读方式打开json文件
        with open(json_file, 'r') as f:
            json_message = json.load(f)       # 解析json文件, 官网的json文件中由'annotation'和'image'组成
            annotation = json_message['annotation']
            image = json_message['image']

            objects = []                      # 用于存储'annotation'中的bbox和category
            for obj in annotation:
                # 提取每个候选框中目标的类别,我只提取了people、bicycle、car和other vehicle，因为dog的训练标签太少了
                # 类别转换基于官网的FLIR Thermal Starter Dataset Introduction文件
                category = int(obj['category_id'])
                if category == 1:
                    class_name = 'people'
                elif category == 2:
                    class_name = 'bicycle'
                elif category == 3:
                    class_name = 'car'
                elif category == 91:
                    class_name = 'vehicle'
                else:
                    continue

                # 提取每个候选框的坐标