基于深度学习实现行人跟踪相关论文总结

最新推荐文章于 2026-03-11 00:58:51 发布

原创

最新推荐文章于 2026-03-11 00:58:51 发布 · 4.4k 阅读

文章标签：

#深度学习 #神经网络

本文综述了基于深度学习的行人跟踪方法，涵盖单目标、多目标及遮挡情况下的跟踪技术。介绍了递归YOLO、LSTM、Siamese网络、Faster R-CNN、深度对齐网络等多种算法，以及在不同数据集上的实验结果和性能对比。

基于深度学习实现行人跟踪相关论文总结

[1] Recurrent YOLO and LSTM-based IR single pedestrian tracking
本文提出了一种基于空间监督的递归卷积神经网络的热红外视觉行人跟踪新方法。我们的方法利用长短时记忆(LSTM)将YOLO深度卷积神经网络扩展到时空域。特别地，我们提出了一个新的CNN模型，它既满足精确性又满足鲁棒性，同时在TIR-VOT中保持较低的计算成本。我们的实验结果和性能比较与最先进的跟踪方法在挑战性的基准视频跟踪数据集。所提出的TIR-ROLO方法以45帧每秒的速度实时处理图像，并在遮挡场景中获得了最佳的跟踪性能。
本文提出的方法是利用CNN学习到的亮度特征，利用回归直接预测卷积层和递归单元的跟踪位置。不仅如此，我们的方法基于使用YOLO检测器的跟踪检测方法。YOLO模型以45帧/秒的速度实时处理图像，并收集丰富和健壮的视觉特征，以及初步的位置推断。我们的方法的主要贡献是基于新亮度的CNN网络可以有效地提取适合于TIR-VOT的亮度特征。
结论：在本文中，我们成功地开发了一种新的TIR行人跟踪方法。我们提出的TIR-ROLO方法表明，在维护快速FPS的同时，该方法具有更高的精度和鲁棒性。对于大多数的跟踪场景，我们的方法都能达到较高的跟踪性能。特别是，当行人目标完全被遮挡时，TIR-ROLO对其更有信心。这是因为LSTM使用了来自帧历史的信息，所以某些帧的检测失败不能影响来自后续目标的跟踪。
[2] Infrared Multi-Pedestrian Tracking in Vertical View via Siamese Convolution Network
本文提出了一种基于垂直视角的红外多行人跟踪智能算法。该算法利用改进的Siamese网络对红外图像中的行人进行快速检测和定位。基于Siamese网络的跟踪方法将跟踪问题转化为相似度验证问题，利用卷积网络对新帧特征与目标帧特征之间的相似度评分进行评估。得分最高的候选区域被认为是目标的当前位置。本文将Siamese网络与Faster RCNN相结合，实现了对多行人的跟踪。此外，将相邻帧的跟踪结果引入到当前帧的相似度评价中，提高了步行线变化时的跟踪精度。实验结果表明，该算法具有良好的鲁棒性和跟踪效果，取得了良好的竞争性能。
本文所做的改进。首先，将前一帧的跟踪结果加入到当前帧的相似度评价中，对目标模型进行间接更新。其次，使用Faster-RCNN对图像中所有的行人进行检测，识别出每个行人的状态(被跟踪、被跟踪或不再被跟踪)。然后，根据每个行人的状态，通过SiamFC实现多目标跟踪。最后，为了克服训练数据的不足，视频数据记录在实际场景中以更快的速度利用Faster-RCNN的训练数据。对于Siamese网络，可以使用许多大型可视视频数据集，如OTB、VOT等。
总结：红外多行人跟踪具有广阔的应用前景。它可以用来计算人行道上的行人流量，并估计过马路所需的绿灯时间。它还可以用来计算公共场所出入口的行人数量，从而控制人口密度。此外，监控私人场所(如酒店房间)的人数也是它的应用之一。本文提出的红外多行人跟踪算法结合Fast-Rcnn和Siamfc两种算法，充分发挥了这两种方法在各自领域的优势。最后，采用了一系列的策略来实现多行人跟踪。同时，改进了模拟评估过程，提高了行人姿态变化时的跟踪精度。根据实际情况录制的红外视频的实验结果证明了该算法的有效性和较好的性能。
[3] An Integrated Deep Learning Framework for Occluded Pedestrian Tracking
为了在各种遮挡条件下实现有效的行人跟踪，chen等人[1]提出并开发了一种基于深度学习网络的行人跟踪框架。首先，将行人检测器训练成一种基于更快的R-CNN的跟踪机

最低0.47元/天解锁文章