Track-Anything 视频目标跟踪调研

蜀中廖化

已于 2025-07-25 13:59:34 修改

阅读量478

点赞数 4

CC 4.0 BY-SA版权

文章标签：目标跟踪人工智能计算机视觉

于 2025-06-24 11:44:38 首次发布

本文链接：https://blog.csdn.net/qq_40725313/article/details/148867924

文章目录

视频目标跟踪调研

视频目标跟踪调研

需求：在jetson设备上能够部署的视频目标跟踪的算法，完成对特定目标的跟踪，最好有选点选择第一帧的目标的功能。（需求重点在于能够部署到Jetson上去，要不然也不需要调研了，直接SAM2整个主机带个显卡跑就得了）

Track-Anything SAM的基础上增加的视频跟踪 Segment Anything + XMem + E2FGVI
Jetson-TAM jetson官方的Track-Anything实现，部署在docker上的，效果还没测
SAMURAI 跟踪效果要比SAM2强一些，但是这个目前只有边界框的提示
Lang2SegTrack Grounding-DINO+SAMURAI 增加了点提示，但依旧不考虑，因为无法与jetson适配
Grounded-SAM-2 与需求无关，挺好玩的，不过不太能部署到jetson上去
SAM2 典中典，主要是第一次见视频的跟踪效果就是这个，不过这是大模型，就是参数很大的模型，部署不到jetson上
EfficientTAM 能在iPhone 15上每秒可运行超过 10 帧，并具有良好的视频分割性能
Segment-and-Track-Anything 主要使用的算法包括用于关键帧分割的任意对象分割模型（SAM）和用于高效追踪和传播关联对象与转换器（AOT）
DEVA 跟需求无关，主要亮点也是跟词汇结合
NanoSAM 拉中之拉，效果依托，不过精简轻量化
HQTrack 一般
AutoTrackAnythingXMem, Yolov8 and MobileSAM (MobileSAM效果一般，故不推荐)
EdgeTAM