SORT后，DeepSORT 的两大核心创新-CSDN博客

本文链接：https://blog.csdn.net/qq_51407821/article/details/149393450

DeepSORT 的核心思想可以总结为一句话：在 SORT 解决“怎么动”的基础上，增加解决“长得像”的问题，从而让跟踪在长时间遮挡后依然“记得你”。

DeepSORT 的两大核心创新

相对于 SORT，DeepSORT 并没有推翻原有的框架，而是在两个关键环节进行了“深度学习化”的增强。

创新一：级联匹配 (Matching Cascade)

SORT 在进行匹配时，对所有轨迹一视同仁。而 DeepSORT 认为，轨迹是有“资历”之分的。一个刚刚“失踪”1帧的轨迹，比一个已经“失踪”了20帧的轨迹，更有可能在当前帧马上出现。

问题：如何优先匹配那些更“确定”的轨迹？

DeepSORT 的策略：分优先级进行多轮匹配。

轨迹分组：DeepSORT 会根据轨迹的“失踪时长” (time_since_update) 将它们分组。例如，失踪1帧的、失踪2帧的、失踪3帧的…
逐级匹配：匹配过程不再是一次性完成，而是像瀑布一样逐级进行：
- 第一轮：只拿出最新的轨迹（失踪时长为1）去和所有检测框进行匹配。
- 第二轮：从未匹配的检测框中，拿出次新的轨迹（失踪时长为2）去进行匹配。
- 第三轮：…以此类推，直到匹配完所有“资历”的轨迹。
核心优势：这种策略优先考虑了那些最有可能匹配上的轨迹，减少了因为一个“老”轨迹（可能已经漂移了）错误地抢走了一个本该属于“新”轨迹的检测框的可能性。这使得匹配过程更加鲁棒和有序。

一句话总结：级联匹配让“确定性”高的轨迹拥有优先匹配权。

创新二：引入外观信息 (Re-ID) - 【DeepSORT的灵魂】

这是 DeepSORT 最核心、最著名的创新。它直面了 SORT 的最大软肋：当物体被长时间遮挡（超过 max_age）或者运动模型预测不准时，SORT 无能为力。

问题：当一个人的轨迹因为长时间遮挡而被删除后，当他重新出现时，SORT 只会认为这是一个“新人”，并分配一个全新的 ID。这就导致了严重的 ID 切换 (ID Switch) 问题。我们如何让系统知道“这个新出现的人，就是刚才那个消失的张三”？

DeepSORT 的策略：给每个物体拍一张“快照”，记住它的长相。

训练一个 Re-ID 模型：
- DeepSORT 的作者独立训练了一个小型的深度学习网络（Re-ID 模型）。这个模型的任务是：输入一张包含物体的图片（例如，从检测框里抠出来的图像），输出一个高维特征向量 (Feature Vector)，我们称之为“外观描述符 (Appearance Descriptor)”。
- 这个模型被训练得能够让同一个物体在不同图片中的特征向量距离尽可能近，而不同物体的特征向量距离尽可能远。
为轨迹维护一个“外观库 (Gallery)”：
- 当一个轨迹被成功跟踪时，DeepSORT 不仅会更新它的卡尔曼滤波器，还会将最近几帧（例如，最近100帧）这个物体的外观描述符存储起来，形成一个代表这个轨迹“长相”的特征库。
【核心】双重成本矩阵：
现在，当 DeepSORT 要计算一个轨迹和一个检测框的匹配成本时，它会考虑两个方面：
- 运动成本 (Motion Cost)：和 SORT 一样，基于卡尔曼滤波预测的位置和检测框位置的“距离”（通常用马氏距离，可以看作是考虑了不确定性的欧氏距离）。
- 外观成本 (Appearance Cost)：
  1. 提取新检测框的外观描述符。
  2. 将这个新的描述符，与轨迹“外观库”里的所有历史描述符进行比较（通常用余弦距离）。
  3. 取最小的那个距离作为外观成本。
加权融合：
DeepSORT 最后会将运动成本和外观成本进行加权融合，得到一个最终的、综合的匹配成本。
```
最终成本 = λ * 运动成本 + (1 - λ) * 外观成本
```
这里的 λ 是一个超参数，用来控制你更相信“运动模型”还是更相信“外观模型”。

这个创新带来的巨大优势：

对抗长时间遮挡：当“张三”消失很久，他的轨迹被删除后，当他再次出现时，系统会为他创建一个“见习”的新轨迹。但在下一帧，系统会发现这个“见习生”的外观和我们记忆中“张三”的外观极其相似！于是，系统可以将“张三”的旧 ID 重新分配给这个“见习生”，从而避免了 ID 切换。
提升匹配准确性：在密集人群中，两个人的运动轨迹可能非常接近，仅靠 IoU 很容易匹配错误。但引入了外观信息后，即使他们靠得很近，系统也能通过“长相”将他们清晰地区分开来。

DeepSORT 与 SORT 的工作流程对比

环节	SORT	DeepSORT
预测	卡尔曼滤波	卡尔曼滤波 (无变化)
匹配	一次性匈牙利匹配	级联式匈牙利匹配
成本计算	仅基于 IoU (运动信息)	融合了运动成本 (马氏距离) 和外观成本 (Re-ID 特征距离)
轨迹管理	max_age 处理短期遮挡	除了 max_age，还能通过 Re-ID 特征处理更长时间的遮挡和重识别