10,000字文章 | 关于多目标跟踪的最新综述（基于Transformer/图模型/检测和关联/双子网络）（下一篇）

最编程 2024-03-03 10:17:28

...

Siamese Network

两帧之间的相似性信息对目标跟踪有很大的帮助。因此，Siamese网络试图学习相似之处，并区分输入。该网络由两个并行子网络共享相同的权值和参数空间。最后将双子网络之间的参数绑定在一定的损失函数上进行训练，以度量双子网络之间的语义相似度。下表给出了Siamese网络在MOT任务中的应用概况。

网络异常，图片无法展示

戴涛等人提出了一个金字塔网络，嵌入了一个轻量级的transformer注意力层。他们提出的Siamese transformer金字塔网络增强了横向交叉注意力金字塔特征之间的目标特征。因此，它产生了健壮的特定于目标的外观表示[22]。如下图所示：

网络异常，图片无法展示

Bing 等人试图通过结合运动建模来提升基于区域的多目标跟踪网络[70]。他们将Siamese网络跟踪框架嵌入到较快的RCNN中，通过轻量级跟踪和共享网络参数来实现快速跟踪。Cong 等人提出了一种使用Siamese双向GRU(SiaBiGRU)对轨迹进行后处理以消除轨迹损坏的切割网络。然后他们建立了重新连接网络来连接这些轨迹并制造轨迹[31]。在典型的MOT网络中，有预测和检测模块。所述预测模块试图预测下一帧中目标的外观，所述检测模块检测所述目标。这两个模块的结果用于特征匹配和目标轨迹更新。新文等人提出了Siamese RPN(区域提案网络)结构作为预测因子。他们还提出了一种数据关联模块的自适应阈值确定方法[71]。因此，Siamese网络的整体稳定性得到了改善。与transformer模型相反，贾旭等人提出了一种基于注意力的在Siamese网络的结构下的轻量级跟踪头，增强了前景目标在目标框内的定位[58]。另一方面，Philippe 等人已经将他们的有效transformer层合并到Siamese跟踪网络中，他们用transformer层取代了卷积层[21]。

Tracklet Association

感兴趣目标的一组连续帧称为tracklet。在检测和跟踪目标时，首先使用不同的算法对轨迹进行识别。然后把它们联系在一起，建立一个轨迹。轨迹关联显然是一个具有挑战性的任务在 MOT 问题。一些论文特别关注这个问题。不同的论文采取了不同的方法。如下表所示。

网络异常，图片无法展示

金龙等人提出了轨迹平面匹配(TPM)[72] ，其中首先从被检测的目标创建短轨迹，并且它们在轨迹平面中对齐，其中每个轨迹根据其开始和结束时间分配超平面。这样就形成了巨大的轨迹。这个过程还可以处理非相邻和重叠的tracklet。为了改善这种情况，他们还提出了两个方案。Duy 等人首先用3D几何算法制作了tracklet[73]。他们已经形成了多个摄像机的轨迹，由于这一点，他们通过制定空间和时间信息优化了全局关联。在[31]中，Cong等人提出了位置投影网络(PPN)来实现从局部环境到全局环境的轨迹转换。Daniel等人通过根据运动将新来的目标分配给先前发现的被遮挡的目标来重新识别被遮挡的目标。然后他们实现了已经发现的进一步回归轨迹，使用by-regression approach。此外，他们还通过提取时间方向来扩展工作，以提高性能。

在[75]中，可以看到与前者不同的策略。将每个轨迹作为一个中心向量，建立了轨迹中心存储库(TMB) ，并对其进行动态更新和成本计算。整个过程称为多视点轨迹对比学习(MTCL)。此外，他们还创建了可学习的视图采样(LVS) ，它将每个检测作为关键点，帮助在全局上下文中查看轨迹。他们还提出了相似引导特征融合(SGFF)方法来避免模糊特征。et,al等人已经开发了轨迹助推器(TBooster)[76]来减轻关联过程中发生的错误。TBooster有两个组件: 拆分器和连接器。在第一个模块中，在ID切换发生的地方拆分tracklet。因此，可以解决为多个目标分配相同ID的问题。在第二个模块中，将同一目标的tracklet链接起来。通过这样做，可以避免将相同的ID分配给多个tracklet。Tracklet嵌入可以通过连接器完成。

MOT Benchmarks

典型的 MOT 数据集包含视频序列。在这些序列中，每个目标都由一个唯一的 id 标识，直到它不再出现。一旦一个新目标进入帧，它就会得到一个新的唯一标识。MOT 有很多基准。其中，MOT 挑战基准有多个版本。自2015年以来，他们几乎每年都会发布一个变化更多的新基准。还有一些流行的基准，如 PETS、 KITTI、 STEPS 和 DanceTrack。到目前为止，MOT 挑战有17个目标跟踪数据集，其中包括 MOT15[81] ，MOT16[82] ，MOT20，[6]和其他。MOt15基准包含威尼斯，KITTI，ADL-Rundle，eTH-Pescross，eTH-Sunnyday，PET，TUd-cross 数据集。这个基准是在一个不受约束的环境中拍摄的，有静态摄像机和运动摄像机。MOT16和 MOT17基本上是从 MOT15更新的基准，具有较高的groundtruth精度和严格遵循的协议。MOT20是一个行人探测挑战赛。这个基准有8个具有挑战性的视频序列(4列火车，4测试)在无约束的环境[6]。除了目标跟踪，MOTS 数据集也有分割任务[40]。一般来说，跟踪数据集有一个边界框，框中的目标有一个唯一标识符。

TAO [83]数据集有一个巨大的规模，由于跟踪每一个目标在一帧内。有一个叫Head Tracking 21的数据集。这个基准的任务是跟踪每个行人的头部。STEP 数据集对每个像素进行了分割和跟踪。还有一些其他的数据集。下图显示了作者审阅的论文中使用的数据集的频率。从图表中可以看出，MOT17数据集的使用频率高于其他数据集。

网络异常，图片无法展示

MOT 指标

MOTP

多目标跟踪精度(MOTP)。无论跟踪器是否有能力识别目标形状和保持一致的轨迹，它都是根据跟踪器在寻找目标位置时的精确程度给出的分数。由于 MOTP 只能提供定位精度，因此经常与 MOTA （Multiple Object Tracking Accuracy）结合使用，因为 MOTA 不能单独说明定位误差。定位（Localization）是 MOT 任务的输出之一。它让大家知道目标在本帧中的位置。单凭它不能提供一个完整的跟踪器的性能。

网络异常，图片无法展示

Dit: 在时间t时刻，实际目标与其各自假设之间的距离，在一个单帧内，对于集合中的每个目标Oi，跟踪器分配一个假设hi。Ct: 在t时刻目标和假设之间匹配的数量。

MOTA

多目标跟踪准确度。这个度量衡量跟踪器在不考虑精度的情况下检测目标和预测轨迹的能力。这个度量标准考虑了三种类型的误差:

网络异常，图片无法展示

Mt: 在t时刻丢失的数量；fpt误检数量；mmet: ID切换的数量 gt: 在t时刻出现的真实目标的数量。

MOTA过分强调精确检测的效果。它侧重于检测级别的预测和真值之间的匹配，并没有考虑关联。当考虑没有ID切换的MOTA，度量会更偏向于被较差的精度影响。上述的局限性可能会导致研究人员调整他们的跟踪器，使其在检测水平上更具精度和准确性，同时忽略了跟踪的其他重要方面。MOTA 只能考虑短期关联。它只能评估算法执行一阶关联的效果，而不能评估算法在整个轨迹中的关联效果。且它根本没有考虑关联精度/ID转换。事实上，如果一个跟踪器能够纠正任何关联错误，它会惩罚它而不是奖励它。MOTA 的最高分是1，但是没有一个固定的最小值，这会导致 MOTA 的分数为负。

IDF1

ID度量。它试图将预测的轨迹与实际轨迹进行映射，这与MOTA等在检测级别执行双射线映射的指标形成对比。它被设计用来测量“识别”，不同于检测和关联，它与轨迹有关.

网络异常，图片无法展示

IDTP：代表ID真正例，预测得到的目标轨迹与groundtruth目标轨迹匹配。IDFN：ID假反例。任何未被发现的groundtruth值并且其轨迹未被匹配。IDFP：ID误检。任何错误的预测结果。

由于MOTA对检测精度的高度依赖，一些人更喜欢IDF1，因为该指标更注重关联性。然而，IDF1也有一些缺陷。在IDF1中，最佳unique的双映射不会导致预测轨迹和实际轨迹之间的最佳对齐。最终结果将为更好的匹配留下空间。即使检测正确，IDF1分数也会降低。如果有很多不匹配的轨迹，分数也会降低。这促使研究人员增加unique的总数量，而不是专注于进行合理的检测和关联。

Track-mAP

这种度量匹配GroundTruth轨迹和预测轨迹。当轨迹相似性得分Str大于或等于阈值αtr时，在轨迹之间进行匹配。此外，预测的轨迹必须具有最高的置信度得分。

网络异常，图片无法展示

n：预测轨迹的总数。预测轨迹按照置信度得分降序排列。Prn：计算跟踪器的精度。TPTr：真正轨迹。找到匹配的任何预测轨迹。|TPTr|n：n条预测轨迹中的真正轨迹数。Ren：Measures Re-call。|gtTraj |：目标轨迹真值，使用精度和召回方程进行进一步计算，以获得最终Track−mAP分数。

网络异常，图片无法展示

作者首先对精度值进行插值，得到每个n值的InterpPr。然后，作者将每个n值绘制一个InterpPr与 Ren 对应的图。作者现在有了精确-召回曲线。这条曲线的积分会给出 Track-mAP 得分。Track-mAP 也有一些缺点。轨迹mAP的跟踪结果很难直观地显示出来。它对于单个轨道有多个输出。低置信度得分的轨迹对最终得分的影响是模糊的。有一种方法可以“黑掉”这个度量标准。研究人员可以得到一个较高的分数，通过创造几个有较低置信度分数的预测。这将增加获得合适匹配的机会，从而增加得分。然而，这并不是一个良好跟踪的指标。跟踪 mAP 无法指示跟踪器是否具有更好的检测和关联。

HOTA

Higher Order Tracking Accuracy。原论文[96]将 HOTA 描述为: “ HOTA 测量匹配检测的轨迹对齐程度，并对整体匹配检测进行平均，同时惩罚不匹配的检测。”HOTA 应该是一个单一的分数，可以涵盖跟踪评估的所有要素。它还应该被分解为子度量。HOTA 弥补了其他常用指标的缺点。虽然像 MOTA 这样的指标忽略关联并且严重依赖于检测(MOTA)或反之亦然(IDF1)，但是 TPA，FPA 和 FNA 等新概念的发展使得关联可以像TP，FNs 和 FP 用于测量检测一样进行测量。

网络异常，图片无法展示

A(c):测量预测轨迹和groundtruth轨迹的相似程度。TP:真正例,在S ≥ α的条件下，将groundtruth检测与预测检测相匹配。S是定位相似度，α是阈值。FN: 假反例。漏掉的groundtruth检测 FP: 假正例。一种没有与任何groundtruth匹配的预测。TPA: 真正关联正例。与给定的 TPC 具有相同的groundtruth ID和相同的预测ID的真正正例的集合。

网络异常，图片无法展示

FNA: 具有与给定TPC相同的groundtruth ID的一组groundtruth检测目标。然而，这些检测目标被分配了一个不同于c或根本没有的预测ID。

网络异常，图片无法展示

FPA：与给定TPc具有相同预测ID的预测检测集。然而，这些检测目标被分配了一个不同于c的groundtruth ID，或者根本没有。

HOTaα 是计算α的特殊值的HOTA。需要进一步计算才能得到最终的HOTA分数。作者找到了不同α的值对应的HOTA，α范围从0到1，然后计算它们的平均值。

作者能够将 HOTA 分解为几个子指标。这很有用，因为可以采用跟踪评估的不同元素，并使用它们进行比较。可以更好地了解跟踪器正在产生的错误。跟踪中常见的错误有五种类型: 假反例、假正例、碎片化、合并和偏差。这些可以分别通过检测召回、检测精度、关联召回、关联精度和定位来衡量。

LocA

Localization Accuracy[96].

S(c): 预测检测与groundtruth之间的空间相似性得分。这个子度量处理错误类型偏差或定位错误。当预测检测和groundtruth不一致时，就会产生定位误差。这与 MOTP 类似，但又不同，因为它包含几个定位阈值。常用的度量标准，如 MOTA 和 IDF1没有考虑到定位。

AssA:Association Accuracy Score

根据 MOT 基准: “所有匹配检测的关联Jaccard索引的平均值，平均值超过定位阈值”[96]。关联是MOT 任务结果的一部分，它让大家知道不同帧中的目标是属于同一个还是不同的目标。这些目标具有相同的ID，并且是相同轨迹的一部分。关联精度给出了匹配轨迹之间的平均对齐度。它主要关注关联错误。这是由于groundtruth中的单个目标被给予了两种不同的预测，或者一个单独的预测被给予了两种不同的groundtruth目标。

DetA:Detection Accuracy

根据 MOT 基准: “检测 Jaccard 索引平均超过定位阈值”[96]。检测是 MOT 任务的另一个输出。它只是帧内的目标。检测精度是正确检测的一部分。当groundtruth被忽略或者存在虚假检测时，检测误差就会存在。

DetRe:Detection Recall

给出了一个定位阈值的计算方程。需要平均所有定位阈值[96]：

检测召回错误是假反例。它们发生时，跟踪器错过了一个真实目标，检测精度可分为检测召回和检测精度。

DetPr：

给出了一个计算定位阈值的方程，需要对所有定位阈值进行平均[96]：

如前所述，检测精度是检测精度的一部分。检测精度误差为假正例（误检）。当追踪器做出不存在于groundtruth中的预测时，它们就会发生。

AssRe：Association Recall

需要计算下面的公式，然后计算所有匹配检测的平均值。最后，平均结果要超过定位阈值[96]：

当跟踪器将不同的预测轨迹分配给相同的groundtruth轨迹时，就会发生关联召回错误。关联精度可分为关联召回和关联精度。

AssPr：Association Precision

作者需要计算下面的方程，然后对所有匹配检测进行平均。最后，结果的平均值超过定位阈值[96]：

关联精度是关联精度的一部分。当两条不同的groundtruth轨迹具有相同的预测ID时，就会出现关联错误。

MOTSA: Multi Object Tracking and Segmentation Accuracy

这是 MOTA 度量的一种变体，因此也可以评估分割任务的跟踪器性能。

这里 M 是一组 N 个非空的groundtruth掩模。每个mask被分配一个groundtruth跟踪ID。TP 是一组真正例。当一个假设的掩码映射到一个groundtruth掩码时，真正例出现。FP 是假正例的，没有任何groundtruth，FN是一组假反例，有真值但没有任何相应的检测结果。IDS、ID切换是属于同一轨道但被分配了不同ID的groundtruth掩码。MOTSA 算法的缺点包括: 使检测比关联更加重要，并且会受到匹配阈值选择的影响。

AMOTA: Average Multiple Object Tracking Precision

这是通过平均所有recall的MOTA值来计算的：

上一篇： WPF 调用 webapi 并显示数据 (I)：WPF 页面构建

下一篇：什么是 autoware？

10,000字文章 | 关于多目标跟踪的最新综述（基于Transformer/图模型/检测和关联/双子网络）（下一篇）

Siamese Network

Tracklet Association

MOT Benchmarks

MOT 指标

MOTP

MOTA

IDF1

Track-mAP

HOTA

LocA

AssA:Association Accuracy Score

DetA:Detection Accuracy

DetRe:Detection Recall

DetPr：

AssRe：Association Recall

AssPr：Association Precision

MOTSA: Multi Object Tracking and Segmentation Accuracy

AMOTA: Average Multiple Object Tracking Precision

谷歌 Chrome 浏览器网络中的停滞分析和优化

在 "高音项目 "的基础上建立 GSI 系统

Java Swing 中实现为窗体添加背景图像的两种方法说明

LeetCode 刷机]105.通过遍历前序和中序序列来构造二叉树 & 106.通过遍历中序和后序序列构建二叉树-105 通过遍历前序和中序序列构建二叉树

[问题之书 1488：新的开始]问与答

玩转灯塔] 0 个基本的自建随机类 API 接口（随机文本、壁纸、视频）

释放 Spring Cloud Gateway 和 Nginx 的最强配置，构建未来的网络高速公路！(下)

华为］NAT 分类与实验配置--NAT 生成的技术背景

人工智能大模型探索路径-培训第 11 部分：大语言模型转换器库-模型组件实践

C++ - 列表功能和用法