2022 最新综述！详细介绍多目标跟踪方法（单帧/多帧/特征/相关）最新进展的论文--4 嵌入方法方法概要

最编程 2024-07-13 08:11:06

...

嵌入方法对于目标位置估计和ID关联至关重要。论文将常用的MOT嵌入式方法分为七类，包括补丁级嵌入、单帧嵌入、跨帧联合嵌入、基于相关的嵌入、顺序嵌入、小轨迹嵌入和跨轨迹关系嵌入。对于每一类介绍了有代表性的算法，讨论了它们的优缺点，希望能提供一个更好的解决方案；

1.Patch-Level Box Image Embedding

这一类别中的大多数现有方法侧重于嵌入单个检测[68]、[69]、[70]、[71]，而少数方法尝试使用成对嵌入策略直接建模两个检测对象的关系[99]、[100]、[101]。

1. Self-Embedding

一些现有方法将不同帧中的相同对象视为单独的类，并使用交叉熵损失进行ID分类，以学习裁剪检测图像的嵌入，例如[68]、[69]、[70]，[72], [102]。一些方法采用triplet loss [71]、[103]、[104]、[105]和基于softmax的对比损失[106]来学习批样本中的区分嵌入，其中来自同一对象的检测被视为正样本，来自不同对象的检测则被视为负样本。

2.Pairwise Embedding

成对嵌入网络不是从单个检测中学习嵌入，而是采用成对检测，直接学习两个检测对象之间的相似性。通常采用二元分类器来指示两个检测是否属于同一目标。

网络异常，图片无法展示

2.Single-Frame Detection Embedding

基于帧的嵌入以端到端的方式联合学习检测和重识别特征。给定输入帧X，网络学习每个检测的鉴别特征；对于基于单帧的Embedding，现有工作通常遵循一些检测模型如faster rcnn、centernet、YOLOv3等，联合学习用于检测和重新识别的嵌入的主要挑战之一来自这两个任务的冲突。检测任务旨在从背景中识别对象类别，如行人和车辆，而Re ID嵌入旨在区分不同的对象而不是类别。一些工作将不同任务的嵌入解耦，以解决多任务学习的问题。

3.Cross-Frame Joint Embedding

为了在多个帧之间联合学习外观和时间特征，跨帧嵌入在MOT中起着重要作用。一些方法[12]、[14]、[38]采用嵌入网络，如3D卷积和卷积LSTM，学习时空特征图进行跟踪，一些方法[13]、[146]、[147]提取单个帧的特征，然后聚集嵌入以建模特定任务头中的时间关系。

1.多帧时空嵌入

[14]以3D ResNet[54]、[148]为主干生成目标tubes，并在训练中结合了GIOU[149]、focal loss[130]和二进制交叉熵loss。类似地，DMM Net[38]采用3D卷积来学习给定多帧的时空嵌入，以生成tubes，并预测多帧运动、类别和可见性，以生成轨迹。CenterTrack[12]遵循CenterNet框架[133]，连接一对连续帧和前一帧的热图，用于联合嵌入、目标中心位置估计以及大小和偏移预测。[39]使用基于shortcut连接的时间先验嵌入的编码器-解码器架构[153]获取多个帧，以同时估计多通道轨迹图，包括存在图、外观图和运动图。由于使用3D神经网络和LSTM学习时间一致性的能力，可以将运动特征合并到嵌入框架中。另一方面，它也增加了训练和测试的计算成本。当前的时空嵌入通常是只考虑几个帧进行联合嵌入，因此，学习到的时间运动特征不足以建模对象的不同运动，学习长期依赖性也需要在未来的工作中作进一步研究。

网络异常，图片无法展示

2.头级特征聚合嵌入

一些工作为密集关联聚合嵌入，DAN[146]提出了一种深度亲和网络，该网络使用以下公式预测一对帧之间检测中心位置的密集关联：从VGG网络的不同层提取的特征[52]。与DAN[146]类似，DEFT[27]设计了一个匹配头，以聚集来自成对框架的嵌入。此外，[27]在匹配头中利用LSTM进行运动预测以进行关联。TraDeS[154]还使用基于 cost volume-based的关联和可变形卷积[155]联合学习基于多帧密集嵌入聚合的偏移、2D、3D和掩码估计。

网络异常，图片无法展示

除了聚集密集嵌入之外，一些工作还将一对帧中的特征映射串联起来进行预测。Chainedtracker[13]采用堆叠特征图进行边界框回归和ID验证，使用Faster RCNN框架[129]。[156]将来自相邻帧的特征图连接起来，用于成对2D box回归和基于时空优化的初始3D box估计。[157]通过结合关键点嵌入分支和时间实例嵌入分支来学习时间网，以聚集来自两个帧的特征，用于姿态估计和跟踪。[158]提出了一种端到端姿势引导洞察网络，用于多人姿势跟踪中的数据关联，该网络联合学习特征提取、相似度估计和身份分配。PatchTrack[159]将一对顺序特征映射带到变压器编码器，并使用卡尔曼滤波[160]中先前预测的轨迹作为变压器解码器中的查询。TransCenter[147]还采用Transformer嵌入MOT，其中密集像素级多尺度检测和跟踪查询被前馈到两个基于可变形Transformer编码器和解码器的查询学习网络，以获得检测和跟踪特征。为了学习时间信息，以前的中心热图也在跟踪分支中串联。在嵌入聚合中还利用了其他合适的策略。例如，[5]使用给定一对序列帧的GraphConv[161]，基于图神经网络（GNN）聚合节点嵌入。[162]基于从检测到的对象和跟踪的目标中提出的融合追踪，利用从输入帧估计的光流引导，生成融合目标。与多帧时空嵌入相比，基于head-level的聚合嵌入方法使用共享主干单独编码每个帧，大大降低了计算成本。然而，它可能缺乏用于检测和关联的帧之间的低水平像素相关特征。

4.基于相关性的Embedding

受SOT方法的启发，可以通过检测和生成的特征图之间的相关性来优化目标位置。

Dense correlation

一些工作估计密集相关特征图。例如，[84]使用相关层，该层学习给定顺序特征映射的密集时间关系。DASOT[163]将数据关联和SOT集成在一个统一的框架中。此外，[165]利用密集特征图估计时间相关性和多尺度空间相关性。

Surrounding search

一些工作通过SOT算法在单个检测和周围局部区域之间进行相关性。具体而言，遵循深度跟踪器SiamFC[166]，[74]使用siamese network计算anchor样本与正局部区域和负局部区域之间的相关性。该网络建立在轻量级AlexNet[50]的基础上，采用 triplet loss进行区分学习以生成嵌入。

在 Siamese-RPN跟踪器[167]之后，[72]搜索下一帧中的局部区域，并在短期线索中对前一帧的每次检测进行相关。类似地，在[73]中，对于中心帧中的每个对象，在锚定特征和相邻帧中的局部区域之间进行互相关。SiamMOT[75]提出了显式运动模型（EMM），以估计检测到的面片和下一帧的局部区域之间的交叉信道相关性，采用Faster R-CNN检测器。

Attention via Transformers

随着视觉transformer的发展，一些方法[42]、[43]、[159]、[170]在MOT中采用了transformer，因为transformer使用pairwise attention，可以在嵌入中融合全局信息并提高跟踪性能。查询键机制在跟踪中起着相关性的作用，可以通过测量特征图和轨迹查询之间的相关性的多头注意力[171]获得预测。TransTrack[170]使用Transformer解码器中的轨迹查询和对象查询进行轨迹预测和对象检测。类似地，[42]、[43]还使用Transformer解码器来估计先前轨迹和当前特征图之间的相关性，以进行预测。PatchTrack[159]将来自卡尔曼滤波的预测轨迹作为Transformer解码器中的查询，以估计预测轨迹和来自编码器的特征图之间的相关性。

Sequential Embedding

在MOT中建模时间信息的另一种常用策略是使用递归神经网络进行序列建模，这种序列嵌入方法学习从先前嵌入到当前嵌入的变换动态更新。

一些工作使用Sequential 嵌入来建模运动特征，[101]使用RNN进行运动预测，TrajE[173]采用RNN来估计模拟目标轨迹的高斯混合，[27]、[174]使用LSTM嵌入运动信息，[18] 采用LSTM进行嵌入和关联。一些工作还考虑了Sequential 嵌入中的外观特征。例如，[175]采用卷积选通递归单元（ConvGRU）来聚集外观特征，[176]提出了循环跟踪单元（RTU）来建模长期时间信息，其中RTU将旧外观特征模板、当前节点的外观特征、旧隐藏状态和当前节点的状态特征作为嵌入输入。

5.Cross-Track Relational Embedding

交叉轨迹关系Embedding旨在基于与相邻轨迹的交互来学习对象特征。

基于attention方法

[175]提出了用于特征提取的时间感知目标注意力和干扰物注意力。基于transformer的跟踪器也使用注意力来获得交叉轨道嵌入，[42]、[43]通过多头注意，使用与其他轨迹和对象的相关性对轨迹嵌入进行编码。TransMOT[41]提出了一种时空图变换transformer来对小轨迹进行编码，并使用空间图解码器来估计小轨迹与检测之间的关联。

基于Graph方法

基于图的方法也广泛用于cross-track embedding。[201]为每个检测到的对象及其k近邻定义局部图，每两帧使用图相似模型（GSM）并通过二元分类来测量关联性。[202]使用GCN学习关联的两个帧中检测的交互特征。DeepMOT[137]提出了一种深度匈牙利网络，该网络使用双向RNN对关联进行建模，并定义了可微网络。[203]分别对运动图网络和外观图网络进行建模。

上一篇：细说MCU用定时器控制ADC采样频率的实现方法

下一篇：在 wsl2 中使用虚拟磁盘提高文件 IO 性能