无人机图像匹配论文解读：基于变换器的无人机视图地理信息特征分割和区域对齐方法

最编程 2024-04-15 18:15:58

...

无人机图像匹配论文解读：A Transformer-Based Feature Segmentation and RegionAlignment Method For UAV-View Geo-Localization

无人机图像匹配论文解读：A Transformer-Based Feature Segmentation and RegionAlignment Method For UAV-View Geo-Localization
- 摘要
- 介绍
- 相关工作
- 所提出的方法

无人机图像匹配论文解读：A Transformer-Based Feature Segmentation and RegionAlignment Method For UAV-View Geo-Localization

作者：Ming Dai,Jianhong Hu,Jiedong Zhuang,Enhui Zheng
机构*： Enhui Zheng are with theUnmanned System Application Technology Research Institute, China JiliangUniversity
备注：14 pages, 13 figures, IEEE Transactions on Circuits and Systems for Video Technology
论文链接：https://arxiv.org/pdf/2201.09206v1.pdf

摘要

跨视图地理定位是从不同视图（例如，无人机（UAV）和卫星）匹配相同地理图像的任务。最困难的挑战是位置偏移以及距离和尺度的不确定性。现有的方法主要是为了挖掘更全面的细粒度信息。然而，它低估了提取鲁棒特征表示的重要性和特征对齐的影响。基于 CNN 的方法在跨视图地理定位方面取得了巨大成功。但是它仍然有一些局限性，例如，它只能提取邻域内的部分信息，一些缩减操作会丢失一些细粒度的信息。特别是，我们引入了一种简单高效的基于变换器的结构，称为特征分割和区域对齐 (FSRA)，以增强模型理解上下文信息以及理解实例分布的能力。 FSRA 在不使用额外监督信息的情况下，根据 transformer 特征图的热分布划分区域，然后在不同视图中将多个特定区域一一对齐。最后，FSRA 将每个区域集成到一组特征表示中。不同的是FSRA不是手动划分区域，而是根据feature map的热度分布自动划分。这样当图像有明显的偏移和尺度变化时，仍然可以对特定实例进行分割和对齐。此外，还提出了一种多重采样策略来克服卫星图像数量与其他来源图像数量的差异。实验表明，所提出的方法具有优越的性能，并且在无人机视野目标定位和无人机导航这两个任务中都达到了最先进的水平。
索引词——图像检索、地理定位、转换器、无人机。

介绍

跨视图地理定位旨在将一个视角的图像与代表同一地理目标的另一个视角的最相似图像进行匹配。其本质可以理解为对来自两个不同来源的图像的检索任务。跨视角地理定位可应用于农业、航拍、自动驾驶、无人机导航、事件检测、精准投放等诸多领域[1], [2], [3], [4], [5]. 前人做了大量艰苦的工作[6]、[7]、[8]、[9]，主要研究地面全景图像与卫星图像的匹配。然而，无人机视角的介入将进一步扩大跨视角地理定位的应用[10] [11]。无人机与卫星图像匹配的应用大致可以分为以下两种：无人机视图目标定位和无人机导航。例如，无人机获取的图像用于匹配同一地理位置的卫星图像。通常，卫星图像包含精确的 GPS 坐标信息。间接地，无人机可以通过匹配的卫星图像中的地理信息进行实时定位，并且可以在没有GPS设备的情况下实现无人机的导航。
近年来，由于深度学习的快速发展，跨视图地理定位取得了重大进展。通过观察基于 CNN 的方法，我们发现了两个潜在的问题。 (I) 跨视图地理定位需要挖掘上下文之间的相关信息。来自不同域的图像具有位置变换，例如旋转、缩放和偏移。因此，充分理解全局上下文的语义信息是必要的。然而，由于有效感受野的高斯分布，基于 CNN 的方法主要关注小的判别区域 [13]。鉴于纯基于 CNN 的方法 [14] 的局限性，已经引入注意力模块来探索远程关系 [15]。然而，大多数方法将注意力机制嵌入到深度卷积网络中，这在一定程度上增强了上下文连接。 (II) 细粒度信息对于检索任务非常重要。基于 CNN 的方法的下采样操作，即池化和步幅卷积会降低图像的分辨率，同时无形地破坏了可识别的细粒度信息。鉴于此，Transformer 作为一个强大的上下文敏感信息提取器将在跨视图地理定位中发挥作用。
为了提高模型性能的可见性，我们绘制了关于 Grad-CAM [17] 的热图，如图 1 所示。热图来自 Vit 最后一个注意力层的输出，但不包括可学习嵌入的补丁。然而，Transformer 的输出只有 3 个维度，我们通过扁平化的逆方法将 patches 的维度降低到原始图像的维度。因此，Vit 关注的结果是可视化的。我们比较了最先进的基于 CNN 的方法 LPN [12] 和我们基于变压器的强基线之间的热图。与基于 CNN 的方法相比，基于 Transformer 的方法可以更清楚地识别建筑物和道路等显着特征，而忽略树木等背景信息。
观察到基于 Transformer 的方法具有区分实例的能力，并受到基于部分的方法的启发 [18]、[19]、[20]、[21]、[22]、[23]。提出了一种新的特征分割和区域对齐（FSRA）方法来实现特定实例的分割（patch-level）和区域的特征对齐（region-level），目的是提取相应的部分并对齐特征，即使存在图像之间的位置偏差或比例变化。拟议的 FSRA 由两部分组成。第一个是热力图像分割模块 (HSM)：如图3中间浅绿色部分所示，该模块根据特征图的热分布对特征图进行划分，将特征图分割成若干块从1到n实现patch级实例的分割。另一部分是Heatmap Alignment Branch（HAB）：根据HSM的分割特征图，依次切出不同视点对应的部分计算损失，帮助网络学习到想要的热分布规则。如图3浅蓝色部分所示，其中左侧为无人机拍摄的图像，右侧为卫星图像，两者均由HAB逼近以拉近相应区块的距离。
此外，受 LCM [24] 的启发，我们意识到卫星图像在 University-1652 [1] 数据集中非常稀缺，扩展图像可以有效提高网络学习能力。鉴于此，我们提出了一种多重采样策略来扩展卫星图像。所提出的多重采样策略会增加训练时间，但不会对推理造成任何额外负担。实验表明，我们的多次采样策略可以有效提高模型的准确性。
简而言之，本文的主要贡献如下。
• 我们提出了一个基于transformer 的跨视图地理定位强基线，并通过基于CNN 的框架实现了有竞争力的性能。
• 针对位置偏移以及距离和尺度的不确定性带来的问题，我们设计了FSRA来实现patch-level segmentation和region-level alignment。
• 我们仔细分析并改进了一些技巧，试图解决跨视图地理定位中的一些问题。为了解决 University-1652 中不同视角下样本量不平衡的问题，提出了一种无痛苦地提高准确性的多重采样策略。为了进一步提高跨视图地理定位的性能，我们详尽分析了 KLLoss [25] 和 TripletLoss 的影响，并对 TripletLoss 进行了新的改进。
• 最终框架 FSRA 在 University-1652 中的无人机视图目标定位和无人机导航任务上实现了最先进的性能。

相关工作

A.跨视角地理定位
跨视角地理定位主要关注两个匹配任务：地面和卫星视角的匹配以及无人机和卫星视角的匹配。 CVUSA [26] 和 CVACT [27] 构建了全景街景图像来匹配卫星视图图像，这是一项具有挑战性的任务，视角变化跨越 90 度左右。最近，提出了一个名为 VIGOR [28] 的大规模基准，它超越了一对一检索，以弥合现实环境与现有地理定位数据集之间的差距。 University-1652[1]创新性地提出了两个基于无人机视角的任务：无人机视角目标定位和无人机导航，提出了无人机视角作为过渡视角，降低了跨视角地理定位的难度。
高效的损失函数。一种流行的交叉视图管道是设计合适的损失函数来训练 CNN 主干，用于从图像中提取特征。交叉熵损失 [29]、三重损失 [30]、[31] 和对比损失 [32] 在检索任务中使用最广泛。郑等。 [33] 应用实例损失和验证损失一起优化网络，并取得有竞争力的结果。胡等。 [34] 提出了一种加权软间隔排序损失，它不仅可以加快训练收敛速度，还可以提高检索精度。罗等。 [35] 提出了一种 BNNeck 来改善 ID 损失和三元组损失的协调。孙等。 [36] 提出了一个统一的视角来优化 ID 损失和三元组损失。
基于部分的细粒度特征。关注不同部分的细粒度信息有助于模型学习更全面的特征。此外，通过对特征图进行划分和监督，充分挖掘图像中的次显着性特征。细粒度区域可以由人手动生成，也可以通过监督方法自动学习。基于部分的细粒度特征已被证明在检索任务中是可靠的 [37]、[38]、[39]、[40]、[41]。 LPN [12]提出了方环划分策略，让网络关注边缘更细粒度的信息和Part-based Fine-grained Features。关注不同部分的细粒度信息有助于模型学习更全面的特征。此外，通过对特征图进行划分和监督，充分挖掘图像中的次显着性特征。细粒度区域可以由人手动生成，也可以通过监督方法自动学习。基于部分的细粒度特征已被证明在检索任务中是可靠的 [37]、[38]、[39]、[40]、[41]。 LPN [12] 提出了方环划分策略，让网络在边缘关注更细粒度的信息，取得了巨大的提升。 PCB [18] 对人体部位应用水平分割方法来提取高级分割特征。 AlignedReID++ [22] 在不引入额外监督的情况下自动对齐切片信息，解决由遮挡、视图变化和姿态偏差引起的行人错位问题。 MGN [19] 设计了一个切片网络，结合多分支和特征度量双重学习策略来提取全局粗粒度和局部细粒度特征。 MSCAN[19] 提出了 Spatial Transform Networks 来学习人体各个部位的局部特征，并将局部特征和全局特征融合到最终的特征表示中。 PL-Net [21] 引入了部分损失来实现对人体各个部位的自动检测，从而增加了对看不见的人的歧视。罗德里格斯等人。 [42] 通过提出一种语义驱动的数据增强技术来解决场景之间的时间差距，该技术使 Siamese 网络能够产生幻觉看不见的物体，然后应用多尺度注意力嵌入网络来执行匹配任务。我们提出的 FSRA 也是受 LPN 启发的基于部分的方法之一，不同之处在于我们没有添加额外的监督而是实现了自动区域分割，这使得我们的 FSRA 具有出色的鲁棒性和抗位置偏移。
B. 视觉中的Transformer
transformer模型的注意力机制[43]最早是为了解决自然语言处理领域的问题而提出的。随后，transformer强烈的视觉表现展现了其结构的优越性。最近，Han 等人 [44] 和萨尔曼等人 [45] 调查了变压器在计算机视觉领域的应用。
Transformer在各个领域。阿列克谢等人 [16] 首先将 transformer 模型应用到分类任务中，随后 transformer in vision 的开发如火如荼。 Transformer 在对象检测、语义分割、GAN、Super Resolution、Reid 等大多数主流视觉领域都取得了有竞争力的结果。DETR [46] 是第一个成功将 Transformer 作为核心构建块集成的对象检测框架检测管道。 SETR [47] 通过纯转换器将语义分割视为序列到序列的预测任务。 TransGAN [48] 基于两个 transformer 结构构建了一个生成器和一个鉴别器。 TTSR[49]基于transformer恢复了图像超分辨率结果的纹理信息。 TransReID [50] 首次将变换器应用于检索领域，并取得了与基于 CNN 的方法相似的结果。余等。 [51] 将 transformer 模型扩展到用于图像字幕的多模态 Transformer (MT) 模型，并且显着优于以前的最先进方法。
CNN 和 Transformer 的结合。 ConvTransformer [52] 使用基于多头卷积自注意力层的编码器将输入序列映射到特征图序列，然后使用另一个 CNN 和 Transformer 的深度组合从特征图序列解码目标合成帧。 ConvTransformer [52] 使用基于多头卷积自注意力层的编码器将输入序列映射到特征图序列，然后使用另一个包含多头卷积的深度网络从特征图序列解码目标合成帧自注意力层。 Conformer [53] 依靠特征耦合单元 (FCU) 以交互方式融合不同分辨率下的局部和全局特征表示。 Mobile-Former [54] 是 MobileNet 和 Transformer 的并行设计，带有双向桥，可以实现局部和全局特征的双向融合。
交叉视图中的变压器。在跨视图域中，一些新颖有效的 Transformer 结构也被提出来实现不同的下游任务。Chen 等人[55] 提出了一对跨视图转换器，将特征图转换为另一个视图，并在它们上引入跨视图一致性损失。杨等。 [56] 提出了一种新颖的框架，可以在仅给定前视单目图像的情况下，在鸟瞰图中重建由道路布局和车辆占用形成的局部地图，并提出了一个交叉视图转换模块来加强视图转换和场景理解。图尔德等人。 [57]提出了一种新颖的交叉视图变换器方法来传输空间特征图级别的未注册视图之间的信息，在多视图医学图像分析领域取得了显著成果。杨等。 [58] 提出了一种简单而有效的自交叉注意机制来提高学习表征的质量。这提高了泛化能力并鼓励表示随着网络的深入而不断发展。

所提出的方法

在本节中，我们将介绍我们提出的方法的细节，完整的网络结构如图 3 所示。首先，视觉Transformer的结构将在第 III-A 节中介绍。其次，我们将在第 III-B 部分介绍拟议的 FSRA 的细节。然后，第 III-C 节将介绍一种无需痛苦地提高准确性的多重采样策略。最后，我们将介绍我们在第 III-D 节中应用的其他技巧，包括我们实现 TripletLoss 和相互学习的具体过程。
A. 基于Transformer的强基线
遵循 University1652 基准测试 [1] 的通用强基线，我们为跨视图地理定位构建了一个基于 transformer 的强基线。我们的基线由两部分组成：特征提取和分类监督学习。如图 2 所示。给定一个输入 x ∈ R H×W×C ，其中 H、W、C 代表它的高度、宽度和通道。然后将输入分成 N 个固定大小的 patches{xip|i = 1, 2, · · · , N} 并展平成一个序列。将表示为 xcls 的额外可学习嵌入令牌合并到空间信息中，以通过监督学习提取稳健的特征。如图2所示的输出[cls token]被视为全局特征表示f。通过可学习的位置嵌入将位置信息添加到每个补丁中。输入序列最终可以表示如下。
在这里插入图片描述其中 Z0 表示输入序列嵌入。 F 是将补丁映射到 D 维的线性投影。 P ∈ R(N+1)×D 是位置嵌入。图 3 中的 L 表示变压器层的深度。 transformer attention机制让transformer的每一层都能洞察全局上下文，克服了卷积神经网络感受野的限制。此外，不再需要下采样操作。
位置嵌入。图像分类和交叉视图任务在输入的分辨率上不同，因此不能直接从ImageNet上的预训练权重加载位置嵌入参数。位置嵌入的参数是可学习的。
额外可学习的嵌入。 transformer结构的特点是不改变输入数据的维度，输出包含上下文信息，可以表示全局特征。在输入中加入一个Extra learnable parameter作为全局特征向量，参数也是可学习的。
变压器层。 Transformer Layers 扮演与主干相同的角色，提取每个补丁之间的上下文语义关系。其结构如图2右侧所示，将所有包含Position Embedding的Patches作为输入，经过Multi-Head Attention后最终输出与原始输入同维的特征向量。
监督学习。 基于 Transformer 的强基线仅将分类结果作为监督信息，并将没有标签平滑的交叉熵损失用作 ID 损失。
B. FSRA的具体实施
Effect of the Transformer in Cross-View 中的实验表明，基于 transformer 的强基线可以在跨视图地理定位中取得令人印象深刻的性能。然而，位置偏移以及距离和尺度的不确定性仍然是需要克服的主要挑战。尽管提取稳健且与上下文相关的全局特征很重要，但许多先前的工作也表明，基于部分的方法对于图像检索来说要有效得多。
将每个部分与特征对齐是允许基于部分的方法实现端到端训练的一种直接方法。在此基础上，我们考虑是否有一种合理且简单的方法让模型学习每个补丁所属的类别，例如建筑物，道路和树木，以便我们可以根据它们所属的类别对它们进行分割和对齐。我们假设是否可以根据热图的出现来切出不同类别的特征，并对以上问题进行如下分析。
如何细分特定内容。 HSM的提出是为了达到分割建筑物、道路、树木等不同实例的目的。总体思路非常简单。如图4所示，我们以n = 2为例，根据热值的大小将热图分为两类，热值大的为前景，热值小的为背景。从热力学图中可以看出，大部分建筑部分的热值较大，而树木和背景部分的热值较小。网络对不同部分的关注程度不同，会在热图的分布上产生一定的规律性。 HSM 的灵感来自于此。我们根据热分布对特征图进行均匀分割。如图 4 右侧所示，很明显，我们已经几乎完全将建筑物与其他实例区分开来。
下面，我们将描述分割的详细实现步骤。首先，我们通过transformer的前向传播得到除了cls token之外的所有输出L ∈ R B×N×S（其中B代表batch size，N代表patch size，S代表每个patch对应的特征向量的长度），可以表示如下：
在这里插入图片描述
每个补丁的热值可以表示如下。

其中 Pc 表示第 c 个补丁的热值。 Mi表示第c个patch对应特征向量的第i个值。简而言之，我们对每个补丁的特征向量进行平均操作，以表示补丁的热值。然后，我们将 P 1−N 的值按降序排列，并根据区域数 n 平均划分补丁。每个区域对应的patch数量如下。
在这里插入图片描述
其中 N i 表示第 i 个区域的块数，b·c 是 floor 函数。最后，将L分成n份，其中N i 代表第i个区域的补丁数，b·c是floor函数。最后，将L按顺序分成n个部分，每个部分对应一个区域，然后我们可以将每个区域标记为一个类别，如图4右栏所示。仅靠HSM是无法让模型移动的专注于我们想要的方向，所以我们需要为这个划分法则开发一个对齐监督来让模型区分实例。区域数 n 是一个超参数。在下面的消融实验中，我们发现 n = 3 时表现最好。所提出的 HSM 位于图 3 的浅绿色部分。值得一提的是，HSM 是基于补丁级别实现的。

具体内容之间的对齐。 HAB的提出是为了达到特征对齐的效果。如图5所示。成功分割特定内容后，我们将所有补丁分为n个区域。图5以n=3为例。本质上，所有补丁都分为3类，我们用1-3来区分。下一步是根据不同区域对应的内容进行特征对齐。我们分别取出建筑物部分为f1，道路部分为f2，树木部分为f3。然后对f1−3进行池化操作，得到表征每个具体内容的特征向量Vi ∈ R B×Ni×S, i = {1, 2, 3}。可视化过程如图5右侧所示。Vi的表达式如下。
在这里插入图片描述
其中n代表区域数量（图5中n设置为3）。 fji 代表第 i 个实例区域的第 j 个 patch 的特征向量。简而言之，Vi就是取出每个区域的所有patch，进行平均池化操作得到的。
经过上述步骤，我们得到了对应特征内容的向量表达，然后通过Classif ierLayer对每个特征内容分别进行分类。另外，为了让模型建立更准确的匹配关系，我们应用了TripletLoss，如图3所示，向所有区域拉近区域之间的距离。具体实现将在III.D节中进行说明。拟议的HAB位于图3的浅蓝色部分。
值得注意的是，我们的HAB方法是区域级特征对齐，区域的划分是由HSM确定的。 HAB之所以能够取得良好的性能，是因为它区分了不同实例的特征，这有利于模型不仅关注全局显着特征，而且还关注背景的细节，这将有助于模型提取更全面的细粒度特征。

上一篇： [四旋翼无人飞行器 PID 仿真 (I)

下一篇：黑客能确定大疆无人机操作员的位置