基于 PaddleSeg 的无人机遥感图像分割技术提高复杂场景三维重建的准确性 - 项目背景

最编程 2024-04-30 22:32:08

...

运动结构恢复(Structure from Motion, SfM)是一种能够从多张图像或视频序列中自动地恢复相机的参数以及场景三维结构的技术。由于成本较低，该方法应用广泛，涉及增强现实、自主导航、运动捕捉、手眼标定、影像视频处理、基于影像的三维建模等多个领域[1]。以城市场景的应用为例，通过以无人机为主要搭载平台，获取大范围的城市航空遥感影像，使用SfM可以恢复城市三维结构，也可以对单个建筑物进行航拍数据采集，根据序列影像恢复其精细的三维模型。尽管现在很多研究为提高SfM精度做了大量的努力，但是大多数SfM方法都受到匹配结果的影响，在复杂的场景中，传统的图像匹配算法如SIFT等容易产生误匹配[2]，如何有效地过滤误匹配点是SfM领域的关键问题。

近几年，随着语义分割任务的蓬勃发展，我们可以轻松地使用优秀的语义分割模型为特定的下游任务提供置信度高的语义信息。例如Zhai等人[3]使用语义分割模型得到的信息来优化ORB-SLAM2，使其能在在动态环境中保持稳定和最佳的定位性能。Chen等人[2]则使用语义分割模型提取待匹配图像的语义信息，给特征点匹配提供鲁棒的语义约束，提高特征点匹配的准确率。同时，从语义分割的结果中提取的语义约束，构建等式约束的光束法平差来优化3D结构和相机位姿。实验的结果表明利用语义信息辅助SfM可以在相同的效率下达到更好的重建精度。该论文的思路值得我们学习，同时我也注意到文中使用的模型是DeeplabV3+。在今年年初我所看到的一个视频中，在cityscapes-C上同时运行SegFormer和DeeplabV3+，视频中的SegFormer的鲁棒性比DeeplabV3+好很多，于是，我打算使用飞桨图像分割开发套件PaddleSeg中提供的SegFormer模型对论文的数据集进行训练，为SfM提供更精确和稳定的语义约束。

上一篇： [三维重建]中科院最新 3DGS 概览（最新进展更新）