探索Mask2Former：深度解析mask transformer的论文阅读

最编程 2024-01-25 08:18:43

...

目的：为了统一分割任务，就不要有什么语义分割、实例分割、全景分割了，给你统一起来，只用一个框架。
Architecture: a backbone feature extractor, a pixel decoder. a Transformer decoder
改进：

在Transformer解码器中使用掩蔽注意力（就是前一层预测得到的mask用作当前层掩码），它将注意力限制在以预测片段为中心的局部特征上，这些片段可以是对象，也可以是区域，这取决于分组的特定语义。与关注图像中所有位置的标准Transformer解码器中使用的交叉注意力相比，我们的掩蔽注意力导致更快的收敛和改进的性能。
使用多尺度高分辨率特征来帮助模型分割小对象/区域。
我们提出了优化改进，如切换自注意和交叉注意的顺序，使查询特征可学习，并消除遗漏；所有这些都在无需额外计算的情况下提高了性能
我们通过计算几个随机采样点上的掩码损失，在不影响性能的情况下节省了3倍的训练内存。
这些改进不仅提高了模型性能，而且大大简化了训练，使计算量有限的用户更容易访问通用体系结构。

其中还用了深监督的方法，DETR中也用了深监督。
缺点：这表明，即使Mask2Former可以推广到不同的任务，它仍然需要针对这些特定任务进行训练。未来，我们希望开发一种模型，该模型可以针对多个任务甚至多个数据集只训练一次。

阅读心得：探索《计算之魂》的深度解析