欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

基于不同监督强度分类的语义分割综述:利用深度学习进行语义分割的简要调查

最编程 2024-03-24 13:21:18
...

1ed6212c96314963ae8fca745c781e5f.png


引言:语义分割是计算机视觉中一项具有挑战性的任务。近年来,深度学习技术的应用大大提高了语义分割的性能。人们提出了大量的新方法。本文旨在对基于深度学习的语义分割方法的研究进展进行简要综述。全文将该领域的研究按其监督程度进行了分类,即完全监督方法、弱监督方法和半监督方法。文章还讨论了当前研究的共同挑战,并提出了该领域的几个有价值的发展研究点。本综述旨在让读者了解深度学习时代语义分割研究的进展和面临的挑战。


论文链接https://www.sciencedirect.com/science/article/pii/S0925231220305476


如何读论文?


第一步,看标题+摘要+结论+图表(了解论文在干什么)


第二步,从头到尾读到最后(了解论文的各个部分)


第三步,精读,理解创新点、思路、动机


语义分割介绍


d9eb957137a5447c682f851d83fdbe5d.png


图(a)是原始输入图像


语义分割-图(b):通过给定一张图片,语义分割能给每一个像素分配相应的标签/类别


图片分类-图©: 图片分类能告诉我们,什么物体存在于这张图片中


目标检测-图(d): 不仅仅需要知道图片中需要存在什么物体,还应该知道他们的坐标


实例分割-图(e): 与语义分割相似,区别是检测每一个物体作为一个独立的类别,相同的类别有不同的车,例如图片中的车,不同的车有着不同的颜色


全景分割-图(f): 类似于语义分割+实例分割的结合体,不仅要识别出每一个物体,也需要识别出背景


常见的主干网络


网络 提出时间 贡献
AlexNet 2012 引发了深度学习的浪潮,首次将模型训练应用于GPU中
VGG 2014 大量使用3x3或5x5的卷积核构建更深层的网络
ResNet 2016 解决了梯度消失和梯度爆炸等问题,使得构建深层网络成为可能
MobileNetV3 2019 使用dw卷积,倒残差结构,加入自注意力机制,在精度损失较小的情况下,使模型更轻量化
ViT 2020 首次将自然语言处理的方法应用到视觉任务中来,取得了较大的精度提升


????从不同监督强度介绍分割方法


全监督


1.基于语义的方法


context:翻译为上下文,我所理解的上下文,就是图像中的每一个像素点不可能是孤立的,一个像素一定和周围像素是有一定的关系的,大量像素的互相联系才产生了图像中的各种物体,所以上下文特征就指像素以及周边像素的某种联系。


5af06842df1365f21e47d6687f3626af.png


在图像需要全局信息的问题中,都能很好的应用膨胀卷积,膨胀卷积保持参数个数不变的情况下增大了卷积核的感受野,让每个卷积输出都包含较大范围的信息


e7b0c593dbb0418aadc7acda80422563.gif


使用膨胀卷积前后,分割效果对比:


af67d7c22c0a4cd7a154035db690acef.png


2.特征增强法


  • 在深层提取的特征具有更强的语义感知能力,但由于池化和步幅卷积,失去了空间细节。


  • 来自浅层的特征更注重细节,如强边缘。在这种情况下,这两种类型的特征的适当合作有可能提高语义分割的性能。


利用语义感知能力+空间细节能力提高性能


fe6acdaeb4cac6c3da6eec6f5c1a5f64.png


3.反卷积法


image-20221020152609622.png


下图展示了转置卷积中不同s和p的情况


s=1, p=0, k=3 s=2, p=0, k=3 s=2, p=1, k=3

dbb10ea62b89456ca567eb69fd31d18b.gif           94191375edb942a087c54173a1dd4e75.gif               dc6050f7df5042f886054f16d8e522d1.gif

下列是一些基于反卷积的分割方法:


358642fcc9803ea3d6233baafd5172ba.png


4.RNN法


利用局部或者全局的上下文依赖关系,使用RNN去检索上下文信息,以此作为分割的一部分依据


43d93557fbda67a7f0404b03fe709c4e.png


5.对抗生成网络(Gan)法


图形分割过程中,运用判别器对分割对象的局部属性、全局结构特点进行深入学习,以此获取不同像素间的有效空间关系,GAN用于扩展训练数据,提升训练效果。


  • 首先对对抗网络进行预训练,
  • 然后使用对抗性损失来微调分割网络,如下图所示。左边的分割网络将 RGB 图像作为输入,并产生每个像素的类别预测。
  • 右边的对抗网络将标签图作为输入并生成类标签(1代表真实标注,0代表合成标签)


a07c091974aca5d72205138327c0dedc.jpg


e920ceffe1ff20467ec821eb496b3fc7.png


6.RGBD法


利用激光雷达、双目相机等工具,生成深度图象,用于辅助语义分割


引入深度信息后,其提供的额外结构信息能够有效辅助复杂和困难场景下的分割。比如,与室外场景相比,由于语义类别繁杂、遮挡严重、目标外观差异较大等原因,室内场景的分割任务要更难实现。此时,在结合深度信息的情况下,能够有效降低分割的难度。


f0f73ce2ee7d97f811de0050e1858b76.png


7.实时法


3cac4f671ca119a0a8a09f0faecce1cd.png


  • 限制输入尺寸
  • 修改膨胀率
  • ????修改卷积方式


efda032c754a4972657e6d94018e7216.png


弱监督


根据弱监督信号的形式,常见的弱监督语义分割可分为以下四类:


  • 图像级标注:仅标注图像中相关物体所属的类别,是最简单的标注;
  • 物体点标注:标注各个物体上某一点,以及相应类别;
  • 物体框标注:标注各个物体所在的矩形框,以及相应类别;
  • 物体划线标注:在各个物体上划一条线,以及相应类别


上一篇: 深度学习(自动衍生)

下一篇: 第 8 章 项目进度管理(选择题 4 分,案例题 12 分)