图像分割

最编程 2024-07-31 20:07:29

...

图像分割

什么是图像分割？

图像分割就是预测图像中每一个像素所属的类别或者物体。图像分割有两个子问题，一个是只预测类别层面的分割，对每个像素标出一个位置。第二个是区分不同物体的个体。

应用场景，比如自动驾驶、3D地图重建、美化图片、人脸建模等等。

最常用的数据集

主要介绍三个： Pascal VOC；CityScapes；MSCOCO。

传统的图分割：(Graph Cut)

图切割就是移除一些边，使得两个子图不相连；图切割的目标是，找到一个切割，使得移除边的和权重最小。

图切割的优点：分割效果还不错，并且是一种普适性的框架，适合各种特征。缺点是时间复杂度和空间复杂度较高，需要事先选取分割块儿的数目。

图切割的失败案例：Min-Cut失败的情形

为了克服这个失败，有一篇论文提出了Normalized Cut。它是在图分割中加入权重参数Volume。Volume(A)是A中所有边的权重之和。这种方法平衡了每一个子图的大小。

可以考虑一下相关的数学推导和代码整理

https://blog.****.net/qq_38476684/article/details/80553850

图像分割基础算法及实现实例（一些常见的图像处理matlab代码）

一些算法：

基于阈值：根据灰度值

基于边缘

基于区域

基于图论

基于能量泛函

可以学习以下相关的理论和概念：最大流、最小割；应用如目标和背景分离；但是实际上更可能用于节点的模型；对于图像而言计算量会比较大，相对而言不是特别适合，但是相关的思想可以参考借鉴

深度学习算法

第一篇比较成功用神经网络做图像分割的论文是 Fully Convolutional Networks (以下简称 FCN)。

传统神经网络做分类的步骤是，首先是一个图像进来之后经过多层卷积得到降维之后的特征图，这个特征图经过全连接层变成一个分类器，最后输出一个类别的向量，这就是分类的结果。

而FCN是把所有的全连接层换成卷积层，原来只能输出一个类别分类的网络可以在特征图的每一个像素输出一个分类结果。这样就把分类的向量，变成了一个分类的特征图。

为了能让分类的特征图恢复到原图的大小，采用了上采样层。

这里有两个概念，第一个概念叫反卷积层（Deconvolution）；第二个概念叫双线性差值上采样（Bilinear Upsampling）。

这里的「反卷积」其实不是真正的卷积的逆运算，用 Transposed Convolution 代替比较合适，但原论文中用的是 Deconvolution，我们下面还是用这个词，它可以等效于普通卷积。它的主要目的就是实现上采样。

双线性上采样差值的三个用途：

用作初始化反卷积的权重；（说是比较难训练）
不用反卷积，使用上采样+卷积；
只使用上采样。

下面介绍膨胀卷积或带洞卷积( Dilated Convolution)

它的用途可以使特征图视野变大，但不增加计算量，对于图像分割的好处，更利于提取全局信息，这样就使得分割准确率增加很多。

其本质上是利用了类似信号处理的采样原理，在不增加处理量的情况下，增加了特征视野，更方便利用全局信息，需要考虑尺度或粒度

特征金字塔( Feature Pyramid)

Featurized image pyramid
Single feature map
Pyramidal feature hierarchy
Feature Pyramid Network

Pyramid Pooling

利用不同尺度上的信息，关键点是计算复杂度，以及如何更好的结合全局信息和局部信息，从而得到更好的性能

Mask-RCNN

多分支输出；Binary Mask；RoiAlign

第一个特点它是多分支输出的。它同时输出物体的类别，bounding box和Mask。
第二个特点是它使用了Binary Mask。之前神经网络都是使用多类Mask，而它只需要判断物体在哪个地方。
最后是RoiAlign层。能比较精确地把物体的位置对应到特征图的位置上。

Multi-Target Loss:

物体的bounding box
类别
对roi用FCN

和Fast/er RCNN相对多了一个mask

采用了Softmask

Softmask需要同时做分类和mask，身兼数职，sigmoid只要预测mask就好。

RoI Pooling 与 RoI Align 的比较

RoIPool breaks pixel-to-pixel translation-equivariance.

参考：

带你回顾图像分割的经典算法 https://www.leiphone.com/news/201801/vV9tk5kK95g0spUG.html

上一篇：网络流问题

下一篇：最小割（Stoer-Wagner算法）

图像分割

图像分割基础算法及实现实例（一些常见的图像处理matlab代码）

目标检测图像信箱、坐标变换处理脚本

带三行高速缓存的 FPGA 图像处理

[算法] 分割等码和子集码

OpenCV 高级图形用户界面 (13) 选择图像的矩形区域函数 selectROI 的使用 - 代码示例

Patriot 按图像界面系列搜索产品列表，API 界面开发

图像去雾 - 图像去残留（matlab/python 代码 + 教程）

音频分割：将长语音音频分割为短语音音频 - python 实现

[Matlab 算法] 基于 MATLAB 的图像复原算法的研究与实现（含完整 MATLAB 代码）

Canmv k230 C++ 案例 1 - 图像分类学习笔记第一版-02 AI 模型开发

pandas 文本两两分割进行频率统计

图像分割

图像分割基础算法及实现实例 （一些常见的图像处理matlab代码）

目标检测图像信箱、坐标变换处理脚本

带三行高速缓存的 FPGA 图像处理

[算法] 分割等码和子集码

OpenCV 高级图形用户界面 (13) 选择图像的矩形区域 函数 selectROI 的使用 - 代码示例

Patriot 按图像界面系列搜索产品列表，API 界面开发

图像去雾 - 图像去残留（matlab/python 代码 + 教程）

音频分割：将长语音音频分割为短语音音频 - python 实现

[Matlab 算法] 基于 MATLAB 的图像复原算法的研究与实现（含完整 MATLAB 代码）

Canmv k230 C++ 案例 1 - 图像分类学习笔记 第一版-02 AI 模型开发

pandas 文本两两分割进行频率统计

图像分割基础算法及实现实例（一些常见的图像处理matlab代码）

OpenCV 高级图形用户界面 (13) 选择图像的矩形区域函数 selectROI 的使用 - 代码示例

Canmv k230 C++ 案例 1 - 图像分类学习笔记第一版-02 AI 模型开发