连体网络（暹罗网络）--通过卷积神经网络学习比较图像斑块

最编程 2024-04-30 12:37:00

...

2015,cvpr 的一篇文章。

本篇文章对经典的算法Siamese Networks 做了改进。学习这篇paper的算法，需要熟悉Siamese Networks（经典老文献《Signature Verification Using a Siamese Time Delay Neural Network》）、以及大神何凯明提出来的空间金字塔池化（2015年CVPR 文献《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》），因为文献基本上是在 Siamese Networks的基础上做修改，然后也要借助于空间金字塔池化实现不同大小图片的输入网络。

网络总结构

如上图所示，我们的目的是比较两幅图片是否相似，或者说相似度是多少，因此我们构建的卷积神经网络模型的输入就是：两幅图片，然后网络的输出是一个相似度数值。其实我觉得，用“计算相似度”这个词有点不合适，我觉得应该翻译为匹配程度。因为文献所采用的训练数据中，如果两张图片匹配，输出值标注为y=1，如果两张图片不匹配，那么训练数据标注为y=-1，也就是说，这个训练数据的标注方法，根本就不是一个相似度数值，而是一个是否匹配的数值。我们打个比方，有三样物体：钢笔、铅笔、书包，那么在训练数据中，就把钢笔和铅笔标注为y=1，而不是用一个相似度数值来衡量，比我钢笔和铅笔的相似度我们把它标注为y=0.9……，所以说用于用相似度这个词有点不合理，即使我们最后计算出来的值是一个-1~1之间的数……

paper主要创新点：在创新点方面，我觉得主要是把Siamese 网络的双分支，合在一起，从而提高了精度，如下图所示

Siamese 网络

paper算法2-channel 网络

先在这里解释下为什么作者要把它称之为：2-channel networks。理解了2-channel这个词，有助于我们后面理解算法。从上面Siamese 网络，我们可以看到这个网络有两个分支组成，因为我们是要比较两张图片patch1、patch2的相似度，所以Siamese 网络的大体思路，就是让patch1、patch2分别经过网络，进行提取特征向量，然后在最后一层对两个两个特征向量做一个相似度损失函数，进行网络训练，这个后面在给进行比较详细的讲解，总的来说Siamese 对于两张图片patch1、patch2的特征提取过程是相互独立的，我们也可以把Siamese 网络称之为“2-branches networks”。那么paper所提出的算法：2-channel networks 又是什么意思呢？本来patch1、patch2是两张单通道灰度图像、它们各不相干，于是作者的想法就是把patch1、patch2合在一起，把这两张图片，看成是一张双通道的图像。也就是把两个(1，64，64)单通道的数据，放在一起，成为了(2，64，64)的双通道矩阵，然后把这个矩阵数据作为网络的输入，这就是所谓的：2-channel。

参考文献：http://blog.****.net/hjimce/article/details/50098483

上一篇：深度人脸识别的判别式特征学习方法》阅读笔记

下一篇：连体网络目标跟踪_连体网络友好介绍