全面理解对比学习新趋势：探究ICLR与NIPS上最新研究成果之三

最编程 2024-02-08 22:34:25

...

论文核心点：

其基于目前常用的contrastive loss提出的新的loss，（但是这实际上并不是新的loss，不是取代cross entropy的新loss，更准确地说是一个新的训练方式）contrastive loss包括两个方面：一是positive pair，来自同一个训练样本通过数据增强等操作得到的两个feature构成，这两个feature会越来越接近；二是negative pair，来自不同训练样本的两个feature 构成，这两个feature 会越来越远离。本文不同之处在于对一个训练样本（文中的anchor）考虑了多对positive pair，原来的contrastive learning 只考虑一个。

其核心方法是两阶段的训练。如上图所示。从左向右分别是监督学习，自监督对比学习，和本文的监督对比学习。其第一阶段：通过已知的label来构建contrastive loss中的positive 和negative pair。因为有label，所以negative pair 不会有false negative（见图1解释）。其第二阶段：冻结主干网络，只用正常的监督学习方法，也就是cross entropy 训练最后的分类层FC layer。

实验方面，主要在ImageNet上进行了实验，通过accuracy验证其分类性能，通过common image corruption 验证其鲁棒性。

5.Contrastive Learning with Adversarial Examples

网络异常，图片无法展示

论文标题：Contrastive Learning with Adversarial Examples

论文方向：对抗样本+对比学习

论文来源：NIPS2020

论文链接：https://arxiv.org/abs/2010.12050

网络异常，图片无法展示

本文在标准对比学习的框架中，引入了对抗样本作为一种数据增强的手段，具体做法为在标准对比损失函数基础上，额外添加了对抗对比损失作为正则项，从而提升了对比学习基线的性能。简单来说，给定数据增强后的样本，根据对比损失计算对该样本的梯度，然后利用 FGSM （Fast Gradient Sign Method）生成相应的对抗样本，最后的对比损失由两个项构成，第一项为标准对比损失（两组随机增强的样本对），第二项为对抗对比损失（一组随机增强的样本以及它们的对抗样本），两项的重要性可指定超参数进行调节。

6.LoCo

网络异常，图片无法展示

论文标题：LoCo: Local Contrastive Representation Learning

论文方向：利用对比学习对网络进行各层训练

论文来源：NIPS2020

论文链接：https://arxiv.org/abs/2008.01342

网络异常，图片无法展示

上图左边，展示了一个使用反向传播的常规端到端网络，其中每个矩形表示一个下采样阶段。在中间，是一个GIM，其中在每个阶级的末尾加上一个infoNCE损失，但是梯度不会从上一级流回到下一级。编码器早期的感受野可能太小，无法有效解决对比学习问题。由于相同的infoNCE损失被应用于所有的局部学习块（包括早期和晚期），早期阶段的解码器由于感受野有限，很难得到表征进行正确的区分正样本。例如，在第一阶段，我们需要在特征图上使用的核执行全局平均池化，然后将其发送到解码器（非线性全连接）进行分类。

我们可以在解码器中加入卷积层来扩大感受野。然而，这种增加并没有对端到端的simclr产生影响，因为最后阶段的感受野足够很大。其实，通过在局部阶段之间共享重叠级，就我们可以有效地使解码器的感受野变大，而不会在前向传递中引入额外的成本，同时解决了文中描述的两个问题。

7.What Makes for Good Views for Contrastive Learning?

网络异常，图片无法展示

论文标题：What Makes for Good Views for Contrastive Learning?

论文方向：提出InfoMin假设，探究对比学习有效的原因（Google出品，必属精品）

论文来源：NIPS2020

论文链接：https://arxiv.org/abs/2005.10243

首先作者提出了三个假设：

Sufficient Encoder

Minimal Sufficient Encoder

Optimal Representation of a Task

其次，作者举了一个非常有趣的例子，如下图所示：

数字, 在某个随机背景上以一定速度移动, 这个数据集有三个要素：

数字

数字的位置

背景

左边的v1即为普通的view, 右边v2+是对应的正样本, 所构成的三组正样本对分别共享了数字、数字的位置和背景三个信息，其余两个要素均是随机选择，故正样本也仅共享了对应要素的信息. 负样本对的各要素均是随机选择的。

实验结果如上表，如果像文中所表述的，正样本对仅关注某一个要素，则用于下游任务(即判别对应的元素，如判别出数字，判别出背景，判别出数字的位置)，当我们关注哪个要素的时候, 哪个要素的下游任务的效果就能有明显提升(注意数字越小越好)。

本文又额外做了同时关注多个要素的实验, 实验效果却并不理想，往往是背景这种更为明显，更占据主导的地位的共享信息会被对比损失所关注。

作者紧接着, 提出了一些构造 novel views 的办法。正如前面已经提到过的, novel views v1,v2应当是二者仅共享一些与下游任务有关的信息，抓住这个核心。这样会形成一个U型，最高点定义为甜点，我们的目标就是让两个视图的信息能够刚好达到甜点，不多不少，只学到特定的特征。

8.GraphCL

论文标题：Graph Contrastive Learning with Augmentations

论文方向：图+对比学习

论文来源：NIPS2020

论文链接：https://arxiv.org/abs/2010.13902

如上图所示，通过潜在空间中的对比损失来最大化同一图的两个扩充view之间的一致性，来进行预训练。

在本文中，作者针对GNN预训练开发了具有增强功能的对比学习，以解决图数据的异质性问题。

由于数据增强是进行对比学习的前提，但在图数据中却未得到充分研究，因此本文首先设计四种类型的图数据增强，每种类型都强加了一定的先于图数据，并针对程度和范围进行了参数化；

利用不同的增强手段获得相关view，提出了一种用于GNN预训练的新颖的图对比学习框架（GraphCL），以便可以针对各种图结构数据学习不依赖于扰动的表示形式；

证明了GraphCL实际上执行了互信息最大化，并且在GraphCL和最近提出的对比学习方法之间建立了联系；

证明了GraphCL可以被重写为一个通用框架，从而统一了一系列基于图结构数据的对比学习方法；

评估在各种类型的数据集上对比不同扩充的性能，揭示性能的基本原理，并为采用特定数据集的框架提供指导；

GraphCL在半监督学习，无监督表示学习和迁移学习的设置中达到了最佳的性能，此外还增强了抵抗常见对抗攻击的鲁棒性。

9.ContraGAN

论文标题：ContraGAN: Contrastive Learning for Conditional Image Generation

论文方向：条件图像生成领域

论文来源：NIPS2020

论文链接：https://arxiv.org/abs/2006.12681

论文代码：https://github.com/POSTECH-CVLab/PyTorch-StudioGAN

本文的方法是：判别器的大致结构和projGAN类似，首先输入图片x经过特征提取器D，得到特征向量；然后分两个分支，一个用于对抗损失判断图片是否真实，一个用于将特征经过一个projection head h 变成一个维度为k的向量（这个D+h的过程称为）。对于图片的类别，经过一个类别emmbedding 变成一个也是维度为k的向量。

损失函数也是infoNCE loss 只不过使用类标签的嵌入作为相似，而不是使用数据扩充。

上面的损害将参考样本xi拉到更靠近嵌入e(yi)的类别，并将其他样本推开。但是这个loss可以推开具有与yi相同标签的被认为是负样本。因此，我们还要拉近具有相似类别的图片的距离：

这样，就拉近图片和其类别的距离，同时拉近相同类别的图片的距离。

总结

对比学习已广泛应用在AI各个领域中，且作为自监督学习中的代表，效果甚至已经超越了很多有监督学习任务。很多互联网公司内部其实都有许许多多这样的业务需要大量人力进行标注，AI才能进行训练，从而得到一个不错的效果（无监督一般不敢上），而有了对比学习这个思想后，既能降本又能增效，AI炼丹师们终于可以开心的得到一个更好的效果，实现”技术有深度，业务有产出“这样的目标。期待对比学习这个领域诞生出更多好的作品，在各个应用方向开花结果，也期待NIPS2021的优秀论文们！

上一篇：深入理解KNN算法及其实现 - 从理论到Python实战(第二部分): k邻近模型详解

下一篇：从折分验证到自助采样：各类常见交叉验证技巧的优缺点详解 - 第3.1部分：介绍与基本原理