论文读书笔记-如何微调文本分类的 BERT？

最编程 2024-10-07 10:27:28

...

首先先确定一下BERT在Text Classification上的一般应用，我们都知道BERT喂入的输入有两个特殊的Token，即[CLS]置于开头，[SEP]用于分隔句子，最后的输出取[CLS]的最后隐藏层状态 $h$ 作为整个序列的表示，然后使用全连接层映射到分类任务上，及：
$p (c ∣ h) = s o f t m a x (W h)$
基于此，论文分别讨论通用微调BERT的方法流程，Fine-Tuning Strategies、Further Pre-training和Multi-Task Fine-Tuning，如下：
在这里插入图片描述
论文分析结果用的实验数据共八个，如下，可以归纳为Sentiment analysis、Question classification、Topic classification、Data preprocessing

Warmup是在ResNet论文中提到的一种学习率预热的方法，它在训练开始的时候先选择使用一个较小的学习率，训练了一些epoches或者steps

上一篇： C (xiv) while、for、do-while 循环合成（I）

下一篇：力扣 59.螺旋矩阵 || - 输入：n = 1 Output：[[1]] 提示