欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

论文读书笔记-如何微调文本分类的 BERT?

最编程 2024-10-07 10:27:28
...

首先先确定一下BERT在Text Classification上的一般应用,我们都知道BERT喂入的输入有两个特殊的Token,即[CLS]置于开头,[SEP]用于分隔句子,最后的输出取[CLS]的最后隐藏层状态 h h h 作为整个序列的表示,然后使用全连接层映射到分类任务上,及:
p ( c ∣ h ) = s o f t m a x ( W h ) p(c|h)=softmax(Wh) p(ch)=softmax(Wh)
基于此,论文分别讨论通用微调BERT的方法流程,Fine-Tuning Strategies、Further Pre-training和Multi-Task Fine-Tuning,如下:
在这里插入图片描述
论文分析结果用的实验数据共八个,如下,可以归纳为Sentiment analysis、Question classification、Topic classification、Data preprocessing
在这里插入图片描述

Warmup是在ResNet论文中提到的一种学习率预热的方法,它在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps