深度学习之文本分类模型-基于transformer-bert

最编程 2024-06-10 20:50:51

...

bert是由Google的一些研究者们提出的一种算法[3]，其沿用了GPT的用大规模的语料进行预训练，然后在下游任务进行微调的方式，其中预训练的基础模型依然用的是transformer模型，bert在embedding层用了三种方式的embedding累加，并且提出了双向的语言模型，这比GPT的单向语言模型更能学到语义的信息。并且加入了next sentence prediction方式作为loss的一部分，最终在多个任务上达到了sota的效果。

input embedding
输入的embedding有三种方式组成，第一种就是我们的单词embedding，假设输入的句子序列，经过编码是[3,5,7,8,4,5,4],词典的大小为N，向量的维度为d，那么第一个token embedding为[7,d]的向量。第二个是sentence embedding,出现这个的原因是如果输入的句子如果是两个的话，那么我们分别用0表示第一条句子，用1表示第二条句子，比如这两条句子组合之后分别是[0,0,0,0,1,1,1]，sentence embedding的维度是[2,d]，最终，经过embedding，得到[7,d]的矩阵表示，其中前4条向量相同，后3条向量相同。第三个是position embedding，即位置的embedding，假设句子的最大长度为128，那么会生成一个[128,d]的矩阵，原始数据的位置表示为[0,1,2,3,0,1,2],这样我们得到各自位置上的句子表示，最终也为[7,d]。最后，我们将这三个向量进行相加得到输入的embedding。结构如下图所示
输入的标记
在bert种，为了区分两条句子，用[CLS]表示所有句子的开头，用[SEP]来分隔两个句子，则我们得到的输入为[[CLS],3,5,7,8,[SEP],4,5,4[SEP]]这样的输入形式。
Masked LM
Masked LM是为了解决语言模型单向训练的问题，首先，将训练数据中80%的单词用mask表示，将10%的单词用该句子中随机的单词来代替，另外10%保持不变。在输出层的时候，我们用这些被mask和被替代的单词来预测原始的单词，最终算得损失函数。比如我们的输入可能会变成
[[CLS],[MASK],5,8,8,[SEP],4,[MASK],4[SEP]]
next sentence predition
如上所述，在预训练的时候，我们会输入两个句子，但正常情况下我们只有一个句子，那么如何进行构造呢？我们会将一个完整的句子进行分割成2个部分，第二个部分以50%的概率随机替换为其他的句子，如果替换了，那么is_next为0，否则为1。在最终的输出层，我们会构造两个输出节点，类似于二分类，来预测这两个句子是否是同一个句子中的句子。从而计算损失函数，最终的损失函数为Masked LM损失函数两者的和。
微调
当我们用大规模的语料训练好bert模型后，可以根据自己下游的业务继续进行训练。

上一篇：全球与中国汽车张紧器市场：增长趋势、竞争格局与前景展望

下一篇：初探沁恒CH32V307VCT6评估板 2-1定时器TIM

深度学习之文本分类模型-基于transformer-bert

深度学习之文本分类模型-基于transformer-bert

阿里云 - NLP 零基础入门 [基于深度学习的文本分类 3-BERT] - 数据标记

PointNet：基于深度学习的三维点云分类和分割模型详情