特定领域知识图谱融合方案：探索多模型，包括预训练Simbert、ERNIE-Gram单塔模型的文本匹配算法【三】

最编程 2024-01-03 15:52:35

...

特定领域知识图谱融合方案：文本匹配算法之预训练模型SimBert、ERNIE-Gram

文本匹配任务在自然语言处理中是非常重要的基础任务之一，一般研究两段文本之间的关系。有很多应用场景；如信息检索、问答系统、智能对话、文本鉴别、智能推荐、文本数据去重、文本相似度计算、自然语言推理、问答系统、信息检索等，但文本匹配或者说自然语言处理仍然存在很多难点。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题，比如信息检索可以归结为搜索词和文档资源的匹配，问答系统可以归结为问题和候选答案的匹配，复述问题可以归结为两个同义句的匹配。

0.前言：特定领域知识图谱融合方案

本项目主要围绕着特定领域知识图谱(Domain-specific KnowledgeGraph:DKG)融合方案：文本匹配算法、知识融合学术界方案、知识融合业界落地方案、算法测评KG生产质量保障讲解了文本匹配算法的综述，从经典的传统模型到孪生神经网络“双塔模型”再到预训练模型以及有监督无监督联合模型，期间也涉及了近几年前沿的对比学习模型，之后提出了文本匹配技巧提升方案，最终给出了DKG的落地方案。这边主要以原理讲解和技术方案阐述为主，之后会慢慢把项目开源出来，一起共建KG，从知识抽取到知识融合、知识推理、质量评估等争取走通完整的流程。

0.1 前置参考项目

前置参考项目

1.特定领域知识图谱融合方案：技术知识前置【一】-文本匹配算法

https://blog.****.net/sinat_39620217/article/details/128718537

2.特定领域知识图谱融合方案：文本匹配算法Simnet、Simcse、Diffcse【二】

https://blog.****.net/sinat_39620217/article/details/128833057

3.特定领域知识图谱融合方案：文本匹配算法之预训练Simbert、ERNIE-Gram单塔模型等诸多模型【三】

https://blog.****.net/sinat_39620217/article/details/129026570

4.特定领域知识图谱融合方案：学以致用-问题匹配鲁棒性评测比赛验证【四】
https://blog.****.net/sinat_39620217/article/details/129026193

NLP知识图谱项目合集（信息抽取、文本分类、图神经网络、性能优化等）

https://blog.****.net/sinat_39620217/article/details/128805154

2023计算机领域顶会以及ACL自然语言处理（NLP）研究子方向汇总

https://blog.****.net/sinat_39620217/article/details/128897539

0.2 结论先看

仿真结果如下：

模型	dev acc
Simcse（无监督）	58.97%
Diffcse（无监督）	63.23%
bert-base-chinese	86.53%
bert-wwm-chinese	86.33%
bert-wwm-ext-chinese	86.05%
ernie-tiny	86.07%
roberta-wwm-ext	87.53%
rbt3	85.37%
rbtl3	85.17%
ERNIE-1.0-Base	89.34%
ERNIE-1.0-Base	89.34%
ERNIE-Gram-Base-Pointwise	90.58%

SimCSE 模型适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。
相比于 SimCSE 模型，DiffCSE模型会更关注语句之间的差异性，具有精确的向量表示能力。DiffCSE 模型同样适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。
明显看到有监督模型中ERNIE-Gram比之前所有模型性能的优秀

1.SimBERT（UniLM）

预训练模型按照训练方式或者网络结构可以分成三类：

一是以BERT[2]为代表的自编码（Auto-Encoding）语言模型，Autoencoding Language Modeling，自编码语言模型：通过上下文信息来预测当前被mask的token，代表有BERT、Word2Vec(CBOW)等.它使用MLM做预训练任务，自编码预训模型往往更擅长做判别类任务，或者叫做自然语言理解（Natural Language Understanding，NLU）任务，例如文本分类，NER等。

content
缺点：由于训练中采用了[MASK]标记，导致预训练与微调阶段不一致的问题，且对于生成式问题的支持能力较差
优点：能够很好的编码上下文语义信息，在自然语言理解(NLU)相关的下游任务上表现突出

二是以GPT[3]为代表的自回归（Auto-Regressive）语言模型，Aotoregressive Lanuage Modeling，自回归语言模型：根据前面(或后面)出现的token来预测当前时刻的token，代表模型有ELMO、GTP等,它一般采用生成类任务做预训练，类似于我们写一篇文章，自回归语言模型更擅长做生成类任务（Natural Language Generating，NLG），例如文章生成等。

$\begin{aligned} & \text { forward: } p(x)=\prod_{t=1}^T p\left(x_t \mid x_{ t}\right)\end{aligned}$
缺点：只能利用单向语义而不能同时利用上下文信息
优点：对自然语言生成任务(NLG)友好，符合生成式任务的生成过程
}\right)>

三是以encoder-decoder为基础模型架构的预训练模，例如MASS[4]，它通过编码器将输入句子编码成特征向量，然后通过解码器将该特征向量转化成输出文本序列。基于Encoder-Decoder的预训练模型的优点是它能够兼顾自编码语言模型和自回归语言模型：在它的编码器之后接一个分类层便可以制作一个判别类任务，而同时使用编码器和解码器便可以做生成类任务。

这里要介绍的统一语言模型（Unified Language Model，UniLM）[1]从网络结构上看，它的结构是和BERT相同的编码器的结构。但是从它的预训练任务上来看，它不仅可以像自编码语言模型那样利用掩码标志的上下文进行训练，还可以像自回归语言模型那样从左向右的进行训练。甚至可以像Encoder-Decoder架构的模型先对输入文本进行编码，再从左向右的生成序列。

UniLM是在微软研究院在BERT的基础上提出的预训练语言模型，被称为统一预训练语言模型。使用三种特殊的Mask的预训练目标，从而使得模型可以用于NLG，同时在NLU任务获得和BERT一样的效果
它可以完成单向、序列到序列和双向预测任务，可以说是结合了AR和AE两种语言模型的优点，UniLM在文本摘要、生成式问题回答等领域取得了SOTA的成绩

[1] Dong, Li, et al. "Unified language model pre-training for natural language understanding and generation." Advances in Neural Information Processing Systems 32 (2019).

[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[3] Radford, A., Narasimhan, K., Salimans, T. and Sutskever, I., 2018. Improving language understanding by generative pre-training.

[4] Song, Kaitao, et al. "Mass: Masked sequence to sequence pre-training for language generation."arXiv preprint arXiv:1905.02450(2019).

1.1 UniLM 模型详解

原始论文：Unified Language Model Pre-training for Natural Language Understanding and Generation

刚介绍的三种不同的类型的预训练架构往往需要使用不同的预训练任务进行训练。但是这些任务都可以归纳为根据已知的内容预测未知的内容，不同的是哪些内容是我们已知的，哪些是需要预测的。UniLM最核心的内容将用来训练不同架构的任务都统一到了一种类似于掩码语言模型的框架上，然后通过一个变量掩码矩阵M（Mask Matrix）
来适配不同的任务。UniLM所有核心的内容可以概括为下图。

UniLM的网络结构以及它不同的预训练任务

模型框架如上图所示，在预训练阶段，UniLM模型通过三种不同目标函数的语言模型(包括：双向语言模型，单向语言模型和序列到序列语言模型)，去共同学习一个Transformer网络；为了控制对将要预测的token可见到的上下文，使用了不同的self-attention mask来实现。即通过不同的掩码来控制预测单词的可见上下文词语数量，实现不同的模型表征.

1.1.1 模型输入

首先对于一个输入句子，UniLM采用了WordPiece的方式对其进行了分词。除了分词得到的token嵌入，UniLM中添加了位置嵌入（和BERT相同的方式）和用于区分文本对的两个段的段嵌入（Segment Embedding）。为了得到整句的特征向量，UniLM在句子的开始添加了[SOS]标志。为了分割不同的段，它向其中添加了[EOS]标志。具体例子可以参考图中的蓝色虚线框中的内容。包括token embedding，position embedding，segment embedding，同时segment embedding还可以作为模型采取何种训练方式(单向，双向，序列到序列)的一种标识

1.1.2 网络结构

如图1红色虚线框中的内容，UniLM使用了层Transformer的架构，为了区分使不同的预训练任务可以共享这个网络，UniLM在其中添加了掩码矩阵的运算符。具体的讲，我们假设输入文本表示为
，它经过嵌入层后得到第一层的输入，然后经过层Transformer后得到最终的特征向量，表示为 ,再抽象编码成的不同层次的上下文表示。在每个块中，使用多个self-attention heads来聚合前一层的输出向量。对于第个层，self-attention head 的输出通过以下方。不同于原始的Transformer，UniLM在其中添加了掩码矩阵，以第层为例，此时Transformer转化为式(1)到式(3)所示的形式。

其中分别使用参数矩阵分别线性地投影到三元组Query，Key，Value中，是我们前面多次提到过的用于控制预训练任务的掩码矩阵。通过根据掩码矩阵确定一对tokens是否可以相互attend，覆盖被编码的特征，让预测时只能关注到与特定任务相关的特征，从而实现了不同的预训练方式.

1.1.3 任务统一

UniLM共有4个预训练任务，除了图1中所示的三个语言模型外，还有一个经典的NSP任务，下面我们分别介绍它们。

双向语言模型：
- MASK完形填空任务，输入的是一个文本对
- 双向语言模型是图1的最上面的任务，它和掩码语言模型一样就是利用上下文预测被掩码的部分。，与Bert模型一致，在预测被掩蔽token时，可以观察到所有的token，如上图所示，使用全0矩阵来作为掩码矩阵,模型需要根据所有的上下文分析，所以是一个0矩阵。
单向语言模型：
- MASK完形填空任务，输入的是一个单独的文本
- 单向语言模型可以使从左向右也可以是从右向左，图1的例子是从左向右的，也就是GPT[3]中使用的掩码方式。在这种预测方式中，模型在预测第t时间片的内容时只能看到第t时间片之前的内容，因此是一个上三角全为的上三角矩阵（图1中第二个掩码矩阵的阴影部分）。同理，当单向语言模型是从右向左时，是一个下三角矩阵。在这种训练方式中，观测序列分为从左到右和从右向左两种，从左到右，即仅通过被掩蔽token的左侧所有本文来预测被掩蔽的token；从右到左，则是仅通过被掩蔽token的右侧所有本文来预测被掩蔽的token，如上图所示，使用上三角矩阵来作为掩码矩阵，阴影部分为，空白部分为0,
Seq-to-Seq语言模型：
- MASK完形填空任务，输入的是一个文本对
- 如果被掩蔽token在第一个文本序列中，那么仅可以使用第一个文本序列中所有token，不能使用第二个文本序列的任何信息；如果被掩蔽token在第二个文本序列中，那么使用一个文本序列中所有token和第二个文本序列中被掩蔽token的左侧所有token预测被掩蔽token
- 如上图所示，在训练的时候，一个序列由[SOS]S_1[EOS]S_2[EOS]组成，其中S1是source segments，S2是target segments。随机mask两个segment其中的词，其中如果masked是source segment的词的话，则它可以attend to所有的source segment的tokens，如果masked的是target segment，则模型只能attend to所有的source tokens以及target segment中当前词和该词左边的所有tokens，这样模型可以隐形地学习到一个双向的encoder和单向decoder(类似transformer)

在Seq-to-Seq任务中，例如机器翻译，我们通常先通过编码器将输入句子编码成特征向量，然后通过解码器将这个特征向量解码成预测内容。UniLM的结构和传统的Encoder-Decoder模型的差异非常大，它仅有一个多层的Transformer构成。在进行预训练时，UniLM首先将两个句子拼接成一个序列，并通过[EOS]来分割句子，表示为：[SOS]S1[EOS]S2[EOS]。在编码时，我们需要知道输入句子的完整内容，因此不需要对输入文本进行覆盖。但是当进行解码时，解码器的部分便变成一个从左向右的单向语言模型。因此对于句子中的第1个片段（S1部分）对应的块矩阵，它是一个0矩阵（左上块矩阵），对于的句子第2个片段（S2部分）的对应的块矩阵，它是上三角矩阵的一部分（右上块矩阵）。因此我们可以得到图1中最下面的。可以看出，UniLM虽然采用了编码器的架构，但是在训练Seq-to-Seq语言模型时它也可以像经典的Encoder-to-Decoder那样关注到输入的全部特征以及输出的已生成的特征。

NSP：UniLM也像BERT一样添加了NSP作为预训练任务。对于双向语言模型(Bidirectional LM)，与Bert模型一样，也进行下一个句子预测。如果是第一段文本的下一段文本，则预测1；否则预测0

1.1.4 训练与微调

训练：在训练时，1/3的时间用来训练双向语言模型，1/3的时间用来训练单向语言模型，其中从左向右和从右向左各站一半，最后1/3用了训练Encoder-Decoder架构。

微调：对于NLU任务来说，我们可以直接将UniLM视作一个编码器，然后通过[SOS]标志得到整句的特征向量，再通过在特征向量后添加分类层得到预测的类别。对于NLG任务来说，我们可以像前面介绍的把句子拼接成序列“[SOS]S1[EOS]S2[EOS]”。其中S1是输入文本的全部内容。为了进行微调，我们会随机掩码掉目标句子S2的部分内容。同时我们可会掩码掉目标句子的[EOS]，我们的目的是让模型自己预测何时预测[EOS]从而停止预测，而不是预测一个我们提前设置好的长度。

网络设置：24层Transformer，1024个hidden size，16个attention heads
参数大小：340M
初始化：直接采用Bert-Large的参数初始化
激活函数：GELU，与bert一样
dropout比例：0.1
权重衰减因子：0.01
batch_size：330
混合训练方式：对于一个batch，1/3时间采用双向语言模型的目标，1/3的时间采用Seq2Seq语言模型目标，最后1/3平均分配给两种单向学习的语言模型，也就是left-to-right和right-to-left方式各占1/6时间
MASK方式：总体比例15%，其中80%的情况下直接用[MASK]替代，10%的情况下随机选择一个词替代，最后10%的情况用真实值。还有就是80%的情况是每次只mask一个词，另外20%的情况是mask掉bi-gram或者tri-gram

1.1.5 小结

UniLM和很多Encoder-Decoder架构的模型一样（例如MASS）像统一NLU和NLG任务，但是无疑UniLM的架构更加优雅。像MASS在做NLU任务时，它只会采用模型的Encoder部分，从而丢弃了Decoder部分的全部特征。UniLM有一个问题是在做机器翻译这样经典的Seq-to-Seq任务时，它的掩码机制导致它并没有使用表示[SOS]标志对应的全句特征，而是使用了输入句子的序列。这个方式可能缺乏了对整句特征的捕获，从而导致生成的内容缺乏对全局信息的把控。此外，UniLM在五个NLG数据集上的表现优于以前的最新模型：CNN/DailyMail和Gigaword文本摘要、SQuAD问题生成、CoQA生成问题回答和DSTC7基于对话生成，其优势总结如下：

三种不同的训练目标，网络参数共享
网络参数共享，使得模型避免了过拟合于某单一的语言模型，使得学习出来的模型更加具有普适性
采用了Seq2Seq语言模型，使得其在能够完成NLU任务的同时，也能够完成NLG任务

1.2 SimBert

1.2.1 融合检索和生成的SimBERT模型

基于UniLM思想、融检索与生成于一体的BERT模型。

权重下载：https://github.com/ZhuiyiTechnology/pretrained-models

UniLM的核心是通过特殊的Attention Mask来赋予模型具有Seq2Seq的能力。假如输入是“你想吃啥”，目标句子是“白切鸡”，那UNILM将这两个句子拼成一个：[CLS] 你想吃啥 [SEP] 白切鸡 [SEP]，然后接如图的Attention Mask：

换句话说，[CLS] 你想吃啥 [SEP]这几个token之间是双向的Attention，而白切鸡 [SEP]这几个token则是单向Attention，从而允许递归地预测白切鸡 [SEP]这几个token，所以它具备文本生成能力。

UNILM做Seq2Seq模型图示。输入部分内部可做双向Attention，输出部分只做单向Attention。

Seq2Seq只能说明UniLM具有NLG的能力，那前面为什么说它同时具备NLU和NLG能力呢？因为UniLM特殊的Attention Mask，所以[CLS] 你想吃啥 [SEP]这6个token只在它们之间相互做Attention，而跟白切鸡 [SEP]完全没关系，这就意味着，尽管后面拼接了白切鸡 [SEP]，但这不会影响到前6个编码向量。再说明白一点，那就是前6个编码向量等价于只有[CLS] 你想吃啥 [SEP]时的编码结果，如果[CLS]的向量代表着句向量，那么它就是你想吃啥的句向量，而不是加上白切鸡后的句向量。

由于这个特性，UniLM在输入的时候也随机加入一些[MASK]，这样输入部分就可以做MLM任务，输出部分就可以做Seq2Seq任务，MLM增强了NLU能力，而Seq2Seq增强了NLG能力，一举两得。

1.2.2 SimBert

SimBERT属于有监督训练，训练语料是自行收集到的相似句对，通过一句来预测另一句的相似句生成任务来构建Seq2Seq部分，然后前面也提到过[CLS]的向量事实上就代表着输入的句向量，所以可以同时用它来训练一个检索任务，如下图

假设SENT_a和SENT_b是一组相似句，那么在同一个batch中，把[CLS] SENT_a [SEP] SENT_b [SEP]和[CLS] SENT_b [SEP] SENT_a [SEP]都加入训练，做一个相似句的生成任务，这是Seq2Seq部分。

另一方面，把整个batch内的[CLS]向量都拿出来，得到一个bxd的句向量矩阵V（b是batch_size，d是hidden_size），然后对d维度做l2归一化，得到新的V，然后两两做内积，得到bxv的相似度矩阵VV^T，接着乘以一个scale（我们取了30），并mask掉对角线部分，最后每一行进行softmax，作为一个分类任务训练，每个样本的目标标签是它的相似句（至于自身已经被mask掉）。说白了，就是把batch内所有的非相似样本都当作负样本，借助softmax来增加相似样本的相似度，降低其余样本的相似度。

详细介绍请看：https://kexue.fm/archives/7427

部分结果展示：

>>> gen_synonyms(u'微信和支付宝哪个好？')

[
    u'微信和支付宝，哪个好?',
    u'微信和支付宝哪个好',
    u'支付宝和微信哪个好',
    u'支付宝和微信哪个好啊',
    u'微信和支付宝那个好用？',
    u'微信和支付宝哪个好用',
    u'支付宝和微信那个更好',
    u'支付宝和微信哪个好用',
    u'微信和支付宝用起来哪个好？',
    u'微信和支付宝选哪个好',
    u'微信好还是支付宝比较用',
    u'微信与支付宝哪个',
    u'支付宝和微信哪个好用一点？',
    u'支付宝好还是微信',
    u'微信支付宝究竟哪个好',
    u'支付宝和微信哪个实用性更好',
    u'好，支付宝和微信哪个更安全？',
    u'微信支付宝哪个好用？有什么区别',
    u'微信和支付宝有什么区别？谁比较好用',
    u'支付宝和微信哪个好玩'
]

>>> most_similar(u'怎么开初婚未育证明', 20)
[
    (u'开初婚未育证明怎么弄？', 0.9728098), 
    (u'初婚未育情况证明怎么开？', 0.9612292), 
    (u'到哪里开初婚未育证明？', 0.94987774), 
    (u'初婚未育证明在哪里开？', 0.9476072), 
    (u'男方也要开初婚证明吗?', 0.7712214), 
    (u'初婚证明除了村里开，单位可以开吗？', 0.63224965), 
    (u'生孩子怎么发', 0.40672967), 
    (u'是需要您到当地*局开具变更证明的', 0.39978087), 
    (u'淘宝开店认证未通过怎么办', 0.39477515), 
    (u'您好，是需要当地*局开具的变更证明的', 0.39288986), 
    (u'没有工作证明，怎么办信用卡', 0.37745982), 
    (u'未成年小孩还没办身份证怎么买高铁车票', 0.36504325), 
    (u'烟草证不给办，应该怎么办呢？', 0.35596085), 
    (u'怎么生孩子', 0.3493368), 
    (u'怎么开福利彩票站', 0.34158638), 
    (u'沈阳烟草证怎么办？好办不？', 0.33718678), 
    (u'男性不孕不育有哪些特征', 0.33530876), 
    (u'结婚证丢了一本怎么办离婚', 0.33166665), 
    (u'怎样到地税局开发票？', 0.33079252), 
    (u'男性不孕不育检查要注意什么？', 0.3274408)
]

1.2.3 SimBER训练预测

SimBERT的模型权重是以Google开源的BERT模型为基础，基于微软的UniLM思想设计了融检索与生成于一体的任务，来进一步微调后得到的模型，所以它同时具备相似问生成和相似句检索能力。

数据集使用的是LCQMC相关情况参考：https://aistudio.baidu.com/aistudio/projectdetail/5423713?contributionType=1


																				
						
							上一篇：							
								驳世人对白玉堂的十点误读之六：心胸狭窄—大海无量							
						
						
							下一篇：							
								云服务商靠什么颠覆传统CDN格局							
						
					
															
						
							推荐阅读						
						
														
								
									
										融合特定领域知识图谱的方案：预训练模型包括Simbert、ERNIE-Gram单塔等多个文本匹配算法【三】									
								
							
														
								
									
										特定领域知识图谱融合方案：文本匹配算法之预训练Simbert、ERNIE-Gram单塔模型等诸多模型【三】									
								
							
														
								
									
										特定领域知识图谱融合方案：探索多模型，包括预训练Simbert、ERNIE-Gram单塔模型的文本匹配算法【三】