理解GECToR：语法错误修正的标记方法，而非重写

最编程 2024-08-09 09:14:46

...

基于神经机器翻译（NMT）的方法已成为语法错误校正（GEC）任务的首选方法。在这种表述中，错误句子对应于源语言，而无错误句子对应于目标语言。最近，基于Transformer的序列到序列（seq2seq）模型已在标准GEC基准上实现了最先进的性能。现在，研究重点已转移到生成合成数据上，以对基于Transformer-NMT的GEC系统进行预训练。基于NMT的GEC系统存在多个问题，这些问题使它们在现实世界中的部署不方便：（i）推理速度慢；（ii）对大量训练数据的需求；以及（iii）可解释性，从而使他们需要其他功能来解释更正，例如语法错误类型分类。
在本文中，我们通过将GEC任务从序列生成简化到序列标注来解决上述问题。我们的GEC序列标注系统包括三个训练阶段：对合成数据进行预训练，对有错误的平行语料库进行微调，最后对有错误和无错误的平行语料库的组合进行微调。
LaserTagger结合了BERT编码器和自回归Transformer解码器来预测三个主要的编辑操作：保留字符，删除字符以及在字符之前添加短语。相反，在我们的系统中，解码器是softmax层。PIE是一个迭代序列标注GEC系统，可预测字符级编辑操作。尽管他们的方法与我们的方法最为相似，但我们的工作与他们的方法有所不同，如下所示：

我们开发自定义的g-transformations：通过字符级编辑以执行语法错误纠正。预测g-transformations而不是常规字符可改善我们的GEC序列标签系统的通用性。
我们将微调阶段分为两个阶段：对仅错误的句子进行微调，然后对包含有错误和无错误句子的小型高质量数据集进行进一步的微调。
通过在我们的GEC序列标注系统中加入预训练的Transformer编码器，我们可以实现卓越的性能。在我们的实验中，XLNet和RoBERTa的编码器的性能优于其他三个Transformer编码器（ALBERT，BERT和GPT-2）。

上一篇：中文语法纠错论文初探（一）

下一篇：实战手册：深入理解Elastic Stack的中文分词器（IK和pinyin）

理解GECToR：语法错误修正的标记方法，而非重写

理解GECToR：语法错误修正的标记方法，而非重写

理解并修复语法错误：GECToR的标签方法