日记大全

日记大全 > 句子大全

通过标记和插入(对文本进行灵活编辑)

句子大全 2023-07-29 07:38:01
相关推荐

序列到序列 (seq2seq) 模型已经成为处理自然语言生成任务的一种备受青睐的方法,其应用范围囊括了从机器翻译到单一语言生成任务等多个方面,如总结、句子合并、文本简化和机器翻译后期编辑。然而,这些模型对于许多单一语言任务来说似乎是一个次优选择,因为所需的输出文本往往仅会对输入文本作出小幅改写。在完成这样的任务时,因为 seq2seq 模型一次只会生成一个单词的输出(即自回归:Autoregressive model),而且大部分的输入标记会被简单地复制到输出中,所以它既费时又费力。

相反,随着文本编辑模型在最近提出了预测编辑操作(如单词删除、插入或替换),在输入中加以应用来重构输出,而受到了极大的关注。然而,之前的文本编辑方法存在局限性。他们要么速度快(非自回归),但因所用编辑操作数量有限而不灵活;要么很灵活,支持所有可能的编辑操作,但速度慢(自回归)。无论是哪种,这些方法都未曾关注大型结构(句法)转换的建模,例如从主动语态“They ate steak for dinner”切换到被动语态“Steak was eaten for dinner”。相反,其重点都在于局部转换,删除或替换短语。当需要进行大的结构性转换时,这些方法要么无法成行,要么需要插入大量的新文本,这样做速度很慢。

FELIX 的第一个步骤是标记模型,该模型由两个部分组成。首先,标记器决定应该保留或删除哪些单词,以及应该在哪些地方插入新单词。当标记器预测到一个插入词时,系统则会将一个特殊的 MASK 符号添加到输出中。标记完成后,下一步是重新排序,即指针对输入进行重新排序以形成输出,在这个步骤中系统会重用输入的一部分来代替插入新的文本。重新排序步骤支持任意改写,因此可以对大的变化进行建模。指针网络经过训练,因此输入的每个单词都指向输出中出现的下一个单词,如下图所示。

标记模型的输出是经过重新排序的输入文本,其中包含被删除的单词以及由插入标记预测的 MASK 符号。插入模型必须预测 MASK 符号的内容。因为 FELIX 的插入模型与 BERT 的预训练目标非常相似,所以它可以直接利用预训练的优势,这在数据有限时尤为有利。

我们对 FELIX 在句子合并、文本简化、抽取式摘要和机器翻译后期编辑方面的表现进行了评估。这些任务视所需的编辑类型和操作的数据集大小而大相径庭。下图是句子合并任务(即把两句话合并为一句)的结果,我们针对大小各异的数据集,将 FELIX 与大型预训练 seq2seq 模型 (BERT2BERT) 和文本编辑模型 (LaserTager) 的表现情况进行了比较。我们发现,FELIX 的表现优于 LaserTagger,而且只需几百个训练样本就可以进行训练。对于完整的数据集,自回归的 BERT2BERT 的表现优于 FELIX。然而,在推理过程中,这个模型需要的时间明显更长。

阅读剩余内容
网友评论
相关内容
拓展阅读
最近更新