通过标记和插入（对文本进行灵活编辑）

句子大全 2023-07-29 07:38:01

相关推荐

序列到序列 (seq2seq) 模型已经成为处理自然语言生成任务的一种备受青睐的方法，其应用范围囊括了从机器翻译到单一语言生成任务等多个方面，如总结、句子合并、文本简化和机器翻译后期编辑。然而，这些模型对于许多单一语言任务来说似乎是一个次优选择，因为所需的输出文本往往仅会对输入文本作出小幅改写。在完成这样的任务时，因为 seq2seq 模型一次只会生成一个单词的输出（即自回归：Autoregressive model），而且大部分的输入标记会被简单地复制到输出中，所以它既费时又费力。

相反，随着文本编辑模型在最近提出了预测编辑操作（如单词删除、插入或替换），在输入中加以应用来重构输出，而受到了极大的关注。然而，之前的文本编辑方法存在局限性。他们要么速度快（非自回归），但因所用编辑操作数量有限而不灵活；要么很灵活，支持所有可能的编辑操作，但速度慢（自回归）。无论是哪种，这些方法都未曾关注大型结构（句法）转换的建模，例如从主动语态“They ate steak for dinner”切换到被动语态“Steak was eaten for dinner”。相反，其重点都在于局部转换，删除或替换短语。当需要进行大的结构性转换时，这些方法要么无法成行，要么需要插入大量的新文本，这样做速度很慢。

FELIX 的第一个步骤是标记模型，该模型由两个部分组成。首先，标记器决定应该保留或删除哪些单词，以及应该在哪些地方插入新单词。当标记器预测到一个插入词时，系统则会将一个特殊的 MASK 符号添加到输出中。标记完成后，下一步是重新排序，即指针对输入进行重新排序以形成输出，在这个步骤中系统会重用输入的一部分来代替插入新的文本。重新排序步骤支持任意改写，因此可以对大的变化进行建模。指针网络经过训练，因此输入的每个单词都指向输出中出现的下一个单词，如下图所示。

标记模型的输出是经过重新排序的输入文本，其中包含被删除的单词以及由插入标记预测的 MASK 符号。插入模型必须预测 MASK 符号的内容。因为 FELIX 的插入模型与 BERT 的预训练目标非常相似，所以它可以直接利用预训练的优势，这在数据有限时尤为有利。

我们对 FELIX 在句子合并、文本简化、抽取式摘要和机器翻译后期编辑方面的表现进行了评估。这些任务视所需的编辑类型和操作的数据集大小而大相径庭。下图是句子合并任务（即把两句话合并为一句）的结果，我们针对大小各异的数据集，将 FELIX 与大型预训练 seq2seq 模型 (BERT2BERT) 和文本编辑模型 (LaserTager) 的表现情况进行了比较。我们发现，FELIX 的表现优于 LaserTagger，而且只需几百个训练样本就可以进行训练。对于完整的数据集，自回归的 BERT2BERT 的表现优于 FELIX。然而，在推理过程中，这个模型需要的时间明显更长。

阅读剩余内容

标记文本编辑插入进行

通过标记和插入（对文本进行灵活编辑）

Rewordify.com：一个功能强大的免费在线文本编辑润色工具

5个纯文本编辑器分享（让您的工作更加方便快捷）

如何使用微信文章编辑器进行排版

SCI期刊编辑要求进行论文润色（该怎么办）

Simplish：一款在线简化编辑润色文本的工具（助力你的SCI论文写作）

比seq2seq模型快90倍（Google推出全新文本编辑模型FELIX）