ACL（2018｜南加州大学：学习多语言表示的一种多任务方法）

句子大全 2023-01-02 04:10:01

相关推荐

这是读芯术解读的第129篇论文

ACL 2018 Short Papers

学习多语言表示的一种多任务方法

A Multi-task Approach to Learning Multilingual Representations

南加州大学

University of Southern California

本文是美国南加州大学发表于 ACL 2018 的工作，提出了一种学习多语言分布式文本表示的多任务建模方法，通过训练多语言skip-gram模型和跨语言句子相似度模型共同学习词和句子嵌入。我们的架构可以使用单语料库和句子对齐的双语料库来学习多语言嵌入，覆盖的词汇量明显大于单语料库。在一个标准的跨语言文档分类任务的实验结果表明，本方法显示出一定的竞争性，并且在有限的资源情况下依然有效。

引言

学习文本的分布式表达，无论是在词、短语、句子还是文档层次上，都是近年来自然语言处理领域最广泛研究的课题之一。词/句子/文档嵌入试图利用分布式表示中存在的丰富的语义和语言信息，已经迅速成为更大、更复杂NLP系统中的基本组成部分。

目前关于分布式文本表示上下文的研究主要集中在跨语言共享的多语言文本表示学习上。多语言嵌入开辟了跨语言传递知识和构建复杂系统的可能性，即使对于具有有限监督资源的语言。到目前为止，学习多语言嵌入最流行的方法是训练多语言词嵌入模型，然后使用该模型通过合成来导出句子和文档表示。这些模型通常只在词或句子对齐的语料库上训练，并且合成模型通常是简单的预定义函数，例如词嵌入的平均值或随词嵌入一起学习的参数合成模型。

本文通过训练多语言skip-gram模型和跨语言句子相似度模型来联合学习词和句子嵌入。我们的多语言skip-gram模型，透明地消耗由单语和句子对齐的双语语料库构成的对（词，上下文）。我们使用双向LSTM处理词嵌入，然后取LSTM输出的平均值，这可以看作上下文相关的词嵌入，以产生句子嵌入。由于我们的多语言skip-gram和跨语言句子相似度模型是联合训练的，它们可以通过共享词嵌入层相互通知，从而在训练时促进学习词嵌入的组合性。此外，从句子相似性模型产生的梯度会影响平行语料库词汇以外的词嵌入。

我们方法背后的主要动机是在并行语料库大小有限的低资源场景中，学习高质量的多语言句子和文档嵌入。我们方法的主要创新之处在于利用共享词嵌入层，来联合训练多语言skip-gram和跨语言句子相似性目标，该共享词嵌入层允许来自句子相似性任务的梯度影响平行语料库之外的词嵌入。通过联合训练这两个目标，我们可以透明地使用单语和并行数据来学习多语言句子嵌入。在平均之前使用BiLSTM层来上下文化词嵌入与联合多任务学习思想是正交的。我们发现，在大多数情况下，这个额外的层是有益的，这与最近关于学习句子和文档嵌入的研究结果一致。

模型

本文模型使用端到端的共享词嵌入层来联合优化多语言skip-gram和跨语言句子相似性目标。

多语言skip-gram模型：多语言skip-gram模型通过从单语和跨语言上下文中预测单词来扩展传统的skip-gram模型。单语上下文由与给定单词相邻的词组成，如传统的skip-gram模型。另一方面，跨语言上下文由在平行句子对中，与给定源词对齐的目标词相邻的词组成。下图显示了一个对齐示例，其中一对对齐的单词被附加到它们的单语和双语上下文中。对于一对语言L1和L2，利用从L1→L1和L2→L2方向上的单语邻居以及L1→L2和L2→L1方向上的跨语言邻居中采样的（单词、上下文词）对，通过优化传统的skip-gram目标来学习词嵌入。在我们的设置中，跨语言对是从平行语料库中抽样的，而单语对是从平行语料库和单语料库中抽样的。

跨语言句子相似性

：我们用双向LSTM处理单词嵌入，然后取LSTM输出的平均值（如下图）。LSTM通过将每个单词的历史编码到其表示中来输出（隐藏状态）上下文输入词嵌入。我们假设这比平均嵌入词要好，因为句子通常具有复杂的语义结构，并且两个具有不同含义的句子可以具有完全相同的词。设

表示我们的句子编码器，它把给定的单词序列

映射到

中的连续向量。给定一对平行的句子

（

，

）

，我们定义它们的距离为

。对于每一个平行句子对，我们随机抽样

个否定句

，

并定义跨语言句子相似性损失如下：

在没有LSTM层的情况下，这种损失类似于BiCVM损失，除了我们还使用反向样本（T, S）来训练模型，因此每隔一个时期向模型显示每对句子。

实验分析

我们在Europarl corpus v71上学习分布式表示。为了与文献进行公正的比较，我们对英语-德语（en-de）、英语-西班牙语（en-es）和英语-法语（en-fr）语言对，使用前500K平行句。我们保留前90%进行训练，剩下的10%用于发展。我们还对Europarl corpus语料库的每种语言使用额外的500 K单语句子。这些句子与平行数据中的句子不重叠。

除了提出的联合多任务（JMT）模型，JMT-Sent-LSTM，我们还给出了ablation实验，其中省略了LSTM层、多语言skip-gram目标或两者。JMT-Sent-Avg类似于所提出的模型，但不包括LSTM层。JMT-Sent-LSTM和JMT-Sent-Avg是这些模型的单一任务变体。

单任务模型只使用平行数据以跨语言句子相似性为目标端到端进行训练。我们还尝试在平行和单一数据上预先训练单词嵌入，并在跨语言句子相似性任务上调整它们，但是并没有改善结果。多任务模型通过在两个任务之间交替进行训练。

多语言skip-gram图：使用学习率为0.01，10K步后指数衰减为0.98的随机梯度下降（1步是256个词对），512个样本的负采样，大小为5的skip-gram上下文窗口。通过允许skip-gram目标与句子相似性目标并行收敛，降低skip-gram模型的学习速率，有助于多任务场景。在每个步骤中，我们对相同数量的单语和跨语单词对进行抽样，以制作一个mini-batch。

跨语言句子相似度：批次大小为50个句子对。LSTM隐藏状态维度为128或512。在嵌入层使用dropout为0.3。Hingeloss边缘m等于句子嵌入大小。该模型使用Adam优化器进行训练，学习率为0.001，10K步后指数衰减为0.98（1步为50个句对）。

下表显示了我们模型的结果，并将它们与一些最先进的方法进行比较。当句子嵌入维数为512时，我们的结果与文献中的最佳结果接近。当句子嵌入维数为128时，我们的JMT-Sent-LSTM模型的性能优于所有系统。具有LSTM层（Sent-LSTM和JMT-Sent-LSTM）的模型比没有一个LSTM的性能更好。联合多任务训练不断提高性能。数据消融实验(*nomono)的结果表明，在JMT设置中获得的增益部分归因于monolingual数据的添加，部分归因于多任务目标。

变化的单语vs平行数据：多任务体系结构背后的主要动机是在有限的资源场景中创建高质量的嵌入。上表的底部数据显示了当平行数据限制为100K句子时128维嵌入的结果。该场景中的JMT-Sent-LSTM结果与上表中段使用500K平行语句的结果相当。这些发现表明，JMT-Sent-LSTM模型通过挖掘额外的单语数据，即使在有限的平行数据量下也能够产生高质量的嵌入。下表比较了在不同数据条件下的LSTM与JMT-Sent-LSTM的性能。JMT-Sent-LSTM产生一致的更好的嵌入，只要与平行数据量相比，附加的单语数据量既不太大也不太小——3-4倍的平行数据大小似乎是选择单语数据大小的一个很好的启发。

多语vs双语模型：下表比较了多语模型（en, es, de）和双语模型。表的前四行显示了多语系统的结果，其中句子编码器使用en-es和en-de平行数据以及每种语言的附加单语数据针对三种语言（en, es, de）进行训练。然后使用从这个句子编码器获得的文档表示，来训练用于诸如en-de之类的语言对的分类器，其中分类器在en文档上训练，然后在de文档上测试。在这个场景中，我们可以为诸如es-de之类的语言对构建分类器，尽管我们不能访问es-de平行数据，因为我们学习的嵌入在三种语言之间共享。表中的底行显示了双语系统的结果，在该系统中，我们为两种语言训练句子编码器，然后使用该编码器训练一种语言的文档分类器，并在另一种语言上进行测试。在此场景中，我们不能为不能访问平行数据的es-de等语言对构建分类器。

当英语为源语言时，多语模型比双语模型表现得更好，但在另一个方向上表现得更差。我们认为这种差异是因为欧洲文本原本是英文，后来被翻译成其他语言。对于没有平行数据的es-de对，多语言模型也显示了良好的结果。

由于分类实验着重于将语义信息保存在句子级的表示中，我们还检查了生成的词嵌入是否仍然有意义。为此，我们使用了JMT-Sent-LSTM模型。下图显示了一些样本词的t-SNE预测。尽管该模型没有使用任何德语和西班牙语平行数据，但它设法将具有相似含义的单词（transkribiert和transcribi）映射得更近。作为反义词但仍具有相似含义的词彼此接近（cunnigly (en), honestly (en) and astucia (es)）。多语言表示空间中的最近邻通常具有跨语言的相同形式。我们还可以看到，英语单词位于西班牙语和德语单词的中间，我们认为这是因为英语是其他两种语言的支点。

总结

本文结果表明，多语种单词和句子嵌入的联合多任务学习是一个有前途的方向。我们认为，通过直接修改句子编码器结构，例如使用堆叠LSTM或批/层规范化，以及添加句子级辅助任务，如情感分类或自然语言推理，可以进一步改进句子嵌入模型。我们计划在未来工作中继续探索这些方向，并评估本文方法在其他任务上的效果。

阅读剩余内容

句子相似度

ACL（2018｜南加州大学：学习多语言表示的一种多任务方法）

共同保护（实现多语言和谐共存）

举例说明低代码思想如何处理多语言问题

新一代泡妞神器可穿戴多语言翻译机

0语料下（如何通过「贴标签」获得更好的多语言翻译效果）

0语料下（如何通过“贴标签”获得更好的多语言翻译效果）

《古剑奇谭三》多语言版本&柿饼冒险玩法包今日免费更新