ACL（2018｜西北大学：RNN语言模型的重要训练数据抽样）

句子大全 2023-06-04 03:00:01

相关推荐

这是读芯术解读的第138篇论文

ACL 2018 Student Research Workshop

RNN语言模型的重要训练数据抽样

Sampling Informative Training Data for RNN Language Models

西北大学

Northwestern University

本文是西北大学发表于 ACL 2018 的工作，在这项工作中，针对递归神经网络（RNN）语言模型训练数据的选择，我们提出了一种无监督重要性抽样方法。为增加训练集所包含的信息量，本文方法优先抽样由易于查询的n-gram语言模型确定的，具有更高困惑度的句子。我们评估了用各种重要性抽样分布训练模型的heldout困惑度，实验结果表明，本文方法在抽样数据上训练的语言模型，优于在Billion Word和Wikitext-103基准语料库的随机抽样子集上训练的模型。

引言

统计语言建模的任务是学习自然语言单词序列上的联合概率分布。近年来，递归神经网络（RNN）语言模型在句子级语言建模中产生了很多困惑度(perplexity)，远远低于传统的n-gram模型。在大型、多样化的基准语料库上训练的模型，如Billion Word Corpus和Wikitext-103，困惑度分别低至23.7和37.2。

然而，由于训练步骤的数量与训练语料库中的token数量成线性关系，因此在大型语料库上建立模型受计算成本的限制。这些大型语料库的句子级语言模型可以通过对从原始语料库中抽取的一组句子进行训练来学习。我们试图确定是否可能选择一组训练句子，这些训练句子比随机抽取的训练句子信息内容大得多。我们假设通过训练更高信息和更难的训练语句，RNN语言模型可以比在类似大小的随机抽样训练集上训练的模型更准确地学习语言分布，并且产生更低的困惑度。

针对句子级RNN语言模型，我们为选择训练数据提出了一种无监督重要性抽样技术，利用n-gram语言模型的快速训练和查询时间，这通常只需要遍历一次训练数据。我们通过计算每个句子的平均词义困惑度来确定每个句子的重要性和信息内容。本文使用离线n-gram模型对句子进行评分，然后以增加的概率对更高困惑度的句子进行采样。然后用选择句子训练纠正权重，以消除采样偏差。由于熵和困惑具有单调关系，选择具有较高平均n-gram困惑度的句子也会增加平均熵和信息内容。

实验评价了多种重要性抽样分布在RNN语言模型训练数据选择中的有效性。我们比较了在One Billion Word和Wikitext-103语料库上用随机抽样和重要抽样训练数据训练模型的heldout困惑度。我们证明我们的重要性抽样技术比在相似大小的随机样本上训练的模型产生更低的困惑度。通过使用n-gram模型确定抽样分布，限制了重要性抽样方法的附加计算成本。我们还发现，应用基于困惑度的重要性抽样要求对低困惑度句子保持较高的权重。我们假设这是因为低困惑的句子经常包含公共的子序列，这对于其他句子建模是很有用的。

方法

首先，我们从训练语料库中训练离线N-gram模型的句子进行随机抽样。我们使用n-gram模型对训练语料库中剩下的句子进行困惑度评分。

针对RNN语言模型训练序列的选择，提出了多种重要性抽样和似然加权方法。我们提出的抽样分布偏向于选择更高困惑度的训练句子，以增加训练集的信息内容。然后，我们将训练RNN语言模型在抽样句子上的权重，设置为选择句子概率的倒数。

Z-Score抽样（Zfull）

该抽样分布根据Z值直接选择句子，这是根据n-gram困惑度进行计算的。序列S的选择概率设置为：

其中，ppl(s)是句子s的n-gram困惑，ppl是平均n-gram困惑，σppl是n-gram困惑的标准偏差，kpr是确保适当概率分布的归一化常数。

限制Z-Score抽样(Zα)

对低困惑度句子的训练有助于学习如何对共享公共子序列的高困惑度句子进行建模。然而，纯z-score抽样导致选择了少数低困惑度句子。

为了平均权重空间中的分布，选择概率仅使用其困惑度大于平均值的句子的z-scores来确定。因此，句子S的选择概率为：

其中，α是常数参数，该常数参数在计算序列的选择概率时，确定z-score的权重。

平方 Z-Score抽样 (Z 2 )

为了研究从更复杂的分布中抽样的效果，我们还评估了重要性抽样方案，其中根据句子的平方Z-Score对句子进行抽样。

实验分析

我们实验评估了Zfull和Z 2抽样方法的有效性，以及Zα方法对于参数α的各种值的有效性。

采用Wikitext-103和One Billion Word Benchmark语料库样本进行句子级模型训练和评估。为了创建独立句子的数据集，对Wikitext-103语料库进行了解析。对训练和heldout集进行组合、清洗，然后进行拆分，以创建新的250k token测试和验证集。其余的序列被设置为一个新的训练集，约9900万token。在Billion Word的实验中，从发布训练片段的5亿个子集采样训练序列。从发布的heldout分割中随机抽样的25k个token的测试集和验证集上，评估了Billion Word模型。

为了计算抽样分布，在带有相同数目token的Heldout集上训练一个n-gram模型，用于训练每个RNN模型。例如，用于构建100万个token 的RNN训练集的抽样分布，是使用由也在100万个token上训练的n-gram模型计算的困惑度来确定的。N-gram模型被训练为5-gram模型，使用SRILM对KneserNey discount。RNN模型采用两层长短期记忆（LSTM）神经网络。

在以下两个表中，我们分别总结了对来自Wikitext-103和Billion Word语料库的样本进行训练的模型的性能。

我们报告了随机抽样数据训练RNN和n-gram语言模型的随机和n-gram基线困惑度。我们还指出了每个训练集的ngram和σngram，它们是由离线n-gram模型评估的句子困惑度的平均值和标准偏差。

在所有的实验中，使用我们的抽样方法训练的RNN语言模型与在相似大小的随机抽样集上训练的RNN模型相比，模型困惑度更小。随着训练集大小的增加，在重要采样数据集上训练的RNN也比在随机采样训练集上训练的n-gram模型产生显著更低的困惑度。正如预期的一样，对于使用我们提出的采样方法，ngram和σngram生成的训练集显著增加。

总结

为了从大型语料库中选择RNN语言模型训练数据，我们引入了加权重要性抽样方案，实验证明了用此方法生成的数据训练的模型与用相似大小的随机抽样训练集训练的模型相比，产生高达24％的困惑度降低率。这种技术利用更高困惑度的训练句子来学习更精确的语言模型，同时限制了重要性计算的额外计算成本。

在以后的工作中，我们将在附加参数设置中检查我们提出的选择技术的性能，在限制的z-score方法Zα中具有不同的α值和阈值。我们还将评估基于句子序列和唯一n-gram内容计算的抽样分布的性能。此外，我们计划将这种重要性抽样方法应用在与RNN语言模型一起训练的在线n-gram模型上，来确定重要性抽样分布。

阅读剩余内容

句子建模

ACL（2018｜西北大学：RNN语言模型的重要训练数据抽样）

开课吧《Hello（World公开课》基于预训练语言模型的对话生成）

北大计算机博士生先于OpenAI发表预训练语言模型求解数学题论文

利用预训练语言模型提供常识知识（中科院信工所雏鹰团队在SemEval上大显神威）

人工智能：使无监督学习适用于视觉语言模型将是一项重要概念突破

ACL2019最佳论文：TeacherForcing待解决（通用预训练模型非万能）

百度技术亮相NLP顶会ACL 聚焦跨模态预训练（语言理解人机对话等主题）