人工智能：使无监督学习适用于视觉语言模型将是一项重要概念突破

句子大全 2023-08-20 06:24:01

相关推荐

这个消息你可能已经听过无数次了：一个可以生成类似人类语言的大型AI人工智能模型GPT-3，你可以用一个简单的问题来考问它：比如询问它绵羊的颜色，你会发现它回答“黑色”的次数和“白色”会是一样的多——这反映出“黑色绵羊”这一短语也出现在我们日常用语之中。

这就是语言模型遇到的一个问题，缺乏常识，这是因为它们仅在书本网络文字上进行训练。最近来自北加利福尼亚大学的研究者，ChapelHill设计了一个新的技术来帮助解决这一个问题。他们称该技术为vokenization,该技术赋予了诸如GPT3这样的模型“看”的能力。

其实，这也并非人类第一次尝试将语言模型和计算机视觉相结合在一起，在这一个快速发展的AI领域中。无时无刻都在产生不同的想法，而产生这种想法是因为两种类型的AI都有不同的优势。像GPT-3这样的语言模型是通过无监督学习来进行训练的，该过程不需要手动数据标记，因此会出现易于扩展的优势。而相比之下，像目标识别系统这样的图像模型可以直接从现实中学习到更多。换句话来说，就是他们学到的东西并不依赖于书本网络文字上所提供的内容。他们可以从绵羊的照片中“看到”绵羊实际上是白色的。

可以解析语言和视觉输入的AI模型也有非常实际的用途。例如，如果我们要构建机器人助手，则他们需要计算机视觉来在世界中进行导航，需要语言来与人类进行交流。

但是，将两种类型的AI结合起来说起来容易做起来难。这并非简单地将现有语言模型与现有目标识别系统装订在一起。它需要使用包含文本和图像的数据集从头开始训练新模型，该数据集也称为视觉语言数据集。

获得此类数据集的最常用方法是收集带有描述性标题的图像集合。例如，下面的图片的标题为“一只橘色猫坐在准备打包的手提箱里。”这与典型的图像数据集不同，后者仅用一个名词来标记下面的图片中是什么，例如“猫”。因此，一种视觉语言数据集不仅可以教一个AI模型如何识别目标，而且还能使用动词和介词来告诉模型目标之间是如何相互影响和相互作用的。

但是制作这种数据集非常耗时。这就是为什么现有的视觉数据集如此微不足道。一个常用的纯文本数据集，如英文Wikipedia（实际上几乎包括所有英语Wikipedia条目），可能包含近30亿个单词。像MSCOCO这样的视觉语言数据集仅包含700万。根本没有足够的数据来训练AI模型以提供有用的信息。

“Vokenization”解决了这个问题，它使用无监督学习方法将MSCOCO中的少量数据缩放到英文Wikipedia的大小。在当今用于评估AI语言理解力最困难的测试中，经过该训练集训练的视觉语言模型优于目前最好的模型。

自然语言处理初创公司HuggingFace的联合创始人兼首席科学官托马斯·沃尔夫（ThomasWolf）表示：“不进行大的变动，你无法在这些测试上超过最先进的水平。”“这不是简单的测试。这就是为什么这令人如此兴奋。”

从token到voken

先了解下，究竟什么是voken？

在AI人工智能语言中，我们把用于训练语言模型的单词称为标记(token)。因此，UNC研究人员决定将视觉语言模型中与每个标记相关的图像称为“voken”。为每个token查找voken的算法叫Vokenizer，整个过程称为vokenization。

这样做的目的不仅是为了显示AI人工智能研究人员有多喜欢编造单词。这是因为有助于理解vokenization背后的基本思想。UNC研究人员不是从图像数据集开始并手动写句子作为标题，因为这个过程非常缓慢，而是从语言数据集开始，并使用无监督学习来将每个单词与相关图像进行匹配。这却是一个高度可扩展的过程。

因此无监督学习技术才是本论文最大的贡献，即如何为每个单词找到相关图像。

Vokenization

让我们回到GPT-3。GPT-3是transformer语言模型家族的一员，2017年transformer的出现带了重大的突破，因为其将无监督学习应用到自然语言处理上。靠着过去的文本经验来认知世界的，它会在很多常识性的问题上犯下低级错误，比如在回答“太阳有几只眼睛”的反常识问题上，GPT-3照样一本正经的给出“太阳有一只眼睛”的答案。

transformer通过观察词在上下文中的用法来学习人类语言的模式，然后根据该上下文为每个词创建数学表示，称为“词嵌入”。例如，“猫”一词的嵌入可能表明，它经常在“喵”和“橘”两词周围使用，而在“树皮”或“蓝色”等词周围较少使用。

这就是transformer如何近似的表达词的含义，以及GPT-3如何编写类似人类的句子。它部分地依靠这些嵌入来告诉它如何将单词组合成句子，将句子组合成段落。

有一种并行技术也可以用于图像。它不通过扫描文本来查找单词使用模式，而是扫描图像以查找视觉模式。比如说它列出了猫出现在床上而不是树上出现的频率，并利用该上下文信息创建了‘猫’嵌入。

UNC研究人员的想法是，他们应该在MSCOCO上同时使用两种嵌入技术。他们将图像转换为视觉嵌入，将标题转换为词嵌入。这些嵌入的真正精巧之处在于可以将它们嵌入三维空间中，并直接看到它们之间的关系。与词嵌入紧密相关的视觉嵌入会在图中显示得更近。换句话说，视觉猫嵌入（理论上）应与基于文本的猫嵌入重叠。这很酷。

您应该可以看到下一步如何走。一旦将所有嵌入进行图形化表示并与其他嵌入进行比较和关联，就可以轻松地将图像（vokens）与单词（tokens）进行匹配。请记住，由于图像和单词是根据其嵌入进行匹配的，因此在上下文中他们也是匹配的。当一个词有完全不同的含义时，这会很有用。该技术通过为词的每个实例找到不同的voken来成功地解决这一问题。

例如：

Hereishercontact.

这是她的联系方式。

Somecatslovehumancontact.

有些猫喜欢被人抚摸。

在两个示例中都用到了‘contact’。但是在第一句中，上下文语境暗示该词是指联系信息，因此，voken是一个联系人图标。在第二句中，上下文提示该词是指触摸，因此，voken显示了一只猫正在被抚摸了。

研究人员使用MSCOCO创建的视觉和词嵌入来训练其vokenizer算法。训练完成后，vokenizer便可以在英语维基百科中为每个token找到对应的voken。这不是完美的。该算法仅为大约40％的tokens找到了vokens。但这仍然是拥有近30亿个字的数据集的40％。

利用这个新的数据集，研究人员重新训练了BERT的语言模型，BERT是Google早于GPT-3开发的一种开源transformer。然后，他们在六种不同的语言理解测试中测试了新改进的BERT，包括SQuAD，斯坦福问题回答数据集（该模型要求模型回答有关一系列文章的阅读理解问题）和SWAG，SWAG试图利用英语的微妙之处来测试模型以探究它是否只是模仿和记忆。改进后的BERT对所有这些都表现更好，Wolf说这需要引起重视。

研究人员，博士研究生HaoTan和他的导师MohitBansal将在EMLNLP会议上介绍其新的vokenization技术。尽管这项工作还处于初期阶段，但Wolf认为他们的工作是使无监督学习适用于视觉语言模型的一项重要的概念突破。这有助于大大推动自然语言处理的发展。

他说：“在NLP上，两年前我们取得了巨大的突破，然后突然间NLP成为了一个正在发生很多事情的领域，它领先于所有其他AI领域。”“但是我们有将文本与其他事物联系起来的问题。否则它就像只会说话却看不见，听不到的机器人一样。”

他说：“这篇论文是他们设法将文本连接到另一种方式的一个例子，并且效果很好。”“你可以想象，当你想在机器人中利用这种功能强大的语言模型时，其中某些技术可能会被重用。也许您使用同一种技术将机器人的感官与文本联系起来。”

阅读剩余内容

人工智能模型概念适用突破

人工智能：使无监督学习适用于视觉语言模型将是一项重要概念突破

桑植县白族的“仗鼓舞” 是一项历史悠久（文化鲜明的体育项目）

3分钟短文：Laravel（从软删除说到模型作用域的概念）

俞敏洪：学好《新概念英语》只需简单三步（适用人群高达90%）

ACL（2018｜西北大学：RNN语言模型的重要训练数据抽样）

《天堂计划》：符号化的空间架构与视觉语言

《草莓》：让孩子被优美的语言滋润（获得更广阔的视觉体验）