李飞飞CVPR最新论文

句子大全 2023-08-17 06:22:01

相关推荐

Root 假装发自凹非寺量子位出品 | 公众号 QbitAI

一个设计师拿到简(mo)单(hu)需求的日常。

帮我做个海报吧。

我要个浪漫的场景，两个人在海边走，有日落，海浪，远山那种。

△ “上辈子伤天害理，这辈子来做设计”Source：人类关怀计划

If有一款神器，可以根据文本生成图像，快速做出一般客户需求的海报，设计师们也许就可以把更多的时间用在创意上了。

文本转图像算法

其实已经有了。李飞飞斯坦福团队今年发表在CVPR论文 Image Generation from Scene Graphs 就和这个应用相关。

在计算机视觉领域，已经有了不少团队造出能直接把文本转成图像的算法。此前表现最好的是2017年在ICCV上露面的StackGAN，由港中大和百度研究院共同出品。

我们先来看看它的表现：

第一题：

This bird is white with some black on its head and wings, and has a long orange beak.

“画一只白鸟，头部和翅膀带点黑shaǐ，还有个很细长的橘黄色喙。”

△ 效果惊人

再来看看第二题：

A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.

“画两只羊站草原上，要有云，远方还有海，海上还得有只船。对了羊后边还要加棵树。”

△ 效果感人

对于语义简单的句子，StackGAN还能hold住，可是句子中有多个物体且位置关系复杂的话，这个生成的图像完全不能用了。

为了解决这个问题，李飞飞携团队，Justin Johnson和Agrim Gupta想出了一个办法：先把文本处理一下，把句子中的物体及他们的相对位置用一个物体关系图(Scene Graph)表示出来，然后再交给模型处理。

像这样。

然后生成出来的图果然好多了，更贴近真实世界（虽然还有点模糊）。

加一步，多面临三重挑战

为了生成更符合物理世界规律的图像，生成过程中所用到素材必须取自真实世界的图像。

因此，第一个挑战就是要构建一个能处理真实图像的输入处理器。

除此之外，生成的每一个物体都必须看起来真实，而且能正确反映出多个物体的空间透视关系。

最后一个，就是整个图中所有物体整合到一起，得是看起来是自然和谐不别扭的。

训练过程简介

先是选Visual Genome和COCO两个数据集里的图片作为素材源。只挑那些含有3~8个物体的图片。

然后把这些图片人工地给出物体关系图。像这样：

然后用模型预测物体之间的位置，大概给出一个图片元素的布局。

最后根据多个判别模型保证输出的图像是符合真实感知的。

整个训练过程如下图：

但图像效果够不够真，自己不好说了算。

因此李飞飞团队在Amazon Mechanical Turk平台上找了人帮忙做评估。和StackGAN相比，合成效果好了一倍。

最后，附论文地址：

你可能感兴趣

AI学会视觉推理，“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

这么多人，AI怎么知道你说的是哪个？ | 李飞飞团队CVPR论文+代码

— 完 —

本文来自量子位，创业家系授权发布，略经编辑修改，版权归作者所有，内容仅代表作者独立观点。

阅读剩余内容

CVPR 李飞飞论文最新

李飞飞CVPR最新论文

最新毕业论文的文本格式

硕士论文查重知网多少钱（最新介绍）

2021最新古代汉语毕业论文参考资料推荐（附下载）

最新容易写的汉语言文学专业本科毕业论文题目

你还在纠结SCI论文写作么（为你奉上最新独家秘笈）

观点 |（Facebook田渊栋盛赞DeepMind最新围棋论文：方法干净标准结果好）