网易首页 > 网易号 > 正文 申请入驻

人机对战又添新领域:这篇论文让机器在「你画我猜」中击败你

0
分享至

机器之心报道

SketchX 实验室

「你画我猜」是一种广泛流传在不同文化中的人类通识游戏,其形式简单但高度体现人类的认知智慧。近日一篇被计算机图形学顶会 SIGGRAPH ASIA 2020 接收的论文提出了一种基于草图的生成优化方法。在给定一个视觉概念的前提下,相较于人类竞争者,该模型能够以相似或更快的速度实现可识别的草图渲染。

近几十年来,AI 在越来越多的游戏中逐渐达到了能够与人类同台竞技的水平。从 1997 年在国际象棋比赛中胜出的 Deep Blue 到 2011 年在电视智力竞赛项目 Jeopardy 中大放异彩的 IBM Watson,从 2013 年 DeepMind 开发的能够胜任各种 Atari 小游戏的程序到 2016 年所向披靡战胜职业围棋选手的 AlphaGo。至少对于公众来说,每一个实例都把技术的突破和抽象计算的进步变成了一场具有观赏性的运动。

在这样的背景下,AI 能在你画我猜(Pictionary)游戏中表现优异的消息也就没有那么令人难以置信了。Pictionary 是一个受猜字游戏启发的游戏,需要一个人粗略地勾勒出视觉画像,其他人则试图以最快的速度猜出他/她画的是什么。这正是英国萨里大学 SketchX 实验室的研究人员近期的研究成果:一种对速度敏感并以竞争驱动的草图生成 AI——Pixelor。即给定一个视觉概念,Pixelor 能够像人类竞争者一样快速甚至更快地画出一幅人类和机器均能识别的目标对象草图。

将现实世界复杂的图像还原成草图,是令人印象深刻的。这需要很强的抽象能力:把人脸看作一个椭圆形,并由两个更小的椭圆形组成眼睛,一条弯曲的线段作为鼻子以及一个半圆形去模拟嘴巴。这种感知图像的方式通常是孩子们快速发展认知理解能力的重要特征之一。然而就像莫拉维克悖论 (Moravec's Paradox) 所总结的那样,「对人类十分棘手的问题对计算机来说通常较为简单,而对人类来说非常容易的事计算机则极难处理」。抽象感知,这种看似大多数两岁孩童与生俱来的基本技能,对于机器智能来说则是一项巨大的挑战。

与人类草图相关的计算机视觉工作主要集中于判别性任务的分析,包括基于草图的识别 [1]、语义分割 [2]、美化 [3]、3D推理 [4],以及在检索框架下与现实图片的联系 [5,6]。直至近期在开创性的工作 SketchRNN 中 [7],AI 首次展示出可以适应不同的风格和抽象水平、并且像人类一样逐笔渲染出可识别草图的能力。

但这对于 Pixelor 来说仍然是不够的。你画我猜是一个竞速类游戏。你可能是一个伟大的艺术家,但是如果花费 12 个小时去画一只完美的猫,那么你将是一个糟糕的你画我猜玩家。

正如Pixelor工作的通讯作者、来自萨里大学视觉语音和信号处理中心 (CVSSP) 的教授、SketchX实验室主任宋一晢 (Yi-Zhe Song) 所言:「对于Pixelor来说,最重要的是推理出哪些是对视觉识别最重要的笔画,并保证这些笔画能够被优先尽早地渲染出来。我们已经发布了面向公众的Pixelor版本。我们希望人类玩家能够击败我们的AI模型,甚至通过与AI的博弈来逐渐提高他们的游戏策略并成为更好的你画我猜玩家。」

Pixelor 模型做了什么

Pixelor 是通过两阶段的框架来训练的。

在第一阶段,研究人员输入一个给定的训练草图集,并将每个个体草图以随机的笔画顺序打乱,其目的是希望学习推断出能够最大化该训练集早期识别度的笔画级排序。这样做是因为人类数据中的原始排序并不是最优的,这也是人类在你画我猜的游戏中会被精心设计训练的 Pixelor 打败的深层原因。

想要实现更优草图笔画顺序的目标,一个显而易见的策略是详尽地评估所有可能的笔画顺序,然而这会在计算上产生难以处理的巨大搜索空间。Pixelor 采用了 NeuralSort [8],一种可微分的允许直通梯度 (Straight-through gradients) 反向传播的排序算法,并用更先进的可学习感知特征代替了启发式损失函数。总而言之,该框架通过学习笔划评分策略避开了笔划顺序的组合搜索,进而实现了早期识别。

在第二阶段,Pixelor 根据上述经过最佳笔画顺序更新的数据集,来训练序列到序列的草图生成模型。不同于之前 SketchRNN 模型的是,研究人员提出用最佳传输距离 (optimal transport) 替代基于KL散度的方式(常见于变量自编码器中)来约束嵌入特征空间。这种设计选择是基于对人类手绘行为的直观观察。面对同一个视觉概念,虽然不同的个体可能在你画我猜游戏中展现相似的竞技性,但他们仍然会有不同的草图策略。这使得笔画序列空间本质上是多模态分布的,而最佳传输距离可以更好地捕捉这种分布。

Pixelor,远不止游戏

Pixelor 的意义,不仅仅是又一个会玩游戏的新 AI。就像计算机系统既有我们交互的用户界面,又有后台代码一样。每一个重要的 AI 游戏里程碑背后都有着更深层次的考量。实验室花费大量的时间和人力物力,不是为了在人类不再擅长的事情列表上再增加一项,而是为了完善人工智能的基础能力,以用于解决现实问题。

在 Pixelor 的案例中,研究人员的最终目标是让机器能够更好地弄清楚在特定场景中什么对人类来说是重要的。当我们看一张图片时,我们马上就能知道最需要注意的部分是什么。

比如,当你下班开车回家的时候。虽然路边的风景如画,远处的广告牌也可能很有趣,但这都不如你面前可能随时出现的行人重要。在你有意识地处理这些信息之前,大脑就已经把最重要的细节挑了出来。

而如何教会计算机做到这一点呢?一个好的起点就是寻找人类在手绘时如何优先考虑头脑影像中突出的可识别细节。「传统照片中并没有人类的主观输入,我们想要的是人类数据。而手绘的过程正是体现了人类理解与表达视觉场景的方式。」宋一晢教授如是说。

一个优秀的你画我猜玩家,就像一个优秀的拳击手一样,需要知道达成某一目标所需要的绝对最短路径。从宏观上看,这一点正是这篇 SIGGRAPH AISA 2020 论文的更大意义。这不仅仅是教会 AI 玩一项游戏那么简单,而是怀有一种更大的愿景:让AI学会推理图像场景中的重要之处,并能够更好地泛化。从自动驾驶到智能机器人,这都是一项亟需解决的任务。

论文地址:https://ayankumarbhunia.github.io/pixelor/image/pixelor.pdf

Pixelor项目主页:http://sketchx.ai/pixelor

SketchX实验室主页:http://sketchx.ai

萨里大学CVSSP主页:https://www.surrey.ac.uk/centre-vision-speech-signal-processing

参考文献

[1] Qian Yu, Yongxin Yang, Yi-Zhe Song, Xiang Tao, and Timothy M. Hospedales. Sketch-a-net that beats humans. BMVC 2015. (Best Science Paper Prize)

[2] Rosália G Schneider and Tinne Tuytelaars. Example-based sketch segmentation and labeling using crfs. SIGGRAPH 2016.

[3] Mikhail Bessmeltsev and Justin Solomon. Vectorization of line drawings via polyvector fields. SIGGRAPH 2019.

[4] Wanchao Su, Dong Du, Xin Yang, Shizhe Zhou, and Hongbo Fu. Interactive sketch-based normal map generation with deep neural networks. ACM on Computer Graphics and Interactive Techniques 2018.

[5] Qian Yu, Feng Liu, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales, and Chen Change Loy. Sketch Me That Shoe. CVPR 2016.

[6] Patsorn Sangkloy, Nathan Burnell, Cusuh Ham, and James Hays. The sketchy database: learning to retrieve badly drawn bunnies. SIGGRAPH 2016.

[7] David Ha and Douglas Eck. A Neural Representation of Sketch Drawings. ICLR 2018.

[8] Aditya Grover, Eric Wang, Aaron Zweig, and Stefano Ermon. Stochastic Optimization of Sorting Networks via Continuous Relaxations. ICLR 2019.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
加勒万河谷冲突后续,我方秘密武器使印军“雪豹计划”瞬间熄火

加勒万河谷冲突后续,我方秘密武器使印军“雪豹计划”瞬间熄火

南冥那只猫
2025-06-20 20:28:28
李乃文带妻子法国购物,2人5个孩子!怪不得劝刘宇宁王勉早婚早育

李乃文带妻子法国购物,2人5个孩子!怪不得劝刘宇宁王勉早婚早育

阿库财经
2026-06-21 09:44:05
56岁阿姨讲述:和两个男人同居以后才明白,老年人找老伴的原因

56岁阿姨讲述:和两个男人同居以后才明白,老年人找老伴的原因

惟来
2026-07-03 09:50:33
签了签了!正式加盟76人!一亿射手搭档杰伦布朗

签了签了!正式加盟76人!一亿射手搭档杰伦布朗

篮球实战宝典
2026-07-03 16:42:23
欧洲高温只是前菜?对话气象学者魏科:我国长江流域今夏可能很热

欧洲高温只是前菜?对话气象学者魏科:我国长江流域今夏可能很热

搜狐科技
2026-07-03 21:22:44
李谷一不再隐瞒,揭晓宋祖英走上高位的真相,观众:原来如此!

李谷一不再隐瞒,揭晓宋祖英走上高位的真相,观众:原来如此!

聊历史的阿稼
2026-07-04 09:00:28
“天才作家”蒋方舟被清华教授实名举报硕士论文系统性造假,中国人大回应已介入调查近3个月,论文已从知网紧急下架,蒋方舟至今未回应

“天才作家”蒋方舟被清华教授实名举报硕士论文系统性造假,中国人大回应已介入调查近3个月,论文已从知网紧急下架,蒋方舟至今未回应

大风新闻
2026-07-03 18:20:07
西安赛格事件曝出猛料!罚单实锤10倍处罚条款,公告难以自圆其说

西安赛格事件曝出猛料!罚单实锤10倍处罚条款,公告难以自圆其说

火山詩话
2026-07-03 08:01:45
3换1!湖人交易艾顿!三大状元重磅联手

3换1!湖人交易艾顿!三大状元重磅联手

篮球实战宝典
2026-07-04 02:13:52
重罚380亿+泄露iPhone绝密,苹果肠子悔青了,不该把工厂搬到印度

重罚380亿+泄露iPhone绝密,苹果肠子悔青了,不该把工厂搬到印度

国际法大视野
2026-07-03 17:06:13
亚马尔谈弟弟:弟弟对我来说意义重大,就像我的亲生儿子一样

亚马尔谈弟弟:弟弟对我来说意义重大,就像我的亲生儿子一样

懂球帝
2026-07-03 19:43:10
北欧人终于算明白了!北欧四国抢邀王毅上门:这买卖没法跟美国混

北欧人终于算明白了!北欧四国抢邀王毅上门:这买卖没法跟美国混

周哥一影视
2026-07-03 18:19:45
0-3温网大冷门,世界第9遭世界第74掀翻,梅德韦杰夫止步32强

0-3温网大冷门,世界第9遭世界第74掀翻,梅德韦杰夫止步32强

俯身冲顶
2026-07-04 00:08:08
iPhone15用户注意!219元换原厂电池,先别急着换新机

iPhone15用户注意!219元换原厂电池,先别急着换新机

小柱解说游戏
2026-07-03 11:59:04
湖人奇才完成1换3交易,浓眉不是想要中锋吗?佩林卡又送过去一个

湖人奇才完成1换3交易,浓眉不是想要中锋吗?佩林卡又送过去一个

移动挡拆
2026-07-04 07:29:07
贺龙军事才能卓越,毛主席怎么不让他带兵,反之让他待在体育部门

贺龙军事才能卓越,毛主席怎么不让他带兵,反之让他待在体育部门

历史龙元阁
2026-07-03 08:10:09
妻子的闺蜜每周末留宿,凌晨1点我闭眼装睡,她竟偷偷推开房门

妻子的闺蜜每周末留宿,凌晨1点我闭眼装睡,她竟偷偷推开房门

黄家湖的忧伤
2026-03-18 17:02:31
黄晓明和Angelababy的新瓜,有点炸

黄晓明和Angelababy的新瓜,有点炸

黎兜兜
2026-07-03 08:13:47
没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

没有证据?那就发明证据!从中国第一“女福尔摩斯”到冤案制造者

许三岁
2026-06-24 11:06:59
尽力局,沃齐尼亚贡献8次扑救,其中有4次扑了梅西的射门

尽力局,沃齐尼亚贡献8次扑救,其中有4次扑了梅西的射门

懂球帝
2026-07-04 09:05:09
2026-07-04 10:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13427文章数 142686关注度
往期回顾 全部

科技要闻

iPhone 18 Pro泄密影响恶劣,印度调查塔塔

头条要闻

阿根廷加时赛3-2绝杀佛得角 世界杯最大黑马昂首出局

头条要闻

阿根廷加时赛3-2绝杀佛得角 世界杯最大黑马昂首出局

体育要闻

今夏最动人告别!世界从此记住佛得角

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

游戏
健康
家居
艺术
公开课

魔兽世界:时光服玩家吵翻天,鸟德改动实装,到底有哪些变化?

听说少吃点能抗衰老?专家讲解!

家居要闻

传奇筑 日常诗

艺术要闻

这位女子,在画坛默默无闻,作品清新质朴

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版