网易首页 > 网易号 > 正文 申请入驻

英伟达AI从图像中抽象出概念再生成新图像,幼儿这个技能终于学会

0
分享至

羿阁 发自 凹非寺量子位 | 公众号 QbitAI

人类幼崽2岁就能做的事,AI竟然才学会?

早在2017年,就有网友吐槽:2岁幼童只要见过一次犀牛的照片,就能在其他图片里认出不同姿势、视角和风格的卡通犀牛,但AI却做不到。

直到现在,这一点终于被科学家攻克了!

最新研究发现,只要给AI喂3-5张图片,AI就能抽象出图片里的物体或风格,再随机生成个性化的新图片。

有网友评价:非常酷,这可能是我这几个月来看到的最好的项目。

它是如何工作的?

让我们先来看几个例子。

当你上传3张不同角度的陶瓷猫照片,可能会得到以下4张新图像:两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒。

同样的例子还有艺术品:

铠甲小人:

碗:

不只是提取图像中的物体,AI还能生成特定风格的新图像。

例如下图,AI提取了输入图像的绘画风格,生成了一系列该风格的新画作。

更神奇的是,它还能将两组输入图像相结合,提取一组图像中的物体,再提取另一组的图像风格,两者结合,生成一张崭新的图像。

除此之外,有了这个功能,你还可以对一些经典图像“下手”,给它们添加一些新元素。

那么,这么神奇的功能背后是什么原理呢?

尽管近两年来,大规模文本-图像模型,如DALL·E、CLIP、GLIDE等,已经被证明有很强的自然语言推理能力。

但有一点:如果用户提出一些特定的需求,比如生成一张包含我最喜欢的童年玩具的新照片,或者把孩子的涂鸦变成一件艺术品,这些大规模模型都很难做到。

为了应对这一挑战,研究给出了一个固定的、预先训练好的文本-图像模型和一个描述概念的小图像集(用户输入的3-5张图像),目标是找到一个单一的词嵌入,从小集合中重建图像。由于这种嵌入是通过优化过程发现的,于是称之为“文本倒置(Textual Inversion)”。

具体来说,就是先抽象出用户输入图像中的物体或风格,并转换为“S∗”这一伪词(pseudo-word),这时,这个伪词就可以被当作任何其他词来处理,最后根据“S∗”组合成的自然语句,生成个性化的新图像,比如:

“一张S∗在海滩上的照片”、”一幅挂在墙上的S∗的油画”、”以S2∗的风格画一幅S1∗”。

值得注意的是,由于本次研究应用了一个小规模、经过策划的数据集,因此在生成图像时能有效地避免刻板印象。

例如下图,当提示“医生”时,其他模型倾向于生成白种人和男性的图像,而本模型生成图像中则增加了女性和其他种族的人数。

目前,该项目的代码和数据已开源,感兴趣的小伙伴可以关注一下。

作者介绍

该篇论文来自特拉维夫大学和英伟达的研究团队,作者分别是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者Rinon Gal,是特拉维夫大学的计算机科学博士生,师从Daniel Cohen-Or和Amit Bermano,主要研究方向是在减少监督的条件下生成2D和3D模型,目前在英伟达工作。

参考链接:
[1]https://textual-inversion.github.io/
[2]https://github.com/rinongal/textual_inversion
[3]https://arxiv.org/abs/2208.01618
[4]https://twitter.com/_akhaliq/status/1554630742717726720
[5]https://rinongal.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
实话实说:把汽车定义为“快消品”,是一件非常悲哀的事情!

实话实说:把汽车定义为“快消品”,是一件非常悲哀的事情!

汽车扒壹扒
2024-04-28 22:08:50
开鲁县土地“有偿使用费”再调查:张家兄弟称是招商引资而来,早年平整土地花费巨大

开鲁县土地“有偿使用费”再调查:张家兄弟称是招商引资而来,早年平整土地花费巨大

红星新闻
2024-04-28 23:30:17
北斗遭某国神秘强电磁袭击,危急时刻,他挺身而出,70天成功破解

北斗遭某国神秘强电磁袭击,危急时刻,他挺身而出,70天成功破解

百年历史老号
2024-04-23 11:26:36
徒劳无功?大陆释放4个善意,傅崐萁召开记者会,民进党反咬一口

徒劳无功?大陆释放4个善意,傅崐萁召开记者会,民进党反咬一口

娱乐的宅急便
2024-04-29 20:11:03
浪潮信息:一季度净利润3.06亿元 同比增长64.39%

浪潮信息:一季度净利润3.06亿元 同比增长64.39%

财联社
2024-04-29 16:56:16
俄罗斯人爆料:ATACMS导弹对克里米亚塔尔汗库特岬防空部队的打击

俄罗斯人爆料:ATACMS导弹对克里米亚塔尔汗库特岬防空部队的打击

老马拉车莫少装
2024-04-28 23:31:25
管碧玲获留任,2天后,台当局连夜放出风声,两名大陆渔民被带走

管碧玲获留任,2天后,台当局连夜放出风声,两名大陆渔民被带走

戎评说
2024-04-29 13:17:28
以色列政权的垮台!国际法庭:以色列或涉嫌战争罪,难逃审判

以色列政权的垮台!国际法庭:以色列或涉嫌战争罪,难逃审判

宇宙看世界啊
2024-04-28 20:01:40
日元跌破160后又暴涨400点!全世界都在猜:日本当局是否出手了?

日元跌破160后又暴涨400点!全世界都在猜:日本当局是否出手了?

财联社
2024-04-29 13:35:14
美国沦陷!以色列怕了!

美国沦陷!以色列怕了!

大嘴说天下
2024-04-29 18:22:17
全面取消购房限制,房地产要变天了

全面取消购房限制,房地产要变天了

罗sir职话
2024-04-28 16:16:38
野鸡一步登天成为顶级名媛,江浙沪名媛孵化产业链全曝光

野鸡一步登天成为顶级名媛,江浙沪名媛孵化产业链全曝光

新青年大院NEWYOUTH
2024-04-29 18:49:02
周琦遭遇生涯大难题,广东一场没打被重创,彻底难住了杜锋朱芳雨

周琦遭遇生涯大难题,广东一场没打被重创,彻底难住了杜锋朱芳雨

嘴炮体坛
2024-04-28 22:36:17
回顾女婿性侵岳母,岳母不反抗反而全力配合,被捕后辩称:在治病

回顾女婿性侵岳母,岳母不反抗反而全力配合,被捕后辩称:在治病

百事所谈汇
2024-04-08 18:12:46
淄博这起命案,告破!

淄博这起命案,告破!

鲁中晨报
2024-04-29 18:45:05
吓尿了!遗传病到底有多可怕?网友:我爸有精神病,我不敢要孩子

吓尿了!遗传病到底有多可怕?网友:我爸有精神病,我不敢要孩子

阿燕姐说育儿
2024-04-29 01:54:46
布莱顿球迷喷德泽尔比:0-3落后,但你看起来像屎一样淡定

布莱顿球迷喷德泽尔比:0-3落后,但你看起来像屎一样淡定

懂球帝
2024-04-29 13:26:07
毁三观!高校女生出轨“多名男生”男友直接曝光大尺度聊天记录

毁三观!高校女生出轨“多名男生”男友直接曝光大尺度聊天记录

庚琪扯文
2024-01-21 11:41:04
津门虎主场死磕国安最强11人敲定,久违强援踢主力,巴顿意外无缘

津门虎主场死磕国安最强11人敲定,久违强援踢主力,巴顿意外无缘

罗掌柜体育
2024-04-29 16:54:28
花990万拍下周鸿祎二手迈巴赫的男子系北京二手车商,曾喊话“1000咱都要”,笑称没有超过预算

花990万拍下周鸿祎二手迈巴赫的男子系北京二手车商,曾喊话“1000咱都要”,笑称没有超过预算

极目新闻
2024-04-28 21:17:03
2024-04-29 21:42:44
量子位
量子位
追踪人工智能动态
9336文章数 175242关注度
往期回顾 全部

科技要闻

马斯克收获大礼,李彦宏梅开二度?

头条要闻

夫妻婚后无夫妻之实 离婚女方被判还32万彩礼

头条要闻

夫妻婚后无夫妻之实 离婚女方被判还32万彩礼

体育要闻

足球童话!执教16年,从业余联赛到德甲

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

建信人寿巨亏40亿之谜:退保率居高不下

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

艺术
旅游
本地
手机
公开课

艺术要闻

共度北京108小时 北京当代2024“凝聚”全球36座城市100余家艺术机构

旅游要闻

入境游热度持续攀升 “畅游中国”更便捷

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

手机要闻

一加Nord 4即将全球发布 骁龙7+ Gen3+5500mAh电池

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版