网易首页 > 网易号 > 正文 申请入驻

英伟达AI从图像中抽象出概念再生成新图像,幼儿这个技能终于学会

0
分享至

羿阁 发自 凹非寺量子位 | 公众号 QbitAI

人类幼崽2岁就能做的事,AI竟然才学会?

早在2017年,就有网友吐槽:2岁幼童只要见过一次犀牛的照片,就能在其他图片里认出不同姿势、视角和风格的卡通犀牛,但AI却做不到。

直到现在,这一点终于被科学家攻克了!

最新研究发现,只要给AI喂3-5张图片,AI就能抽象出图片里的物体或风格,再随机生成个性化的新图片。

有网友评价:非常酷,这可能是我这几个月来看到的最好的项目。

它是如何工作的?

让我们先来看几个例子。

当你上传3张不同角度的陶瓷猫照片,可能会得到以下4张新图像:两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒。

同样的例子还有艺术品:

铠甲小人:

碗:

不只是提取图像中的物体,AI还能生成特定风格的新图像。

例如下图,AI提取了输入图像的绘画风格,生成了一系列该风格的新画作。

更神奇的是,它还能将两组输入图像相结合,提取一组图像中的物体,再提取另一组的图像风格,两者结合,生成一张崭新的图像。

除此之外,有了这个功能,你还可以对一些经典图像“下手”,给它们添加一些新元素。

那么,这么神奇的功能背后是什么原理呢?

尽管近两年来,大规模文本-图像模型,如DALL·E、CLIP、GLIDE等,已经被证明有很强的自然语言推理能力。

但有一点:如果用户提出一些特定的需求,比如生成一张包含我最喜欢的童年玩具的新照片,或者把孩子的涂鸦变成一件艺术品,这些大规模模型都很难做到。

为了应对这一挑战,研究给出了一个固定的、预先训练好的文本-图像模型和一个描述概念的小图像集(用户输入的3-5张图像),目标是找到一个单一的词嵌入,从小集合中重建图像。由于这种嵌入是通过优化过程发现的,于是称之为“文本倒置(Textual Inversion)”。

具体来说,就是先抽象出用户输入图像中的物体或风格,并转换为“S∗”这一伪词(pseudo-word),这时,这个伪词就可以被当作任何其他词来处理,最后根据“S∗”组合成的自然语句,生成个性化的新图像,比如:

“一张S∗在海滩上的照片”、”一幅挂在墙上的S∗的油画”、”以S2∗的风格画一幅S1∗”。

值得注意的是,由于本次研究应用了一个小规模、经过策划的数据集,因此在生成图像时能有效地避免刻板印象。

例如下图,当提示“医生”时,其他模型倾向于生成白种人和男性的图像,而本模型生成图像中则增加了女性和其他种族的人数。

目前,该项目的代码和数据已开源,感兴趣的小伙伴可以关注一下。

作者介绍

该篇论文来自特拉维夫大学和英伟达的研究团队,作者分别是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者Rinon Gal,是特拉维夫大学的计算机科学博士生,师从Daniel Cohen-Or和Amit Bermano,主要研究方向是在减少监督的条件下生成2D和3D模型,目前在英伟达工作。

参考链接:
[1]https://textual-inversion.github.io/
[2]https://github.com/rinongal/textual_inversion
[3]https://arxiv.org/abs/2208.01618
[4]https://twitter.com/_akhaliq/status/1554630742717726720
[5]https://rinongal.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国防部:做好应对突发事件的一切准备

国防部:做好应对突发事件的一切准备

华西都市报
2024-03-29 03:53:08
媒体人徐江:16年鲁能拒绝了200w要求,导致保级很困难

媒体人徐江:16年鲁能拒绝了200w要求,导致保级很困难

直播吧
2024-03-28 23:00:21
魔笛绝响?西媒:皇马已接受莫德里奇离开,将以最特别方式告别

魔笛绝响?西媒:皇马已接受莫德里奇离开,将以最特别方式告别

直播吧
2024-03-28 18:34:40
甩开俄罗斯,国产C929大飞机再传喜讯,交付进入倒计时

甩开俄罗斯,国产C929大飞机再传喜讯,交付进入倒计时

科技小张
2024-03-28 18:25:43
随着火箭10连胜,湖人勇士赢球,快船1分逆转,NBA西部排名如下

随着火箭10连胜,湖人勇士赢球,快船1分逆转,NBA西部排名如下

刺头体育
2024-03-28 18:38:12
宁德时代曾毓群:电动汽车安全性比燃油车好一千倍 我们可以让电动车发生火灾概率降到千万分之一【附动力锂电池行业趋势】

宁德时代曾毓群:电动汽车安全性比燃油车好一千倍 我们可以让电动车发生火灾概率降到千万分之一【附动力锂电池行业趋势】

前瞻网
2024-03-28 16:58:15
️船人L2M:乌布雷绝杀上篮被乔治犯规 漏吹乌布雷抢板犯规

️船人L2M:乌布雷绝杀上篮被乔治犯规 漏吹乌布雷抢板犯规

直播吧
2024-03-29 08:03:13
中俄千万合作告吹!俄海军向全世界宣布“全面弃用中国发动机”,国产技术差在哪?

中俄千万合作告吹!俄海军向全世界宣布“全面弃用中国发动机”,国产技术差在哪?

司马平邦
2024-03-28 20:21:49
招商银行近两年向员工追薪1亿多元上热搜!网友:追回的是绩效工资,被追回说明年底没完成任务

招商银行近两年向员工追薪1亿多元上热搜!网友:追回的是绩效工资,被追回说明年底没完成任务

和讯网
2024-03-28 13:41:06
于文文演唱会现场私处清晰可见?真相远比想象的还要恶心

于文文演唱会现场私处清晰可见?真相远比想象的还要恶心

莫问先生
2024-03-26 22:56:49
卢卡申科跟普京唱反调

卢卡申科跟普京唱反调

寰宇大观察
2024-03-27 21:57:37
闹大了!官方下场了,具俊晔妈妈让他离婚回韩国?大S恐成一场空

闹大了!官方下场了,具俊晔妈妈让他离婚回韩国?大S恐成一场空

七阿姨爱八卦
2024-03-27 21:49:19
媒体人徐江:我明确告诉你,孙准浩下球了

媒体人徐江:我明确告诉你,孙准浩下球了

直播吧
2024-03-28 19:28:22
小米汽车金融方案曝光:与4家银行合作,年化利率4.76%

小米汽车金融方案曝光:与4家银行合作,年化利率4.76%

新经济IPO
2024-03-29 01:30:20
躺在水晶棺里很多年的毛主席,如今看上去也还是和睡着了一般安详

躺在水晶棺里很多年的毛主席,如今看上去也还是和睡着了一般安详

回京历史梦
2024-03-28 17:37:56
姚明女儿又胖了!14岁身高190体重超近200斤,网友:这谁敢娶?

姚明女儿又胖了!14岁身高190体重超近200斤,网友:这谁敢娶?

吃瓜局
2024-03-27 15:26:58
2003年,张柏芝和陈小春同游曼谷,结果两人被媒体拍摄下来

2003年,张柏芝和陈小春同游曼谷,结果两人被媒体拍摄下来

小白兔趣闻
2024-03-28 20:32:17
打死不能放冰箱的4种食物,不保鲜反而有害健康,赶紧回家拿出来

打死不能放冰箱的4种食物,不保鲜反而有害健康,赶紧回家拿出来

小董美食
2024-03-28 21:02:55
人类DNA之父:从严格意义上说,黑人不能被真正定义为人类

人类DNA之父:从严格意义上说,黑人不能被真正定义为人类

泸沽湖
2024-03-14 09:30:09
南通两部门,你们祖宗的棺材板按不住了

南通两部门,你们祖宗的棺材板按不住了

不主流讲话
2024-03-28 10:30:26
2024-03-29 08:48:49
量子位
量子位
追踪人工智能动态
9218文章数 175122关注度
往期回顾 全部

科技要闻

雷军:我们是卷王,建议BBA车主感受下时代

头条要闻

腊肉直播事件6人涉诈骗被刑拘 黄圣依:消息大快人心

头条要闻

腊肉直播事件6人涉诈骗被刑拘 黄圣依:消息大快人心

体育要闻

拒绝为国出战,他是足坛"天选打工人"

娱乐要闻

莱昂纳多与25岁新女友互相投喂超恩爱

财经要闻

展车撞人 投诉飙升 极氪该掰谁的手腕?

汽车要闻

混动增程双模式 长安UNI-Z售11.79万起

态度原创

房产
数码
艺术
健康
公开课

房产要闻

炸裂!新政出台,这里安居房货量近100万㎡,均价最低到6000+!

数码要闻

iPad更新在即!苹果或5月初发布新款iPad Pro及Air系列

艺术要闻

艺术开卷|从闺阁、庭院到郊野,古画中的女性生活空间

早防早筛,远离肝硬化

公开课

30岁之前,你要学会的13件事情

无障碍浏览 进入关怀版