网易首页 > 网易号 > 正文 申请入驻

视觉版ChatGPT来了!吸收AI画画全技能,MSRA全华人团队打造

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT会画画了!

问它:能生成一张猫片给我吗?

立刻连文带图全有了。

还能根据新的文字指令调整图片:把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。

如上,就是由MSRA资深研究人员们提出的视觉版ChatGPT(Visual ChatGPT)。

通过给ChatGPT结合多种视觉模型,并利用一个提示管理器(Prompt Manager),他们成功让ChatGPT可以处理各种视觉任务。

这项工作一发出来就火了,GitHub揽星已超过1.5k。

简单总结一下,就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说:

这不是终极meme图制造机?

诀窍在于提示工程?

Visual ChatGPT,其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型,工作量非常大。

研究人员想到可以在ChatGPT的基础上,结合一些视觉模型

而想要达到这一目的,关键需要一个中间站。

由此他们提出了提示管理器(Prompt Manager)的概念。

它的作用主要有3方面:

第一、明确告诉ChatGPT,每个视觉模型的作用,并指定好输入输出格式。

第二、转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。

第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。

这样一来,Visual ChatGPT的工作流大概长这样:

假如用户输入了一张图,模型会先将内容发送给提示管理器,然后转换成语言给ChatGPT判断,当它发现这个问题不需要调用视觉模型,就会直接给出输出(第一个回答)。

第二个问题时,ChatGPT分析问题内容需要使用视觉模型,就会让视觉模型开始执行,然后一直迭代,直到ChatGPT判断不再需要调用视觉模型时,才会输出结果。

论文介绍,Visual ChatGPT中包含了22个不同的视觉模型。包括Stable Diffusion、BLIP、pix2pix等。

为了验证Visual ChatGPT的能力,他们还进行了大量零次试验(zero-shot experiments)。

结果如开头所示,Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然,研究人员也提到了这项工作目前还存在一些局限性

比如生成结果的质量,主要取决于视觉模型的性能。

以及使用大量的提示工具,会一定程度上影响生成结果的速度。而且还可能同时调用多个模型,也会影响实时性。

最后,在输入图片的隐私安全上,还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠

他是MSRA首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2012年加入MSRA,任职已超10年。

第一作者为吴晨飞。

他于2020年加入微软,目前担任高级研究员。

论文地址:
https://arxiv.org/abs/2303.04671

参考链接:
https://twitter.com/_akhaliq/status/1633642479869198337

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不出5年,中国贬值最快的不是房子、股票,而是这3个东西

不出5年,中国贬值最快的不是房子、股票,而是这3个东西

庞明说财经
2024-04-16 22:29:34
“最强”博士论文答辩委员会阵容:院士×5,副院长只能当个秘书

“最强”博士论文答辩委员会阵容:院士×5,副院长只能当个秘书

柳叶刀学术
2024-05-01 20:23:41
陕西检察长陈平疑案:死前喊冤,被枪毙后家属不能收尸,直接火化

陕西检察长陈平疑案:死前喊冤,被枪毙后家属不能收尸,直接火化

午夜故事会
2024-04-15 18:31:39
大学生卖烧饼年入110万的新闻,被网友扒出了一些问题!

大学生卖烧饼年入110万的新闻,被网友扒出了一些问题!

麦杰逊
2024-05-01 10:00:03
周鸿祎请二手车商吃饭花费20多万!喝的全是茅台

周鸿祎请二手车商吃饭花费20多万!喝的全是茅台

户外小阿隋
2024-04-30 15:50:42
季后赛第一隔扣!25投34分取代郭艾伦!终于打成了球队老大……

季后赛第一隔扣!25投34分取代郭艾伦!终于打成了球队老大……

篮球实战宝典
2024-05-01 22:06:23
李尚福被免去国防部长,虎父无犬子,父亲竟和美国交过手

李尚福被免去国防部长,虎父无犬子,父亲竟和美国交过手

磊子讲史
2024-03-25 14:45:46
2-2!成都蓉城官网火爆:全是张岩,射正王放走3分

2-2!成都蓉城官网火爆:全是张岩,射正王放走3分

建哥说体育
2024-05-01 22:24:39
今夜,爆雷!

今夜,爆雷!

中国基金报
2024-05-02 00:11:18
复旦44岁博士与35岁女硕士结婚,2个月后才知妻子真实身份

复旦44岁博士与35岁女硕士结婚,2个月后才知妻子真实身份

莉雅细细谈
2024-04-23 20:16:02
成都楼市全军覆没,连累西安房价下跌,西安房价降至不足15000元

成都楼市全军覆没,连累西安房价下跌,西安房价降至不足15000元

有事问彭叔
2024-04-29 15:43:06
越南没想到,缅甸也没想到,如今中国云南省的盛况,已成全球焦点

越南没想到,缅甸也没想到,如今中国云南省的盛况,已成全球焦点

花小萌和你聊情感
2024-04-30 08:09:32
笑死了!川A大军全军出击,重庆网友:川A不敢来重庆!

笑死了!川A大军全军出击,重庆网友:川A不敢来重庆!

水泥土的搞笑
2024-05-01 23:10:51
“何窦氏”窦骁吃豪门绝户梦碎,疑似与赌王女儿婚变血本无归

“何窦氏”窦骁吃豪门绝户梦碎,疑似与赌王女儿婚变血本无归

娱乐八卦木木子
2024-05-01 16:51:23
中国航母试航,为啥悬挂“日本国旗”?此旗能免遭攻击,有大用处

中国航母试航,为啥悬挂“日本国旗”?此旗能免遭攻击,有大用处

说天说地说实事
2024-05-01 08:06:57
狗哥当家!贝弗利撕咬13分+新高12助正负值+36逆天了!

狗哥当家!贝弗利撕咬13分+新高12助正负值+36逆天了!

直播吧
2024-05-01 12:16:42
再过十年,老旧小区将会以四种方式结束,做好心理准备!

再过十年,老旧小区将会以四种方式结束,做好心理准备!

一起读装修
2024-05-01 19:16:37
被无数人吐槽的6个蠢设计,了解正确用法后:原来蠢的是我自己

被无数人吐槽的6个蠢设计,了解正确用法后:原来蠢的是我自己

美家指南
2024-04-30 20:21:26
点赞!足协点名批马宁,傅明被剔除执法资格

点赞!足协点名批马宁,傅明被剔除执法资格

看球先锋
2024-05-01 21:25:33
快船G5开始前,东契奇确认伤情,伦纳德正式确定,一人也不出战了

快船G5开始前,东契奇确认伤情,伦纳德正式确定,一人也不出战了

体坛大辣椒
2024-05-01 09:21:44
2024-05-02 01:28:49
量子位
量子位
追踪人工智能动态
9343文章数 175242关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

万科总裁:王石自动放弃千万退休金

头条要闻

万科总裁:王石自动放弃千万退休金

体育要闻

詹眉湖人:洛杉矶大型烟花秀

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

上财万字报告深度解读Q1经济

汽车要闻

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

亲子
房产
艺术
教育
军事航空

亲子要闻

女子在大厅拍到一个宝宝,爬行速度惊人,比大人走路还快

房产要闻

单价2万内,装标4200+,主城改善大盘无套路硬刚!

艺术要闻

造科幻之物于园林 “天工开悟——夏航雕塑展”于南池子美术馆呈现

教育要闻

咸阳求最大值典型,用2次2元均值不等式轻松搞定!

军事要闻

近距离看中国第三艘航母福建舰解缆起航

无障碍浏览 进入关怀版