网易首页 > 网易号 > 正文 申请入驻

视觉版ChatGPT来了!吸收AI画画全技能,MSRA全华人团队打造

0
分享至

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT会画画了!

问它:能生成一张猫片给我吗?

立刻连文带图全有了。

还能根据新的文字指令调整图片:把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。

如上,就是由MSRA资深研究人员们提出的视觉版ChatGPT(Visual ChatGPT)。

通过给ChatGPT结合多种视觉模型,并利用一个提示管理器(Prompt Manager),他们成功让ChatGPT可以处理各种视觉任务。

这项工作一发出来就火了,GitHub揽星已超过1.5k。

简单总结一下,就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说:

这不是终极meme图制造机?

诀窍在于提示工程?

Visual ChatGPT,其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型,工作量非常大。

研究人员想到可以在ChatGPT的基础上,结合一些视觉模型

而想要达到这一目的,关键需要一个中间站。

由此他们提出了提示管理器(Prompt Manager)的概念。

它的作用主要有3方面:

第一、明确告诉ChatGPT,每个视觉模型的作用,并指定好输入输出格式。

第二、转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。

第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。

这样一来,Visual ChatGPT的工作流大概长这样:

假如用户输入了一张图,模型会先将内容发送给提示管理器,然后转换成语言给ChatGPT判断,当它发现这个问题不需要调用视觉模型,就会直接给出输出(第一个回答)。

第二个问题时,ChatGPT分析问题内容需要使用视觉模型,就会让视觉模型开始执行,然后一直迭代,直到ChatGPT判断不再需要调用视觉模型时,才会输出结果。

论文介绍,Visual ChatGPT中包含了22个不同的视觉模型。包括Stable Diffusion、BLIP、pix2pix等。

为了验证Visual ChatGPT的能力,他们还进行了大量零次试验(zero-shot experiments)。

结果如开头所示,Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然,研究人员也提到了这项工作目前还存在一些局限性

比如生成结果的质量,主要取决于视觉模型的性能。

以及使用大量的提示工具,会一定程度上影响生成结果的速度。而且还可能同时调用多个模型,也会影响实时性。

最后,在输入图片的隐私安全上,还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠

他是MSRA首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2012年加入MSRA,任职已超10年。

第一作者为吴晨飞。

他于2020年加入微软,目前担任高级研究员。

论文地址:
https://arxiv.org/abs/2303.04671

参考链接:
https://twitter.com/_akhaliq/status/1633642479869198337

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
田海蓉‖东方美人、大气端庄

田海蓉‖东方美人、大气端庄

娱乐圈酸柠檬
2024-04-18 09:31:32
这是毛主席写的请假条与辞职信,非常罕见,字很飘逸

这是毛主席写的请假条与辞职信,非常罕见,字很飘逸

作家李楠枫
2024-04-03 22:34:35
巴特勒:我在攻防两端啥也做不了 我在场给球队的伤害大于帮助

巴特勒:我在攻防两端啥也做不了 我在场给球队的伤害大于帮助

直播吧
2024-04-18 11:52:24
盯着不放!韩媒连续报道中国电动汽车:我们海外地位受到“威胁”

盯着不放!韩媒连续报道中国电动汽车:我们海外地位受到“威胁”

三叔科技说
2024-04-17 22:24:40
银行内部评分标准曝光!你是优质客户吗?

银行内部评分标准曝光!你是优质客户吗?

小宇宙双色球
2024-04-18 07:10:03
证监会紧急发声安抚市场,明天该反弹了!

证监会紧急发声安抚市场,明天该反弹了!

凌云之之志
2024-04-18 04:09:00
说实话,男人到了五十岁,既不抽烟,也不喝酒,才是真的“可怕”

说实话,男人到了五十岁,既不抽烟,也不喝酒,才是真的“可怕”

说故事的小盒
2024-04-18 12:06:19
59年妻子抛下6个孩子离婚,苏振华落泪,毛主席:天涯何处无芳草

59年妻子抛下6个孩子离婚,苏振华落泪,毛主席:天涯何处无芳草

小金鱼的眼泪
2024-04-17 09:12:36
外媒:中国抛售227亿美元美国国债 日本持仓增加

外媒:中国抛售227亿美元美国国债 日本持仓增加

凤凰网财经plus
2024-04-18 11:23:50
贵州省贵阳市委原常委、贵安新区党工委原副书记、管委会原副主任唐兴伦受贿案一审开庭

贵州省贵阳市委原常委、贵安新区党工委原副书记、管委会原副主任唐兴伦受贿案一审开庭

知知贵阳
2024-04-18 18:56:38
华为董事长亲自爆料Mate70系列:希望带着 “纯血”鸿蒙上市

华为董事长亲自爆料Mate70系列:希望带着 “纯血”鸿蒙上市

手机中国
2024-04-18 19:04:12
[神吐槽]凯尔特人浑身发抖,热火奔着第八来了!怀特:今天简简单单吃个羊头

[神吐槽]凯尔特人浑身发抖,热火奔着第八来了!怀特:今天简简单单吃个羊头

篮球神吐槽
2024-04-18 23:27:24
“靖康之耻”有多虐心?皇帝生母每日接客超百人,公主肛裂而死

“靖康之耻”有多虐心?皇帝生母每日接客超百人,公主肛裂而死

阿胡
2024-03-28 15:30:23
上海“洗房”事件曝光,让人后怕:人的心机可以深到什么程度

上海“洗房”事件曝光,让人后怕:人的心机可以深到什么程度

飞花文史
2024-04-11 10:39:11
查尔斯国王向威廉王子和哈里王子发出了“绝望恳求”

查尔斯国王向威廉王子和哈里王子发出了“绝望恳求”

土澳的故事
2024-04-17 21:12:12
王楚钦赢球背后3大含义:肖战欣慰,樊振东很感激,张本智和完了

王楚钦赢球背后3大含义:肖战欣慰,樊振东很感激,张本智和完了

时刻体育正版
2024-04-18 23:56:47
烂!选美冠军翻拍《哥斯拉》,擦边卖肉观众不买账,票房仅15.6万

烂!选美冠军翻拍《哥斯拉》,擦边卖肉观众不买账,票房仅15.6万

靠谱电影君
2024-04-17 19:55:32
2025款“本田CR-V”渲染图曝光,取消7座,内饰回归传统!

2025款“本田CR-V”渲染图曝光,取消7座,内饰回归传统!

户外小阿隋
2024-04-18 11:21:20
新航母研制失败!刚下水5分钟裂开300多条大缝,百名负责人被撤职

新航母研制失败!刚下水5分钟裂开300多条大缝,百名负责人被撤职

环球Talk
2024-03-01 23:45:51
韩红父亲身份大揭秘,瞒了我们30年,原来是他!难怪无人敢惹!

韩红父亲身份大揭秘,瞒了我们30年,原来是他!难怪无人敢惹!

忆丹说文史
2024-04-08 11:56:10
2024-04-19 01:28:49
量子位
量子位
追踪人工智能动态
9296文章数 175235关注度
往期回顾 全部

科技要闻

车圈顶流雷军直播:现在每天提心吊胆

头条要闻

约旦外相:以色列报复伊朗可将中东拖入毁灭性战争

头条要闻

约旦外相:以色列报复伊朗可将中东拖入毁灭性战争

体育要闻

前国脚:年薪1000万和10万是一样的

娱乐要闻

《酱园弄》官宣!赵丽颖等配角上热搜

财经要闻

围猎三丰智能的神秘基金设骗局转移资产

汽车要闻

元UP中配130kW动力!比亚迪这次不抠门

态度原创

时尚
健康
艺术
游戏
军事航空

还在万年双肩背?是时候扔掉丑包时尚起来了!

这2种水果可降低高血压死亡风险

艺术要闻

最全展览单元剧透!北京最受瞩目艺术现场100青年艺术季终极解读

《人类一败涂地2》跳票至2026年!前作销量破5000万

军事要闻

中方支持巴勒斯坦成为联合国正式成员国

无障碍浏览 进入关怀版