网易首页 > 网易号 > 正文 申请入驻

微软写了份GPT-4V说明书:166页详细讲解,提示词demo示例全都有

0
分享至

克雷西 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

多模态王炸大模型GPT-4V,166页“说明书”重磅发布!而且还是微软团队出品。

什么样的论文,能写出166页?

不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;

还传授了一整套多模态大模型提示词使用技巧——

手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。

值得一提的是,这篇论文的作者也是“全华班”,7名作者全部是华人,领衔的是一位在微软工作了17年的女性首席研究经理。

在166页报告发布前,他们还参与了OpenAI最新DALL·E 3的研究,对这个领域了解颇深。

相比OpenAI的18页GPT-4V论文,这篇166页“食用指南”一发布,立刻被奉为GPT-4V用户必读之物:

有网友感慨:这哪里是论文,这简直快成一本166页的小书了。

还有网友看完已经感到慌了:

不要只看GPT-4V的回答细节,我真的对AI展现出来的潜在能力感到害怕。

所以,微软这篇“论文”究竟讲了啥,又展现出了GPT-4V的哪些“潜力”?

微软166页报告讲了啥?

这篇论文钻研GPT-4V的方法,核心就靠一个字——“试”

微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给GPT-4V,并观察和记录GPT-4V的输出。

随后,他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧,具体包括4大方面:

1、GPT-4V的用法:

5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。

3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文样本学习(in-context few-shot learning)。

例如这是基于思维链变更提问方式后,GPT-4V展现出的指令遵循能力:

2、GPT-4V在10大任务中的表现:

开放世界视觉理解(open-world visual understanding)、视觉描述(visual description)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)

其中就包括这种,需要一些智商才能做出来的“图像推理题”:

3、类GPT-4V多模态大模型的提示词技巧:

提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring prompting),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。

4、多模态大模型的研究&落地潜力:

预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。

例如这是研究人员发现的GPT-4V可用场景之一——故障检测:

但无论是新的提示词技巧、还是GPT-4V的应用场景,大伙儿最关注的还是GPT-4V的真正实力。

所以,这份“说明书”随后用了150多页来展示各种demo,详细剧透了GPT-4V在面对不同回答时展现出的能力。

一起来看看GPT-4V如今的多模态能力进化到哪一步了。

精通专业领域图像,还能现学知识
图像识别

最基础的识别自然是不在话下,比如科技、体育界以及娱乐圈的各路名人:

而且不仅能看出这些人是谁,还能解读他们正在做什么,比如下图中老黄正在介绍英伟达新推出的显卡产品。

除了人物,地标建筑对于GPT-4V来说同样是小菜一碟,不仅能判断名称和所在地,还能给出详细的介绍。

△左:纽约时代广场,右:京都金阁寺

不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现GPT-4V的能力。

比如医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:

双肺多个区域存在实变和磨玻璃混浊,肺部可能存在感染或炎症。右肺上叶也可能有肿块或结节。

甚至不告诉GPT-4V影像的种类和位置,它自己也能判断。

这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。

同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。

经过专业人士判断,GPT-4V给出的结论完全正确。

除了这些“正经”的内容之外,当代人类社会的“非物质文化遗产”表情包也被GPT-4V给拿捏了。

△机器翻译,仅供参考

不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被GPT-4看穿。

除了这些真·图像之外,文本识别也是机器视觉中的一项重要任务。

这方面,GPT-4V除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。

甚至是手写的数学公式:

图像推理

前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。

除了看懂图片中的内容,GPT-4V还具有一定的推理能力。

简单一些的,GPT-4V可以发现两张图中的不同(虽然还有些错误)。

下面的一组图中,王冠和蝴蝶结的区别都被GPT-4V发现了。

如果加大难度,GPT-4V还能解决IQ测试当中的图形问题。

上面的这三道题中的特征或逻辑关系都还比较简单,但接下来就要上难度了:

当然难度不是在于图形本身,注意图中的第4条文字说明,原题目中图形的排列方式不是图中展示的样子。

图片标注

除了用文本回答各种问题,GPT-4V还可以在图片中执行一系列操作。

比如我们手里有一张四位AI巨头的合影,要GPT-4V框出其中的人物并标注他们的姓名和简介。

GPT-4V先是用文本回答了这些问题,紧接着便给出了处理之后的图片:

动态内容分析

除了这些静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。

下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。

而针对同一系列的图片,可能会有不同的理解方式,这是GPT-4V会结合文本提示进行判断。

比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。

当然,通过多张图片中人物状态的变化,还可以推测出他们正在做的事情。

甚至是预测接下来会发生什么:

“现场学习”

GPT-4V不仅视觉本领强,关键是还能现学现卖。

还是举个例子,让GPT-4V读汽车仪表盘,一开始得出的答案是错误的:

紧接着把方法用文字交给GPT-4V,但这是的答案依然不对:

然后又把例子展示给GPT-4V,答案倒是有样学样,可惜数字是胡编乱造出来的。

只有一个例子的确是有点少,不过随着样本数量的提高(其实只多了一个),终于功夫不负有心人,GPT-4V给出了正确答案。

GPT-4V的效果就展示这么多,当然它还支持更多的领域和任务,这里无法一一展示,感兴趣的话可以阅读原始报告。

那么,GPT-4V这些神器的效果背后,是怎样的一个团队呢?

清华校友领衔

这篇论文的作者一共有7位,均为华人,其中6位是核心作者。

项目领衔作者Lijuan Wang,是微软云计算与AI首席研究经理。

她本科毕业于华中科技大学,在中国清华大学获得博士学位,于2006年加入微软亚洲研究院,并于2016年加入位于雷德蒙德的微软研究院。

她的研究领域是基于多模态感知智能的深度学习和机器学习,具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。

原文地址:
https://arxiv.org/abs/2309.17421

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
84年黄克诚应要求谈一谈林彪,黄老发言震惊四座:这话只能黄老讲

84年黄克诚应要求谈一谈林彪,黄老发言震惊四座:这话只能黄老讲

春秋砚
2025-11-18 10:00:19
A股:大家要做好心理准备,今天涨到3946点,不出所料明天这样走

A股:大家要做好心理准备,今天涨到3946点,不出所料明天这样走

一只番茄鱼
2025-11-19 15:07:08
54岁于和伟演毛主席,这一次,他让唐国强和整个娱乐圈沉默了!

54岁于和伟演毛主席,这一次,他让唐国强和整个娱乐圈沉默了!

笔谈慧
2025-11-18 14:00:46
当初足协对陈达毅爱搭不理,现在陈达毅却要去踢世界杯了!

当初足协对陈达毅爱搭不理,现在陈达毅却要去踢世界杯了!

田先生篮球
2025-11-19 16:02:06
2锋线缺阵 火箭首发5将冲5连胜 第三中锋进轮换?谢泼德坐稳第6人

2锋线缺阵 火箭首发5将冲5连胜 第三中锋进轮换?谢泼德坐稳第6人

替补席看球
2025-11-19 14:47:42
裹足不前!波克罗夫斯克战役成现代斯大林格勒,俄军未能巩固优势

裹足不前!波克罗夫斯克战役成现代斯大林格勒,俄军未能巩固优势

军迷战情室
2025-11-18 20:18:13
科学家挖出2000多年前种子,种植后,竟长出早已灭绝1500多年植物

科学家挖出2000多年前种子,种植后,竟长出早已灭绝1500多年植物

狸猫之一的动物圈
2025-11-19 11:31:32
被曝和景甜闪婚才2个月,冯绍峰再次官宣喜讯,赵丽颖也高攀不起

被曝和景甜闪婚才2个月,冯绍峰再次官宣喜讯,赵丽颖也高攀不起

小张帅
2025-11-19 14:46:05
爆发!杨瀚森爆砍9分5板3助1帽创新高,超周琦成易建联后中国第一人

爆发!杨瀚森爆砍9分5板3助1帽创新高,超周琦成易建联后中国第一人

818体育
2025-11-19 15:40:16
郑丽文提“一国两区”,蓝营民调大涨;民进党没招了,再打抗中牌

郑丽文提“一国两区”,蓝营民调大涨;民进党没招了,再打抗中牌

前沿天地
2025-11-18 14:47:14
央5播江苏女排VS山东,开球时间确定,张常宁PK杨涵玉,谁能夺金

央5播江苏女排VS山东,开球时间确定,张常宁PK杨涵玉,谁能夺金

体育大学僧
2025-11-19 10:43:23
刘传兴被交易?山西官宣,公布赛季名单,杜锋点名,还剩2年合同

刘传兴被交易?山西官宣,公布赛季名单,杜锋点名,还剩2年合同

乐聊球
2025-11-19 11:19:11
90天倒闭230家,多地关店老板跑路,毛利高达60%的生意也扛不住了

90天倒闭230家,多地关店老板跑路,毛利高达60%的生意也扛不住了

泠泠说史
2025-10-24 15:44:20
在美失联超3周的女留学生已找到,父亲为女儿报平安

在美失联超3周的女留学生已找到,父亲为女儿报平安

现代快报
2025-11-18 23:40:05
NCAA历史首次!中国两将同时登场:王俊杰4+3+4+2 赵维伦5+4

NCAA历史首次!中国两将同时登场:王俊杰4+3+4+2 赵维伦5+4

醉卧浮生
2025-11-19 13:04:53
给口碑最好的10部谍战剧排名:《沉默的荣耀》第10,第1实至名归

给口碑最好的10部谍战剧排名:《沉默的荣耀》第10,第1实至名归

皮皮电影
2025-11-19 13:55:03
短羽绒服+阔腿裤今年冬天又火了,这样搭配减龄不说还更时髦!

短羽绒服+阔腿裤今年冬天又火了,这样搭配减龄不说还更时髦!

马三妮
2025-11-19 16:14:41
朱元璋登基后赏赐姐夫,姐夫跪地只求回乡种地,承诺此生不进京城

朱元璋登基后赏赐姐夫,姐夫跪地只求回乡种地,承诺此生不进京城

晓艾故事汇
2025-11-18 17:12:56
风向真的变了!各国媒体纷纷承认,中国已无需再向世界证明其实力

风向真的变了!各国媒体纷纷承认,中国已无需再向世界证明其实力

铁锤简科
2025-11-04 11:31:17
国足的选人标准是什么?汪士钦是怎么被选上的,他符合标准……?

国足的选人标准是什么?汪士钦是怎么被选上的,他符合标准……?

田先生篮球
2025-11-19 16:19:50
2025-11-19 17:32:49
量子位 incentive-icons
量子位
追踪人工智能动态
11708文章数 176335关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

网红"橙子姐姐"被指在柬失联多日 柬方通报:其已被捕

头条要闻

网红"橙子姐姐"被指在柬失联多日 柬方通报:其已被捕

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

游戏
手机
亲子
本地
公开课

《回音:飞艇传说》开发者回顾新品节:感谢中国玩家的帮助

手机要闻

苹果华为们持续加码!官翻手机越来越多,为何用户不买账?

亲子要闻

马筱梅解释为什么箖箖保姆是男生,sam是大s亲选,汪小菲不忍辞退

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版