网易首页 > 网易号 > 正文 申请入驻

谷歌这把「香蕉」太狠了!何恺明等引爆视觉Transformer时刻

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】计算机视觉用了二十年造出的那堆「专用工具」,谷歌DeepMind想一次性全扔掉。

过去十年,计算机视觉领域有一条铁律:看懂图片的模型,和画出图片的模型,是两拨人。

检测用检测网络,分割用分割网络,生成用扩散模型。

每一个新任务,都意味着一套新架构、一条新流水线、一群新论文。

整个领域的工程师,本质上在干同一件事——给每种视觉能力定制一把专用钥匙。

谷歌把这些钥匙全扔了。

最近,谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、3D图形学名家Thomas Funkhouser,正式发布了Vision Banana。


预印本:https://arxiv.org/abs/2604.20329

项目网址:https://vision-banana.github.io/

它向世界宣告:视觉AI终于不再需要那些臃肿的任务头了,理解,本质上只是生成过程中的一次「对齐」。


一个模型,统治所有视觉任务

传统计算机视觉的逻辑是「分而治之」。

目标检测靠回归框坐标,语义分割靠逐像素分类,图像生成靠噪声去噪。

三条技术线各有各的损失函数、各有各的训练流程、各有各的SOTA排行榜。

Vision Banana的逻辑完全反过来:不管你问什么视觉问题,答案都是一张图。

这背后有一个极其反直觉的发现——强大的生成能力,能反哺理解精度。


传统观点认为,理解和生成是两种截然不同的能力。

理解是压缩信息,生成是展开信息,方向相反,怎么可能互相帮忙?

极简主义的胜利:手术刀式的「指令微调」

Vision Banana的诞生路径,堪称工程美学的典范。

它不是从零开始烧掉几万张显卡的产物,而是基于基础模型Nano Banana Pro的一次「点睛之笔」。

研究团队采用了一种极度克制、甚至有些反直觉的策略:极低比例的数据混入。

他们只将一小部分具备「可逆格式」的任务数据,像添加催化剂一样,混入Nano Banana Pro自身的庞大训练集中。

这种轻量级的指令微调(Instruction Tuning),既没有洗掉模型原有的「生成本性」,又成功将模型内部涌现出的生成式表征,精准对齐到了真实的物理世界。


在与母体Nano Banana Pro的正面对决中,Vision Banana在文本生图任务(GenAI-Bench)中获得了53.5%的人类评估胜率,在图像编辑任务(ImgEdit)中获得了47.8%的胜率。



Vision Banana用数据证明:它并没有因为学会了「看世界」而遗忘如何「造世界」。

它依然是那个顶级的画师,只是现在,它的每一笔线条都具备了物理世界的逻辑。它生成的每一颗像素,既是美学,也是测量。

诸神黄昏与新王登基

Vision Banana的实验数据给出了回答:当模型在海量图像上做生成预训练时,它自发学会了深层语义对齐。

换句话说,一个能画出极其逼真图像的模型,天然就「理解」了图像里的结构、层次和语义关系。

这让人想起一个认知科学里的老命题——人类理解视觉世界的方式,本质上就是「脑补」。

看到一张被遮挡了一半的椅子,大脑会自动补全另一半。


这个补全过程,就是生成。Vision Banana把这个直觉工程化了。

在多项基准测试中,它的表现直接碾过了那些为单一任务精心调教了多年的专用模型,尤其在极端遮挡、复杂场景理解等任务上,优势最明显。




原因不难理解:专用模型只学会了「看」,Vision Banana学会了「想象」。能想象的模型,处理残缺信息的能力天然更强。

检测物体?生成一张标注了框的图。语义分割?生成一张涂了颜色的图。场景描述?还是生成图。

Vision Banana宣告了AI视觉领域的「哥白尼革命」:它彻底抛弃了过去20年的「识别」范式,转而用「想象」来征服现实。

从此,理解不再是目的,它只是生成过程中的一个「副产品」。

熟悉深度学习历史的人会立刻反应过来,

这一幕似曾相识。

2017年,Transformer论文的标题叫「Attention Is All You Need」,把NLP里七八种专用架构一锅端了。

Vision Banana干的事情本质上一样:Generation Is All You Need。

旧范式的裂缝,早就在了

很多人第一反应是:又一个「大一统」的故事,AI领域这类叙事听太多了,真正落地的有几个?

这种怀疑完全合理。过去几年,「统一模型」的概念被滥用到了通货膨胀的程度。

但这次的区别在于,Vision Banana不是在讲概念,它是在跑分上直接证明了:统一不意味着妥协。

传统上,统一模型的代价是每个子任务都比不过专用模型。所谓「万能工具不如专用工具」。

Vision Banana打破了这个诅咒——它在生成和理解两个方向上同时达到了SOTA。


在视觉生成与理解任务上,指令微调后的Vision Banana模型实现SOTA

这意味着一件事:不是统一模型做不好,是之前的统一方式选错了接口。

过去的尝试大多是在模型内部硬塞多个任务头,本质上还是「多个专用模块共享一个骨干网络」。Vision Banana的做法更彻底——它连任务头都不要了,所有输出都是像素。

这个设计选择的优雅之处在于:像素是视觉领域最底层的通用语言。不管你要检测、分割、生成还是编辑,最终呈现在屏幕上的都是像素。Vision Banana把输出统一到了最底层,反而获得了最大的灵活性。

视觉AI的Transformer时刻

把时间线拉长一点就会发现,Vision Banana的出现不是孤立事件。

2017年,NLP领域经历了从「专用模型时代」到「通用模型时代」的范式切换。

Transformer一统江湖之后,整个领域的研究方式、工程实践、商业逻辑全部重写。

计算机视觉到现在还没完成这个切换。

ViT出来之后,Transformer进了视觉领域,但任务层面的统一一直没有实现。检测、分割、生成,依然是三条独立的技术线。

Vision Banana可能是补上这最后一块拼图的那个模型。

当所有视觉任务都变成「生成像素」,一个直接的后果是:未来的视觉AI不再是「看图识字」的工具,而是具备「视觉想象力」的系统。

它通过在生成空间内推理,来应对现实世界中无穷无尽的变体。

它背后的野心则是构建一个统一的视觉世界模型(World Model)。

Vision Banana证明了一个深邃的哲学命题:视觉推理本质上就是一种受约束的生成。

这种能力直接指明了具身智能(Robotics)的未来:如果一个机器人拥有Vision Banana的灵魂,它不再需要复杂的路径规划算法。

它只需要在脑中「生成」一段它成功取到杯子的像素序列,然后按照这段序列去对齐物理现实。

最好的视觉模型,不应该是一个完美的分类器,而应该是一个拥有完美想象力的观察者。

这事儿放进更大的坐标系里看,谷歌在下一盘很大的棋。

Gemini统一了文本和多模态理解,Vision Banana统一了视觉理解和生成。两者如果接通,一个真正意义上的「世界模型」的雏形就出现了——既能理解世界,又能想象世界。

十年前,计算机视觉的工程师们为每个新任务焊一条新流水线。十年后,一个模型用同一个动作回答所有视觉问题。

从专用到通用,从理解到想象,这条路NLP用了七年走完。视觉AI走到了同一个路口。

这一次,钥匙只有一把。

参考资料:

https://vision-banana.github.io/%20

https://x.com/arankomatsuzaki/status/2047139493543846251?s=20

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
15分钟完成帽子戏法,吉布斯-怀特当选英超第33轮最佳球员

15分钟完成帽子戏法,吉布斯-怀特当选英超第33轮最佳球员

懂球帝
2026-04-24 18:27:06
最高院:当事人提供与债务人的通话记录用于证明诉讼时效中断的,须同时证明该通话所涉内容系追索案涉债务

最高院:当事人提供与债务人的通话记录用于证明诉讼时效中断的,须同时证明该通话所涉内容系追索案涉债务

创作者_1514561867966
2026-04-24 18:48:08
远嫁女子在浙江一派出所哭着求辅警拥抱,一抱就是24分钟:与家人闹不愉快,又没有朋友可倾诉

远嫁女子在浙江一派出所哭着求辅警拥抱,一抱就是24分钟:与家人闹不愉快,又没有朋友可倾诉

台州交通广播
2026-04-21 22:24:13
Coco又曝猛料!谢贤冬天解衣让她取暖,把女儿珠宝让她戴,太会了

Coco又曝猛料!谢贤冬天解衣让她取暖,把女儿珠宝让她戴,太会了

橙星文娱
2026-04-24 12:12:33
当初同意给老小区加装电梯的业主,如今都后悔了?5个原因很现实

当初同意给老小区加装电梯的业主,如今都后悔了?5个原因很现实

装修秀
2026-04-24 10:35:03
碧桂园裁员89%

碧桂园裁员89%

新浪财经
2026-04-23 13:30:37
刺杀老蒋失败,杀手投奔延安,毛主席:你绝对不能留在这里

刺杀老蒋失败,杀手投奔延安,毛主席:你绝对不能留在这里

抽象派大师
2026-04-24 12:06:13
一夜3大消息!湖人重大利好,卫冕冠军遭打击,杜兰特又添新伤

一夜3大消息!湖人重大利好,卫冕冠军遭打击,杜兰特又添新伤

体坛小李
2026-04-24 07:27:51
鸿蒙智行发布会现车辆滞留争议 官方呼吁勿过度解读

鸿蒙智行发布会现车辆滞留争议 官方呼吁勿过度解读

新浪财经
2026-04-23 22:09:12
成都天府新区投资集团两任董事长被查

成都天府新区投资集团两任董事长被查

界面新闻
2026-04-24 17:46:03
一旦欧盟把技术搞到手,中国企业再把工厂建起来,会像尼日尔那样

一旦欧盟把技术搞到手,中国企业再把工厂建起来,会像尼日尔那样

阿七说史
2026-03-28 15:27:29
一个家庭如果父亲懦弱,母亲强势,那么孩子基本上也就定型了

一个家庭如果父亲懦弱,母亲强势,那么孩子基本上也就定型了

艺鉴在线
2026-04-24 04:29:52
4月23日中国女篮!李梦换掉国家队队服头像,世界杯宫鲁鸣压力大

4月23日中国女篮!李梦换掉国家队队服头像,世界杯宫鲁鸣压力大

史行途
2026-04-24 06:37:56
看完这7件事,我终于懂了:中国足球的离谱,早就超出了人类认知

看完这7件事,我终于懂了:中国足球的离谱,早就超出了人类认知

圣西罗的太阳
2026-04-23 13:24:10
49岁女保姆直言:单身的老人请保姆,多半不是为找人伺候养老

49岁女保姆直言:单身的老人请保姆,多半不是为找人伺候养老

惟来
2026-04-23 18:19:16
美军刚想掉头威慑亚太,中国反手掐住命门,特朗普的处境彻底变了

美军刚想掉头威慑亚太,中国反手掐住命门,特朗普的处境彻底变了

阿伧说事
2026-04-19 14:52:49
八阿哥死前才悟透,康熙的那句“辛者库贱妇”,其实是“判决书”

八阿哥死前才悟透,康熙的那句“辛者库贱妇”,其实是“判决书”

文史达观
2026-04-21 15:46:24
儿子回国当晚国安上门,说他指纹虹膜全不对,这人是谁?

儿子回国当晚国安上门,说他指纹虹膜全不对,这人是谁?

晓艾故事汇
2026-01-07 10:14:33
CBA季后赛规则调整,广东赛程出炉,附加赛28日打响,杜锋或爆冷

CBA季后赛规则调整,广东赛程出炉,附加赛28日打响,杜锋或爆冷

萌兰聊个球
2026-04-24 10:17:47
燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

燃气公司上门安检,根本不是查漏气!真正目的其实是这3个

匹夫来搞笑
2026-04-20 13:24:51
2026-04-24 20:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15055文章数 66799关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

男子抚养14年儿子非亲生 妻子结婚摆酒前跟别人在一起

头条要闻

男子抚养14年儿子非亲生 妻子结婚摆酒前跟别人在一起

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

家居
游戏
健康
时尚
军事航空

家居要闻

自然肌理 温润美学

《星空》再为PS5紧急更新:Xbox玩家的反应绝了!

干细胞如何让烧烫伤皮肤"再生"?

水晶专场 || 一眼就沦陷的绝美水晶,百元级的快乐

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版