网易首页 > 网易号 > 正文 申请入驻

何恺明、谢赛宁署名,Google DeepMind推出Vision Banana:图像生成器即通才视觉学习者

0
分享至

大数据文摘受权转载自学术头条

长期以来,计算机视觉领域主流的表征学习方法,如监督判别、对比学习、自举、自编码等,几乎都与生成式建模无关。早期的生成式视觉预训练虽展现出随规模提升而增强的趋势,但整体效果始终落后于非生成式方法。

与此同时,图像和视频生成模型在过去一年展现出惊人的合成能力,也偶尔显露出零样本视觉理解的迹象。一个长期存在的猜想因此再次受到关注:能够“创造”视觉内容的模型,是否也具备“理解”视觉内容的能力?此前的相关尝试,要么难以让生成模型按指令输出可量化评估的结果,要么需要加入专门模块并进行全量微调,从而牺牲通用性。

为回答这一问题,Google DeepMind 团队推出了 Vision Banana。这是一款以 Nano Banana Pro(NBP)为底座,并通过轻量指令微调打造的通用视觉模型。值得注意的是,何恺明、谢赛宁等学者也参与署名,这项工作在一定程度上代表了研究团队对通用视觉基础模型方向的最新判断。


论文链接:https://arxiv.org/pdf/2604.20329

核心结论很直接:只需在 NBP 原始训练数据中以极低比例混入视觉任务数据,并将所有视觉任务的输出统一重新参数化为 RGB 图像,模型就能在 2D 与 3D 视觉理解的多项 benchmark 上达到或超越 SAM 3、Depth Anything 3、Lotus-2 等专用模型,同时保留原有的图像生成能力。

Vision Banana:生成即理解

Vision Banana 的方法灵感来自大语言模型(LLM)的训练范式。在自然语言处理中,生成式预训练产出“基础模型”,而指令微调引导模型按照特定指令和格式生成文本。研究团队将这一思路运用到视觉领域:把图像生成模型作为“基础模型”,通过指令微调让它按照 prompt 要求生成指定格式的视觉输出。


图|研究团队通过对 Nano Banana Pro 进行指令微调,揭示了图像生成器潜在的视觉理解能力。经过指令微调的模型 Vision Banana 能够以精确的格式生成可视化结果,从而支持在主流基准测试上进行评估。

1.将视觉任务重构为图像生成

这是整个方法的核心创新。无论是分割掩码、深度图,还是表面法线,视觉任务的输出都被统一参数化为 RGB 图像。具体做法是设计一套“可解码的可视化方案”,让生成结果既能被人眼识别,也能通过明确规则逆向还原为物理量或语义标签。

以语义分割为例,研究团队给模型的 prompt 是“用纯黄色 <255, 255, 0> 分割滑板类别”。评估时,只需聚类所有接近 <255, 255, 0> 的像素,即可得到滑板的掩码。

这种策略带来三个关键优势:统一模型即可支持多种任务,只需调整 prompt,无需修改权重;新增训练数据需求极低,指令微调主要是教模型如何将视觉结果格式化为 RGB 输出;同时保留原始图像生成能力,因为输出本质上仍是 RGB 图像。

2.轻量级指令微调策略

研究团队将视觉任务数据以极低比例混入 Nano Banana Pro 的原始训练数据中进行联合训练。低比例混合能够确保视觉任务对齐不会破坏模型已有的生成先验。

2D 任务套件包括指代表达分割、语义分割和实例分割;3D 任务聚焦单目度量深度估计与表面法线估计。训练数据方面,2D 任务采用内部模型对网络图像生成的标注,3D 任务采用渲染引擎生成的合成数据。

关键在于,所有评测基准对应的训练数据均未被纳入指令微调混合数据中,因此结果能够更真实地反映模型的通用泛化能力。

3.深度值到 RGB 的可逆双射

深度估计是论文中技术细节最集中的部分。深度值范围是 [0, ∞),RGB 值域是 [0, 1]^3,如何在两者之间建立可逆映射,是核心问题。

研究团队首先对深度值进行 power transform,将近距离深度的分辨率拉高,同时压缩远距离深度的分辨率,这也符合机器人抓取等任务中近处物体更重要的直觉。随后,再将归一化后的距离值沿 RGB 立方体边缘进行分段线性插值,方式类似 3D Hilbert 曲线的首次迭代。

由于这两个变换都严格可逆,最终形成了从 [0, ∞] 到 [0, 1]^3 的双射映射。训练阶段,将 ground-truth 深度映射为 RGB 作为监督目标;推理阶段,再进行反向解码,即可恢复度量深度。

为提升鲁棒性,训练数据还加入了 Plasma、Inferno、Viridis、灰度等多种替代色图增强。值得注意的是,该深度模型完全基于合成数据训练,没有使用任何真实世界深度数据,同时训练与推理过程均不依赖相机内外参。

效果怎么样?

研究团队在 2D 分割、3D 深度估计、表面法线估计三类任务上,对比 Vision Banana 和各领域专家模型进行了全面评测。结果如下:


图|经过指令微调后,Vision Banana 在视觉生成与理解任务中的性能表现。

2D 分割:在 Cityscapes 语义分割任务中,Vision Banana 的 mIoU 达到 0.699,较 SAM 3 的 0.652 提升 4.7 个点,成为表现最强的开放词汇模型。在 RefCOCOg 指代分割任务中,cIoU 达 0.738,超过 SAM 3 Agent 的 0.734。在 ReasonSeg 推理分割任务中,配合 Google 的 Gemini 2.5 Pro 后,gIoU 达 0.793,高于 SAM 3 Agent 的 0.770,并超过了在训练集上训练的 X-SAM 和 LISA。实例分割是唯一稍弱的项目,在 SA-Co/Gold 上 pmF1 为 0.540,略低于 DINO-X 的 0.552。


表|Vision Banana 与各分割数据集上的 SOTA 方法的对比结果。

3D 深度估计:在 6 个主流基准上的平均 δ1 精度达到 0.882,较 UniK3D 提升近 6 个点,AbsRel 较 MoGe-2 下降约 20%。在 Depth Anything 3 评测使用的四个数据集(NYU、ETH3D、DIODE、KITTI)上,Vision Banana 的平均 δ1 为 0.929,优于 Depth Anything 3 的 0.918。


表|零样本迁移设置下的单目度量深度估计结果。Vision Banana 在训练和推理阶段均不使用相机内参的情况下,在公开数据集上取得了更优的结果。

表面法线估计:在三个室内数据集上,Vision Banana 取得最低平均角度误差,mean 为 15.549,median 为 9.300,优于 Lotus-2 的 mean 16.558。在户外 VKitti 场景中,其表现与 Lotus-2 持平。值得注意的是,Lotus-2 曾在 Virtual KITTI 2 上进行训练,而 Vision Banana 严格保持 zero-shot 设置。


表|表面法线估计结果。Vision Banana 在室内数据集上平均取得了最低的均值和中值角度误差,并在室外场景上与此前的 SOTA 方法持平。

生成能力保留:在 GenAI-Bench 文生图对比中,Vision Banana 相对基础模型 Nano Banana Pro 的胜率为 53.5%;在 ImgEdit 图像编辑任务中,胜率为 47.8%。这表明经过轻量级 instruction-tuning 后,模型的生成能力依然保持稳定。

还需要做什么?

研究团队表示,Vision Banana 并非完美,还需要在未来工作中持续改进。

例如,Vision Banana 的实例分割性能仍落后于 SAM 3,在 SA-Co/Gold 数据集上仍有差距。论文指出,部分原因在于 Vision Banana 并未将 SA-Co 纳入训练数据,而 SAM 3 则基于该数据进行训练。同时,这项任务本身也对按类推理策略提出了挑战。

计算开销也是当前的限制之一。研究团队指出,现阶段使用 NBP 规模的图像生成器进行视觉理解,其推理成本高于轻量级专用模型。如果要大规模部署生成式视觉框架,仍需进一步提升速度并降低成本。

目前的评估范围仅限于单目图像输入,未来可拓展至多视角输入和视频输入。研究视频生成器是否能够学习到更丰富的时间感知表征,也被视为值得探索的方向。扩大 instruction-tuning 任务的多样性,或许能像 LLM 一样释放更强的跨任务泛化能力。此外,将基础视觉模型与大语言模型协同集成,用于增强跨模态推理,也是下一阶段的重要方向。

从更宏观的角度看,这项工作试图将 LLM 时代“预训练产出通用基座、instruction-tuning 把基座对齐到具体任务”的范式引入视觉领域。如果图像生成能够成为视觉的通用接口,那么“生成”与“理解”这两条原本相对独立的研究路线,未来或将汇聚到同一个基础视觉模型之中。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
轮到美国被“垄断”了!“芯片之父”弃美回国,研发成果堪比核武

轮到美国被“垄断”了!“芯片之父”弃美回国,研发成果堪比核武

安珈使者啊
2025-12-25 14:25:42
特朗普恢复总统健身奖,现场调侃:我每天大概也就锻炼一分钟吧

特朗普恢复总统健身奖,现场调侃:我每天大概也就锻炼一分钟吧

雪儿爱追剧
2026-05-06 23:54:42
1990年,北大女硕士李贤玉参军入伍,25年后她成火箭军首位女将军

1990年,北大女硕士李贤玉参军入伍,25年后她成火箭军首位女将军

饭小妹说历史
2026-03-11 17:26:33
伊朗“复仇者联盟”?不过是场政治闹剧

伊朗“复仇者联盟”?不过是场政治闹剧

小眼睛小世界
2026-05-06 08:59:18
「国民男友」他当年红遍韩国!消失原因曝光:手指、颈、脚麻痹了

「国民男友」他当年红遍韩国!消失原因曝光:手指、颈、脚麻痹了

ETtoday星光云
2026-05-05 16:26:04
出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

出生39天,生母陈宝莲就自杀,如今戴耳钉、纹纹身走上“不归路”

林轻吟
2026-04-13 19:48:49
63岁母亲在杭城医院厨房忙碌,盼望40岁女儿能有奇迹恢复

63岁母亲在杭城医院厨房忙碌,盼望40岁女儿能有奇迹恢复

王二哥老搞笑
2026-05-06 14:37:32
差距巨大!世界杯版权差价接近8000万美元,国际足联与中国印度仍未达成协议

差距巨大!世界杯版权差价接近8000万美元,国际足联与中国印度仍未达成协议

懂个球
2026-05-06 17:42:41
完全脱臼!骨头刺穿皮肤!湖人遭受沉重打击

完全脱臼!骨头刺穿皮肤!湖人遭受沉重打击

篮球教学论坛
2026-05-06 14:57:15
遇到这些奇葩的“中国好邻居”,只想卖房走人,给大家晒晒

遇到这些奇葩的“中国好邻居”,只想卖房走人,给大家晒晒

巢客HOME
2026-04-27 04:05:03
北京二手房市场现戏剧性一幕:488万元成交3天后卖家反悔,宁赔违约金也要涨价近70万元重卖

北京二手房市场现戏剧性一幕:488万元成交3天后卖家反悔,宁赔违约金也要涨价近70万元重卖

每日经济新闻
2026-05-06 16:40:03
吴彦祖:被李美琪“折磨”到抑郁流泪,终遇恩爱23年的Lisa S

吴彦祖:被李美琪“折磨”到抑郁流泪,终遇恩爱23年的Lisa S

橙星文娱
2026-05-05 09:59:29
正定夜市毁车风波后续,管理方回应引争议,避重就轻难平网友怒火

正定夜市毁车风波后续,管理方回应引争议,避重就轻难平网友怒火

观察鉴娱
2026-05-06 10:29:19
男子每天发朋友圈炫耀女儿美貌,老师察觉不对报警,警方推开门傻眼

男子每天发朋友圈炫耀女儿美貌,老师察觉不对报警,警方推开门傻眼

罪案洞察者
2025-07-18 17:04:05
知名医科大学原校长被查,曾为院士候选人,是当地“顶流”医生

知名医科大学原校长被查,曾为院士候选人,是当地“顶流”医生

梅斯医学
2026-05-06 19:00:04
好日子到头了!许家印背后的“保护伞”,终于被重罚了

好日子到头了!许家印背后的“保护伞”,终于被重罚了

毒sir财经
2026-05-05 22:36:26
面对湖人继续稳定输出!雷霆后场新星确实有能力吃下大量的球权?

面对湖人继续稳定输出!雷霆后场新星确实有能力吃下大量的球权?

稻谷与小麦
2026-05-07 00:13:53
78岁老奶被送养老院,她笑着整理东西,5天后儿子接电话愣了

78岁老奶被送养老院,她笑着整理东西,5天后儿子接电话愣了

兰姐说故事
2025-08-06 17:00:09
随着泰国0-2,中国男足0-1,日本3-1,亚洲杯最新积分榜出炉

随着泰国0-2,中国男足0-1,日本3-1,亚洲杯最新积分榜出炉

侧身凌空斩
2026-05-06 03:41:46
长相普通偏要演大美女,任敏又被吐槽毁原著,五官硬伤不适合古偶

长相普通偏要演大美女,任敏又被吐槽毁原著,五官硬伤不适合古偶

萌神木木
2026-05-04 18:49:22
2026-05-07 01:12:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6858文章数 94545关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

谢娜演唱会暗藏惊喜 何炅瞒天过海现身

财经要闻

估值450亿美元 大基金被曝将投资DeepSeek

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

教育
时尚
本地
房产
军事航空

教育要闻

稍微好上岸的985与211(求稳可冲!!!)

有些路,不必每一步都走得那么用力

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

遥遥领先!这个澄迈顶流红盘,凭什么持续霸榜

军事要闻

实施不到48小时 特朗普紧急喊停"霍尔木兹自由计划"

无障碍浏览 进入关怀版