网易首页 > 网易号 > 正文 申请入驻

视觉AI迎来大转折:AI生成模型也能当“视觉专家”了!

0
分享至

上海4月24日讯 人工智能领域迎来重大突破——Google DeepMind团队发布全新研究成果"Vision Banana",用"生成即理解"的理念,为计算机视觉领域带来一场范式革命。

什么是"生成即理解"?

简单来说,过去人们认为图像生成模型(比如能画画的AI)和视觉理解模型(比如能识别物体、测量距离的AI)是两条平行线。但DeepMind这次证明,只要让AI学会生成图像,它自然就学会了"看懂"图像。


这项研究论文《Image Generators are Generalist Vision Learners》于近期发表在学术平台Arxiv上,项目地址已公开。核心思想是:图像生成训练能让模型学到强大且通用的视觉表征,图像生成器就是强大的通用视觉学习器。

技术有何创新?

研究团队基于Nano Banana Pro图像生成模型构建了Vision Banana,未增加专门用于视觉理解的复杂网络结构,也未修改底层架构。其核心方法是:将视觉感知任务的输出全部参数化为RGB图像格式。


举例来说,深度估计任务中,团队设计了严格可逆的数学映射机制,将物理深度[0, ∞)映射到RGB色彩立方体边缘,支持无损解码;分割任务则通过提示词规定颜色掩码,模型直接生成带颜色掩码的图片,随后提取对应颜色像素还原分割结果。

性能表现亮眼

多项测试数据显示,Vision Banana在多种视觉任务中实现SOTA性能:

语义分割:Cityscapes数据集mIoU达0.699,超越SAM3的0.652

深度估计:六大公开基准平均δ₁精度0.882;与Depth Anything V3可比的四个数据集平均δ₁达0.929,超过Depth Anything V3的0.918


实测案例:鹿苑寺照片深度估计13.71米,实际测量12.87米,绝对相对误差仅约0.065

更重要的是,模型在验证"生成即理解"的同时,未损伤原有生成能力——GenAI-Bench胜率达53.5%。

谁参与了这项研究?

研究由Google DeepMind主导,何恺明、谢赛宁等多位知名学者参与。其中谢赛宁连续发文强调这一成果,认为"这些生成先验超越了视觉专家模型长期依赖的专有架构与训练范式"。

数据来源值得注意

训练数据全部来自合成渲染引擎,未使用任何真实世界的深度数据,评估基准的真实训练数据均被排除——这意味着模型的泛化能力更强。


未来挑战

研究团队也指出当前局限:推理开销仍然显著偏高,加速与成本优化是走向广泛部署的必由之路;当前评估专注于单目图像输入,多视图和视频输入是自然的下一步;探索基础视觉模型与LLM的协同融合,以增强跨模态推理也是未来方向。

行业意义

研究团队在论文中表示:"我们可能正见证计算机视觉领域的重大范式转变,我们正在目睹计算机视觉的范式转变,并为基于视觉的AGI铺平道路。"

业界认为,这一成果标志着生成式视觉预训练在构建同时支持生成和理解的基础视觉模型中扮演核心角色,为AI视觉技术打开新的发展路径。

记者手记:当生成模型不仅能"画"还能"懂",我们离真正的"视觉智能"还有多远?Vision Banana或许只是起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王健林近照,又瘦了,脸都瘦脱相了,看着令人心疼!

王健林近照,又瘦了,脸都瘦脱相了,看着令人心疼!

老吴教育课堂
2026-04-23 21:57:29
灾难级别的表现!掘金后场核心到了季后赛真是被森林狼处处针对?

灾难级别的表现!掘金后场核心到了季后赛真是被森林狼处处针对?

稻谷与小麦
2026-04-24 23:14:22
中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

中国肺癌发病率世界第一!提醒:罪魁祸首已揪出,7种食物要少吃

健康之光
2026-03-23 20:10:05
演员文章开饭店,爆火不到3天便遇“滑铁卢”,糟心事一件接一件

演员文章开饭店,爆火不到3天便遇“滑铁卢”,糟心事一件接一件

复转这些年
2026-04-23 22:17:29
证监会出手!000716、600810,被立案!

证监会出手!000716、600810,被立案!

证券时报e公司
2026-04-24 21:00:39
TVB老戏骨忍无可忍含泪揭家丑,每月接济儿子五万,走了向太老路

TVB老戏骨忍无可忍含泪揭家丑,每月接济儿子五万,走了向太老路

翰飞观事
2026-04-22 19:35:28
14年前拿U型锁砸人的蔡洋:2022年出狱,找不到工作靠打零工为生

14年前拿U型锁砸人的蔡洋:2022年出狱,找不到工作靠打零工为生

天天热点见闻
2026-04-21 05:15:28
广东3消息!萨姆纳官宣赛季报销,萨林杰新下家出炉,深圳签新外

广东3消息!萨姆纳官宣赛季报销,萨林杰新下家出炉,深圳签新外

多特体育说
2026-04-24 10:21:03
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
火湖G3,湖人该让一场?若横扫火箭,挑战雷霆,或难凑齐完整阵容

火湖G3,湖人该让一场?若横扫火箭,挑战雷霆,或难凑齐完整阵容

熊哥爱篮球
2026-04-24 22:30:38
最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

最差劲的美国总统是谁,不是特朗普、不是拜登,而是作恶多端的他

蜉蝣说
2026-04-21 11:27:49
张天爱太丰满了!穿挂脖裙都兜不住好身材,性感又撩人!

张天爱太丰满了!穿挂脖裙都兜不住好身材,性感又撩人!

小椰的奶奶
2026-04-23 18:12:08
本想秀恩爱,没想到成笑柄,自毁体面的郭富城,证实熊黛林没说谎

本想秀恩爱,没想到成笑柄,自毁体面的郭富城,证实熊黛林没说谎

白面书誏
2026-04-22 16:18:08
为什么说"飞机最安全",是一个精心设计的统计学陷阱?

为什么说"飞机最安全",是一个精心设计的统计学陷阱?

半解智士
2026-04-22 14:35:15
美司法部撤销对美联储及其主席鲍威尔的刑事调查

美司法部撤销对美联储及其主席鲍威尔的刑事调查

界面新闻
2026-04-24 22:44:57
美海军上将:美国正进行二战结束以来最大规模潜艇建造,“马萨诸塞”号新型攻击核潜艇上月已正式入列

美海军上将:美国正进行二战结束以来最大规模潜艇建造,“马萨诸塞”号新型攻击核潜艇上月已正式入列

极目新闻
2026-04-23 10:57:06
3艘俄军舰被炸沉!局势触及核红线,美方:俄罗斯或动用核武器!

3艘俄军舰被炸沉!局势触及核红线,美方:俄罗斯或动用核武器!

健身狂人
2026-04-23 15:46:53
广东省政府副秘书长吴耿淡被查

广东省政府副秘书长吴耿淡被查

新京报
2026-04-24 17:16:13
俄罗斯人的担心:1943年与1917年重演?

俄罗斯人的担心:1943年与1917年重演?

山河路口
2026-04-23 20:53:47
小法执教切尔西?科莫主席:如果他愿意,他可以自由前往

小法执教切尔西?科莫主席:如果他愿意,他可以自由前往

懂球帝
2026-04-24 23:23:07
2026-04-24 23:43:00
中科智媒
中科智媒
聚焦新闻前沿,每日热点速递
836文章数 11800关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

航班提前起飞10分钟 大学生把海航告了

头条要闻

航班提前起飞10分钟 大学生把海航告了

体育要闻

上海男篮23连胜+主场全胜 姚明之后最强一季

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

本地
教育
房产
手机
军事航空

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

教育要闻

好书共读 好文共享-《书香家庭》

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

手机要闻

索尼Xperia 1 VIII新曝谍照,还有3.5mm耳机孔

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版