网易首页 > 网易号 > 正文 申请入驻

Nano Banana不会应试!指标拉垮,视觉效果惊艳,实测14个任务

0
分享至


新智元报道

编辑:LRST

【新智元导读】最新报告探讨了生成式模型Nano Banana Pro在低层视觉任务中的表现,如去雾、超分等,传统上依赖PSNR/SSIM等像素级指标。研究发现,Nano Banana Pro在视觉效果上更佳,但传统指标表现欠佳,因生成式模型更追求语义合理而非像素对齐。报告还提出改进方向和新评测范式的思考,强调生成式模型虽有潜力,但与专用模型仍有差距。

过去几年,文本生成图像(T2I)与多模态生成式模型的能力突飞猛进,已经能稳定地产生高质量、具备细节与语义一致性的图像内容。

报告关注的核心矛盾在于:这些「擅长生成」的模型,是否也能在传统低层视觉任务中充当通用求解器(generalist)?

低层视觉(low-level vision)通常强调对图像退化的「精确逆过程」:例如去雾、超分、去噪、去雨、去模糊、去反射、去光晕等。

这类任务的经典评价方式往往依赖 PSNR/SSIM 等参考指标,强调像素级一致性。但生成式模型天生带有「补全/重建」的倾向:它们可能会依据先验去「合理地编造」高频细节,从人眼观感看更清晰、更「像真的」,却在像素对齐意义上偏离GT。

华中科技大学的研究人员最近发布了一篇报告,把这种冲突概括为「人类感知偏好 vs. 传统指标导向」的张力。


项目主页:https://lowlevelbanana.github.io

论文链接:https://arxiv.org/abs/2512.15110

开源仓库:https://huggingface.co/datasets/jlongzuo/LowLevelEval

报告中提出一个非常直接的问题:Nano Banana Pro能否成为低层视觉全能选手?

报告采用了一个刻意「极简」的使用范式:不训练、不微调,只用「输入图 + 简单文本 prompt」直接让Nano Banana Pro输出结果,对其进行zero-shot基准评测。

零样本+文本提示

14个低层任务的系统基准

研究人员把评测扩展到14个低层视觉任务、40个数据集,覆盖三大类能力:图像恢复(restoration)、图像增强(enhancement)、图像融合(fusion)。


任务清单包括:Dehazing、Super-Resolution、Deraining、Deshadowing、Motion Deblur、Defocus Deblur、Denoising、Reflection Removal、Flare Removal、Low-Light Enhancement、Underwater Enhancement、HDR Imaging、Multi-focus Fusion、Infrared-Visible Fusion;

图中用颜色区分了restoration / enhancement / fusion三类任务。

保守估测性能

报告特别强调:当前结论是对模型能力的保守估计,即研究人员没有做精细 prompt tuning,也没有用多轮推理去「挑选最好看的输出」,而是用固定、简单的提示词来模拟一种更接近「普通用户上手」的用法。

闭源模型的评测约束

在一些任务章节里,研究人员也说明了评测工程细节:由于模型以API方式调用且闭源,无法做任务定制训练;并且生成输出分辨率可能固定在约1024尺度,因此需要将输出resize回与GT一致的分辨率再计算指标,以保证定量比较尽量公平。

视觉「更好看」

但指标「更差」

报告最重要的结论可以概括为一句话:

Nano Banana Pro在主观视觉质量上往往更讨好,但在PSNR/SSIM等传统参考指标上整体落后于专用模型。

研究人员将其归因于生成式模型的内在属性:生成式模型更倾向于追求「语义可信/感知合理」,而非严格的像素级对齐;同时模型输出带有随机性(stochasticity),使得稳定性与可复现性也成为部署障碍。

系统性现象:感知质量与指标不一致

以Flare Removal为例,研究人员观察到一种非常典型的现象:有些样本视觉上已经「挺干净、挺舒服」,但因为亮度/颜色等与GT存在偏差,量化分数依然不高,这反映了像素级指标对生成式增强的惩罚机制。


同时,研究人员也指出生成模型存在「高上限、低下限」的特征:在合适输入上,它可能在细节恢复上超过 SOTA,但这种优势会被扩散/生成模型的随机性与语义漂移所抵消,出现明显方差与语义幻觉,prompt 工程也只能部分缓解,难以保证工业级确定性。

稳健但不极致:生成式模型有时会选择更保守的输出

在低光增强(Low-Light Enhancement)的分析中,研究人员给出另一个视角:

Nano Banana Pro可能不太会引入显著的光晕、结构破坏、严重色偏等「灾难性伪影」,这使得它在某些实际应用中具备吸引力;

但它也会出现亮度控制不一致、对prompt敏感、以及与benchmark的GT定义不完全匹配等问题,因此整体仍难以与专用方法竞争。


更进一步,报告还给出可能的改进方向:更具体的prompt设计、few-shot示例对齐、轻量适配/微调、以及把统一多模态模型与任务模块结合的混合范式。

报告贡献与意义:它不只是在「打分」,而是在推动重新定义评测与目标

这份报告的价值不止在于给Nano Banana Pro下结论,更在于它把一个长期存在但常被忽略的问题摆到台面上:

  • 当生成式模型进入低层视觉后,「像素一致性」是否仍是唯一目标?

  • 传统指标是否在系统性地误导我们对生成式恢复/增强的判断?

  • 是否需要能同时刻画「感知质量 + 结构/语义稳定性 + 像素保真」的新评测范式?

报告明确指出:Nano Banana Pro作为零样本低层视觉求解器,已经是一个很强的 baseline,并展示出跨任务的「泛化潜力」;但要达到专用模型那种高保真、可控、稳定的水准仍有明显鸿沟。

参考资料:

https://arxiv.org/abs/2512.15110

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美以刺杀伊朗最高领袖和总统失败

美以刺杀伊朗最高领袖和总统失败

财联社
2026-02-28 18:48:32
副教授晒出神仙躺平生活,惹争议!

副教授晒出神仙躺平生活,惹争议!

黯泉
2026-03-01 21:23:04
瓜帅崩溃?英超最新夺冠概率:阿森纳83.3%,曼城16.6%,有15队0%

瓜帅崩溃?英超最新夺冠概率:阿森纳83.3%,曼城16.6%,有15队0%

风过乡
2026-03-02 20:17:54
伊朗导弹击中美第五舰队总部瞬间画面曝光,美海军第五舰队总部遇袭前后卫星图公开

伊朗导弹击中美第五舰队总部瞬间画面曝光,美海军第五舰队总部遇袭前后卫星图公开

扬子晚报
2026-03-02 17:09:15
伊朗革命卫队宣布大规模军事行动

伊朗革命卫队宣布大规模军事行动

界面新闻
2026-02-28 18:18:55
犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

犹太财团又要开始卖国了,大规模资产转移后,贝莱德:美国没救了

老范谈史
2026-01-13 20:15:38
谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,太敢说

谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,太敢说

青梅侃史啊
2026-02-13 07:29:37
刘孜回老家遵义为父母购百平豪宅,亲自盯装修,父母反应令她失望

刘孜回老家遵义为父母购百平豪宅,亲自盯装修,父母反应令她失望

小椰的奶奶
2026-03-02 16:21:53
汪小菲窝里横!直播说:我知道我妈对我好,她不会和我生气的!

汪小菲窝里横!直播说:我知道我妈对我好,她不会和我生气的!

小娱乐悠悠
2026-03-02 13:39:43
知名演员秦岚自曝患病,已做手术!

知名演员秦岚自曝患病,已做手术!

极目新闻
2026-02-28 23:12:57
破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

另子维爱读史
2026-01-16 21:03:12
如果毛主席没有写出《沁园春·雪》,他还可以靠哪首词名扬天下?

如果毛主席没有写出《沁园春·雪》,他还可以靠哪首词名扬天下?

优趣纪史记
2026-03-02 19:04:55
2018年女足国脚张欧影病逝美国,临终丈夫为其换7号球衣

2018年女足国脚张欧影病逝美国,临终丈夫为其换7号球衣

王糬自驾
2026-02-27 12:37:13
中国要做好战争准备,中国的下场战争不是印度菲律宾越南而是日本

中国要做好战争准备,中国的下场战争不是印度菲律宾越南而是日本

百态人间
2026-01-09 17:17:17
上海合作组织秘书处降半旗

上海合作组织秘书处降半旗

观察者网
2026-03-01 18:14:11
伊朗称若能源设施遭袭 该地区所有国家油气设施都将被毁

伊朗称若能源设施遭袭 该地区所有国家油气设施都将被毁

财联社
2026-03-02 01:58:12
“天眼”24小时扫描中东,美军在中国卫星面前,没有任何秘密可言

“天眼”24小时扫描中东,美军在中国卫星面前,没有任何秘密可言

我心纵横天地间
2026-03-02 14:05:07
女子回乡建厂5年:当初捧着邀请我来,如今被强拆4000万说没就没

女子回乡建厂5年:当初捧着邀请我来,如今被强拆4000万说没就没

今朝牛马
2026-01-16 18:14:40
王石不装了,头套也不戴了,直接光头,不敢喝酒,只喝茶

王石不装了,头套也不戴了,直接光头,不敢喝酒,只喝茶

西楼知趣杂谈
2026-03-02 09:44:56
还要什么归化,这才是男篮2028奥运周期最强阵容

还要什么归化,这才是男篮2028奥运周期最强阵容

男足的小球童
2026-02-28 18:17:21
2026-03-02 22:55:07
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14625文章数 66648关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

美记者询问就伊朗局势中方会采取什么行动 外交部回应

头条要闻

美记者询问就伊朗局势中方会采取什么行动 外交部回应

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

健康
本地
手机
时尚
公开课

转头就晕的耳石症,能开车上班吗?

本地新闻

津南好·四时总相宜

手机要闻

首款机器人手机!荣耀Robot Phone上手:摄像头竟会跳舞

女人“会穿衣”才更美,看看这些穿搭就知道,穿对了真显气质

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版