网易首页 > 网易号 > 正文 申请入驻

Nano Banana不会应试!指标拉垮,视觉效果惊艳,实测14个任务

0
分享至


新智元报道

编辑:LRST

【新智元导读】最新报告探讨了生成式模型Nano Banana Pro在低层视觉任务中的表现,如去雾、超分等,传统上依赖PSNR/SSIM等像素级指标。研究发现,Nano Banana Pro在视觉效果上更佳,但传统指标表现欠佳,因生成式模型更追求语义合理而非像素对齐。报告还提出改进方向和新评测范式的思考,强调生成式模型虽有潜力,但与专用模型仍有差距。

过去几年,文本生成图像(T2I)与多模态生成式模型的能力突飞猛进,已经能稳定地产生高质量、具备细节与语义一致性的图像内容。

报告关注的核心矛盾在于:这些「擅长生成」的模型,是否也能在传统低层视觉任务中充当通用求解器(generalist)?

低层视觉(low-level vision)通常强调对图像退化的「精确逆过程」:例如去雾、超分、去噪、去雨、去模糊、去反射、去光晕等。

这类任务的经典评价方式往往依赖 PSNR/SSIM 等参考指标,强调像素级一致性。但生成式模型天生带有「补全/重建」的倾向:它们可能会依据先验去「合理地编造」高频细节,从人眼观感看更清晰、更「像真的」,却在像素对齐意义上偏离GT。

华中科技大学的研究人员最近发布了一篇报告,把这种冲突概括为「人类感知偏好 vs. 传统指标导向」的张力。


项目主页:https://lowlevelbanana.github.io

论文链接:https://arxiv.org/abs/2512.15110

开源仓库:https://huggingface.co/datasets/jlongzuo/LowLevelEval

报告中提出一个非常直接的问题:Nano Banana Pro能否成为低层视觉全能选手?

报告采用了一个刻意「极简」的使用范式:不训练、不微调,只用「输入图 + 简单文本 prompt」直接让Nano Banana Pro输出结果,对其进行zero-shot基准评测。

零样本+文本提示

14个低层任务的系统基准

研究人员把评测扩展到14个低层视觉任务、40个数据集,覆盖三大类能力:图像恢复(restoration)、图像增强(enhancement)、图像融合(fusion)。


任务清单包括:Dehazing、Super-Resolution、Deraining、Deshadowing、Motion Deblur、Defocus Deblur、Denoising、Reflection Removal、Flare Removal、Low-Light Enhancement、Underwater Enhancement、HDR Imaging、Multi-focus Fusion、Infrared-Visible Fusion;

图中用颜色区分了restoration / enhancement / fusion三类任务。

保守估测性能

报告特别强调:当前结论是对模型能力的保守估计,即研究人员没有做精细 prompt tuning,也没有用多轮推理去「挑选最好看的输出」,而是用固定、简单的提示词来模拟一种更接近「普通用户上手」的用法。

闭源模型的评测约束

在一些任务章节里,研究人员也说明了评测工程细节:由于模型以API方式调用且闭源,无法做任务定制训练;并且生成输出分辨率可能固定在约1024尺度,因此需要将输出resize回与GT一致的分辨率再计算指标,以保证定量比较尽量公平。

视觉「更好看」

但指标「更差」

报告最重要的结论可以概括为一句话:

Nano Banana Pro在主观视觉质量上往往更讨好,但在PSNR/SSIM等传统参考指标上整体落后于专用模型。

研究人员将其归因于生成式模型的内在属性:生成式模型更倾向于追求「语义可信/感知合理」,而非严格的像素级对齐;同时模型输出带有随机性(stochasticity),使得稳定性与可复现性也成为部署障碍。

系统性现象:感知质量与指标不一致

以Flare Removal为例,研究人员观察到一种非常典型的现象:有些样本视觉上已经「挺干净、挺舒服」,但因为亮度/颜色等与GT存在偏差,量化分数依然不高,这反映了像素级指标对生成式增强的惩罚机制。


同时,研究人员也指出生成模型存在「高上限、低下限」的特征:在合适输入上,它可能在细节恢复上超过 SOTA,但这种优势会被扩散/生成模型的随机性与语义漂移所抵消,出现明显方差与语义幻觉,prompt 工程也只能部分缓解,难以保证工业级确定性。

稳健但不极致:生成式模型有时会选择更保守的输出

在低光增强(Low-Light Enhancement)的分析中,研究人员给出另一个视角:

Nano Banana Pro可能不太会引入显著的光晕、结构破坏、严重色偏等「灾难性伪影」,这使得它在某些实际应用中具备吸引力;

但它也会出现亮度控制不一致、对prompt敏感、以及与benchmark的GT定义不完全匹配等问题,因此整体仍难以与专用方法竞争。


更进一步,报告还给出可能的改进方向:更具体的prompt设计、few-shot示例对齐、轻量适配/微调、以及把统一多模态模型与任务模块结合的混合范式。

报告贡献与意义:它不只是在「打分」,而是在推动重新定义评测与目标

这份报告的价值不止在于给Nano Banana Pro下结论,更在于它把一个长期存在但常被忽略的问题摆到台面上:

  • 当生成式模型进入低层视觉后,「像素一致性」是否仍是唯一目标?

  • 传统指标是否在系统性地误导我们对生成式恢复/增强的判断?

  • 是否需要能同时刻画「感知质量 + 结构/语义稳定性 + 像素保真」的新评测范式?

报告明确指出:Nano Banana Pro作为零样本低层视觉求解器,已经是一个很强的 baseline,并展示出跨任务的「泛化潜力」;但要达到专用模型那种高保真、可控、稳定的水准仍有明显鸿沟。

参考资料:

https://arxiv.org/abs/2512.15110

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我肺结节变微浸润癌,术后疼到下不了床!没想到一月后就满血复活

我肺结节变微浸润癌,术后疼到下不了床!没想到一月后就满血复活

健身狂人
2026-03-01 07:57:45
沃顿:外界说我要去曼联目前都是传闻,我现在不会想夏天的事

沃顿:外界说我要去曼联目前都是传闻,我现在不会想夏天的事

懂球帝
2026-03-02 05:01:43
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
伊朗为什么不学泽连斯基给民众发枪?

伊朗为什么不学泽连斯基给民众发枪?

昊轩看世界
2026-03-01 11:02:14
一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

一个非常不好的消息:中国超2亿独生子女面临的非常严峻问题。

百态人间
2026-02-05 15:39:14
近期散播大量不实指控,美国要在伊朗重演“伊拉克剧本”?

近期散播大量不实指控,美国要在伊朗重演“伊拉克剧本”?

齐鲁壹点
2026-02-28 09:32:02
香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

读懂世界历史
2026-02-12 21:48:53
国际知名品牌宣布:关闭中国市场所有门店

国际知名品牌宣布:关闭中国市场所有门店

新快报新闻
2026-02-28 15:35:04
贾宝玉大婚当晚,北静王抱起病榻上的黛玉:本王来接王妃回家

贾宝玉大婚当晚,北静王抱起病榻上的黛玉:本王来接王妃回家

千秋文化
2026-02-01 20:20:51
哈梅内伊之死成“遇害”,哈尼亚死后页面变黑白,异国孝行感天地

哈梅内伊之死成“遇害”,哈尼亚死后页面变黑白,异国孝行感天地

山间听雨
2026-03-01 20:59:10
伊朗外交部发言人称伊朗最高领袖和总统“安然无恙”

伊朗外交部发言人称伊朗最高领袖和总统“安然无恙”

澎湃新闻
2026-03-01 05:25:03
伊朗博主评价中国年轻人:好战有点愚蠢!

伊朗博主评价中国年轻人:好战有点愚蠢!

达文西看世界
2026-02-23 15:26:47
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
我们瞧不起漂亮国也不是一天两天了

我们瞧不起漂亮国也不是一天两天了

霹雳炮
2026-02-08 22:17:59
超级杯大战!斯卢茨基也是刺探军情!北京国安气势 申花能守住吗

超级杯大战!斯卢茨基也是刺探军情!北京国安气势 申花能守住吗

80后体育大蜀黍
2026-03-01 23:41:10
大多数上海老人退休金并不高,主要表现是在68岁到80岁...

大多数上海老人退休金并不高,主要表现是在68岁到80岁...

白浅娱乐聊
2026-02-18 17:18:38
德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

德国那位军事专家说得够直白:美国不是怕中国,是怕打了也白打

扶苏聊历史
2026-01-28 18:04:09
战争开打!川普大失所望,中国连发三条通告,赢家已经浮出水面!

战争开打!川普大失所望,中国连发三条通告,赢家已经浮出水面!

用冷眼洞悉世界
2026-03-02 04:32:54
550万一张机票,携程在发战争财?

550万一张机票,携程在发战争财?

不正确
2026-03-01 14:53:30
持绿卡机场入境遭拦截案例明显增加!有人进小黑屋、有人被要求放弃绿卡

持绿卡机场入境遭拦截案例明显增加!有人进小黑屋、有人被要求放弃绿卡

纽约时间
2026-03-01 04:43:27
2026-03-02 05:35:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14618文章数 66647关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

时尚
艺术
手机
教育
军事航空

今年春天最流行的4件卫衣,照着穿就很好看

艺术要闻

看!这位伊朗超模如何颠覆你的美丽认知!

手机要闻

现场直击!荣耀Robot Phone机器人手机长啥样

教育要闻

初中阶段的分化,从习惯悄悄开始

军事要闻

伊朗前总统内贾德遇袭身亡

无障碍浏览 进入关怀版