网易首页 > 网易号 > 正文 申请入驻

ImageNet分数越高,生成反而越糊?iREPA给出解释

0
分享至


新智元报道

编辑:倾倾

【新智元导读】学霸的谎言被揭穿!一篇来自Adobe Research的论文发现,高语义理解并不会提升生成质量,反而可能破坏空间结构。用iREPA简单修改,削弱全局干扰,生成质量立即飙升 。

我们经常会疑惑:为什么视觉模型越高级,生成效果反而越差?

最近,Adobe Research发了一篇论文,专门解释了这个看起来有点反常、但反复出现的现象。


论文地址:https://arxiv.org/pdf/2512.10794

按直觉,模型要先知道「这是什么」,才能把它画出来。

ImageNet上的分类准确率越高,说明模型的语义理解越强,生成的内容越稳定、越靠谱。

但这篇论文给出的结果,完全相反:

一些在识别任务中表现平平、甚至看起来「很不聪明」的视觉编码器,反而能生成出结构更清晰、质量更高的图像。

全局语义能力越强,生成反而越容易出问题。

很可能我们从一开始,就误会了生成模型真正擅长的是什么。


为什么视觉模型越「聪明」,生成的反而越差?

先看一个已经被反复验证的事实:一个模型在ImageNet上的线性探测准确率越高,并不意味着它更适合用来做生成。

最直观的例子是SAM2。这是一个在识别任务里不出彩的模型,验证准确率只有24.1%,远低于主流视觉大模型。

但当这些编码器被用于REPA时,SAM2的生成质量反而优于一批准确率高出约60%的模型。


SAM2的ImageNet验证准确率仅为24.1%,但在REPA框架下的生成gFID明显优于多种准确率超过70%的视觉编码器。

这还不是某一个模型的偶然表现。

论文进一步比较了同一编码器家族中不同规模的模型,结果发现:模型越大、分类准确率越高,生成质量反而可能相似或更差。


随着模型规模和分类准确率提升,生成gFID反而整体变差,表明这一现象并非由个别模型导致。

显然,「高语义能力=好生成」这条默认路径,在大量实验中并不成立 。

更关键的是,这种现象并不是噪声。

在跨模型、跨设置的系统性分析中,全局语义指标与生成质量之间的相关性始终非常弱。


分类能力与生成质量几乎无关,空间结构却高度相关。左:线性探测准确率与生成 gFID 的相关性极弱(Pearson r=-0.26)。中:空间结构指标(LDS)与生成质量呈现出显著强相关(Pearson r=-0.85)。右:基于空间结构改进的iREPA,在多种编码器上稳定优于REPA。

论文进一步对多种视觉编码器做了相关性分析,结果非常明确:

线性探测准确率与生成质量之间几乎不存在相关性。

相比之下,反映patch空间结构的指标,与生成质量呈现出极强的正相关关系。

如果不是「懂得多」,那生成模型到底依赖的是什么?

反复确认会压扁空间结构

在理解了「高语义≠好生成」之后,真正的问题变成了:

为什么模型越是反复确认,生成反而越容易出问题?

关键就是,全局语义会在生成过程中压扁空间结构。

在生成任务中,模型并不是一次性输出图像,而是在训练和采样过程中,不断对局部patch之间的关系做判断。

论文将这种能力概括为「空间结构」:即相邻patch之间应保持更高相似性,而远处patch不应被全局语义过早拉近。

但当模型过度追求全局语义一致性,比如通过CLS token ,或对所有patch做全局平均来强化「这是什么」,这些局部差异就会被系统性地削弱。

这种做法会导致一个直接后果:前景物体的patch,与本应无关的背景patch之间,出现异常高的相似性。

空间对比度下降,边界变得模糊,生成结果因此糊成一片。


PE-G和WebSSL-1B在ImageNet上具有更高的分类准确率,但它们的空间自相似性显示,前景与背景被过度拉近,边界模糊。相比之下,空间结构更清晰的SpatialPE-B,生成质量显著更好。

研究员向模型中逐步加入全局语义信息,观察分类能力和生成质量的变化。

结果如下图所示:


增强全局语义信息会损害生成质量

随着全局信息权重α从0增加到0.5,模型的线性探测准确率持续上升。

但生成质量却显著下降,FID明显恶化。

也就是说,「更懂这是什么」确实在发生;但与此同时,模型也失去生成所依赖的空间结构。

这并不是优化不充分的副作用,而是因为全局语义在生成阶段扮演了一个「过强约束」的角色。

它让模型更快达成结论,却也更早放弃了对局部结构的精细刻画。

既然语义会干扰生成,iREPA选择退后一步

如果说前面的实验回答了「问题出在哪」,那 iREPA 回答的就是另一个问题:

既然全局语义会干扰生成,那该怎么对齐表示,才不会把结构压扁?

iREPA给出了答案。它对原本的REPA训练流程做了两处非常简单的修改,总共不到四行代码 。

第一处,是投影方式的改变。

在标准REPA中,patch表征通常会经过MLP投影层进行对齐。

但论文指出,MLP在这一过程中容易混合不同位置的信息,无意中削弱了空间对比度 。

因此,iREPA用一个3×3的卷积层(padding=1)替换了MLP投影。

卷积的归纳偏置能保留局部邻域关系:相邻patch的相互影响被保留,远处区域则不会被过早混在一起 。

第二处修改,直接针对全局语义。

iREPA在对齐过程中引入了一个空间归一化层,移除了patch特征中的全局均值分量 ,让模型专注于局部之间的差异与边界。


iREPA如何通过两处修改,恢复生成所需的空间结构。 (a) 使用卷积投影替代MLP,可更好地保留局部空间关系。 (b) 空间归一化层通过移除全局分量,提高patch之间的空间对比度。 (c) 经过这两步修改后,iREPA生成的diffusion特征呈现出更清晰的空间结构。

正是这两点改动,让iREPA在机制上与前一节的问题形成了严格对应:

全局语义太强会抹平结构,那就在对齐阶段削弱全局分量、强化空间关系 。

结果也在意料之中。

无论是在ImageNet规模的生成任务,还是更高分辨率的设置,亦或是文本到图像的多模态生成任务中,iREPA都表现出更快的收敛速度和更好的最终生成质量。

更重要的是,这种提升并不依赖于某一个特定编码器。

在不同模型规模、不同视觉骨干网络、不同训练设置下,iREPA都能稳定改进。

这不仅是一个技巧,而是顺着生成任务本身对结构的需求,把表示对齐这件事做得更克制、更精细。

很多时候,我们讨论生成模型时,会下意识沿用一个标准。

但这篇论文提醒了我们,生成并不是理解的自然下游。

对生成来说,最重要的并不是「这是什么」,而是「哪些地方该靠近,哪些地方该分开」。

当我们一味强化全局语义,反复催促模型给出答案,其实是在替它提前下结论。

iREPA并没有试图让模型变得更聪明。它做的更像是退后一步,把空间还给空间,把结构还给结构。

结果不是理解能力的飞跃,而是生成质量的回归。

参考资料:

https://x.com/1jaskiratsingh/status/2000701128431034736?s=20

https://end2end-diffusion.github.io/irepa/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
现在,下载第一名都是豆包了

现在,下载第一名都是豆包了

见实科技
2026-02-18 11:10:27
长江十年禁渔已过半程:刀鱼群归,鲥鱼无影?生态修复路在何方?

长江十年禁渔已过半程:刀鱼群归,鲥鱼无影?生态修复路在何方?

向航说
2026-01-16 01:00:03
电动车跑高速费电,装个变速箱不就行了?99%车企不敢,两家试过

电动车跑高速费电,装个变速箱不就行了?99%车企不敢,两家试过

小李车评李建红
2026-02-16 09:00:03
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
保罗:赛季初弗兰克还夸赞我的领导力,结果转头被告知别提建议

保罗:赛季初弗兰克还夸赞我的领导力,结果转头被告知别提建议

懂球帝
2026-02-18 11:58:58
卢芳:嫁给著名演员胡军26年,生下“大明星”儿子和贴心女儿

卢芳:嫁给著名演员胡军26年,生下“大明星”儿子和贴心女儿

小熊侃史
2025-12-22 11:22:39
揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯!

揭秘朝鲜金正恩早些年的日常生活:手机、香烟、饮料和饮食习惯!

混沌录
2025-11-08 16:36:03
维尼修斯炸裂:无敌横切变线后飙无解世界波,现场视角,太丝滑了

维尼修斯炸裂:无敌横切变线后飙无解世界波,现场视角,太丝滑了

侧身凌空斩
2026-02-18 06:44:38
西方无奈,俄军导弹被拆开后:发现“援助俄罗斯”三大国究竟是谁

西方无奈,俄军导弹被拆开后:发现“援助俄罗斯”三大国究竟是谁

破镜难圆
2026-02-18 09:33:05
华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

华裔政治家族,却遭特朗普清洗!特朗普如何扳倒“赵家人”?

观察者海风
2026-01-20 15:14:58
国防部直接把话挑明了,家里有满18岁男青年必须办的就是兵役登记

国防部直接把话挑明了,家里有满18岁男青年必须办的就是兵役登记

南权先生
2026-02-12 15:38:28
三国最残酷的一场大战,魏死6个大将,蜀死5个大将,吴死3个大将

三国最残酷的一场大战,魏死6个大将,蜀死5个大将,吴死3个大将

铭记历史呀
2026-02-02 04:41:56
剑指中国车企!欧盟拟规定电动汽车需含70%本土部件才能获补贴

剑指中国车企!欧盟拟规定电动汽车需含70%本土部件才能获补贴

快科技
2026-02-18 14:36:15
完全不给面子!詹皇过新年打脸高层,点名怀念浓眉,让东契奇难堪

完全不给面子!詹皇过新年打脸高层,点名怀念浓眉,让东契奇难堪

嘴炮体坛
2026-02-18 11:54:00
百合立大功?研究发现:百合可在 24 小时清除 45% 炎症因子?

百合立大功?研究发现:百合可在 24 小时清除 45% 炎症因子?

医哥聊健康
2026-02-16 10:17:18
霍去病打下4座城,取了4个霸气名字,2000多年没改名并沿用至今!

霍去病打下4座城,取了4个霸气名字,2000多年没改名并沿用至今!

铭记历史呀
2025-12-21 02:18:15
大年初一超暖!董璇佟丽娅带娃同游三亚,小酒窝朵朵同框太治愈

大年初一超暖!董璇佟丽娅带娃同游三亚,小酒窝朵朵同框太治愈

述家娱记
2026-02-18 11:23:08
《暗黑破坏神》原班人马打造!80%好评试玩中

《暗黑破坏神》原班人马打造!80%好评试玩中

游民星空
2026-02-17 11:09:11
爱泼斯坦案,也许再次揭示了,犹太人流浪3000年的原因

爱泼斯坦案,也许再次揭示了,犹太人流浪3000年的原因

牛马搞笑
2026-02-16 08:55:12
不要轻易做手术!医生提醒:62岁后,这5类手术可尽量避免

不要轻易做手术!医生提醒:62岁后,这5类手术可尽量避免

今日养生之道
2026-02-15 14:14:53
2026-02-18 15:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14549文章数 66630关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

媒体:中日在慕尼黑交锋后 新加坡总理"转向"

头条要闻

媒体:中日在慕尼黑交锋后 新加坡总理"转向"

体育要闻

维尼修斯进球后罢赛 向穆帅投诉对手歧视

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

教育
时尚
艺术
本地
军事航空

教育要闻

“新校长”应有的模样

50+女性秋冬穿搭指南,4个让年龄法则成为加分项,越穿越优雅

艺术要闻

砸1.8亿!日本建筑师设计,曾经中国最大民营博物馆,荒废十多年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

军事要闻

菲海警在南海投放不明物体 被中国海警全程监控并拍下

无障碍浏览 进入关怀版