网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

ImageNet分数越高，生成反而越糊？iREPA给出解释

2025-12-22 21:49:14　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：倾倾

【新智元导读】学霸的谎言被揭穿！一篇来自Adobe Research的论文发现，高语义理解并不会提升生成质量，反而可能破坏空间结构。用iREPA简单修改，削弱全局干扰，生成质量立即飙升。

我们经常会疑惑：为什么视觉模型越高级，生成效果反而越差？

最近，Adobe Research发了一篇论文，专门解释了这个看起来有点反常、但反复出现的现象。

论文地址：https://arxiv.org/pdf/2512.10794

按直觉，模型要先知道「这是什么」，才能把它画出来。

ImageNet上的分类准确率越高，说明模型的语义理解越强，生成的内容越稳定、越靠谱。

但这篇论文给出的结果，完全相反：

一些在识别任务中表现平平、甚至看起来「很不聪明」的视觉编码器，反而能生成出结构更清晰、质量更高的图像。

全局语义能力越强，生成反而越容易出问题。

很可能我们从一开始，就误会了生成模型真正擅长的是什么。

为什么视觉模型越「聪明」，生成的反而越差？

先看一个已经被反复验证的事实：一个模型在ImageNet上的线性探测准确率越高，并不意味着它更适合用来做生成。

最直观的例子是SAM2。这是一个在识别任务里不出彩的模型，验证准确率只有24.1%，远低于主流视觉大模型。

但当这些编码器被用于REPA时，SAM2的生成质量反而优于一批准确率高出约60%的模型。

SAM2的ImageNet验证准确率仅为24.1%，但在REPA框架下的生成gFID明显优于多种准确率超过70%的视觉编码器。

这还不是某一个模型的偶然表现。

论文进一步比较了同一编码器家族中不同规模的模型，结果发现：模型越大、分类准确率越高，生成质量反而可能相似或更差。

随着模型规模和分类准确率提升，生成gFID反而整体变差，表明这一现象并非由个别模型导致。

显然，「高语义能力=好生成」这条默认路径，在大量实验中并不成立。

更关键的是，这种现象并不是噪声。

在跨模型、跨设置的系统性分析中，全局语义指标与生成质量之间的相关性始终非常弱。

分类能力与生成质量几乎无关，空间结构却高度相关。左：线性探测准确率与生成 gFID 的相关性极弱（Pearson r=-0.26）。中：空间结构指标（LDS）与生成质量呈现出显著强相关（Pearson r=-0.85）。右：基于空间结构改进的iREPA，在多种编码器上稳定优于REPA。

论文进一步对多种视觉编码器做了相关性分析，结果非常明确：

线性探测准确率与生成质量之间几乎不存在相关性。

相比之下，反映patch空间结构的指标，与生成质量呈现出极强的正相关关系。

如果不是「懂得多」，那生成模型到底依赖的是什么？

反复确认会压扁空间结构

在理解了「高语义≠好生成」之后，真正的问题变成了：

为什么模型越是反复确认，生成反而越容易出问题？

关键就是，全局语义会在生成过程中压扁空间结构。

在生成任务中，模型并不是一次性输出图像，而是在训练和采样过程中，不断对局部patch之间的关系做判断。

论文将这种能力概括为「空间结构」：即相邻patch之间应保持更高相似性，而远处patch不应被全局语义过早拉近。

但当模型过度追求全局语义一致性，比如通过CLS token ，或对所有patch做全局平均来强化「这是什么」，这些局部差异就会被系统性地削弱。

这种做法会导致一个直接后果：前景物体的patch，与本应无关的背景patch之间，出现异常高的相似性。

空间对比度下降，边界变得模糊，生成结果因此糊成一片。

PE-G和WebSSL-1B在ImageNet上具有更高的分类准确率，但它们的空间自相似性显示，前景与背景被过度拉近，边界模糊。相比之下，空间结构更清晰的SpatialPE-B，生成质量显著更好。

研究员向模型中逐步加入全局语义信息，观察分类能力和生成质量的变化。

结果如下图所示：

增强全局语义信息会损害生成质量

随着全局信息权重α从0增加到0.5，模型的线性探测准确率持续上升。

但生成质量却显著下降，FID明显恶化。

也就是说，「更懂这是什么」确实在发生；但与此同时，模型也失去生成所依赖的空间结构。

这并不是优化不充分的副作用，而是因为全局语义在生成阶段扮演了一个「过强约束」的角色。

它让模型更快达成结论，却也更早放弃了对局部结构的精细刻画。

既然语义会干扰生成，iREPA选择退后一步

如果说前面的实验回答了「问题出在哪」，那 iREPA 回答的就是另一个问题：

既然全局语义会干扰生成，那该怎么对齐表示，才不会把结构压扁？

iREPA给出了答案。它对原本的REPA训练流程做了两处非常简单的修改，总共不到四行代码。

第一处，是投影方式的改变。

在标准REPA中，patch表征通常会经过MLP投影层进行对齐。

但论文指出，MLP在这一过程中容易混合不同位置的信息，无意中削弱了空间对比度。

因此，iREPA用一个3×3的卷积层（padding=1）替换了MLP投影。

卷积的归纳偏置能保留局部邻域关系：相邻patch的相互影响被保留，远处区域则不会被过早混在一起。

第二处修改，直接针对全局语义。

iREPA在对齐过程中引入了一个空间归一化层，移除了patch特征中的全局均值分量，让模型专注于局部之间的差异与边界。

iREPA如何通过两处修改，恢复生成所需的空间结构。 (a) 使用卷积投影替代MLP，可更好地保留局部空间关系。 (b) 空间归一化层通过移除全局分量，提高patch之间的空间对比度。 (c) 经过这两步修改后，iREPA生成的diffusion特征呈现出更清晰的空间结构。

正是这两点改动，让iREPA在机制上与前一节的问题形成了严格对应：

全局语义太强会抹平结构，那就在对齐阶段削弱全局分量、强化空间关系。

结果也在意料之中。

无论是在ImageNet规模的生成任务，还是更高分辨率的设置，亦或是文本到图像的多模态生成任务中，iREPA都表现出更快的收敛速度和更好的最终生成质量。

更重要的是，这种提升并不依赖于某一个特定编码器。

在不同模型规模、不同视觉骨干网络、不同训练设置下，iREPA都能稳定改进。

这不仅是一个技巧，而是顺着生成任务本身对结构的需求，把表示对齐这件事做得更克制、更精细。

很多时候，我们讨论生成模型时，会下意识沿用一个标准。

但这篇论文提醒了我们，生成并不是理解的自然下游。

对生成来说，最重要的并不是「这是什么」，而是「哪些地方该靠近，哪些地方该分开」。

当我们一味强化全局语义，反复催促模型给出答案，其实是在替它提前下结论。

iREPA并没有试图让模型变得更聪明。它做的更像是退后一步，把空间还给空间，把结构还给结构。

结果不是理解能力的飞跃，而是生成质量的回归。

参考资料：

https://x.com/1jaskiratsingh/status/2000701128431034736?s=20

https://end2end-diffusion.github.io/irepa/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

双胞胎姐妹高考都考692分或差1分错过清北

极目新闻 2026-06-25 22:41:54
7417 跟贴 7417
投资600万元的加油站，建成即被“责令限期拆除”？河南淮滨县发布情况通报

环球网资讯 2026-06-25 14:21:30
9963 跟贴 9963

中国就马岛主权问题明确表态

上观新闻 2026-06-26 10:09:00
75 跟贴 75

霍尔木兹海峡再现安全风险一艘货船遇袭数艘油轮折返

财联社 2026-06-26 04:13:06
4165 跟贴 4165
微信有77万条未读！多名老人被微信群“轰炸”，家属称投诉无门，律师解读

潇湘晨报 2026-06-25 21:31:17
2704 跟贴 2704

女子称在浴场被男员工看光：和同事三人都没穿衣服

现代快报 2026-06-25 21:59:09
756 跟贴 756

价格大涨！有网友晒单：去年不到7000，今年12000了

南方都市报 2026-06-26 09:53:31
10 跟贴 10
莫氏鸡煲流量退去以前一天卖200多只现在不到20只

极目新闻 2026-06-25 13:38:50
962 跟贴 962

网友反映重庆云阳有廉租房大量转租，住建部门回应：情况不实

极目新闻 2026-06-25 16:47:07
110 跟贴 110
小组赛还没结束，已经有第三名出线了

澎湃新闻 2026-06-25 20:44:14
132 跟贴 132
人民日报评“桔橘”之争与“小面”之辩：靠抢注囤积拿下的“铁招牌”，或耍心机、玩套路得来的“纸招牌”，都不可能长久

大风新闻 2026-06-26 09:45:06
7 跟贴 7
“南枝”毕业了！李思潼作为学生代表上台讲话，谈出演《给阿嬷的情书》感受

极目新闻 2026-06-26 10:49:07
3 跟贴 3
从首战赢球到听天由命，高开低走的韩国队终要告别孙兴慜

澎湃新闻 2026-06-25 15:06:28
176 跟贴 176
有人33元时买白银如今已“腰斩”：以后不买了

每日经济新闻 2026-06-26 00:32:07
97 跟贴 97
2026年甘肃省普通高校招生统一考试录取分数线公布

环球网资讯 2026-06-25 14:21:41
142 跟贴 142
欧洲热浪已致上百人死亡，为什么不开空调？

中国能源网 2026-06-25 10:05:41
735 跟贴 735
山姆的品控该醒醒了！男子称使用山姆凉席后头昏脑涨嗓子发痒 8个月宝宝身上起疹子

闪电新闻 2026-06-25 12:25:57
1861 跟贴 1861
视频：女生靠考得好攒下30万元积蓄

极目新闻 2026-06-25 17:15:17
284 跟贴 284
山姆买的啤酒罐口长毛了消费者拒绝代金券补偿，厂家出面赔付千元

信网 2026-06-25 21:35:18
624 跟贴 624
Shams：詹姆斯尚未收到来自湖人的合同报价

北青网-北京青年报 2026-06-26 07:56:08
51 跟贴 51
日韩股市双双跌超3%

财联社 2026-06-26 08:47:02
8 跟贴 8
“天津大港区域即将通地铁”不实（2026·06·25）

今日辟谣 2026-06-25 16:19:02
130 跟贴 130
什么？1978年，就有“人工智能专业”了？

学申论的谈妹 2026-06-26 09:15:38
4 跟贴 4
德国输球，竟完成对韩国的“间接复仇”

潇湘晨报 2026-06-26 10:27:25
0 跟贴 0
杭州高速上一货车突发自燃，司机自救不成，选择开进收费站求助！现场警力严阵以待，车一停下立马灭火

新浪财经 2026-06-26 11:47:08
0 跟贴 0
“给中石化员工转账16万元买花生油，却无法提货”？涉事分公司回应

澎湃新闻 2026-06-26 11:57:34
0 跟贴 0

婚闹过头了！新乡一伴娘当众岔腿，要新郎钻过通关，引发对方震怒

婚闹过头了！新乡一伴娘当众岔腿，要新郎钻过通关，引发对方震怒

火山詩话

2026-06-25 15:56:07

马斯克，不是万亿富豪了！ 8天蒸发 3400亿美元

马斯克，不是万亿富豪了！ 8天蒸发 3400亿美元

每日经济新闻

2026-06-25 11:55:37

许华为任合肥市人民政府秘书长

黄河新闻网吕梁

2026-06-26 08:43:50

就业形势不好，谁能想到，企业HR已经狂到如此地步…

就业形势不好，谁能想到，企业HR已经狂到如此地步…

慧翔百科

2026-06-26 08:30:32

2026年浙江高考前10名新鲜出炉，分别来自这些学校

2026年浙江高考前10名新鲜出炉，分别来自这些学校

乡土宁海

2026-06-25 22:01:40

都被蒋勤勤的儿子给骗了！去扒了他的毕业履历，就不是普通星二代

都被蒋勤勤的儿子给骗了！去扒了他的毕业履历，就不是普通星二代

草莓解说体育

2026-06-26 08:15:04

0-1输球后再迎坏消息，韩国3分或也难出线，球迷：被德国摆一道！

0-1输球后再迎坏消息，韩国3分或也难出线，球迷：被德国摆一道！

我就是一个说球的

2026-06-25 19:40:03

真是怕啥来啥！日本不帮，德国补刀：韩国队离世界杯出局更近了

真是怕啥来啥！日本不帮，德国补刀：韩国队离世界杯出局更近了

足球大腕

2026-06-26 09:47:44

科技一直涨，老登该投降了吗？

雪球

2026-06-25 16:43:04

俄方：当今世界除了核武器，再无其他工具能够阻止世界大战的因素

俄方：当今世界除了核武器，再无其他工具能够阻止世界大战的因素

原来仙女不讲理

2026-06-26 07:18:12

印度2047年要成全球第一强国，印专家：印度差着不止一个中国

印度2047年要成全球第一强国，印专家：印度差着不止一个中国

王新喜

2026-06-26 11:08:13

《谍影重重》换血！赞达亚接棒马特·达蒙

《谍影重重》换血！赞达亚接棒马特·达蒙

追星雷达站

2026-06-25 00:37:33

“清淡饮食”正在毁掉中老年人的血管！我国近20%的老年人患有肌少症，不吃肉，血管反而越来越脆

“清淡饮食”正在毁掉中老年人的血管！我国近20%的老年人患有肌少症，不吃肉，血管反而越来越脆

消化石医生

2026-06-05 21:28:28

6.25白玉兰晚宴真相！杨紫今晚没拿奖，陪跑7次，太让人心疼！

6.25白玉兰晚宴真相！杨紫今晚没拿奖，陪跑7次，太让人心疼！

草莓解说体育

2026-06-26 03:35:43

国际油价25日上涨

财联社

2026-06-26 05:07:15

国足是怎样一步步沦为全民笑柄、被视作人间笑话的

国足是怎样一步步沦为全民笑柄、被视作人间笑话的

笑熬浆糊111

2026-06-25 13:37:06

好恐怖的天伦之乐！女子晒家庭聚会，面和心不和被演绎得淋漓尽致

好恐怖的天伦之乐！女子晒家庭聚会，面和心不和被演绎得淋漓尽致

林林先生

2026-06-13 10:25:06

3场3助攻！巴西28岁中场大师创队史60年神迹：辅佐维尼修斯冲冠

3场3助攻！巴西28岁中场大师创队史60年神迹：辅佐维尼修斯冲冠

李喜林篮球绝杀

2026-06-25 16:19:40

遭官方曝光的“毒洗发水”，很多家庭还在用，难怪头发越来越少

遭官方曝光的“毒洗发水”，很多家庭还在用，难怪头发越来越少

健康之光

2026-06-22 12:55:25

化痰第一名不是陈皮！每天吃一点，化开多年老痰，嗓子清爽不卡堵

化痰第一名不是陈皮！每天吃一点，化开多年老痰，嗓子清爽不卡堵

白米饭怎么吃

2026-06-16 08:44:58

AI产业主平台领航智能+时代

15536文章数 66937关注度

往期回顾全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

德国输球"隔空"报了8年前的仇韩国晋级希望又变小

头条要闻

德国输球"隔空"报了8年前的仇韩国晋级希望又变小

体育要闻

三球换里德：森林狼和黄蜂谁更癫？！

娱乐要闻

刘嘉玲想放弃梁朝伟，没有自理能力

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾！65万元起，尊界V800/V680开启预订

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

家居

本地

手机

艺术

本科毕业后，我花15万上大专

家居要闻

绿意盎然自然之境

本地新闻

2026世界杯全勤太难？这份保姆级攻略请收好

手机要闻

特朗普手机T1正式开售 499美元实为国产贴牌机

艺术要闻

“史上最热夏天”？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版