网易首页 > 网易号 > 正文 申请入驻

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

要说真学术,还得看推特。

刚刚,谢赛宁自曝团队新作iREPA其实来自4个多月前的,一次与网友的辩论。



这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续——

多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。



致谢部分还感谢了当时参与讨论的网友。



一篇推特引发的学术论文

事情是这样的。

一位网友在8月份表示:

  • 别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。



(注:稠密任务就是要求模型对图像中的“每一个像素”或“每一个局部区域”都做出预测的计算机视觉任务,这类任务需要精确的空间和局部细节信息,而不仅仅是全局分类标签)

对于网友的观点,谢赛宁表示:

  • 不,使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关,而与patch级别的对应关系只有很弱的关联。这并不是[CLS]token的问题,而是高层语义与低层像素相似性之间的差别。



对于谢赛宁的反驳,网友举出了SigLIPv2和PE-core优于DINOv2 for REPA的例子。



与此同时,另一位网友也加入了战斗:

  • 这是个合理的问题。为了做直接对比,在没有DINOv3早期checkpoint的情况下,或许可以用REPA来比较PEspatial和PEcore。其中,PEspatial可以理解为:将PEcore的Gram-anchor对齐到更早的网络层,并结合SAM2.1。



对此,谢赛宁表示:

  • 非常好!感谢你的指路/提示。我很喜欢这个方案。否则干扰因素会太多了。两个checkpoint都已经有了(G/14,448 分辨率),希望我们很快就能拿到一些结果。



3个多月后,谢赛宁表示自己之前的判断站不住脚,而且这次的论文反而带来了更深入的理解。

还有贴心小贴士,提示网友可以看看致谢部分。



对于自己在致谢中被提到,参与讨论的网友之一表示很有意思:

  • 也谢谢你一路跟进!被致谢提到我也很受宠若惊。



谢赛宁还表示,这次讨论本身就是一次小实验——他想看看,一种新的“线上茶水间效应”是否真的能够发生。

他很享受这种状态:先有分歧、有争论,再通过真正的实验和投入,把直觉拉回到可被验证的科学结论上。

不得不说,这样开放、即时、可纠错的学术讨论,确实值得多来一些。

接下来,我们就一起来看看由此催生的最新论文。

空间结构才是驱动目标表征生成性能的主要因素

承接上面的讨论,这篇最新论文探讨了一个核心的基础问题:

在用预训练视觉编码器表征来指导生成模型时,究竟是表征的哪一部分在决定生成质量?

是其全局语义信息(ImageNet-1K上的分类准确率)还是其空间结构(即补丁tokens之间的成对余弦相似度)?

论文给出的结论是:更好的全局语义信息并不等于更好的生成,空间结构(而非全局语义)才是表征生成性能的驱动力。

传统观念(包括谢赛宁本人)认为具有更强全局语义性能的表征会带来更好的生成效果,但研究却表明更大的视觉编码器反而可能带来更差的生成性能

其中,线性检测准确率只有约20%的视觉编码器,反而可以超过准确率>80%的编码器。

而且,如果试图通过CLS token向patch token注入更多全局语义,生成性能还会被拉低。



与此同时,研究还发现生成效果更好的表征,往往具有更强的空间结构(可通过空间自相似性指标来衡量)

也就是说,图像中某一部分的token会如何关注图像中其他区域的token。



在具体的研究方法上,研究通过一次大规模的定量相关性分析对这一观察进行了细化验证:分析覆盖了27 种不同的视觉编码器(包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等)以及3种模型规模(B、L、XL)。



而在进一步的评测中,空间信息的重要性被进一步拔高:即便是像SIFT、HOG这样的经典空间特征,也能带来与PE-G等现代、更大规模视觉编码器相当、具有竞争力的提升。



在测试得出结论后,论文又基于现有的表征对齐(REPA)框架进行分析和修改,提出了iREPA。

  • 投影层改进: 将REPA中标准的MLP投影层替换为一个简单的卷积层。
  • 空间规范化: 为外部表征引入一个空间规范化层。



这些简单的修改(如在DeCo框架下的实现)旨在保留并强化空间结构信息,相比原始的REPA方法能显著提升性能。

值得一提的是iREPA,只需3行代码即可添加到任何表示对齐方法中,并且在各种训练方案(如REPA、REPA-E、Meanflow 以及最近推出的 JiT)中都能实现持续更快的收敛。



[1]https://x.com/YouJiacheng/status/1957073253769380258

[2]https://arxiv.org/abs/2512.10794

[3]https://x.com/sainingxie/status/2000709656491286870

[4]https://x.com/1jaskiratsingh/status/2000701128431034736

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沙特:若对伊开战将启动巴基斯坦核保护伞

沙特:若对伊开战将启动巴基斯坦核保护伞

Nee看
2026-03-25 19:07:00
特朗普杀了他全家!他会当伊朗张学良吗?

特朗普杀了他全家!他会当伊朗张学良吗?

乌鸦校尉
2026-03-25 18:19:47
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

小光侃娱乐
2026-03-26 17:05:03
为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

为什么只有革命卫队与美以干,而伊朗40万国防军沉默观战?

廖保平
2026-03-17 09:04:38
连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

连蔡依林都在玩,“雪山救狐狸”到底是什么梗?对话视频原创作者:最初只是为了卖酱板鸭,特意设置反转剧情,没想到会这么火

极目新闻
2026-03-25 19:37:57
露出了狐狸尾巴?朱立伦主动邀约国民党“立委”,或为逼宫郑丽文

露出了狐狸尾巴?朱立伦主动邀约国民党“立委”,或为逼宫郑丽文

承受之重
2026-03-25 12:45:53
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

人情薄如纸!丈夫住院100天沒人探望,出院当天大伯突然打来电话

水泥土的搞笑
2026-03-26 17:37:27
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
充电桩市场价格战惨烈!每度电服务费收三毛 利润只有4分钱

充电桩市场价格战惨烈!每度电服务费收三毛 利润只有4分钱

快科技
2026-03-24 00:22:40
江苏拟建一条过江通道,或将再破“世界纪录”

江苏拟建一条过江通道,或将再破“世界纪录”

水泥土的搞笑
2026-03-26 14:04:59
到底是谁让马景涛穿这身衣服的?简直是灾难现场!

到底是谁让马景涛穿这身衣服的?简直是灾难现场!

西楼知趣杂谈
2026-03-25 23:41:24
美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

美军发布战果,摧毁中国产战机,伊朗空军损失殆尽

爱吃醋的猫咪
2026-03-22 22:29:08
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

周杰伦的INS被网友冲爆,新歌MV里手表调到“83”,疑用旧恋情炒作卖新唱片

回旋镖
2026-03-25 20:38:44
延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

医诺维
2026-03-24 17:02:18
广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

广东:力争到2026年底 建成50个以上特色鲜明、功能突出的生产性服务业集聚区

财联社
2026-03-26 10:15:09
中国军事专家送日本3句话,太绝了,真不是吓唬他们

中国军事专家送日本3句话,太绝了,真不是吓唬他们

安安说
2026-03-26 11:21:19
2026-03-26 20:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
亲子
教育
本地
公开课

家居要闻

傍海而居 静观蝴蝶海

亲子要闻

这就是引导型老师的厉害吗?

教育要闻

2026人工智能时代下的教育课堂变革

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版