网易首页 > 网易号 > 正文 申请入驻

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

要说真学术,还得看推特。

刚刚,谢赛宁自曝团队新作iREPA其实来自4个多月前的,一次与网友的辩论。



这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续——

多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。



致谢部分还感谢了当时参与讨论的网友。



一篇推特引发的学术论文

事情是这样的。

一位网友在8月份表示:

  • 别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。



(注:稠密任务就是要求模型对图像中的“每一个像素”或“每一个局部区域”都做出预测的计算机视觉任务,这类任务需要精确的空间和局部细节信息,而不仅仅是全局分类标签)

对于网友的观点,谢赛宁表示:

  • 不,使用patch token并不意味着就是在做稠密任务。VLM和REPA的性能与它们在IN1K上的得分高度相关,而与patch级别的对应关系只有很弱的关联。这并不是[CLS]token的问题,而是高层语义与低层像素相似性之间的差别。



对于谢赛宁的反驳,网友举出了SigLIPv2和PE-core优于DINOv2 for REPA的例子。



与此同时,另一位网友也加入了战斗:

  • 这是个合理的问题。为了做直接对比,在没有DINOv3早期checkpoint的情况下,或许可以用REPA来比较PEspatial和PEcore。其中,PEspatial可以理解为:将PEcore的Gram-anchor对齐到更早的网络层,并结合SAM2.1。



对此,谢赛宁表示:

  • 非常好!感谢你的指路/提示。我很喜欢这个方案。否则干扰因素会太多了。两个checkpoint都已经有了(G/14,448 分辨率),希望我们很快就能拿到一些结果。



3个多月后,谢赛宁表示自己之前的判断站不住脚,而且这次的论文反而带来了更深入的理解。

还有贴心小贴士,提示网友可以看看致谢部分。



对于自己在致谢中被提到,参与讨论的网友之一表示很有意思:

  • 也谢谢你一路跟进!被致谢提到我也很受宠若惊。



谢赛宁还表示,这次讨论本身就是一次小实验——他想看看,一种新的“线上茶水间效应”是否真的能够发生。

他很享受这种状态:先有分歧、有争论,再通过真正的实验和投入,把直觉拉回到可被验证的科学结论上。

不得不说,这样开放、即时、可纠错的学术讨论,确实值得多来一些。

接下来,我们就一起来看看由此催生的最新论文。

空间结构才是驱动目标表征生成性能的主要因素

承接上面的讨论,这篇最新论文探讨了一个核心的基础问题:

在用预训练视觉编码器表征来指导生成模型时,究竟是表征的哪一部分在决定生成质量?

是其全局语义信息(ImageNet-1K上的分类准确率)还是其空间结构(即补丁tokens之间的成对余弦相似度)?

论文给出的结论是:更好的全局语义信息并不等于更好的生成,空间结构(而非全局语义)才是表征生成性能的驱动力。

传统观念(包括谢赛宁本人)认为具有更强全局语义性能的表征会带来更好的生成效果,但研究却表明更大的视觉编码器反而可能带来更差的生成性能

其中,线性检测准确率只有约20%的视觉编码器,反而可以超过准确率>80%的编码器。

而且,如果试图通过CLS token向patch token注入更多全局语义,生成性能还会被拉低。



与此同时,研究还发现生成效果更好的表征,往往具有更强的空间结构(可通过空间自相似性指标来衡量)

也就是说,图像中某一部分的token会如何关注图像中其他区域的token。



在具体的研究方法上,研究通过一次大规模的定量相关性分析对这一观察进行了细化验证:分析覆盖了27 种不同的视觉编码器(包括 DINOv2、v3、Perceptual Encoders、WebSSL、SigLIP 等)以及3种模型规模(B、L、XL)。



而在进一步的评测中,空间信息的重要性被进一步拔高:即便是像SIFT、HOG这样的经典空间特征,也能带来与PE-G等现代、更大规模视觉编码器相当、具有竞争力的提升。



在测试得出结论后,论文又基于现有的表征对齐(REPA)框架进行分析和修改,提出了iREPA。

  • 投影层改进: 将REPA中标准的MLP投影层替换为一个简单的卷积层。
  • 空间规范化: 为外部表征引入一个空间规范化层。



这些简单的修改(如在DeCo框架下的实现)旨在保留并强化空间结构信息,相比原始的REPA方法能显著提升性能。

值得一提的是iREPA,只需3行代码即可添加到任何表示对齐方法中,并且在各种训练方案(如REPA、REPA-E、Meanflow 以及最近推出的 JiT)中都能实现持续更快的收敛。



[1]https://x.com/YouJiacheng/status/1957073253769380258

[2]https://arxiv.org/abs/2512.10794

[3]https://x.com/sainingxie/status/2000709656491286870

[4]https://x.com/1jaskiratsingh/status/2000701128431034736

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

你有什么无心插柳的经历?网友:卖兽药的,一个半月,赚了190万

夜深爱杂谈
2026-02-24 20:10:07
热水袋是大补,医生提醒:一个热水袋胜过十个老中医!不要嫌老土

热水袋是大补,医生提醒:一个热水袋胜过十个老中医!不要嫌老土

岐黄传人孙大夫
2026-01-29 05:55:03
5009元买了台iPhoneAir,我是大冤种?

5009元买了台iPhoneAir,我是大冤种?

互联网.乱侃秀
2026-02-08 09:51:24
唐尚珺哭成泪人,30年的老房子拆除,母亲将在临时竹棚内住6个月

唐尚珺哭成泪人,30年的老房子拆除,母亲将在临时竹棚内住6个月

育学笔谈
2026-02-25 11:54:16
尺度不输《斯巴达克斯》,Netflix王牌美剧太顶了

尺度不输《斯巴达克斯》,Netflix王牌美剧太顶了

来看美剧
2026-02-25 19:04:40
长治一游客失足坠崖

长治一游客失足坠崖

长治惠生活
2026-02-25 21:16:50
欧尔班指责乌克兰公开政治勒索

欧尔班指责乌克兰公开政治勒索

财联社
2026-02-24 13:32:21
摩根大通上调黄金长期价格预期至4500美元,维持2026年底目标价6300美元不变

摩根大通上调黄金长期价格预期至4500美元,维持2026年底目标价6300美元不变

财联社
2026-02-26 01:42:05
离世仅过去8个月,52岁辛柏青高调传出喜讯!朱媛媛终于能安心了

离世仅过去8个月,52岁辛柏青高调传出喜讯!朱媛媛终于能安心了

陈意小可爱
2026-02-23 06:43:22
赖清德出席海基会活动时,多次以“中国大陆”称呼对岸

赖清德出席海基会活动时,多次以“中国大陆”称呼对岸

娱乐圈的笔娱君
2026-02-24 16:41:17
河南美女老师被抓,卧室发现一本日记,里面所写内容令人崩溃

河南美女老师被抓,卧室发现一本日记,里面所写内容令人崩溃

可儿故事汇
2024-10-19 18:41:40
斯诺克威尔士赛爆冷不断,中国军团8人晋级成最大亮点

斯诺克威尔士赛爆冷不断,中国军团8人晋级成最大亮点

罗纳尔说个球
2026-02-26 00:38:28
首都博物馆垃圾桶内发现当天观众留言本?工作人员:正在调查中,平时都是收集上来,整理留档

首都博物馆垃圾桶内发现当天观众留言本?工作人员:正在调查中,平时都是收集上来,整理留档

大象新闻
2026-02-25 16:45:05
女演员长相对选角有多重要,看看《镖人》陈丽君与李云霄就知道了

女演员长相对选角有多重要,看看《镖人》陈丽君与李云霄就知道了

露珠聊影视
2026-02-22 23:03:30
京津女排对决:北京3-2逆转天津,决胜局致命失误成关键

京津女排对决:北京3-2逆转天津,决胜局致命失误成关键

罗纳尔说个球
2026-02-26 00:19:15
花旗:短期看涨铜价 预计未来三个月铜价将触及每吨14,000美元

花旗:短期看涨铜价 预计未来三个月铜价将触及每吨14,000美元

财联社
2026-02-25 01:25:13
宁波一男子大年初八喝“开工酒”,结果开车和电动自行车撞了,交警:行拘、吊销驾驶证

宁波一男子大年初八喝“开工酒”,结果开车和电动自行车撞了,交警:行拘、吊销驾驶证

环球网资讯
2026-02-25 16:23:11
春节返程高速实录:免费福利之下,那些让人哭笑不得的“大聪明”

春节返程高速实录:免费福利之下,那些让人哭笑不得的“大聪明”

小陆搞笑日常
2026-02-26 01:12:41
亚朵,挤满偷偷开房的成年人

亚朵,挤满偷偷开房的成年人

广告案例精选
2025-10-03 15:00:51
中方改变打法,菲律宾发现舰机靠近黄岩岛就没信号

中方改变打法,菲律宾发现舰机靠近黄岩岛就没信号

兵国大事
2026-02-25 00:05:14
2026-02-26 03:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12201文章数 176392关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

女子爬山失联10天后遗体被找到 丈夫:她登顶神情恐惧

头条要闻

女子爬山失联10天后遗体被找到 丈夫:她登顶神情恐惧

体育要闻

勇士爆冷惜败鹈鹕 梅尔顿28分赛季新高

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

手机
数码
旅游
艺术
军事航空

手机要闻

全球1秒营收额?苹果因买iPhone不送充电器在巴西被罚2万美元

数码要闻

苹果或年底发布触屏OLED MacBook Pro 配M6系列芯片

旅游要闻

重庆酉阳樱花漫古城,吊脚飞檐藏春归,这才是中式浪漫天花板!

艺术要闻

这些作品太美了,仙气飘飘,三位大咖不容错过!

军事要闻

俄乌冲突四周年:和平谈判希望渺茫

无障碍浏览 进入关怀版