网易首页 > 网易号 > 正文 申请入驻

自回归也能做强视觉模型?NEPA「下一嵌入预测」时代,谢赛宁参与

0
分享至

来源:市场资讯

(来源:机器之心Pro)


编辑|Panda

众所周知,LeCun 不喜自回归,并且还提出了一种名为联合嵌入预测架构(JEPA)的新方向,并且该方向也一直在有新成果涌现。

然而,自回归模型的成功也是有目共睹的,尤其是在语言领域。那么,生成式预训练在自然语言上的成功能否在视觉领域重现呢?

近日,密歇根大学、纽约大学、普林斯顿大学和弗吉尼亚大学的一个联合研究团队对此给出了肯定答案。

只不过,他们不是训练模型输出用于下游任务的特征,而是让它们生成嵌入(embeddings)以直接执行预测任务。可以说,这是从学习表征(learning representations)到学习模型(learning models)的一种范式转变。

具体而言,模型会通过因果掩码(causal masking)和停止梯度(stop gradient),以过去图块嵌入为条件,学习预测未来的图块嵌入。类似于下一 token 预测,该团队将这种方法称为下一嵌入预测自回归(Next-Embedding Predictive Autoregression),简称NEPA


该论文目前正是 alphaXiv 上热度第一的论文。


本文第一作者为 Sihan Xu,密歇根大学博士生,导师是密歇根大学电气工程与计算机科学系正教授 Stella X. Yu;这项研究的部分工作是其在纽约大学访问期间完成。纽约大学著名研究科学家谢赛宁也在作者名单中。

范式的转变

视觉预训练是计算机视觉的核心议题之一。自监督学习也已成为现代视觉预训练方法的基石,使得无需人工标签即可训练可扩展的视觉学习器。

其核心目标是学习表征(learn representations):优化模型,从而将原始像素映射到固定维度的表征,这些表征随后可被使用或针对下游任务进行微调。

这一哲学统一了基于实例判别(instance discrimination)、自蒸馏(self-distillation)和掩码重建(masked reconstruction)的方法。

其目标是学习能够被各种规模的下游模块(从轻量级的特定于任务的头到诸如视觉 - 语言模型等大型级联系统)所使用的视觉表征。

现代自然语言处理的成功则建立在一个根本不同的范式之上。

语言模型的预训练目标并不是作为特征提取器;而是作为生成式和预测式系统。其目标不是生成句子的静态嵌入,而是通过一个简单的因果目标(causal objective)对数据分布本身进行建模。

这种训练会迫使模型内化语言中的语义和条件依赖关系。推理不再是一个「编码→解决任务」的两阶段过程,而是由模型本身执行的单一预测计算。

这一区别至关重要,涉及根本。它表明:生成式预测(而非表征学习)可能提供了一条扩展预训练的直接途径。

最近的一系列研究已经转向了这一哲学。例如:

基于这些观察,Sihan Xu 等人想知道:极简的因果预训练是否也能产生强大的视觉学习器。

具体来说,图像被分解为图块(patches),这些图块再被映射为图块级嵌入的序列。然后训练一个因果 Transformer,在给定所有先前嵌入的情况下预测下一个嵌入,这与语言模型中的「下一 Token 预测」范式非常近似。

基于这些观察,Sihan Xu 等人想知道:极简的因果预训练是否也能产生强大的视觉学习器?

具体来说,图像被分解为图块(patches),这些图块再被映射为图块级嵌入的序列。然后训练一个因果 Transformer,在给定所有先前嵌入的情况下预测下一个嵌入,这与语言模型中的「下一 Token 预测」范式非常近似。

该团队对目标嵌入使用停止梯度(stop-gradient)以创建一个稳定的预测任务。这种形式是刻意保持极简的。它不需要像素级解码器、不需要离散的视觉 Tokenizer(分词器),也不需要对比学习中常见的工程化数据增强、负样本对或动量编码器。整个学习信号源于模型在嵌入空间中预测未来的能力。

于是乎,一个新的模型家族诞生了:下一嵌入预测自回归(NEPA)

下一嵌入预测自回归(NEPA)

整体来看,NEPA 方法是极简主义的。如果说现在的视觉模型都在比拼谁的装备更复杂(动量编码器、解码器、离散 Tokenizer……),那么 NEPA 就是那个穿着白 T 恤走进战场的选手。它的核心哲学非常简单:像 GPT 预测下一个词那样,去预测图像的下一个「特征块」。


其核心思路可以总结如下:

具体到架构设计上,他们采用了一个带有因果注意力掩码的标准视觉 Transformer(ViT)主干网络。

与像素级重建方法不同,该方法不需要单独的解码器。该 Transformer 直接根据过去的图像块嵌入来预测未来的图像块嵌入,使用单个主干网络同时进行上下文编码和预测,这与自回归语言模型类似。图像通过一个二维卷积(Conv2d)图像块嵌入层被分割成不重叠的图像块,并在输入到 Transformer 之前添加可学习的位置嵌入。

他们采用了带有层归一化(LayerNorm) 的预归一化设计,并对输出特征应用最终的层归一化。

为了提高稳定性和可扩展性,该团队该结合了受 DINOv3 和视觉大语言模型 VisionLLaMA 启发的现代训练和归一化方法,如图 2 所示。


这些模型设计有助于训练,但与核心框架无关,感兴趣的读者可参阅原论文以及相关论文。

训练好之后怎么用呢?换个「头」就行。下面是两个例子:

总之,NEPA 证明了,只要你有一个好的预测目标,就不需要那些花里胡哨的架构,一个标准的 Transformer 加上「防坍塌」技巧,就能成为顶级的视觉学习者。

实验结果

在量化性能方面,NEPA 展现出了与 SOTA 方法相媲美甚至更优的实力。

仅在 ImageNet-1K 上进行预训练,NEPA 的 ViT-B 和 ViT-L 模型分别达到了 83.8% 和 85.3% 的 Top-1 准确率,这一成绩优于 MoCo v3、BEiT,并与 MAE 和 JEPA 处于同一水平。


更重要的是,尽管预训练过程中从未涉及像素重建,NEPA 依然表现出了强大的迁移能力,在 ADE20K 语义分割任务上分别取得了 48.3% 和 54.0% 的 mIoU,证明了纯粹的嵌入预测足以学习到处理密集预测任务所需的丰富语义特征。


最后,通过对模型内部注意力和嵌入的可视化分析,研究揭示了 NEPA 的有效性来源。


可视化结果显示,模型自动学会了长距离且以对象为中心的注意力模式,能够忽略背景干扰,将注意力集中在语义相关的区域。同时,预测出的嵌入向量在语义上与属于同一物体的其他图块高度相似,表明模型并非死记硬背局部纹理,而是真正理解了物体层面的结构。

这种通过简单的「下一嵌入预测」所习得的全局语义依赖,不仅验证了该方法的有效性,也为跨模态的统一预训练范式提供了一种无需复杂手工设计的通用视角。

消融实验和更多详情请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
痴人说梦:俄高层要求4月前拿下顿巴斯,世界最先进战车入列乌军

痴人说梦:俄高层要求4月前拿下顿巴斯,世界最先进战车入列乌军

史政先锋
2026-01-13 19:34:38
什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

带你感受人间冷暖
2025-11-12 00:05:08
林徽因后人现状,子孙都不愿姓梁,女儿仍健在,曾孙女家喻户晓

林徽因后人现状,子孙都不愿姓梁,女儿仍健在,曾孙女家喻户晓

云霄纪史观
2026-01-14 13:40:47
三星长公主没想到,自己下嫁保安丢的面子,竟被18岁儿子找了回来

三星长公主没想到,自己下嫁保安丢的面子,竟被18岁儿子找了回来

削桐作琴
2026-01-08 21:22:07
上演逆袭!U23国足是本届赛事唯一一支小组出线的第四档球队

上演逆袭!U23国足是本届赛事唯一一支小组出线的第四档球队

懂球帝
2026-01-14 23:22:14
王钰栋:大家能走到这因为团结,没进球所以对自己不满意

王钰栋:大家能走到这因为团结,没进球所以对自己不满意

懂球帝
2026-01-14 23:43:25
周杰伦澳网首秀止步首轮:扔掉墨镜上场准备,彼得·约维奇发出一记ACE,周杰伦站在原地没碰到球

周杰伦澳网首秀止步首轮:扔掉墨镜上场准备,彼得·约维奇发出一记ACE,周杰伦站在原地没碰到球

大象新闻
2026-01-14 18:49:07
伊朗抗议者亲手击毙下令射杀群众的伊朗军官

伊朗抗议者亲手击毙下令射杀群众的伊朗军官

桂系007
2026-01-12 00:31:50
老佛爷脸疼?解雇阿隆索2天后,皇马创5年新耻!42岁新帅茫然插兜

老佛爷脸疼?解雇阿隆索2天后,皇马创5年新耻!42岁新帅茫然插兜

我爱英超
2026-01-15 07:10:41
俄乌战争,击碎了多少“神一样的存在”

俄乌战争,击碎了多少“神一样的存在”

望岳
2026-01-12 20:36:38
天崩地裂!13000公里时速,导弹爆炸温度数千度:普京真掀桌子了

天崩地裂!13000公里时速,导弹爆炸温度数千度:普京真掀桌子了

古事寻踪记
2026-01-15 07:07:07
阿隆索走了,“阿隆索”又回来了,皇马这是要干嘛?

阿隆索走了,“阿隆索”又回来了,皇马这是要干嘛?

兰亭墨未干
2026-01-14 11:45:48
《寻秦记》郭羡妮25年前上台综宣传片翻红,靓到令主持人两眼发光

《寻秦记》郭羡妮25年前上台综宣传片翻红,靓到令主持人两眼发光

粤睇先生
2026-01-15 00:13:17
3-2!阿森纳斯坦福桥封神:赛季16人进球露冠军相,温格纪录作古

3-2!阿森纳斯坦福桥封神:赛季16人进球露冠军相,温格纪录作古

落夜足球
2026-01-15 09:12:06
1997年回归前夜,香港十几万黑帮连夜“大逃亡”,他们最后都去哪了?

1997年回归前夜,香港十几万黑帮连夜“大逃亡”,他们最后都去哪了?

老杉说历史
2026-01-13 19:14:13
大爆冷!国乒全国冠军1:3不敌日本选手,国乒单打4人被淘汰出局

大爆冷!国乒全国冠军1:3不敌日本选手,国乒单打4人被淘汰出局

国乒二三事
2026-01-15 06:16:39
CBA打完14轮,最值得入选国家队的5位球员!徐杰领衔,徐昕在列

CBA打完14轮,最值得入选国家队的5位球员!徐杰领衔,徐昕在列

多特体育说
2026-01-14 22:10:32
马卡:因球迷大量退票,FIFA召开紧急会议应对球迷抗议风险

马卡:因球迷大量退票,FIFA召开紧急会议应对球迷抗议风险

懂球帝
2026-01-14 19:18:12
韩综镜头下,中国南极站vs韩国世宗王站,差距大到韩网友集体破防

韩综镜头下,中国南极站vs韩国世宗王站,差距大到韩网友集体破防

阿废冷眼观察所
2026-01-14 09:21:49
现货金价再创历史新高,牛市还能走多远?

现货金价再创历史新高,牛市还能走多远?

国是直通车
2026-01-14 19:50:07
2026-01-15 10:28:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2038657文章数 5251关注度
往期回顾 全部

科技要闻

反垄断大棒,为何砸向了携程

头条要闻

牛弹琴:伊朗局势气氛已烘托到位 战火一触即发

头条要闻

牛弹琴:伊朗局势气氛已烘托到位 战火一触即发

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

“疯狂的白银”,还能走多远?

汽车要闻

曝Model Y或降到20万以内!

态度原创

教育
旅游
数码
本地
公开课

教育要闻

二次函数关联变量应用题,一个视频学会!

旅游要闻

浙江常山:石灰窑变面包窑 “石灰村”变旅游村

数码要闻

消息称苹果1月28日发布M5 Pro/Max芯片MacBook Pro

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版