网易首页 > 网易号 > 正文 申请入驻

自回归也能做强视觉模型?NEPA开启「下一嵌入预测」时代,谢赛宁参与

0
分享至

来源:市场资讯

(来源:机器之心)

编辑|Panda

众所周知,LeCun 不喜自回归,并且还提出了一种名为联合嵌入预测架构(JEPA)的新方向,并且该方向也一直在有新成果涌现。

然而,自回归模型的成功也是有目共睹的,尤其是在语言领域。那么,生成式预训练在自然语言上的成功能否在视觉领域重现呢?

近日,密歇根大学、纽约大学、普林斯顿大学和弗吉尼亚大学的一个联合研究团队对此给出了肯定答案。

只不过,他们不是训练模型输出用于下游任务的特征,而是让它们生成嵌入(embeddings)以直接执行预测任务。可以说,这是从学习表征(learning representations)到学习模型(learning models)的一种范式转变。

具体而言,模型会通过因果掩码(causal masking)和停止梯度(stop gradient),以过去图块嵌入为条件,学习预测未来的图块嵌入。类似于下一 token 预测,该团队将这种方法称为下一嵌入预测自回归(Next-Embedding Predictive Autoregression),简称 NEPA。


  • 论文标题:Next-Embedding Prediction Makes Strong Vision Learners

  • 论文地址:https://arxiv.org/abs/2512.16922v1

  • 项目地址:https://sihanxu.me/nepa/

  • 代码地址:https://github.com/SihanXU/nepa

  • 模型地址:https://huggingface.co/collections/SixAILab/nepa

该论文目前正是 alphaXiv 上热度第一的论文。


本文第一作者为 Sihan Xu,密歇根大学博士生,导师是密歇根大学电气工程与计算机科学系正教授 Stella X. Yu;这项研究的部分工作是其在纽约大学访问期间完成。纽约大学著名研究科学家谢赛宁也在作者名单中。

范式的转变

视觉预训练是计算机视觉的核心议题之一。自监督学习也已成为现代视觉预训练方法的基石,使得无需人工标签即可训练可扩展的视觉学习器。

其核心目标是学习表征(learn representations):优化模型,从而将原始像素映射到固定维度的表征,这些表征随后可被使用或针对下游任务进行微调。

这一哲学统一了基于实例判别(instance discrimination)、自蒸馏(self-distillation)和掩码重建(masked reconstruction)的方法。

其目标是学习能够被各种规模的下游模块(从轻量级的特定于任务的头到诸如视觉 - 语言模型等大型级联系统)所使用的视觉表征。

现代自然语言处理的成功则建立在一个根本不同的范式之上。

语言模型的预训练目标并不是作为特征提取器;而是作为生成式和预测式系统。其目标不是生成句子的静态嵌入,而是通过一个简单的因果目标(causal objective)对数据分布本身进行建模。

这种训练会迫使模型内化语言中的语义和条件依赖关系。推理不再是一个「编码→解决任务」的两阶段过程,而是由模型本身执行的单一预测计算。

这一区别至关重要,涉及根本。它表明:生成式预测(而非表征学习)可能提供了一条扩展预训练的直接途径。

最近的一系列研究已经转向了这一哲学。例如:

  • 早期的像素级生成式预训练(iGPT)展示了可迁移的特征,但在处理超长序列和弱语义对齐方面表现一般。

  • JEPA 超越了像素层面,通过预测潜在目标(latent targets)来更紧密地与语义结构对齐。然而,JEPA 依然是通过从动量编码器(momentum encoder)回归到潜在目标来进行训练,而不是将生成式预测作为自监督目标。

基于这些观察,Sihan Xu 等人想知道:极简的因果预训练是否也能产生强大的视觉学习器。

具体来说,图像被分解为图块(patches),这些图块再被映射为图块级嵌入的序列。然后训练一个因果 Transformer,在给定所有先前嵌入的情况下预测下一个嵌入,这与语言模型中的「下一 Token 预测」范式非常近似。

基于这些观察,Sihan Xu 等人想知道:极简的因果预训练是否也能产生强大的视觉学习器?

具体来说,图像被分解为图块(patches),这些图块再被映射为图块级嵌入的序列。然后训练一个因果 Transformer,在给定所有先前嵌入的情况下预测下一个嵌入,这与语言模型中的「下一 Token 预测」范式非常近似。

该团队对目标嵌入使用停止梯度(stop-gradient)以创建一个稳定的预测任务。这种形式是刻意保持极简的。它不需要像素级解码器、不需要离散的视觉 Tokenizer(分词器),也不需要对比学习中常见的工程化数据增强、负样本对或动量编码器。整个学习信号源于模型在嵌入空间中预测未来的能力。

于是乎,一个新的模型家族诞生了:下一嵌入预测自回归(NEPA)。

下一嵌入预测自回归(NEPA)

整体来看,NEPA 方法是极简主义的。如果说现在的视觉模型都在比拼谁的装备更复杂(动量编码器、解码器、离散 Tokenizer……),那么 NEPA 就是那个穿着白 T 恤走进战场的选手。它的核心哲学非常简单:像 GPT 预测下一个词那样,去预测图像的下一个「特征块」。


其核心思路可以总结如下:

  • 切块与编码:首先,把一张图切成若干小块(Patch),每一块通过编码器变成一个向量(Embedding)。

  • 预测未来:观看前面的块,猜下一块长什么样。这和语言模型(LLM)的「下一词预测」相似,只不过这里处理的是连续的数学向量,而不是离散的词。

  • 防止「作弊」:为了防止模型偷懒(比如输出一样的结果),作者借用了 SimSiam 的经典招数:停止梯度(Stop-Gradient)。简单说,就是让作为「标准答案」的那个目标向量保持静止,不参与反向传播。这就像是射箭时,靶子必须固定,不能让你把靶子移到箭射中的地方。

具体到架构设计上,他们采用了一个带有因果注意力掩码的标准视觉 Transformer(ViT)主干网络。

与像素级重建方法不同,该方法不需要单独的解码器。该 Transformer 直接根据过去的图像块嵌入来预测未来的图像块嵌入,使用单个主干网络同时进行上下文编码和预测,这与自回归语言模型类似。图像通过一个二维卷积(Conv2d)图像块嵌入层被分割成不重叠的图像块,并在输入到 Transformer 之前添加可学习的位置嵌入。

他们采用了带有层归一化(LayerNorm) 的预归一化设计,并对输出特征应用最终的层归一化。

为了提高稳定性和可扩展性,该团队该结合了受 DINOv3 和视觉大语言模型 VisionLLaMA 启发的现代训练和归一化方法,如图 2 所示。


这些模型设计有助于训练,但与核心框架无关,感兴趣的读者可参阅原论文以及相关论文。

训练好之后怎么用呢?换个「头」就行。下面是两个例子:

  • 分类:取出最后一个预测出来的嵌入向量,接个简单的分类头,就能识别这是猫还是狗。

  • 分割:接一个 UPerNet 头。有趣的是,虽然训练时是「只看过去」的单向预测,但在做分割这种需要全局信息的任务时,可以解除封印,开启双向注意力(Bidirectional Attention),让模型看清全图。

总之,NEPA 证明了,只要你有一个好的预测目标,就不需要那些花里胡哨的架构,一个标准的 Transformer 加上「防坍塌」技巧,就能成为顶级的视觉学习者。

实验结果

在量化性能方面,NEPA 展现出了与 SOTA 方法相媲美甚至更优的实力。

仅在 ImageNet-1K 上进行预训练,NEPA 的 ViT-B 和 ViT-L 模型分别达到了 83.8% 和 85.3% 的 Top-1 准确率,这一成绩优于 MoCo v3、BEiT,并与 MAE 和 JEPA 处于同一水平。


更重要的是,尽管预训练过程中从未涉及像素重建,NEPA 依然表现出了强大的迁移能力,在 ADE20K 语义分割任务上分别取得了 48.3% 和 54.0% 的 mIoU,证明了纯粹的嵌入预测足以学习到处理密集预测任务所需的丰富语义特征。


最后,通过对模型内部注意力和嵌入的可视化分析,研究揭示了 NEPA 的有效性来源。


可视化结果显示,模型自动学会了长距离且以对象为中心的注意力模式,能够忽略背景干扰,将注意力集中在语义相关的区域。同时,预测出的嵌入向量在语义上与属于同一物体的其他图块高度相似,表明模型并非死记硬背局部纹理,而是真正理解了物体层面的结构。

这种通过简单的「下一嵌入预测」所习得的全局语义依赖,不仅验证了该方法的有效性,也为跨模态的统一预训练范式提供了一种无需复杂手工设计的通用视角。

消融实验和更多详情请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2月PMI跌破荣枯线,手机出货暴跌超16%,消费寒意还在蔓延

2月PMI跌破荣枯线,手机出货暴跌超16%,消费寒意还在蔓延

三言四拍
2026-03-04 18:28:26
央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

观察者海风
2026-03-05 04:16:37
伊朗反击取得重大成果?千万别信网上的那些专家和爽文

伊朗反击取得重大成果?千万别信网上的那些专家和爽文

壹家言
2026-03-04 19:37:20
又有2名间谍被抓!潜藏中国17年,境外渗透曝光,泄密细节惊人

又有2名间谍被抓!潜藏中国17年,境外渗透曝光,泄密细节惊人

古史青云啊
2026-02-25 11:30:53
水货专家开喷伊朗战争,称美国热衷斩首是衰退表现,误导公众对战争认知

水货专家开喷伊朗战争,称美国热衷斩首是衰退表现,误导公众对战争认知

回旋镖
2026-03-04 18:07:39
还能撑8天,之后台湾去哪搞天然气?

还能撑8天,之后台湾去哪搞天然气?

枢密院十号
2026-03-04 19:30:15
B费将功补过创队史纪录,十人纽卡2-1绝杀曼联,卡帅不败金身告破

B费将功补过创队史纪录,十人纽卡2-1绝杀曼联,卡帅不败金身告破

钉钉陌上花开
2026-03-05 06:18:59
数百艘油轮船只被困霍尔木兹海峡!中国海员:GPS失效,补给或能坚持一个月

数百艘油轮船只被困霍尔木兹海峡!中国海员:GPS失效,补给或能坚持一个月

封面新闻
2026-03-05 01:17:07
霍尔木兹海峡GPS遭强干扰 商船切换北斗正常工作3小时 船员发声:为中国北斗点赞

霍尔木兹海峡GPS遭强干扰 商船切换北斗正常工作3小时 船员发声:为中国北斗点赞

快科技
2026-03-04 08:36:31
男子高铁霸座后续:以态度不好拒让座,全程无赖到底,结局舒适

男子高铁霸座后续:以态度不好拒让座,全程无赖到底,结局舒适

离离言几许
2026-03-04 16:04:38
事情闹大了,终于开始彻查了!

事情闹大了,终于开始彻查了!

胖胖说他不胖
2026-03-04 16:21:39
阿里内部爆惊天猛料!千问核心集体辞职!

阿里内部爆惊天猛料!千问核心集体辞职!

新浪财经
2026-03-04 21:07:36
薛之谦好友曝张杰谢娜双胞胎真相?孩子落户上海是薛之谦帮忙搞定

薛之谦好友曝张杰谢娜双胞胎真相?孩子落户上海是薛之谦帮忙搞定

银河史记
2026-03-03 17:15:07
遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

阿纂看事
2026-03-04 18:21:39
各项赛事10场不败!阿森纳1-0布莱顿甩开曼城7分 萨卡一剑封喉

各项赛事10场不败!阿森纳1-0布莱顿甩开曼城7分 萨卡一剑封喉

狍子歪解体坛
2026-03-05 05:30:20
伊朗媒体:伊朗威胁打击以色列核反应堆

伊朗媒体:伊朗威胁打击以色列核反应堆

界面新闻
2026-03-05 08:25:54
美国务卿要“放蒋出笼”对付伊朗

美国务卿要“放蒋出笼”对付伊朗

远方青木
2026-03-05 00:13:22
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
拒唱国歌!伊朗女足主帅:哈梅内伊被杀让我开心?现在不想谈这个

拒唱国歌!伊朗女足主帅:哈梅内伊被杀让我开心?现在不想谈这个

风过乡
2026-03-04 21:21:17
伊朗飞行员驾机撞舰视频竟是游戏画面,网友评论:白哭一回

伊朗飞行员驾机撞舰视频竟是游戏画面,网友评论:白哭一回

历史总在押韵
2026-03-04 23:22:58
2026-03-05 09:59:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2357668文章数 5685关注度
往期回顾 全部

科技要闻

4599元起!MacBook Neo发布:搭载A18 Pro

头条要闻

速览"十四五"时期经济社会发展成就:GDP年均增长5.4%

头条要闻

速览"十四五"时期经济社会发展成就:GDP年均增长5.4%

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

李强正在作政府工作报告

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

数码
游戏
手机
亲子
军事航空

数码要闻

苹果M5系列芯片首发“三层核心”架构,引入全新“超级核心”

《使命召唤:现代战争2》概念艺术图曝光 经典永不过时!

手机要闻

马年首次更新!苹果iOS 26.3.1正式版发布:国行用户苦等的AI依然缺席

亲子要闻

京东幼儿园投入试运行,在京东总部对面,首批迎50名新生

军事要闻

伊朗首次使用"哈迪德110"高速无人机

无障碍浏览 进入关怀版