网易首页 > 网易号 > 正文 申请入驻

自回归视觉模型新突破:NEPA猜特征技术开启AI新范式

0
分享至

哈喽,大家好,我是小今。这篇来聊聊AI圈争论不休的自回归视觉模型,NEPA偏要反其道而行,靠“猜特征”就比肩顶尖水平,这下刷新认知了!

在 AI 圈,有个挺有意思的争论:搞视觉模型到底要不要走“自回归”这条路?比如AI大佬LeCun就不太看好自回归,还另辟蹊径提出了“联合嵌入预测架构(JEPA)”,这些年JEPA相关的成果也确实不少。





AI视觉“路线之争”:预测还是表征?

这种方法,不管是最早的“对比学习”,还是后来的“掩码重建”,核心都是在磨练AI的“特征提取”能力。得是个顶级的“侦探”,能把图里的每个细节都记录下来,然后用这些细节去完成各种任务。



但语言AI的玩法完全不一样。像GPT这种,它不是在“提取特征”,而是在“预测”!你给它前面几个字,它就猜下一个字可能是啥,然后把这套“猜字”的逻辑内化成对语言的理解。

这意味着它不需要先费劲巴拉地“编码”再“干活”,直接就能出结果。这一下就点醒了研究人员:是不是视觉AI也不用死磕“特征提取”了,直接学“生成式预测”,效率反而更高?



当然,把“猜”的思路搬到视觉上,之前也有人尝试过。比如早期的iGPT,虽然有点效果,但在处理长图、理解深层语义方面就有点力不从心。

而LeCun的JEPA呢,它虽然也玩“猜”,但猜的是“潜在特征”,而且还得靠一个“动量编码器”来校准目标,还没到那种纯粹的“生成式预测”境界。所以,到底有没有一种更直接、更纯粹的“预测”方式,能让视觉AI也像语言AI一样强大呢?



一鸣惊人:NEPA的“猜特征”新思路

NEPA这个名字听起来有点酷,它其实是“下一嵌入预测自回归”(Next Embedding Prediction Autoregression)的缩写。别被这长串词吓到,它的核心思想其实特别简单,甚至有点“极简主义”的味道。



接下来,模型就像语言模型猜下一个字那样,根据前面所有图块的“身份ID”,去猜测下一个图块的“身份ID”会是什么!就这么一套“猜下一个特征”的玩法,让视觉模型也走上了“自回归”的康庄大道。





“防作弊”高招:让模型老老实实学习

你可能会想,这听起来是挺简单,但模型会不会耍小聪明啊?比如每次都输出差不多的“身份ID”来敷衍了事?或者干脆偷偷“瞄一眼”后面的答案,假装自己是预测出来的?别急,NEPA团队早就把这些“小伎俩”给考虑到了,并且设计了三个关键的机制,确保模型能老老实实、真真切切地去“预测”:



这就像咱们看侦探小说,你只能一页一页往下翻,不能直接翻到结局看凶手是谁,对吧?NEPA也一样,当它预测当前图块的“身份ID”时,只能参考它前面的图块,后面的图块是完全看不见的。这一下就逼着模型必须得真的去“预测”,而不是“作弊”或“死记硬背”。



模型猜完“身份ID”后,总得和真实的“身份ID”对比一下看看猜得准不准,然后根据误差来调整自己。但是,在计算误差的时候,真实的“身份ID”是“固定不动”的,它不会跟着模型的调整而变化。

这就像你射箭,靶子必须是静止的,要是靶子跟着你的箭跑,那你永远都能“命中”,但其实啥都没练到。这个小技巧,能有效防止模型学成个“老好人”,每次都输出一模一样的“身份ID”来蒙混过关。



最让人惊喜的是,NEPA用的就是普普通通的视觉Transformer(ViT)架构,没有额外加什么解码器,也不用那些复杂的“图像分词器”,更不用像有些模型那样,又是复杂的数据增强,又是苦哈哈地找负样本。

它就靠着“猜下一个特征”这一个信号,像个穿着白T恤的运动健将,干干净净地就上场比赛了!这种“化繁为简”的思路,本身就充满了智慧。





“十八般武艺”:NEPA的惊人表现

这么一套“简单粗暴”的方法,性能到底怎么样?别看它简单,实力一点不含糊,甚至可以用“惊艳”来形容!

更有意思的是,虽然它训练时只能“看前面”,但做分割这种需要全局信息的任务时,只要把那个“因果掩码”解开,让它能看全图就行了,灵活性超高!



换个更大的ViT-L(加强版Transformer),直接飙到85.3%!这成绩,比MoCo v3、BEiT这些老牌强手都厉害,跟MAE、JEPA这些当前顶尖模型也能打个平手!



深层理解,而非表面功夫:最让我惊艳的是它的“迁移能力”。NEPA训练的时候压根没学过“重建像素”这种细活,但把它用在ADE20K语义分割任务上,ViT-B和ViT-L竟然分别拿到了48.3%和54.0%的mIoU(衡量分割精度的指标)!





真正“看懂”:NEPA如何理解世界

这说明它能抓住图像的主体信息。更神奇的是,它预测出的特征向量,和同一物体其他图块的特征向量竟然非常相似!这简直了,说明模型真的“悟”了,它知道“这是一只完整的狗”,而不是一堆零散的像素块。它不仅能看到局部,还能把这些局部连接起来,形成对一个完整物体的认知。





超越视觉:AI“大一统”的未来之光

NEPA的出现,可不仅仅是给视觉AI家族又添了个“能打的成员”这么简单。它最大的意义,是提供了一种可能“通用”的思路,为AI领域的“大一统”指明了方向!



我们就不需要为每种模态绞尽脑汁设计各种复杂的适配方案了,直接靠“嵌入”这个通用“货币”就能打通所有数据!这对整个跨模态AI的发展,简直是提供了新的“说明书”啊!

说到底,NEPA最打动我的地方,就是它用“简单”打败了“复杂”。它没有那些眼花缭乱的架构,就靠着“像猜词一样猜图像特征”这个核心想法,加上几个巧妙的“防作弊”小设计,就达到了顶尖的性能。

这真的给我们提了个醒:有时候AI研究不一定要追求“堆料”,换个思路,把那些成熟但看似不相干的方法用对地方,说不定就能带来更大的突破!或许,AI理解世界,并不需要那么多的“花里胡哨”,大道至简,方能见真章。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋万安四岁时与母亲黄美伦的合影,母亲年轻时漂亮又有气质

蒋万安四岁时与母亲黄美伦的合影,母亲年轻时漂亮又有气质

大江
2026-01-09 16:27:54
四川银行董监高薪酬披露、最高180万,落马副行长被停止支付薪酬

四川银行董监高薪酬披露、最高180万,落马副行长被停止支付薪酬

湘财Plus
2026-01-12 11:02:06
郭富城大房:掌管郭富城20亿身家,却30年没有名分,甘愿为郭带娃

郭富城大房:掌管郭富城20亿身家,却30年没有名分,甘愿为郭带娃

玥来玥好讲故事
2025-12-27 17:01:58
心理学中有个词叫:拆屋效应(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用「拆屋效应」)

心理学中有个词叫:拆屋效应(拿捏一个人,最有效的方式,不是谈条件,也不是画大饼,而是利用「拆屋效应」)

经济观察网
2025-12-04 09:25:48
70亿巨资“沉睡”道吾山!湖南县城最大商业广场,何时等来繁华?

70亿巨资“沉睡”道吾山!湖南县城最大商业广场,何时等来繁华?

GA环球建筑
2026-01-14 13:44:04
格陵兰发达到什么水平?我去了才发现,差距真的太大

格陵兰发达到什么水平?我去了才发现,差距真的太大

娱乐八卦木木子
2026-01-07 15:14:07
安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

安徽小伙在小国家创业,“享受”一夫多妻、开放生活的他如今怎样

牛牛叨史
2026-01-06 12:59:43
小小改变也能延寿!《柳叶刀》重磅:每天仅增加5分钟运动,就能显著延长寿命

小小改变也能延寿!《柳叶刀》重磅:每天仅增加5分钟运动,就能显著延长寿命

医诺维
2026-01-14 17:06:29
深扒糊了的林依轮,才发现北京2栋楼、1.8亿一幅画,只是冰山一角

深扒糊了的林依轮,才发现北京2栋楼、1.8亿一幅画,只是冰山一角

深析古今
2026-01-09 16:12:45
青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

青海4位专家“饿晕”拒绝评标细节曝光,和招标无关,就餐是关键

Mr王的饭后茶
2026-01-13 21:03:08
菲律宾这次闯祸了,中国使馆愤怒发声:已保持最大限度忍耐!

菲律宾这次闯祸了,中国使馆愤怒发声:已保持最大限度忍耐!

青青子衿
2026-01-14 22:34:46
卡尼还未登机访华,加拿大先来了个下马威,不许取消电动车关税

卡尼还未登机访华,加拿大先来了个下马威,不许取消电动车关税

历史有些冷
2026-01-13 18:45:03
国企最大的弊端就是一些溜须拍马的人,在提拔另一些溜须怕马的人

国企最大的弊端就是一些溜须拍马的人,在提拔另一些溜须怕马的人

细说职场
2026-01-05 16:58:04
天津男篮30分大胜完成复仇,林庭谦20+8郑昊燃23分,邹阳空砍23+8

天津男篮30分大胜完成复仇,林庭谦20+8郑昊燃23分,邹阳空砍23+8

中国篮坛快讯
2026-01-14 21:25:05
16岁角色穿“情趣内衣”?网易武侠游戏陷擦边争议

16岁角色穿“情趣内衣”?网易武侠游戏陷擦边争议

南方都市报
2026-01-13 14:46:12
闫学晶被举报偷税漏税,快手小店盈利7600万,儿子缴税仅7.8万

闫学晶被举报偷税漏税,快手小店盈利7600万,儿子缴税仅7.8万

史行途
2026-01-14 09:53:58
刚夺亚军就次轮游!中国莎娃0-2首败8号种子,张帅女双抢10逆转!

刚夺亚军就次轮游!中国莎娃0-2首败8号种子,张帅女双抢10逆转!

刘姚尧的文字城堡
2026-01-14 18:28:41
发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

发现一个奇怪现象:越是独来独往、没有朋友、不合群的人,人品往往越没问题,慢慢你就知道了

二胡的岁月如歌
2026-01-11 17:53:51
"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

"第一软饭男"去世了,伺候美国老妇13年,继承268亿,死后钱给谁

毒sir财经
2025-12-08 22:57:40
苍天饶过谁!拒唱国歌否认中国籍,俩儿子落户国外,她现状如何?

苍天饶过谁!拒唱国歌否认中国籍,俩儿子落户国外,她现状如何?

元爸体育
2026-01-14 15:52:35
2026-01-14 23:32:49
碧珠映红香
碧珠映红香
碧珠映红香
193文章数 28关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

中东气氛愈发紧张 伊朗处于最高战备状态

头条要闻

中东气氛愈发紧张 伊朗处于最高战备状态

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

数码
本地
艺术
教育
军事航空

数码要闻

严重内存短缺下 DDR3平台甚至也在“回潮”

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

艺术要闻

八大山人『山水花鸟册』

教育要闻

很多学校每班都是五六十人,为什么不实行小班制却让老师们转岗?

军事要闻

美再发安全警告 敦促美公民立即离开伊朗

无障碍浏览 进入关怀版