网易首页 > 网易号 > 正文 申请入驻

自回归视觉模型新突破:NEPA猜特征技术开启AI新范式

0
分享至

哈喽,大家好,我是小今。这篇来聊聊AI圈争论不休的自回归视觉模型,NEPA偏要反其道而行,靠“猜特征”就比肩顶尖水平,这下刷新认知了!

在 AI 圈,有个挺有意思的争论:搞视觉模型到底要不要走“自回归”这条路?比如AI大佬LeCun就不太看好自回归,还另辟蹊径提出了“联合嵌入预测架构(JEPA)”,这些年JEPA相关的成果也确实不少。





AI视觉“路线之争”:预测还是表征?

这种方法,不管是最早的“对比学习”,还是后来的“掩码重建”,核心都是在磨练AI的“特征提取”能力。得是个顶级的“侦探”,能把图里的每个细节都记录下来,然后用这些细节去完成各种任务。



但语言AI的玩法完全不一样。像GPT这种,它不是在“提取特征”,而是在“预测”!你给它前面几个字,它就猜下一个字可能是啥,然后把这套“猜字”的逻辑内化成对语言的理解。

这意味着它不需要先费劲巴拉地“编码”再“干活”,直接就能出结果。这一下就点醒了研究人员:是不是视觉AI也不用死磕“特征提取”了,直接学“生成式预测”,效率反而更高?



当然,把“猜”的思路搬到视觉上,之前也有人尝试过。比如早期的iGPT,虽然有点效果,但在处理长图、理解深层语义方面就有点力不从心。

而LeCun的JEPA呢,它虽然也玩“猜”,但猜的是“潜在特征”,而且还得靠一个“动量编码器”来校准目标,还没到那种纯粹的“生成式预测”境界。所以,到底有没有一种更直接、更纯粹的“预测”方式,能让视觉AI也像语言AI一样强大呢?



一鸣惊人:NEPA的“猜特征”新思路

NEPA这个名字听起来有点酷,它其实是“下一嵌入预测自回归”(Next Embedding Prediction Autoregression)的缩写。别被这长串词吓到,它的核心思想其实特别简单,甚至有点“极简主义”的味道。



接下来,模型就像语言模型猜下一个字那样,根据前面所有图块的“身份ID”,去猜测下一个图块的“身份ID”会是什么!就这么一套“猜下一个特征”的玩法,让视觉模型也走上了“自回归”的康庄大道。





“防作弊”高招:让模型老老实实学习

你可能会想,这听起来是挺简单,但模型会不会耍小聪明啊?比如每次都输出差不多的“身份ID”来敷衍了事?或者干脆偷偷“瞄一眼”后面的答案,假装自己是预测出来的?别急,NEPA团队早就把这些“小伎俩”给考虑到了,并且设计了三个关键的机制,确保模型能老老实实、真真切切地去“预测”:



这就像咱们看侦探小说,你只能一页一页往下翻,不能直接翻到结局看凶手是谁,对吧?NEPA也一样,当它预测当前图块的“身份ID”时,只能参考它前面的图块,后面的图块是完全看不见的。这一下就逼着模型必须得真的去“预测”,而不是“作弊”或“死记硬背”。



模型猜完“身份ID”后,总得和真实的“身份ID”对比一下看看猜得准不准,然后根据误差来调整自己。但是,在计算误差的时候,真实的“身份ID”是“固定不动”的,它不会跟着模型的调整而变化。

这就像你射箭,靶子必须是静止的,要是靶子跟着你的箭跑,那你永远都能“命中”,但其实啥都没练到。这个小技巧,能有效防止模型学成个“老好人”,每次都输出一模一样的“身份ID”来蒙混过关。



最让人惊喜的是,NEPA用的就是普普通通的视觉Transformer(ViT)架构,没有额外加什么解码器,也不用那些复杂的“图像分词器”,更不用像有些模型那样,又是复杂的数据增强,又是苦哈哈地找负样本。

它就靠着“猜下一个特征”这一个信号,像个穿着白T恤的运动健将,干干净净地就上场比赛了!这种“化繁为简”的思路,本身就充满了智慧。





“十八般武艺”:NEPA的惊人表现

这么一套“简单粗暴”的方法,性能到底怎么样?别看它简单,实力一点不含糊,甚至可以用“惊艳”来形容!

更有意思的是,虽然它训练时只能“看前面”,但做分割这种需要全局信息的任务时,只要把那个“因果掩码”解开,让它能看全图就行了,灵活性超高!



换个更大的ViT-L(加强版Transformer),直接飙到85.3%!这成绩,比MoCo v3、BEiT这些老牌强手都厉害,跟MAE、JEPA这些当前顶尖模型也能打个平手!



深层理解,而非表面功夫:最让我惊艳的是它的“迁移能力”。NEPA训练的时候压根没学过“重建像素”这种细活,但把它用在ADE20K语义分割任务上,ViT-B和ViT-L竟然分别拿到了48.3%和54.0%的mIoU(衡量分割精度的指标)!





真正“看懂”:NEPA如何理解世界

这说明它能抓住图像的主体信息。更神奇的是,它预测出的特征向量,和同一物体其他图块的特征向量竟然非常相似!这简直了,说明模型真的“悟”了,它知道“这是一只完整的狗”,而不是一堆零散的像素块。它不仅能看到局部,还能把这些局部连接起来,形成对一个完整物体的认知。





超越视觉:AI“大一统”的未来之光

NEPA的出现,可不仅仅是给视觉AI家族又添了个“能打的成员”这么简单。它最大的意义,是提供了一种可能“通用”的思路,为AI领域的“大一统”指明了方向!



我们就不需要为每种模态绞尽脑汁设计各种复杂的适配方案了,直接靠“嵌入”这个通用“货币”就能打通所有数据!这对整个跨模态AI的发展,简直是提供了新的“说明书”啊!

说到底,NEPA最打动我的地方,就是它用“简单”打败了“复杂”。它没有那些眼花缭乱的架构,就靠着“像猜词一样猜图像特征”这个核心想法,加上几个巧妙的“防作弊”小设计,就达到了顶尖的性能。

这真的给我们提了个醒:有时候AI研究不一定要追求“堆料”,换个思路,把那些成熟但看似不相干的方法用对地方,说不定就能带来更大的突破!或许,AI理解世界,并不需要那么多的“花里胡哨”,大道至简,方能见真章。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国已经犯下三个致命错误,败局已定了

美国已经犯下三个致命错误,败局已定了

农夫史记
2026-01-12 20:52:58
当媒体开始“抢新闻”,说明新闻确实很少了

当媒体开始“抢新闻”,说明新闻确实很少了

走读新生
2026-01-14 13:24:50
土耳其专家:伊朗可将封锁霍尔木兹海峡用作应对美国的“最后底牌”

土耳其专家:伊朗可将封锁霍尔木兹海峡用作应对美国的“最后底牌”

财联社
2026-01-13 23:34:06
“田朴珺们”的上位:这些真相,没人敢明说

“田朴珺们”的上位:这些真相,没人敢明说

红大娘娱乐
2026-01-12 22:10:28
中央定调!退休新规实施,公务员和事业编制,不能弹性延迟退休吗

中央定调!退休新规实施,公务员和事业编制,不能弹性延迟退休吗

夜深爱杂谈
2026-01-13 20:50:30
亲生父母为生儿子把我丢弃,养父培养我当官后,他们却来上门认亲

亲生父母为生儿子把我丢弃,养父培养我当官后,他们却来上门认亲

人间百态大全
2026-01-14 06:40:03
大量天猫精灵智能插座流入闲鱼,最大2500W功率,全新的才17元

大量天猫精灵智能插座流入闲鱼,最大2500W功率,全新的才17元

小柱解说游戏
2026-01-14 00:25:07
吃他汀猝死的人增多?医生含泪告诫:天冷吃他汀,必须多关注6点

吃他汀猝死的人增多?医生含泪告诫:天冷吃他汀,必须多关注6点

健康之光
2026-01-13 10:51:03
我们必须要永远保持对吕蒙“白衣渡江”严厉的批判态度!保持警惕

我们必须要永远保持对吕蒙“白衣渡江”严厉的批判态度!保持警惕

吕醿极限手工
2026-01-09 21:45:13
我咬牙娶了恩师的37岁女儿,成婚后我才知道她的背景

我咬牙娶了恩师的37岁女儿,成婚后我才知道她的背景

墨染尘香
2026-01-13 17:33:40
A股:大家做好准备了,明天(1月15日),A股或将迎来大变盘?

A股:大家做好准备了,明天(1月15日),A股或将迎来大变盘?

财经大拿
2026-01-14 14:54:57
徐帆回应离婚5个月,冯小刚近况曝光,内心早已看透一切

徐帆回应离婚5个月,冯小刚近况曝光,内心早已看透一切

徐帮阳
2026-01-14 17:29:52
青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

学申论的谈妹
2026-01-14 13:07:56
丈母娘逼我还大舅哥110万外债,拒绝后离婚,3 年后再见他们愣住

丈母娘逼我还大舅哥110万外债,拒绝后离婚,3 年后再见他们愣住

磊子讲史
2025-12-26 15:15:04
钱都让陈小群赚走了

钱都让陈小群赚走了

独孤老赵的笔记
2026-01-14 16:10:34
灿灿杀猪宴还没开始就"翻车",账号被封知情人曝猛料 文旅删视频

灿灿杀猪宴还没开始就"翻车",账号被封知情人曝猛料 文旅删视频

史行途
2026-01-14 13:43:35
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
广东宝妈梁海燕因羊水栓塞去世,十天花费超50万

广东宝妈梁海燕因羊水栓塞去世,十天花费超50万

究竟谁主沉浮
2026-01-12 17:30:44
又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

南权先生
2026-01-14 16:49:58
“死了么”APP改名Demumu,公司估值飙至近1亿元

“死了么”APP改名Demumu,公司估值飙至近1亿元

先锋新闻
2026-01-14 13:06:04
2026-01-14 20:11:00
碧珠映红香
碧珠映红香
碧珠映红香
192文章数 28关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

男子驾车撞死一家三口获死缓 被害人家属递交抗诉申请

头条要闻

男子驾车撞死一家三口获死缓 被害人家属递交抗诉申请

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

涉嫌垄断!市场监管总局对携程立案调查

汽车要闻

曝Model Y或降到20万以内!

态度原创

本地
亲子
时尚
公开课
军事航空

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

亲子要闻

孩子尿道下裂,家长如何缓解焦虑?

比变老更可怕的是不会穿!中年女人掌握4个技巧,优雅不费力

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美再发安全警告 敦促美公民立即离开伊朗

无障碍浏览 进入关怀版