网易首页 > 网易号 > 正文 申请入驻

杨立昆路线的新胜利:VL-JEPA来了,抛弃预测下一个词,不靠生成,照样SOTA

0
分享至

算泥社区是集 “AI 大模型开发服务 + 算法 + 算力” 于一体的开源生态社区,欢迎关注!

人工智能研究中,Yann LeCun(杨立昆)有一个独特且经常引起争议的观点。

他认为仅靠以语言为中心、基于预测下一个词的规模化模型,无法通向真正具备常识、因果理解和规划能力的通用智能;它们缺乏对物理世界的内在表征与世界模型,无法自主学习和可靠推理,因此最多是强大的工具,而不是通往 AGI 的终极路径。


在他的《通往自主机器智能的道路》的重要立场论文中,他提出了实现人工智能的替代框架。


他还提出了一种预测世界模型的新架构: 联合嵌入预测架构 (Joint Embedding Predictive Architecture,JEPA)。

Yann LeCun已经离开了Meta,他的学术成果仍然在Meta发挥余热。

刚刚,Meta FAIR、香港科技大学、索邦大学、纽约大学联合发布了一个基于JEPA的视觉-语言模型VL-JEPA。


VL-JEPA架构彻底抛弃了传统视觉语言模型逐个Token生成的低效模式,转而在抽象的嵌入空间中直接预测语义,以一半的参数量实现了SOTA的性能,并为实时视频理解带来了近3倍的效率提升。

回归语义本质

现在的AI界都是被基于Transformer的自回归模型统治。

给AI看一张图,它就像个絮絮叨叨的解说员,必须一个词接一个词地往外蹦句子。这种方式看似直观,实则在训练和推理上都极其昂贵。

Yann LeCun早已对这种低效模式感到不满。

这篇论文的研究者也认为,智能的核心在于理解和预测,而不在于是否能把每一句话都修饰得文采飞扬。

基于这种理念,他们推出了VL-JEPA的视觉语言模型。


传统模型在训练时不得不关注每一个单词的选择、句式的排列甚至语气的模仿。

这对理解图像内容来说,其实是巨大的浪费。

就像你问一个人“灯关了吗?”,他回答“灯灭了”或者“房间变暗了”在意思上是完全一样的,但在传统的训练中,模型却要为了这两个在字面上完全正交(不重叠)的句子耗费大量算力去拟合。

VL-JEPA换了一种活法。

它不再执着于预测下一个单词是什么,而是直接预测目标文本在数学空间中的“坐标”——也就是连续的语义嵌入(Embeddings)。

在这个高维空间里,“灯灭了”和“房间变暗了”的坐标靠得非常近。模型只需要学会指那个方向,而不需要纠结具体用哪个词来描述。

这种非生成式(Non-generative)的设计,让模型得以剥离掉那些与任务无关的语言表象,专注于最核心的语义信息。

这不仅简化了学习目标,更让模型在参数量减少50%的情况下,依然能打出比肩甚至超越庞大生成式模型的战绩。

架构的精密运转逻辑

VL-JEPA的设计哲学体现在其精简而高效的四个核心组件中。这套架构不需要在那儿猜词,而是通过计算向量的距离来理解世界。


X-Encoder(视觉编码器)负责看。

它接收视频或图像输入,将其压缩成一串紧凑的视觉嵌入向量。这里研究团队选用的是冻结参数的V-JEPA 2 ViT-L模型。这个模型本身就在自监督视觉任务上表现优异,能把复杂的视频画面浓缩成高密度的信息流。

Y-Encoder(文本编码器)负责听和理解目标。

它将目标文本(比如问题的答案或图片的描述)映射到一个连续的潜在空间中。这个空间就是模型学习的靶场。在这个空间里,语义相近的句子会聚在一起,无关的信息被过滤。这一步至关重要,它决定了模型思考的质量。

Predictor(预测器)是整个架构的大脑。

它接收来自X-Encoder的视觉信息,同时接收一个文本查询(Query,比如“这人在干嘛?”),然后它的任务就是预测出Y-Encoder会生成什么样的嵌入向量。注意,它预测的是一个数学向量,而不是具体的文字。这部分采用的是Llama-3的Transformer层进行初始化,让它天生就具备一定的语言理解底子。

Y-Decoder(文本解码器)是一个轻量级的翻译官。

它在训练阶段完全不参与,只有在人类真的需要看文字结果时,它才会被唤醒,把模型预测出来的数学向量翻译成人类能读懂的句子。

这套系统的训练目标非常纯粹:最小化预测出的嵌入向量和真实文本嵌入向量之间的距离。

为了防止模型偷懒(比如把所有输入都映射成同一个点),团队使用了InfoNCE损失函数。

这种对比学习的方法,一边拉近正确答案的距离,一边把无关的干扰项推远,迫使模型在那个抽象的数学空间里构建出清晰的语义地图。

这种设计让VL-JEPA在处理那些没有标准答案的任务时如鱼得水。

在真实世界里,同一个动作的描述千变万化,传统模型要在离散的词表中寻找唯一解极其痛苦,而VL-JEPA只需要在连续空间里找到那个语义聚类中心即可。

选择性解码艺术

视频理解一直是AI领域的硬骨头,尤其是实时视频流。

以前的模型每一帧都要处理,每一秒都要尝试生成描述,计算量大到无法在可穿戴设备或机器人上实时运行。

VL-JEPA在这里展现了它作为非自回归模型的巨大优势。

由于VL-JEPA输出的是连续的语义嵌入流,它可以像心电图一样实时监测这个信号的变化。

如果画面中的语义没有发生剧烈波动,模型就保持沉默,不做任何繁重的文字解码工作。

只有当监测到的语义方差超过某个阈值——意味着画面中发生了新的事件时,它才唤醒解码器,输出一段文字描述。

这种选择性解码(Selective Decoding)机制,让计算资源得到了极致的优化。


实验数据显示,在保证同等语义捕捉质量(CIDEr分数)的前提下,VL-JEPA的解码操作次数减少了约2.85倍。

对于智能眼镜、家庭机器人这种对延迟和功耗极其敏感的设备来说,这几乎是质的飞跃。

模型可以始终在线观察世界,但只在必要时开口汇报,既省电又敏捷。

相比之下,传统的VLM(视觉语言模型)受限于自回归的生成方式,必须把上一个词算出来才能算下一个词,这不仅延迟高,而且无法在生成过程中动态更新语义。

VL-JEPA的嵌入流则是并行的、连续的,能跟随视频流即时刷新对世界的认知。

在严苛对比下的性能统治力

为了证明这套架构不仅仅是理论上好听,Meta团队进行了一场极其严苛的对比实验。他们构建了一个对照组:一个标准的Token生成式VLM。

这个对照组使用了完全相同的视觉编码器、相同的空间分辨率、相同的帧率、完全一样的训练数据(包括DataComp、YFCC-100M等海量图文对以及HowTo100M视频数据)、一样的Batch Size,甚至训练迭代次数都一模一样。

唯一的区别就在于,一个是在数据空间里预测Token,一个是在潜在空间里预测Embedding。

结果令人信服。在同等算力预算下,VL-JEPA在零样本(Zero-shot)分类和描述任务上,性能曲线爬升得比传统VLM快得多。


在训练了500万个样本后,VL-JEPA的Top-5分类准确率达到了35.3%,而对照组只有27.2%。

这种差距随着训练的进行一直保持着。

更关键的是,VL-JEPA的训练参数只有1.6B(16亿),比许多动辄百亿参数的大模型轻量得多,却干出了更好的活。


在广泛的视频分类和检索基准测试中,VL-JEPA的表现全面超越了CLIP、SigLIP2和Perception Encoder这些赫赫有名的前辈。

特别是在SSv2、EgoExo4D这种强调动作和过程的视频数据集上,VL-JEPA的优势尤为明显。

这说明它不仅仅是看懂了画面里的物体(外观),更看懂了物体在如何运动和交互(动态)。

VL-JEPA不仅仅是一个只会看视频的分类器,经过第二阶段的监督微调(SFT)后,它摇身一变成了一个全能选手。

在视觉问答(VQA)任务上,尽管参数量只有1.6B,VL-JEPA依然与InstructBLIP、Qwen-VL这些大块头打得有来有回。

在GQA(组合视觉推理)、TallyQA(复杂计数)以及POPE(物体幻觉检测)等数据集上,它的表现都接近了SOTA水平。


更令人兴奋的是它在世界预测(World Prediction)任务上的表现。

这个任务要求模型看一张起始图和一张终点图,然后判断中间发生了什么动作。这实际上是在测试模型是否理解物理世界的因果关系。

在这个领域,VL-JEPA不仅击败了同量级的VLM,甚至在准确率上超过了GPT-4o、Claude-3.5和Gemini-2这些顶级的大语言模型。


虽然这些大模型拥有千亿级的参数,但在纯粹的视觉因果推理上,专注于嵌入空间预测的VL-JEPA展现出了更敏锐的物理直觉。

这种能力意味着VL-JEPA非常适合作为具身智能(Embodied AI)的大脑。

机器人需要理解它所处环境的物理规律,预测自己动作的后果,而不需要每一步都停下来写一篇小作文来分析现状。

Meta团队还非常诚实地展示了各种失败的尝试,告诉大家什么行得通,什么行不通。


关于预训练,他们发现如果跳过第一阶段的海量图文预训练,直接上SFT,分类准确率会暴跌21.7%。

这说明地基必须打牢,没有大规模数据的浸泡,模型学不到通用的视觉语言对齐。

关于学习率,Y-Encoder的学习率必须非常小心地调整。

实验表明,给文本编码器设置0.05到0.1倍的学习率乘数是最佳甜点。太快了模型会发散,太慢了学不动。

关于损失函数,InfoNCE展现了统治力。

相比于简单的余弦距离(Cosine)或L1/L2距离,InfoNCE自带的抗坍缩(Anti-collapse)属性对于维持嵌入空间的多样性至关重要。虽然在VQA任务上余弦距离表现稍好,但在分类和检索等通用任务上,InfoNCE是绝对的最优解。

有趣的是,他们还尝试了不同的文本编码器。

虽然默认使用的是EmbeddingGemma-300M,但实验证明更大的编码器确实能带来更好的性能。

特别是那些视觉对齐过的文本编码器(如PE模型),能让分类和检索分数进一步上涨。

这暗示了VL-JEPA架构还有巨大的潜力可挖,只要换上更强的组件,性能天花板还能往上顶。

VL-JEPA标志着视觉语言模型从学会说话向学会思考迈出了坚实的一步。

参考资料:

https://arxiv.org/pdf/2512.10942

https://openreview.net/pdf?id=BZ5a1r-kVsf

‍‍

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025最能“扛收视”7位女演员:宋祖儿倒数,杨紫第3,第1没悬念

2025最能“扛收视”7位女演员:宋祖儿倒数,杨紫第3,第1没悬念

八斗小先生
2026-01-07 17:19:16
2026年央视马年春晚官宣,看完导演和拟邀名单,厕所都不敢去上了

2026年央视马年春晚官宣,看完导演和拟邀名单,厕所都不敢去上了

包饺子ai剪辑
2025-12-11 11:52:28
医生发现:天冷还坚持散步的老年人,用不了多久,身体或有4变化

医生发现:天冷还坚持散步的老年人,用不了多久,身体或有4变化

展望云霄
2025-12-12 22:15:11
研究发现:每天都吸烟的人,多数到了60岁以后,身体或变成这样?

研究发现:每天都吸烟的人,多数到了60岁以后,身体或变成这样?

华庭讲美食
2026-01-26 00:21:35
越南少将阮德辉揭露:中方撤军时越军为何按兵不动?

越南少将阮德辉揭露:中方撤军时越军为何按兵不动?

磊子讲史
2026-01-09 18:00:27
北京市卫健委主任:今年将落地一揽子生育支持政策 研究放宽普惠托育收费标准、优化补贴政策

北京市卫健委主任:今年将落地一揽子生育支持政策 研究放宽普惠托育收费标准、优化补贴政策

财联社
2026-01-25 15:47:04
科学家扫描了25万个大脑发现:决定孩子一生的,不是智商,而是父母的这三件事

科学家扫描了25万个大脑发现:决定孩子一生的,不是智商,而是父母的这三件事

阅读第一
2025-12-13 08:34:34
装逼撞到你擅长的领域是啥体验?网友:我曾经也干过这种事呀

装逼撞到你擅长的领域是啥体验?网友:我曾经也干过这种事呀

夜深爱杂谈
2025-12-21 17:57:28
肮脏,但是有效!高手搞钱、谋官、追爱,就靠这3个做局智慧

肮脏,但是有效!高手搞钱、谋官、追爱,就靠这3个做局智慧

第一管理
2024-04-08 20:17:19
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
“跳水”大降价,又一豪车品牌扛不住了!

“跳水”大降价,又一豪车品牌扛不住了!

蒋东文
2026-01-16 20:51:15
教外语应该穿什么,学外语又该穿什么?

教外语应该穿什么,学外语又该穿什么?

三人成虎V5
2026-01-24 21:53:04
《太平年》史实大结局:钱弘俶被赵光义暗杀,孙太真见证钱氏融宋

《太平年》史实大结局:钱弘俶被赵光义暗杀,孙太真见证钱氏融宋

动物奇奇怪怪
2026-01-25 02:45:08
大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,卖不动了

大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,卖不动了

毒sir财经
2025-11-16 23:08:08
自称“性商教母”,近50岁网红“黑白颠周媛”主账号已被封,中国妇女报发表评论

自称“性商教母”,近50岁网红“黑白颠周媛”主账号已被封,中国妇女报发表评论

扬子晚报
2026-01-23 07:37:10
牛啊!中国奥运冠军宣布怀孕,挺孕肚仍做出“一字马”,肚大如箩

牛啊!中国奥运冠军宣布怀孕,挺孕肚仍做出“一字马”,肚大如箩

二疯说球
2025-12-06 11:12:18
官媒发文,63岁俞敏洪再破天花板,让董宇辉和整个商界沉默了

官媒发文,63岁俞敏洪再破天花板,让董宇辉和整个商界沉默了

白日追梦人
2026-01-25 08:11:14
四川街头惊现外地救护车 引发群众猜疑和恐慌

四川街头惊现外地救护车 引发群众猜疑和恐慌

七彩云南简南俊
2026-01-25 17:56:40
贝克汉姆长子抨击父母,小儿子发文暗讽哥哥忘本:你以为你是谁?

贝克汉姆长子抨击父母,小儿子发文暗讽哥哥忘本:你以为你是谁?

乡野小珥
2026-01-23 16:14:15
一位刚退休的国企中层干部透露:如今国企晋升通道就剩一条路了

一位刚退休的国企中层干部透露:如今国企晋升通道就剩一条路了

涵豆说娱
2026-01-17 15:15:00
2026-01-26 04:12:49
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4502文章数 37400关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

艺术
家居
房产
手机
军事航空

艺术要闻

这些肖像看完直呼“爽”!真是好久都没有看到了!

家居要闻

在家度假 160平南洋混搭宅

房产要闻

正式官宣!三亚又一所名校要来了!

手机要闻

荣耀泡泡玛特联名手机开售,后续新机再曝

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版