网易首页 > 网易号 > 正文 申请入驻

OpenAI 的 Sora 注定死路一条!Yann LeCun 火力全开怒喷:这种实现方式“完全没有现实意义”

0
分享至


编译|核子可乐、Tina

近日,OpenAI 发布的视频生成模型 Sora 成为全球焦点。与以往只能生成几秒钟视频的模型不同,Sora 可生成长达 60 秒的高清视频。

英伟达高级研究科学家 Jim Fan 断言,Sora 是一个数据驱动的物理引擎,是一个可学习的模拟器,或“世界模型”。OpenAI 也声称 Sora 是“扩展视频生成模型是构建物理世界通用模拟器的一条可行之路”。这些说法让很多普通人感到非常恐慌,担心这代表了人工智能已经有能力理解人类真实世界,因此这或许代表着人类末日的开始。

而图灵奖得主 Yann LeCun,作为一位“世界模型”的倡导者,他认为 OpenAI 的 Sora 并不理解物理世界,今天他更是直接说 Sora 对“世界模型”的实现方式,注定是死路一条。


Yann LeCun 火力全开

之前, OpenAI Sora 研发成员 Aditya Ramesh 发布了一个关于一只蚂蚁“在蚁巢内部移动的视角镜头”的视频,但视频里面的蚂蚁只有四条腿。


Yann LeCun 随后对其喊话:“Aditya,蚂蚁难道不是有 6 条腿吗?”“作为曾在我实验室待过的学生,我担保他知道蚂蚁有 6 条腿!”


4 条腿的蚂蚁的确不符合真实世界的实际情况,Yann LeCun 也认为根据提示词生成看似真实的视频绝不代表系统真的理解物理世界。


这样的图像生成跟世界模型的因果预测间仍然存在重大差异。或者说,让视频内容看似合理的空间非常大,视频生成系统只需生成其中“一种”样本即可算作成功。但真实视频的合理连续空间要“小得多”,而且生成其中的代表性图块更是一项极为困难的任务,在涉及各种动作的情况下更是如此。

此外,他还强调,这种连续生成不仅成本高昂,而且完全没有现实意义。

Visualization of Slicing Video Temporal Data — Source: kitasenjudesign


Visualization of Spacetime Patching (Processing) — Credit: OpenAI (Sora)

在今天的推文中,他更是直言 Sora 这种通过生成像素来对真实世界建模“不仅是种浪费,而且注定将要失败”,如同现在已经被基本放弃的“合成分析”技术一样。

Yann LeCun 解释说,几十年前,机器学习领域曾经就生成式方法与判断式分类方法的优劣对比展开过一场大辩论。数学家 Vapnik 等机器学习理论研究者明确反对生成式方法,认为生成模型的训练要比分类模型更困难(从样本复杂性角度出发)。总而言之,整个计算机视觉领域普遍认定像素的生成应该从解释潜在变量入手。毕竟在推理过程中,人类就是在根据观察到的像素推断出反映规律的潜在变量。正确的推理方法还涉及优化部分:比如使用对象的 3D 模型并尝试找到能够重现图像的姿态参数。遗憾的是,这个路子一直没能彻底走通,而且速度非常缓慢。

后来,有些人选择了贝叶斯路线,尝试使用贝叶斯推理来推断潜在变量(例如使用变分近似及 / 或采样)。非参数贝叶斯与潜在狄利克雷分配都在某种程度上主导过文本建模,有些人开始勇敢尝试借此识别图像中的具体对象。但这同样是一场彻头彻尾的失败!

Yann LeCun 认为,如果现在的目标是训练出用于识别或规划真实世界的模型,那么在像素层面进行预测肯定不是什么好主意。

只能说生成技术恰好适用于文本,因为文本内容属于离散的、数量有限的符号。在这种情况下,预测过程中的不确定性更容易处理。相比之下,对高维连续感官输入中的不确定性进行预测则非常困难。

正因为如此,依靠感官输入的生成模型注定将会失败。

Yann LeCun 认为的

更好的办法是什么?

作为人类,我们对周遭世界的了解和大部分知识(特别是在童年时代)主要是依靠观察而来。以牛顿运动定律为例,即使是未经任何引导的幼儿或者小动物,也会在多次触碰并观察之后意识到,一切抛掷的物体终将落向地面。是的,只需一点观察,而非耗费几个小时的指导或者阅读上千本学术著作。我们内心深处的世界模型(基于世界心理模型的情境理解能力)完全可以准确预测结果,而且效率非常高。

所以 Yann LeCun 认为实现“世界模型”的方式,应该是让机器智能像人类般学习、建立起周遭世界的内部模型,从而高效学习、适应并制定计划以完成种种复杂的任务。

这也是他提出的 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)的核心特点所在:它并不是在“生成”,而是在表示空间中进行预测。

在他前几天发布的推文结尾,他又给大家安利了一遍 JEPA 的论文和他们的试验结果表:


截图来源:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

备受瞩目的视频 JEPA

V-JEPA 是一种非生成模型,通过预测抽象表示空间中视频的缺失 / 遮蔽部分来进行学习。这种方法与图像联合嵌入预测架构(I-JEPA)对图像抽象表示的比较(而非直接比较像素本身)有异曲同工之妙。不同于尝试填充每个缺失像素的生成式方法,V-JEPA 能够灵活丢弃各种不可预测的信息,从而将训练与采样效率提高 1.5 至 6 倍。

由于 V-JEPA 采用自监督学习方法,因此可以纯依靠未经标注的数据进行预训练。这些标签仅在预训练之后被用于保证模型能够适应特定任务。事实证明,这种类型的架构比以往模型更加高效,不仅训练需要的标注示例更少、在学习未标注数据方面投入的总工作量也更低。借助 V-JEPA,Meta 在这两项指标上均迎来了改进。

使用 V-JEPA,研究团队遮蔽掉了视频中的大部分内容,借此让模型仅能观察到小部分上下文。之后,再要求预测器填补缺失的空白——请注意,填补过程并非根据实际像素,而是依托表示空间中更抽象的内容描述。


在学习潜在空间中,V-JEPA 通过预测被遮蔽的时空区域来训练视觉编码器。

遮蔽方法

V-JEPA 的这种理解并非来自对某一特定操作类型的训练;相反,它是在一系列视频之上完成了自监督训练,并借此掌握了大量关于真实世界运行规律的知识。

研究团队还认真设计了遮蔽策略——如果不遮挡视频中的大块区域,而是随机在各处覆盖内容,那么任务就会变得过于简单,导致模型学不到真实世界中的任何复杂规律。

另外需要注意的是,在大多数视频中,对象随时间推移的变化其实相对缓慢。如果只遮蔽特定时刻下视频中的某个部分,而模型仍能观察到紧随其前 / 其后的内容,任务同样会变得过于简单,导致其无法学习到有趣的知识。因此,研究团队采取一种方法,在空间与时间两个维度上遮蔽视频的部分内容,强迫模型学习并加深对于场景逻辑的理解。

保证在抽象表示空间中进行预测同样非常重要,这样模型才能专注于实际视频内容所反映出的更高级别概念信息,而忽略掉那些对于下游任务意义不大的各类细节。举例来说,如果视频画面中是一棵树,那么就并不需要关心每片叶子的细小运动。

高效预测

V-JEPA 是首个擅长“冻结评估”的视频模型,换句话说,模型的编码器与预测器均可实现自监督预训练,研究人员不必再做具体操作。想让模型掌握一项新技能,只需要额外训练一个小型轻量级专业层、或者在其上训练一个小型网络,整个过程更加高效快速。


少样本冻结评估:将 V-JEPA 与 Kinetics-400 和 Something-Something-v2 等其他视频模型中的冻结评估进行比较,这里我们改变了每套数据集上可用于训练注意力探针的标注示例百分比。我们在几种少样本设置中进行探针训练:分别对应训练集中 5%、10% 和 50% 的数据,并在每种情况下进行三轮随机比较以获得更稳健的指标,也就是分别对每套模型进行 9 次不同的评估实验。表中列出了官方验证的 K400 与 SSv2 验证集的平均值与标准差。V-JEPA 的标记效率的确高于其他模型,而且可用标注示例数量越少,V-JEPA 相较于其他模型的性能优势也越明显。

以往的生成式模型要求我们进行全面微调,就是说在模型预训练完成之后,如果希望模型能够真正掌握对细粒度动作的识别能力、利用它来处理实际任务,还需要更新所有模型中的参数或者权重。之后,该模型总体上只能执行一类特定任务,而不再适用于其他任务类型。

如果想要引导模型学会执行多种任务,则需要提供不同的数据,并针对新任务对整个模型进行特化。而正如 Meta 在研究中所演示的那样,使用 V-JEPA,我们可以在没有任何标注数据的前提下对模型进行一次预训练、修复相应问题,然后重复利用模型中的相同部分处理多种不同任务,例如动作分类、识别细粒度对象交互及活动定位等。


V-JEPA 是一种从视频中学习表示的自监督方法,适用于各类下游图像及视频处理任务,且无需调整模型参数。V-JEPA 在图像分类、动作分类及时空动作检测等任务的冻结评估方面,优于以往的视频表示学习方法。

虽然 V-JEPA 中的“V”代表视频,但并不是说它的适用范围就仅限于视频内容。后续 Meta 还将采用其他多模态方法,并认真考虑将音频与视觉效果结合起来。

虽然目前 V-JEPA 还只能在较短的时间维度上发挥作用——比如在不超过 10 秒的视频片段中准确识别不同对象的行为。但 Meta 接下来的另一项研究重点,在于如何调整模型以在更长的时间范围内实现准确预测。

目前的结果证明,Meta 目前可以直接用视频数据训练 JEPA 模型,而不再需要大量监督和介入。它会像婴儿般从视频中学习,凭借被动观察世界来学习有助于理解内容上下文的背景知识。这样,只须配合少量标注数据,就能让模型快速获得执行新任务、识别各种动作的能力。

https://twitter.com/ylecun/status/1759486703696318935

https://twitter.com/ylecun/status/1758740106955952191

https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

声明:本文为 InfoQ 翻译整理,未经许可禁止转载。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老百姓一身债、企业一身债、各地城投也一身债,钱都去哪了?

老百姓一身债、企业一身债、各地城投也一身债,钱都去哪了?

小萝卜丝
2024-04-10 10:53:48
房子物业费收取重磅新规:半年以上空置房可申请减免物业费

房子物业费收取重磅新规:半年以上空置房可申请减免物业费

诉人世间
2024-04-15 09:10:37
伟大的10-0!中国名将创纪录,傅家俊出师不利,世界冠军翻车?

伟大的10-0!中国名将创纪录,傅家俊出师不利,世界冠军翻车?

刘姚尧的文字城堡
2024-04-15 03:10:57
俄方宣布普京计划访华,不到24小时,美高官对中俄关系划红线

俄方宣布普京计划访华,不到24小时,美高官对中俄关系划红线

我是娱乐哥
2024-04-15 09:34:14
张伟丽赛后与扎克伯格聊天合影,张伟丽:柔术训练等他伤愈就安排

张伟丽赛后与扎克伯格聊天合影,张伟丽:柔术训练等他伤愈就安排

直播吧
2024-04-14 17:05:43
5名军人手持密令硬闯公安局,军人警察对峙,震惊整个山东省

5名军人手持密令硬闯公安局,军人警察对峙,震惊整个山东省

冰痕迹
2024-04-14 20:24:11
九华山坐缸尼姑是药王菩萨转世,曾参加抗美援朝,开缸后震惊世人

九华山坐缸尼姑是药王菩萨转世,曾参加抗美援朝,开缸后震惊世人

真实故事汇
2024-04-09 10:10:40
13年前,冲动买了10万个比特币的新东方老师,现状如何?

13年前,冲动买了10万个比特币的新东方老师,现状如何?

二次元小韩
2024-04-13 13:30:10
深圳女子回国邀16名同学聚餐,茅台帝王蟹随便吃,结账全场愣住

深圳女子回国邀16名同学聚餐,茅台帝王蟹随便吃,结账全场愣住

佳琪Feeling
2024-04-07 19:13:33
她早就不是中国国籍了?靠登上春晚走红,却崇洋媚外榨干了自己

她早就不是中国国籍了?靠登上春晚走红,却崇洋媚外榨干了自己

橘子大娱社
2024-04-13 16:55:03
看完大佬们的第一张名片,发现5个亮点!

看完大佬们的第一张名片,发现5个亮点!

元气科技馆
2024-04-11 20:34:37
注意:新疆出现新型骗局,已有多人上当,人均损失百万……

注意:新疆出现新型骗局,已有多人上当,人均损失百万……

陈洪涛
2024-04-15 09:59:12
普京心情糟透了!前脚希腊援乌32架F-16,后脚挪威又送来了22架

普京心情糟透了!前脚希腊援乌32架F-16,后脚挪威又送来了22架

娱宙观
2024-04-12 10:01:06
“吉林一姐男宠”白金:1米80肌肉发达,被抓后却翻脸不认人

“吉林一姐男宠”白金:1米80肌肉发达,被抓后却翻脸不认人

一场奇遇日记
2023-10-12 21:41:02
想不通:为什么国内很多人不喜欢米莱,抨击他的文章泛滥成灾?

想不通:为什么国内很多人不喜欢米莱,抨击他的文章泛滥成灾?

杂谈哥闲谈
2024-04-12 23:48:10
自报中将,最后却被授予上将,毛主席:中央委员不能少了他的名字

自报中将,最后却被授予上将,毛主席:中央委员不能少了他的名字

历史龙元阁
2024-04-14 12:53:49
杨尚昆问刘源:你说说当年干嘛要打倒你爸爸?刘源是如何回答的?

杨尚昆问刘源:你说说当年干嘛要打倒你爸爸?刘源是如何回答的?

蹲马桶看历史
2024-04-01 11:01:33
“狠活”来了!转让五座水库使用权,这是转让的命脉吗?

“狠活”来了!转让五座水库使用权,这是转让的命脉吗?

影视解说阿相
2024-04-14 23:38:47
泳池里的饱满身材,很危险哦

泳池里的饱满身材,很危险哦

娱乐圈酸柠檬
2024-03-29 03:22:14
回顾:女子从事带货主播,因身材走红网络,网友:不介意你结过婚

回顾:女子从事带货主播,因身材走红网络,网友:不介意你结过婚

大脸猫做局
2024-04-09 16:16:44
2024-04-15 14:14:44
InfoQ
InfoQ
有内容的技术社区媒体
9694文章数 49242关注度
往期回顾 全部

科技要闻

不叫P70!华为升级P为Pura,意欲何为?

头条要闻

失联中国留学生确认遇害 悉尼凶案6名死者身份披露

头条要闻

失联中国留学生确认遇害 悉尼凶案6名死者身份披露

体育要闻

疯狂药厂!数万人冲进场 高歌致敬阿隆索

娱乐要闻

梁朝伟获影帝,击败林保怡引发质疑

财经要闻

高管都被边控?万科回应一切!

汽车要闻

刘涛:数字底盘和固态电池是智己大招

态度原创

手机
教育
艺术
数码
军事航空

手机要闻

荣耀下半年新机发布计划曝光:年底推小尺寸旗舰机

教育要闻

L8暑·秋|如何探索和建立自己的价值观?成长为独立、幸福的个体

艺术要闻

步入“奇想集”:观澜国际版画收藏展 将于嘉德艺术中心开放

数码要闻

倍思推出11合1桌面USB-C扩展坞:100W充电/10Gbps传输,799元

军事要闻

也门对以色列发动无人机袭击

无障碍浏览 进入关怀版