网易首页 > 网易号 > 正文 申请入驻

Yann LeCun朝“世界模型”理论迈一步,Meta开源“像人一样学习”的图像模型 | 最前线

0
分享至

文 | 周鑫雨

编辑 | 苏建勋

六根手指、机器猫圆手……手部细节一直是图像生成式AI的盲区。

用Midjourney生成的图,手部有6根手指。

而如今,这一图像生成的阿喀琉斯之踵有望被Meta破解。6月14日,Meta 推出了I-JEPA(Image Joint Embedding Predictive Architecture, 图像联合嵌入预测架构),实现无需手动变换图像对额外知识进行编码的情况下,生成基于世界常识的图像。

这一研究由纽约计算量子物理中心研究院Anna Dawid,以及图灵奖获得者Yann LeCun共同提出——I-JEPA也被视作继LeCun提出“世界模型(World Model)”构想后,第一个卓有成效的进展。

从自回归到世界模型

为何图像生成模型普遍难以精确生成手部?其根本原因在于以自回归为框架的模型缺乏对现实世界的常识。

在自回归框架下,模型利用当前的上文信息对下文信息进行预测。应用至图像生成领域,“图像像素”则成了上下文信息:自回归模型通过将训练图像转换为一维序列输入,利用Transformer转换器自回归预测图像像素。

这一方法的优势在于可以很好地建立像素和高级别属性,如纹理、语义和尺寸等属性之间的关系。但劣势依然明显,由于缺乏常识,模型对图像像素的预测时常违反常理,比如“六根手指”——这也造成了自回归模型常出现的“幻觉”现象。

LeCun认为,想要让AI接近人类水平,其需要像婴儿一样学习世界如何运作。由此,他提出了“世界模型”的概念,解决方案即为JEPA(联合嵌入预测架构)。

JEPA通过一系列的编码器提取世界状态的抽象表示,并使用不同层次的世界模型预测器,来预测世界的不同状态,并在不同的时间尺度上做出预测。

LeCun在论文中提出的基于“世界模型”的自主化AI的模块化结构。图源:论文

在智源大会的演讲中,LeCun有关“层级规划”举了一个例子:我想从纽约前往北京,第一件事是去机场,第二件事是乘去往北京的飞机,最终的代价函数(cost function)可以表示从纽约到北京的距离。那么我该如何去机场?解决方案是把任务分解到毫秒级,通过毫秒级的控制来找到预测成本最小的行动序列。

LeCun表示,所有复杂的任务都可以通过这种“分层”的方式完成,而层次规划则是其中最大的挑战。

迈向“世界模型”的第一步

为何说I-JEPA是迈向“世界模型”的一步?

从训练原理来看,I-JEPA预测的并非是图像像素,而是抽象的预测目标。其中的预测器能够从部分可观察的上下文中,对静态图像中缺失的空间进行模拟。

基于图像的联合嵌入预测体系结构:使用单个上下文块来预测来自同一图像的各种目标块。图源:论文

I-JEPA训练过程:给定一张图像,从中随机抽取4个目标块,比例范围为(0.15,0.2),宽高比范围为(0.75,1.5)。接下来,随机采样一个范围为(0.85,1.0)的上下文块,并删除任何重叠的目标块。在这种策略下,目标块是相对语义化的,而上下文块在保证信息量足够大的同时又很稀疏(处理效率高)。图源:论文

为了理解可观察的内容,Meta训练了一个随机解码器和生成模型,将I-JEPA预测的内容映射为像素,再输出为预测的内容草图。

I-JEPA预测器可以正确地捕捉空间的不确定性,并正确生成预测对象的部件(例如,鸟的背部和汽车的顶部)。图源:论文

从效果而言,I-JEPA的计算效率远高于主流计算机视觉模型。比如Meta在72小时内用了16块A100训练了一个参数规模为632M的视觉Transformer模型,所用GPU小时数是一般方法的1/10到1/2,并且在相同训练数据量下,误差率更低。

与以前的方法相比,I-JEPA所需的计算量更少,性能更强:与MAE和data2vec相比,I-JEPA所需的预训练时间更少。与iBOT相比,I-JEPA所需的手动标注的数据更少。与此同时,最大的I-JEPA模型(ViT-H/14)比其他两款中最小的模型(ViT-H/16)所需的计算更少。图源:论文

I-JEPA已经显示出世界模型在图像生成上的作用。可预见的是,JEPA在视频、音频等更多模态的预测和生成中将发挥作用。目前,I-JEPA的训练代码和模型检查点已在GitHub上开源。

I-JEPA论文链接:https://arxiv.org/pdf/2301.08243.pdf

JEPA原理解释论文链接:https://arxiv.org/abs/2306.02572

GitHub链接:https://t.co/DgS9XiwnMz

欢迎交流

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尼克斯七擒哈登,骑士众将都看傻了,真是一下都防不了

尼克斯七擒哈登,骑士众将都看傻了,真是一下都防不了

兵哥篮球故事
2026-05-20 13:44:46
QClaw暴跌99.19%,从“AI革命”到“一地虾壳”,谁在裸泳?

QClaw暴跌99.19%,从“AI革命”到“一地虾壳”,谁在裸泳?

钛媒体APP
2026-05-19 11:58:13
“一媳两用”太荒唐!侯耀文刚走,侄儿就娶了师婶,如今后悔吗?

“一媳两用”太荒唐!侯耀文刚走,侄儿就娶了师婶,如今后悔吗?

子芫伴你成长
2026-05-18 23:09:24
云南电工挫败黑社会团伙,1人对抗120名混混,造成对方9死48伤

云南电工挫败黑社会团伙,1人对抗120名混混,造成对方9死48伤

莫地方
2026-05-15 01:30:04
医生发现:能活到90岁的冠心病人,基本在60岁,就已经不做6事了

医生发现:能活到90岁的冠心病人,基本在60岁,就已经不做6事了

华庭讲美食
2026-05-20 13:13:45
尘埃落定!欧冠落幕,萨队变脸太快,樊振东的真心被辜负了?

尘埃落定!欧冠落幕,萨队变脸太快,樊振东的真心被辜负了?

阿裤趣闻君
2026-05-20 11:41:38
新亚洲一哥!西决首秀创4大记录!20岁攻防一体,未来或超越哈登

新亚洲一哥!西决首秀创4大记录!20岁攻防一体,未来或超越哈登

兵哥篮球故事
2026-05-19 14:55:19
某些人的良心彻底烂了!

某些人的良心彻底烂了!

胖胖说他不胖
2026-05-19 11:50:06
国民党团批赖清德“5·20”讲话:了无新意,难以回应民生困境焦虑

国民党团批赖清德“5·20”讲话:了无新意,难以回应民生困境焦虑

海峡导报社
2026-05-20 15:28:03
主角:胡三元出狱!原来,这才是花彩香至死不和张光荣离婚的真相

主角:胡三元出狱!原来,这才是花彩香至死不和张光荣离婚的真相

慢半拍sir
2026-05-19 21:06:01
藏身墓地、昼伏夜出、不留指纹!周克华8年悬案,为何震动全国?

藏身墓地、昼伏夜出、不留指纹!周克华8年悬案,为何震动全国?

混沌录
2026-05-19 11:48:28
医生忠告:肺癌早期不是咳嗽,而是频繁出现这3个症状,小心异常

医生忠告:肺癌早期不是咳嗽,而是频繁出现这3个症状,小心异常

芹姐说生活
2026-05-20 15:00:20
京东上海总部大楼“歪了”,4800亿的中建八局管不住一个爬爪?

京东上海总部大楼“歪了”,4800亿的中建八局管不住一个爬爪?

混沌录
2026-05-19 19:45:19
论文打假博主耿同学:只打假杰青、长江学者,不针对普通学生

论文打假博主耿同学:只打假杰青、长江学者,不针对普通学生

总在茶余后
2026-05-18 12:07:46
尼克斯登全美第1热搜!44-11逆转创纪录 布伦森训话激发团队意志

尼克斯登全美第1热搜!44-11逆转创纪录 布伦森训话激发团队意志

颜小白的篮球梦
2026-05-20 11:57:36
都是 34.98 万,问界 M7 还在“选装 ”,奥迪E7X已经 “满配 ”

都是 34.98 万,问界 M7 还在“选装 ”,奥迪E7X已经 “满配 ”

双簧线
2026-05-10 16:28:49
上海开启阴雨模式,是梅雨提前了吗?市气象部门:不符合典型梅雨标准

上海开启阴雨模式,是梅雨提前了吗?市气象部门:不符合典型梅雨标准

纵相新闻
2026-05-20 10:26:02
柬埔寨突袭太子广场104人落网,太子集团在港别墅等近90亿港币资产被冻结

柬埔寨突袭太子广场104人落网,太子集团在港别墅等近90亿港币资产被冻结

红星新闻
2026-05-20 13:31:13
太可怕了!小孩吃的手撕肉干,被蚂蚁吃了全死,海南宝妈曝出真相

太可怕了!小孩吃的手撕肉干,被蚂蚁吃了全死,海南宝妈曝出真相

火山詩话
2026-05-20 06:25:09
一万吨白糖!我们必须帮忙清掉!

一万吨白糖!我们必须帮忙清掉!

张晓磊
2026-05-09 11:24:42
2026-05-20 15:51:00
36氪 incentive-icons
36氪
让一部分人先看到未来
151408文章数 2848767关注度
往期回顾 全部

科技要闻

一文看懂谷歌I/O2026:谷歌打响智能体大战

头条要闻

搞了17年的英国高铁2号线再次超支延期:速度还降了

头条要闻

搞了17年的英国高铁2号线再次超支延期:速度还降了

体育要闻

不再美丽的阿森纳,终于成为英超冠军

娱乐要闻

王菲“没事儿”,成年人学不来的松弛

财经要闻

白酒榜|汾酒营收净利双增 口子窖"造富"

汽车要闻

焕新极氪009上市41.38万起 齐家版让MPV回归家庭

态度原创

数码
亲子
时尚
本地
房产

数码要闻

618潮流轻薄本怎么选?华硕无畏16SE 2026别错过,移动办公利器

亲子要闻

孩子在家不听话,今天学校开放日,看看孩子在学校表现如何

为了攻克渐冻症,她把自己活成了“破冰”的人

本地新闻

用云锦的方式,打开江苏南京

房产要闻

别被中介带了节奏,你的房子可能比你想的值钱

无障碍浏览 进入关怀版