网易首页 > 网易号 > 正文 申请入驻

智源悟界 · Emu3.5 重塑世界模型格局:首提多模态 Scaling 范式,AI 理解世界再进化

0
分享至



再次刷新世界模型天花板。

世界模型赛道又卷出了新高度。

今天,北京智源人工智能研究院(BAAI)发布大规模多模态世界模型“悟界·Emu3.5”,它不仅能以惊人的逼真度模拟复杂的动态物理世界,还揭示了“多模态Scaling范式”的存在。

话不多说,让我们先看效果。

•世界探索

•具身操作

视觉指导

输入Prompt “如何制作虾仁芹菜饺子”,模型输出从原料、拌馅儿、包饺子、煮饺子到最后上菜的过程,按步骤、有逻辑、符合事实,而且图像生动逼真。


•视觉故事

•图像编辑和生成

从OpenAI 的Sora到Goolge DeepMind 的Genie,从Yann LeCun的JEPA到李飞飞团队的Marble,巨头菁英们纷纷入局,已经充分证明了世界模型的潜力。

然而,当视觉的“逼真度”趋于极限,一个更根本的问题浮出水面:

是否存在一条统一、简洁且可规模化扩展的路径,从第一性原理出发,让模型从海量的多模态数据中,自主学习到世界运行的内在因果与规律,让模型真正(以自己的方式)掌握我们这个物理世界运行的根本规律?

这正是智源研究院想要回答的问题。

01

悟界·Emu3.5:大道至简与规模化的力量

2024年10月,智源发布了原生多模态世界模型“悟界·Emu3”,该模型基于单个Transformer模型进行“下一个token预测”,无需扩散模型或组合方法,实现了图像、文本、视频的大一统。模型一经上线便在技术社区引发热议。

不过,Emu3的成功也引出了更多值得探讨的议题——模型如何高效学习长视频?如何实现通用的多模态交互?如何在万亿乃至更多 token 下高效推理?

Emu3.5继承并深化了Emu3的技术哲学:基于一个极其简单、统一的自回归预测目标“下一状态预测(Next-State Prediction,NSP)”,加上一个足够通用的模型架构,并在海量的多模态数据上充分训练。

而答案,也自动涌现。

1.原生多模态统一架构

悟界·Emu3.5是一个单一的34B 稠密Transformer模型。不同模态的信息,从输入端开始便被统一编码为离散的Token序列。整个处理过程都是在一个端到端的、自回归框架内原生完成,实现了真正的模态统一。

2.“预测下一状态”的单一目标

Emu3.5的训练目标只有一个:预测交错的视觉-语言序列下一个最有可能的状态(State)。这个目标看似简单,却迫使模型学会洞察现实世界如何运行。正如 LLM通过预测“下一个token”来学习人类语言,Emu3.5 通过预测“下一个状态”,学会了动态物理世界的“语法”。

3.超 10 万亿 Token 的多模态数据集

智源Emu团队构建了一个超过 10 万亿 token 的多模态数据集。其中,最关键的组成部分是训练时长总计约 790 年的视频,以及这些视频对应的语音转录文本,两者合在一起构成了视频-文本交错数据(Video-Text Interleaved Data)。

通过将视频帧与其对应的语音转录文本交错排列进行训练,模型能沉浸式地接触到时空、物理、因果等世界信息。

4.首次揭示多模态Scaling范式

Emu3.5的技术报告指出,随着预训练计算量的持续增加,模型在分布外(Out-of-Distribution,OOD)的全新任务上的错误率呈现出可预测的、平滑的下降曲线。这意味着模型学到的世界知识,能够稳定地泛化至训练数据之外的未知领域。


悟界·Emu3.5 的优化过程平滑稳定,并在多个验证集上展现出强大且一致的泛化表现

从 Emu3 到 Emu3.5,模型规模从 8B 增加到 34B,视频数据训练量从 15 年扩展至 790 年,研究人员观察到一系列核心指标,包括时序一致性、跨模态语义推理、具身交互规划等核心指标,均有了显著提升。

这一发现的重要性,不亚于当年GPT-3论文揭示语言模型Scaling Law的情景。

Scaling Law之所以重要,在于进步是可预测的,不再需要“撞大运”式地调整模型结构或训练技巧,只要持续增加投入,模型的性能就会稳定提升。

对于企业和研究机构而言,多模态Scaling范式的存在,意味着世界模型的研究也能够从“炼金术”时代进入“工程学”时代。

如果投入产出比是可计算的,无疑会极大地增强整个行业对大规模投入世界模型研发的信心。

02

开启多模态世界模型的新时代

世界模型之所以成为必争之地,在于其战略意义:谁掌握了最强的世界模型,谁就掌握了通往通用机器人、L5自动驾驶乃至AGI的钥匙。

Emu3.5提出的“原生多模态+单一自回归”的技术范式,以及其所揭示的多模态Scaling范式,为整个领域提供了一条清晰的进化路线。

这也预示着,接下来的世界模型竞赛,将不再仅仅是生成视频的质量比拼,而是模型规模、数据规模、对物理世界理解深度等等的全方位的竞争。

我们正站在一个新时代的门槛上。智源悟界·Emu3.5,或将成为推动机器从认知到行动、从虚拟走向现实的那座关键里程碑。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“天河机场飞机冲上街头”?官方回应来了

“天河机场飞机冲上街头”?官方回应来了

鲁中晨报
2025-11-04 18:11:04
男子与列车相撞致死,官方通报

男子与列车相撞致死,官方通报

大风新闻
2025-11-04 17:08:03
秦雯“袭警录音门”发酵升级!她是三八红旗手,网传配偶比较厉害

秦雯“袭警录音门”发酵升级!她是三八红旗手,网传配偶比较厉害

火山诗话
2025-11-04 06:13:25
自导自演!印度媒体称,已向中国施压,中国将推迟交付歼-35订单

自导自演!印度媒体称,已向中国施压,中国将推迟交付歼-35订单

军机Talk
2025-11-04 11:33:38
你亲戚提出最炸裂的要求是啥?网友:妯娌让我给她还债,问我要钱

你亲戚提出最炸裂的要求是啥?网友:妯娌让我给她还债,问我要钱

带你感受人间冷暖
2025-11-03 00:15:03
伤亡巨大!俄库尔斯克州遇袭,近2000人伤亡,数百人下落不明;乌克兰:大量哥伦比亚人参与对俄作战

伤亡巨大!俄库尔斯克州遇袭,近2000人伤亡,数百人下落不明;乌克兰:大量哥伦比亚人参与对俄作战

每日经济新闻
2025-11-04 15:15:11
你无意中看见哪些不可见人的事?网友:成年人的世界都这么污吗

你无意中看见哪些不可见人的事?网友:成年人的世界都这么污吗

带你感受人间冷暖
2025-11-04 00:15:08
全网聚焦!原配妻子强势反攻,这波操作简直“杀人诛心”

全网聚焦!原配妻子强势反攻,这波操作简直“杀人诛心”

一杯咖啡语
2025-11-04 15:08:15
太难了!安徽宣酒全员降薪10%,声称“因受当前经济的严重影响”

太难了!安徽宣酒全员降薪10%,声称“因受当前经济的严重影响”

火山诗话
2025-11-04 17:03:32
三折叠手机用了3个月后屏显异常,男子要退换被拒,京东回应

三折叠手机用了3个月后屏显异常,男子要退换被拒,京东回应

澎湃新闻
2025-11-04 00:32:05
判处死刑!缅北白应苍昔日炫富张狂犹在眼前,今血债血偿报应临头

判处死刑!缅北白应苍昔日炫富张狂犹在眼前,今血债血偿报应临头

可达鸭面面观
2025-11-04 13:26:12
制裁风暴来袭之下:我国炼油厂集体避开俄罗斯油!看来不过如此…

制裁风暴来袭之下:我国炼油厂集体避开俄罗斯油!看来不过如此…

翻开历史和现实
2025-11-04 09:37:00
14岁女孩发视频质问爸爸,四次不敲门盯着看洗澡,后续妇联已介入

14岁女孩发视频质问爸爸,四次不敲门盯着看洗澡,后续妇联已介入

派大星纪录片
2025-11-04 16:36:23
阿根廷总统米莱向自己开刀,居然取消国家媒体和总统特权

阿根廷总统米莱向自己开刀,居然取消国家媒体和总统特权

深度报
2025-11-03 22:51:46
24岁时迪巴拉身价高达1.1亿!但如今仅剩800万,原因真的太扎心!

24岁时迪巴拉身价高达1.1亿!但如今仅剩800万,原因真的太扎心!

田先生篮球
2025-11-04 12:16:13
潘石屹再次预判我国楼市,不出意外,未来3年楼市将迎来“三大走向”

潘石屹再次预判我国楼市,不出意外,未来3年楼市将迎来“三大走向”

亚哥谈古论今
2025-11-03 20:27:36
重大突破!以色列成功植入人工眼角膜,又一次走在全球科技前沿!

重大突破!以色列成功植入人工眼角膜,又一次走在全球科技前沿!

霜风如刀
2025-11-03 16:17:25
突然官宣! 中国变相双国籍! 澳洲在内, 华人狂喜! 外籍华人只要这样做, 就能在中国长期定居

突然官宣! 中国变相双国籍! 澳洲在内, 华人狂喜! 外籍华人只要这样做, 就能在中国长期定居

澳洲红领巾
2025-11-04 13:05:00
中芯国际工厂内的光刻机快撑不住了,800亿美元设备恐变废品?

中芯国际工厂内的光刻机快撑不住了,800亿美元设备恐变废品?

普陀动物世界
2025-11-04 14:51:32
上官正义遭死亡威胁,2000万买命+艾滋注射威胁!杭州警方已立案

上官正义遭死亡威胁,2000万买命+艾滋注射威胁!杭州警方已立案

阿伧说事
2025-11-04 09:42:58
2025-11-04 19:00:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6965文章数 20703关注度
往期回顾 全部

科技要闻

硅谷甄嬛传:奥特曼优雅挑衅马斯克狠狠回击

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

头条要闻

上海一老小区居民因加装电梯引争执 调解时一老人猝死

体育要闻

27岁热刺门将,夺冠后退役当导演

娱乐要闻

爸爸去哪儿6孩子现状,个个不同

财经要闻

作价40亿美元!星巴克中国易主

汽车要闻

把海岸诗意织进日常 法拉利Amalfi重塑超跑生活方式

态度原创

数码
教育
艺术
本地
公开课

数码要闻

600多元起,这些热门AMD主板千万别错过

教育要闻

L1寒·春︱情绪管理、接纳自我、理解他人...6-7岁孩子需要学的这里都有

艺术要闻

何镜堂院士出手!广州再添150米新地标

本地新闻

秋颜悦色 | 在榆中,秋天是一场盛大的视觉交响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版