LeCun预言成真！790年长视频，炼出最强开源「世界模型」|算法|模态|序列|新模型

分享至

新智元报道

编辑：桃子好困

【新智元导读】AI第三种Scaling范式来临！多模态原生世界模型Emu3.5出世，340亿参数，基于790年长视频数据完成训练。即生3D世界，每张图片推理速度飙升20倍。

2025年，「世界模型」成为了AI巨头们厮杀的战场。

谷歌发布的Genie 3，一句话即可生成一个720p实时模拟的新世界。甚至，网友将其称之为「游戏引擎2.0时代」。

李飞飞World Labs团队也推出了一款实时生成世界模型——RTFM，仅用一块H100渲染出3D世界。

此外，还有Meta FAIR打造的「代码世界模型」（CWM）、Runway的「通用世界模型」（GWM）、特斯拉的神经网络模拟器等，AI界玩家们都在积极布局。

尤其是，多模态领域的「世界模型」，成为了他们加码的核心点。

一直以来，李飞飞、LeCun等站队「世界模型」AI大佬们认为，仅凭语言，AI是无法复制人类智能，还需要理解和模拟物理解释。

世界模型，便是终极答案。它可以模仿人类对周围环境形成的「心智模型」来预测世界。

就在上周，人工智能领域再次迎来一枚深水炸弹。

北京智源研究院（BAAI）正式发布了其悟界·Emu系列的最新成果——Emu3.5。

在技术交流会上，智源研究院院长王仲远博士将其定位为「开启多模态世界大模型新纪元」的里程碑。

「并不一定所有的大模型技术路线都要完全跟随别人已经走过的路，我们自己也在开创一些新的技术路径。」王仲远表示，「Emu系列是我们自己走出来的技术路线，我们是引领性的。」

与当前主流的、将理解与生成分开处理的「模块拼接式」多模态模型（如LLM+CLIP及DiT架构）不同，Emu3.5回归「第一性原理」，像人类一样从连续、长时程的视觉经验中学习，用统一的自回归架构实现了对多模态世界的原生理解与生成。

「通过悟界·Emu3，我们验证了自回归架构实现多模态理解与生成大一统的可行性，」王仲远表示，「从Emu3到Emu3.5，我们证明了多模态也存在一个Scaling的范式。」

这个340亿参数的模型，在长文本渲染、复杂图像编辑、视觉故事生成等多个维度上，其表现足以让业界惊叹「Wow」。更重要的是，它所展现出的对物理世界动态、因果、时空、逻辑的深刻理解，预示着AI正加速从数字世界迈向物理世界。

智源公开了长达45页的详尽技术报告，将其数据处理、模型架构、训练方式、推理加速等技术细节全盘托出。

项目主页：https://zh.emu.world

技术报告：https://arxiv.org/pdf/2510.26583

这背后，是智源对「引领人工智能原始创新」的坚持，也是对未来技术路线的自信。

悟界·Emu3.5为当前全球大模型竞赛中的几个根本性问题，提供了一条来自中国的、逻辑自洽且潜力巨大的原创解法：

多模态应该如何统一？——通过原生的、端到端的自回归「Next-State Prediction」范式
世界模型应该学习什么？——学习蕴含了长时程、高一致性等世界知识的长视频数据
如何实现规模化？——借助「预训练+多模态RL」的第三种Scaling范式，复用现有LLM基础设施
如何落地？——通过DiDA等推理加速技术，解决效率瓶颈

第一性原理，像人一样学习

从Next-Token到Next-State

「人类的学习，不是从文本学习开始的。」王仲远在发布会上反复强调这个观点。

婴儿睁开眼，首先感知的是视觉世界，通过观察、交互，逐步理解物理规律、因果关系。语言是在这个基础上发展起来的、用于沟通和泛化的工具。

当前的大语言模型（LLM）在耗尽互联网文本数据后，增长已显疲态。而多模态领域，技术路线尚未收敛。主流的视频和图像生成模型，如Sora、Nano Banana，大多采用Diffusion Transformer（DiT）等混合架构，本质上仍是「拼装」——理解和生成模块分离，难以实现真正的、统一的智能。

Emu系列从诞生之初，就选择了另一条更艰难但更本质的道路：原生多模态。

Emu3.5继承并极大地发展了这一理念。它采用了一个极其简洁但强大的统一范式：预测下一个状态（Next-State Prediction）。

与LLM预测下一个文本Token类似，Emu3.5将图像、文本、乃至动作指令都「Token化」，置于一个统一的序列中，然后用一个单一的、端到端的自回归Transformer模型来预测序列中的下一个Token。

这个「Token」可以是一段文字描述，也可以是构成图像的一个「视觉词块」，甚至可以是一个指导机器人手臂运动的指令。

这种架构的优越性是显而易见的：

统一性：它彻底打破了理解与生成的壁垒。模型在生成图像时，是基于对上下文（包括之前的图像和文字）的深刻理解。

可扩展性：它能完美复用为LLM构建的、已极其成熟的训练、推理和强化学习基础设施。这意味着，所有在LLM上验证过的Scaling Law和优化技术，理论上都可以在Emu3.5上「再来一遍」。

「我们终于可以在多模态大模型上实现Scaling up了。」王仲远对此充满信心。

第三种Scaling范式

790年长视频数据与大规模多模态RL

如果说统一的架构是骨架，那么海量且高质量的数据就是血肉。

Emu3.5的训练数据量堪称恐怖：超过13万亿多模态Token。

其核心，不再是短视频剪辑或静态的图文对，而是累计时长达790年的互联网长视频，涵盖了纪录片、教学视频、Vlog、游戏动画等。

「长视频里有语音、有交互的文本，它有一个长的上下文，有一致性。」Emu系列研发负责人王鑫龙解释道。相比孤立的数据点，长视频天然蕴含了丰富的时空连续性、因果逻辑和上下文一致性，是学习世界模型的绝佳养料。

为了消化这些海量数据，智源团队构建了一套复杂的自动化数据处理流水线，包括场景分割、语音转文字（ASR）、关键帧提取、质量评估、冗余去除和多模态摘要生成等。

在训练上，Emu3.5的路径清晰而坚定：

大规模预训练

在超过10万亿Token上进行第一阶段预训练，让模型学会基础的多模态对齐和生成能力。整个训练过程「非常稳定」，在多个未见过的下游任务验证集上，损失函数随着算力投入稳步下降，这正是「Scaling范式」存在的有力证据。

大规模多模态强化学习（RL）

这是Emu3.5的另一大创举。众所周知，强化学习是激发LLM（如GPT-4o、DeepSeek-R1）推理和遵循指令能力的关键。但将其应用于更复杂、序列更长的多模态领域，困难重重。

得益于统一的自回归架构，Emu3.5首次实现了统一多任务、多模态的强化学习。团队构建了一个包含通用奖励（如美学、图文一致性）和任务特定奖励（如OCR准确率、人脸ID保持）的复杂奖励系统，通过GRPO算法，在统一的奖励空间内进行优化。

这套「大规模长视频预训练 + 大规模多模态RL」的组合拳，被王仲远称为继语言模型预训练、后训练之后的「第三种Scaling范式」。它指明了一条道路：通过不断增加视频数据、模型参数和算力，多模态世界模型的能力将可预见地持续提升。

黑科技DiDA

自回归模型推理飙升20倍

自回归模型「一个Token一个Token」的生成方式，导致其在生成高清图像（通常一张图就需要数千个Token）时速度很慢。这也是为什么Diffusion模型在生成领域长期占据主导地位。

为了攻克这一难题，Emu3.5团队研发了名为离散扩散自适应（Discrete Diffusion Adaptation, DiDA）的黑科技。

DiDA的核心思想是，在模型完成大规模的自回归预训练和后训练之后，通过一个轻量级的「适应」阶段，将其从「逐个Token预测」的模式，转换为「并行生成」的模式。

具体来说，它借鉴了离散扩散的思想，将图像生成过程变成一个「去噪」过程：模型不再是从左到右生成，而是一次性生成所有「带噪声」的视觉Token，然后在几个步骤内并行地、双向地修正它们，最终恢复出清晰的图像。

效果如何？每张图片的推理速度提升约20倍，且几乎没有性能损失！

这意味着，Emu3.5的自回归模型，在推理效率上首次能够与顶级的闭源Diffusion模型（如Midjourney）相媲美。这不仅是工程上的巨大胜利，更从根本上解决了原生多模态架构的商业化落地瓶颈。

从图像编辑到具身操作，开源最优

理论的先进性最终要靠效果说话。Emu3.5交出的答卷，足以让任何从业者感到兴奋。

顶级的Any-to-Image生成与编辑：

Emu3.5不仅能生成带有复杂公式、中英文对联的高质量图片，其图像编辑能力更是达到了新的高度。在ImgEdit、GEdit-Bench等权威benchmarks上，Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在内的所有公开模型。

高层语义理解：
将指定的人物、特定的场景和任意物品进行组合，Emu3.5可以创作出一个符合逻辑的全新世界，展现了其强大的想象力和世界构建能力。

数字与空间理解：
指令「将图片中标号为4的物体换成电影海报」，模型能精准定位并替换。

视角变换：
给定一张建筑正面图，指令「切换到俯视图」，模型能像拥有3D建模能力一样，合理地生成新视角。

长时序、高一致性的「世界学习」能力：

这部分能力，是Emu3.5作为「世界模型」的核心体现，也是它与其他生成模型拉开代差的地方。在与Gemini 2.5 Flash Image的并列生成对比中，Emu3.5在视觉叙事、视觉指导、世界探索和具身操作等任务上的胜率均显著更高。

视觉叙事（Visual Narrative）：
给定一个主题，Emu3.5能生成一系列图文并茂、情节连贯、主角形象高度一致的绘本故事。这得益于其长序列建模能力，解决了传统模型生成多图时「张张换人」的痛点

给图里的宝宝写个故事，要讲他夏天晚上和萤火虫玩

视觉指导（Visual Guidance）：
如何倒水？如何叠衣服？Emu3.5能像一本活的说明书，通过「图片+文字」的步骤，清晰地展示一个任务的全过程

模型输出结果：如何用黏土和颜料手工制作一个宇航员模型

模型输出结果：如何从种子开始种羽衣甘蓝？

世界探索（World Exploration）：

用户可以用文字定义一个场景，如「一个阳光明媚的现代客厅」，然后通过「向左转」、「向前走」等指令，模型会生成符合逻辑的、连续的探索画面，仿佛置身于一个可交互的虚拟世界。这部分前面的视频已经展示了。

具身操作（Embodied Manipulation）：

这是Emu3.5最具想象力的应用之一。给定一个任务，如「用松灵机械臂把桌面收拾好，12 步完成」，模型能生成一个包含12个步骤的、由松灵机器人手臂执行的图文序列。它不仅规划了子任务，还生成了每个关键步骤的视觉状态。这为解决具身智能领域「数据稀缺」的痛点提供了全新的思路——用世界模型生成海量的、泛化的仿真数据。

智源研究院不仅发布了模型，更公开了详尽的技术报告。这种开放的姿态，旨在邀请全球社区共同探索这条由中国开创的新路。「我们希望这条路后续成为主流的路。」王仲远说，「登珠穆朗玛峰南坡和北坡也许都可以登顶，我们希望我们走的是大家认可的一条路。」

Emu3.5的参数仅为340亿，使用的视频数据不到互联网公开数据的1%。它的能力上限，远未触及。

未来随着模型规模、数据规模的进一步扩大，这个「世界模型基座」还将带来怎样的惊喜，我们拭目以待。

参考资料：

https://zh.emu.world/

https://arxiv.org/pdf/2510.26583

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.