网易首页 > 网易号 > 正文 申请入驻

LeCun预言成真!790年长视频,炼出最强开源「世界模型」

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】AI第三种Scaling范式来临!多模态原生世界模型Emu3.5出世,340亿参数,基于790年长视频数据完成训练。即生3D世界,每张图片推理速度飙升20倍。

2025年,「世界模型」成为了AI巨头们厮杀的战场。

谷歌发布的Genie 3,一句话即可生成一个720p实时模拟的新世界。甚至,网友将其称之为「游戏引擎2.0时代」。

李飞飞World Labs团队也推出了一款实时生成世界模型——RTFM,仅用一块H100渲染出3D世界。


此外,还有Meta FAIR打造的「代码世界模型」(CWM)、Runway的「通用世界模型」(GWM)、特斯拉的神经网络模拟器等,AI界玩家们都在积极布局。

尤其是,多模态领域的「世界模型」,成为了他们加码的核心点。


一直以来,李飞飞、LeCun等站队「世界模型」AI大佬们认为,仅凭语言,AI是无法复制人类智能,还需要理解和模拟物理解释。

世界模型,便是终极答案。它可以模仿人类对周围环境形成的「心智模型」来预测世界。

就在上周,人工智能领域再次迎来一枚深水炸弹。

北京智源研究院(BAAI)正式发布了其悟界·Emu系列的最新成果——Emu3.5。

在技术交流会上,智源研究院院长王仲远博士将其定位为「开启多模态世界大模型新纪元」的里程碑。

「并不一定所有的大模型技术路线都要完全跟随别人已经走过的路,我们自己也在开创一些新的技术路径。」王仲远表示,「Emu系列是我们自己走出来的技术路线,我们是引领性的。」

与当前主流的、将理解与生成分开处理的「模块拼接式」多模态模型(如LLM+CLIP及DiT架构)不同,Emu3.5回归「第一性原理」,像人类一样从连续、长时程的视觉经验中学习,用统一的自回归架构实现了对多模态世界的原生理解与生成。

「通过悟界·Emu3,我们验证了自回归架构实现多模态理解与生成大一统的可行性,」王仲远表示,「从Emu3到Emu3.5,我们证明了多模态也存在一个Scaling的范式。」

这个340亿参数的模型,在长文本渲染、复杂图像编辑、视觉故事生成等多个维度上,其表现足以让业界惊叹「Wow」。更重要的是,它所展现出的对物理世界动态、因果、时空、逻辑的深刻理解,预示着AI正加速从数字世界迈向物理世界。

智源公开了长达45页的详尽技术报告,将其数据处理、模型架构、训练方式、推理加速等技术细节全盘托出。


项目主页:https://zh.emu.world

技术报告:https://arxiv.org/pdf/2510.26583

这背后,是智源对「引领人工智能原始创新」的坚持,也是对未来技术路线的自信。

悟界·Emu3.5为当前全球大模型竞赛中的几个根本性问题,提供了一条来自中国的、逻辑自洽且潜力巨大的原创解法:

  • 多模态应该如何统一?——通过原生的、端到端的自回归「Next-State Prediction」范式

  • 世界模型应该学习什么?——学习蕴含了长时程、高一致性等世界知识的长视频数据

  • 如何实现规模化?——借助「预训练+多模态RL」的第三种Scaling范式,复用现有LLM基础设施

  • 如何落地——通过DiDA等推理加速技术,解决效率瓶颈


第一性原理,像人一样学习

从Next-Token到Next-State

「人类的学习,不是从文本学习开始的。」王仲远在发布会上反复强调这个观点。

婴儿睁开眼,首先感知的是视觉世界,通过观察、交互,逐步理解物理规律、因果关系。语言是在这个基础上发展起来的、用于沟通和泛化的工具。

当前的大语言模型(LLM)在耗尽互联网文本数据后,增长已显疲态。而多模态领域,技术路线尚未收敛。主流的视频和图像生成模型,如Sora、Nano Banana,大多采用Diffusion Transformer(DiT)等混合架构,本质上仍是「拼装」——理解和生成模块分离,难以实现真正的、统一的智能。

Emu系列从诞生之初,就选择了另一条更艰难但更本质的道路:原生多模态

Emu3.5继承并极大地发展了这一理念。它采用了一个极其简洁但强大的统一范式:预测下一个状态(Next-State Prediction)

与LLM预测下一个文本Token类似,Emu3.5将图像、文本、乃至动作指令都「Token化」,置于一个统一的序列中,然后用一个单一的、端到端的自回归Transformer模型来预测序列中的下一个Token。

这个「Token」可以是一段文字描述,也可以是构成图像的一个「视觉词块」,甚至可以是一个指导机器人手臂运动的指令。

这种架构的优越性是显而易见的:

  • 统一性它彻底打破了理解与生成的壁垒。模型在生成图像时,是基于对上下文(包括之前的图像和文字)的深刻理解。

  • 可扩展性它能完美复用为LLM构建的、已极其成熟的训练、推理和强化学习基础设施。这意味着,所有在LLM上验证过的Scaling Law和优化技术,理论上都可以在Emu3.5上「再来一遍」。

「我们终于可以在多模态大模型上实现Scaling up了。」王仲远对此充满信心。

第三种Scaling范式

790年长视频数据与大规模多模态RL

如果说统一的架构是骨架,那么海量且高质量的数据就是血肉。

Emu3.5的训练数据量堪称恐怖:超过13万亿多模态Token

其核心,不再是短视频剪辑或静态的图文对,而是累计时长达790年的互联网长视频,涵盖了纪录片、教学视频、Vlog、游戏动画等。

「长视频里有语音、有交互的文本,它有一个长的上下文,有一致性。」Emu系列研发负责人王鑫龙解释道。相比孤立的数据点,长视频天然蕴含了丰富的时空连续性、因果逻辑和上下文一致性,是学习世界模型的绝佳养料。

为了消化这些海量数据,智源团队构建了一套复杂的自动化数据处理流水线,包括场景分割、语音转文字(ASR)、关键帧提取、质量评估、冗余去除和多模态摘要生成等。

在训练上,Emu3.5的路径清晰而坚定:

  • 大规模预训练

在超过10万亿Token上进行第一阶段预训练,让模型学会基础的多模态对齐和生成能力。整个训练过程「非常稳定」,在多个未见过的下游任务验证集上,损失函数随着算力投入稳步下降,这正是「Scaling范式」存在的有力证据。

  • 大规模多模态强化学习(RL)

这是Emu3.5的另一大创举。众所周知,强化学习是激发LLM(如GPT-4o、DeepSeek-R1)推理和遵循指令能力的关键。但将其应用于更复杂、序列更长的多模态领域,困难重重。

得益于统一的自回归架构,Emu3.5首次实现了统一多任务、多模态的强化学习。团队构建了一个包含通用奖励(如美学、图文一致性)和任务特定奖励(如OCR准确率、人脸ID保持)的复杂奖励系统,通过GRPO算法,在统一的奖励空间内进行优化。


这套「大规模长视频预训练 + 大规模多模态RL」的组合拳,被王仲远称为继语言模型预训练、后训练之后的「第三种Scaling范式」它指明了一条道路:通过不断增加视频数据、模型参数和算力,多模态世界模型的能力将可预见地持续提升。

黑科技DiDA

自回归模型推理飙升20倍

自回归模型「一个Token一个Token」的生成方式,导致其在生成高清图像(通常一张图就需要数千个Token)时速度很慢。这也是为什么Diffusion模型在生成领域长期占据主导地位。

为了攻克这一难题,Emu3.5团队研发了名为离散扩散自适应(Discrete Diffusion Adaptation, DiDA)的黑科技。

DiDA的核心思想是,在模型完成大规模的自回归预训练和后训练之后,通过一个轻量级的「适应」阶段,将其从「逐个Token预测」的模式,转换为「并行生成」的模式。


具体来说,它借鉴了离散扩散的思想,将图像生成过程变成一个「去噪」过程:模型不再是从左到右生成,而是一次性生成所有「带噪声」的视觉Token,然后在几个步骤内并行地、双向地修正它们,最终恢复出清晰的图像。

效果如何?每张图片的推理速度提升约20倍,且几乎没有性能损失

这意味着,Emu3.5的自回归模型,在推理效率上首次能够与顶级的闭源Diffusion模型(如Midjourney)相媲美。这不仅是工程上的巨大胜利,更从根本上解决了原生多模态架构的商业化落地瓶颈。

从图像编辑到具身操作,开源最优

理论的先进性最终要靠效果说话。Emu3.5交出的答卷,足以让任何从业者感到兴奋。

  • 顶级的Any-to-Image生成与编辑:

Emu3.5不仅能生成带有复杂公式、中英文对联的高质量图片,其图像编辑能力更是达到了新的高度。在ImgEdit、GEdit-Bench等权威benchmarks上,Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在内的所有公开模型。

  • 高层语义理解:

    将指定的人物、特定的场景和任意物品进行组合,Emu3.5可以创作出一个符合逻辑的全新世界,展现了其强大的想象力和世界构建能力。



  • 数字与空间理解

    指令「将图片中标号为4的物体换成电影海报」,模型能精准定位并替换。


  • 视角变换

    给定一张建筑正面图,指令「切换到俯视图」,模型能像拥有3D建模能力一样,合理地生成新视角。


  • 长时序、高一致性的「世界学习」能力:

这部分能力,是Emu3.5作为「世界模型」的核心体现,也是它与其他生成模型拉开代差的地方。在与Gemini 2.5 Flash Image的并列生成对比中,Emu3.5在视觉叙事、视觉指导、世界探索和具身操作等任务上的胜率均显著更高。

  • 视觉叙事(Visual Narrative)

    给定一个主题,Emu3.5能生成一系列图文并茂、情节连贯、主角形象高度一致的绘本故事。这得益于其长序列建模能力,解决了传统模型生成多图时「张张换人」的痛点


给图里的宝宝写个故事,要讲他夏天晚上和萤火虫玩

  • 视觉指导(Visual Guidance)

    如何倒水?如何叠衣服?Emu3.5能像一本活的说明书,通过「图片+文字」的步骤,清晰地展示一个任务的全过程


模型输出结果:如何用黏土和颜料手工制作一个宇航员模型


模型输出结果:如何从种子开始种羽衣甘蓝?

  • 世界探索(World Exploration)

用户可以用文字定义一个场景,如「一个阳光明媚的现代客厅」,然后通过「向左转」、「向前走」等指令,模型会生成符合逻辑的、连续的探索画面,仿佛置身于一个可交互的虚拟世界。这部分前面的视频已经展示了。

  • 具身操作(Embodied Manipulation):

这是Emu3.5最具想象力的应用之一。给定一个任务,如「用松灵机械臂把桌面收拾好,12 步完成」,模型能生成一个包含12个步骤的、由松灵机器人手臂执行的图文序列。它不仅规划了子任务,还生成了每个关键步骤的视觉状态。这为解决具身智能领域「数据稀缺」的痛点提供了全新的思路——用世界模型生成海量的、泛化的仿真数据。


智源研究院不仅发布了模型,更公开了详尽的技术报告。这种开放的姿态,旨在邀请全球社区共同探索这条由中国开创的新路。「我们希望这条路后续成为主流的路。」王仲远说,「登珠穆朗玛峰南坡和北坡也许都可以登顶,我们希望我们走的是大家认可的一条路。」

Emu3.5的参数仅为340亿,使用的视频数据不到互联网公开数据的1%。它的能力上限,远未触及。

未来随着模型规模、数据规模的进一步扩大,这个「世界模型基座」还将带来怎样的惊喜,我们拭目以待。

参考资料:

https://zh.emu.world/

https://arxiv.org/pdf/2510.26583

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
炸了!各大券商密谋2026年,这些板块已被提前锁定

炸了!各大券商密谋2026年,这些板块已被提前锁定

风风顺
2025-11-12 11:58:26
52年后,78岁丁佩终于说出真相:李小龙在我床上倒了12分钟

52年后,78岁丁佩终于说出真相:李小龙在我床上倒了12分钟

冷紫葉
2025-11-11 20:21:43
货车司机回应将7.8吨猪脚送到河南:有纠纷不想送了

货车司机回应将7.8吨猪脚送到河南:有纠纷不想送了

映射生活的身影
2025-11-12 17:39:48
祖院长报警就对了!这事明显的是被人做了局,必须要严惩偷拍者…

祖院长报警就对了!这事明显的是被人做了局,必须要严惩偷拍者…

火山诗话
2025-11-08 07:54:20
若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致​

若中日再次爆发战争,结局会如何?俄罗斯和美国看法一致​

寻途
2025-11-04 21:16:03
此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

乡野小珥
2025-10-19 14:41:29
好好的机器人,为啥要加个乳房?

好好的机器人,为啥要加个乳房?

不客观实验室
2025-11-10 14:17:22
联合国五常驱逐舰差距断崖:美国71艘,俄罗斯11艘,中国令人意外

联合国五常驱逐舰差距断崖:美国71艘,俄罗斯11艘,中国令人意外

顾史
2025-11-09 20:17:30
一百多年过去了,现在再来看“戊戌变法”的内容,不由得一声叹息

一百多年过去了,现在再来看“戊戌变法”的内容,不由得一声叹息

文史道
2024-11-07 06:45:02
过年儿子给我500,给他丈母娘3万,我把留给他的房子卖掉他慌了

过年儿子给我500,给他丈母娘3万,我把留给他的房子卖掉他慌了

今天说故事
2025-06-25 19:41:46
甲钴胺立大功!研究发现:老人吃甲钴胺,或能缓解5种症状

甲钴胺立大功!研究发现:老人吃甲钴胺,或能缓解5种症状

涵豆说娱
2025-09-28 09:51:59
俄恢复苏联式医生分配制度:要求医学生毕业后服务国家三年

俄恢复苏联式医生分配制度:要求医学生毕业后服务国家三年

桂系007
2025-11-12 03:15:31
你要打多久我就陪多久!只要大陆战机敢越线,台军就开第1枪击落

你要打多久我就陪多久!只要大陆战机敢越线,台军就开第1枪击落

许穋很机智
2025-11-10 01:52:53
乌军总司令坐镇,波城俄军攻势连续受挫,克宫最后期限延长一个月

乌军总司令坐镇,波城俄军攻势连续受挫,克宫最后期限延长一个月

鹰眼Defence
2025-11-12 17:57:45
六旬大叔相亲后提同居,女方:行,只要你答应我一件事

六旬大叔相亲后提同居,女方:行,只要你答应我一件事

兰姐说故事
2025-08-28 17:05:06
卖爆了?特斯拉Model Y长续航版北京单日售出近400辆

卖爆了?特斯拉Model Y长续航版北京单日售出近400辆

手机中国
2025-11-12 15:46:19
逼姚明退役,他凭一己之力让中国篮球倒退了二十年

逼姚明退役,他凭一己之力让中国篮球倒退了二十年

篮球国度
2025-11-12 15:02:37
高市硬刚到底,绝不撤回说过的话,中方以牙还牙,日本瞬间破防了

高市硬刚到底,绝不撤回说过的话,中方以牙还牙,日本瞬间破防了

知鉴明史
2025-11-11 16:11:12
安世事件迎转折!中国商务部长发话,抱歉,荷兰首相说话不管用了

安世事件迎转折!中国商务部长发话,抱歉,荷兰首相说话不管用了

南宗历史
2025-11-12 09:57:28
太恶心,开拓者弃用杨瀚森,却利用疯狂卖球衣,只想把他当吉祥物

太恶心,开拓者弃用杨瀚森,却利用疯狂卖球衣,只想把他当吉祥物

宗介说体育
2025-11-12 12:43:38
2025-11-12 20:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13852文章数 66245关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

艺术
房产
数码
旅游
亲子

艺术要闻

毛主席珍贵签名照曝光,鲜为人知的历史瞬间!

房产要闻

海垦城建·鹿城壹号品牌发布会暨美学示范区璀璨启幕

数码要闻

IBM发布旗下最先进量子处理器“量子夜鹰”,今年底交付

旅游要闻

环两山引领区广州片区吃喝玩乐游购全攻略宝藏电子地图发布

亲子要闻

前TVB女星二胎生女,分享剖腹生女经历:听到女儿哭声才放松心情

无障碍浏览 进入关怀版