网易首页 > 网易号 > 正文 申请入驻

LeCun预言成真!790年长视频,炼出最强开源「世界模型」

0
分享至


新智元报道

编辑:桃子 好困

【新智元导读】AI第三种Scaling范式来临!多模态原生世界模型Emu3.5出世,340亿参数,基于790年长视频数据完成训练。即生3D世界,每张图片推理速度飙升20倍。

2025年,「世界模型」成为了AI巨头们厮杀的战场。

谷歌发布的Genie 3,一句话即可生成一个720p实时模拟的新世界。甚至,网友将其称之为「游戏引擎2.0时代」。

李飞飞World Labs团队也推出了一款实时生成世界模型——RTFM,仅用一块H100渲染出3D世界。


此外,还有Meta FAIR打造的「代码世界模型」(CWM)、Runway的「通用世界模型」(GWM)、特斯拉的神经网络模拟器等,AI界玩家们都在积极布局。

尤其是,多模态领域的「世界模型」,成为了他们加码的核心点。


一直以来,李飞飞、LeCun等站队「世界模型」AI大佬们认为,仅凭语言,AI是无法复制人类智能,还需要理解和模拟物理解释。

世界模型,便是终极答案。它可以模仿人类对周围环境形成的「心智模型」来预测世界。

就在上周,人工智能领域再次迎来一枚深水炸弹。

北京智源研究院(BAAI)正式发布了其悟界·Emu系列的最新成果——Emu3.5。

在技术交流会上,智源研究院院长王仲远博士将其定位为「开启多模态世界大模型新纪元」的里程碑。

「并不一定所有的大模型技术路线都要完全跟随别人已经走过的路,我们自己也在开创一些新的技术路径。」王仲远表示,「Emu系列是我们自己走出来的技术路线,我们是引领性的。」

与当前主流的、将理解与生成分开处理的「模块拼接式」多模态模型(如LLM+CLIP及DiT架构)不同,Emu3.5回归「第一性原理」,像人类一样从连续、长时程的视觉经验中学习,用统一的自回归架构实现了对多模态世界的原生理解与生成。

「通过悟界·Emu3,我们验证了自回归架构实现多模态理解与生成大一统的可行性,」王仲远表示,「从Emu3到Emu3.5,我们证明了多模态也存在一个Scaling的范式。」

这个340亿参数的模型,在长文本渲染、复杂图像编辑、视觉故事生成等多个维度上,其表现足以让业界惊叹「Wow」。更重要的是,它所展现出的对物理世界动态、因果、时空、逻辑的深刻理解,预示着AI正加速从数字世界迈向物理世界。

智源公开了长达45页的详尽技术报告,将其数据处理、模型架构、训练方式、推理加速等技术细节全盘托出。


项目主页:https://zh.emu.world

技术报告:https://arxiv.org/pdf/2510.26583

这背后,是智源对「引领人工智能原始创新」的坚持,也是对未来技术路线的自信。

悟界·Emu3.5为当前全球大模型竞赛中的几个根本性问题,提供了一条来自中国的、逻辑自洽且潜力巨大的原创解法:

  • 多模态应该如何统一?——通过原生的、端到端的自回归「Next-State Prediction」范式

  • 世界模型应该学习什么?——学习蕴含了长时程、高一致性等世界知识的长视频数据

  • 如何实现规模化?——借助「预训练+多模态RL」的第三种Scaling范式,复用现有LLM基础设施

  • 如何落地——通过DiDA等推理加速技术,解决效率瓶颈


第一性原理,像人一样学习

从Next-Token到Next-State

「人类的学习,不是从文本学习开始的。」王仲远在发布会上反复强调这个观点。

婴儿睁开眼,首先感知的是视觉世界,通过观察、交互,逐步理解物理规律、因果关系。语言是在这个基础上发展起来的、用于沟通和泛化的工具。

当前的大语言模型(LLM)在耗尽互联网文本数据后,增长已显疲态。而多模态领域,技术路线尚未收敛。主流的视频和图像生成模型,如Sora、Nano Banana,大多采用Diffusion Transformer(DiT)等混合架构,本质上仍是「拼装」——理解和生成模块分离,难以实现真正的、统一的智能。

Emu系列从诞生之初,就选择了另一条更艰难但更本质的道路:原生多模态

Emu3.5继承并极大地发展了这一理念。它采用了一个极其简洁但强大的统一范式:预测下一个状态(Next-State Prediction)

与LLM预测下一个文本Token类似,Emu3.5将图像、文本、乃至动作指令都「Token化」,置于一个统一的序列中,然后用一个单一的、端到端的自回归Transformer模型来预测序列中的下一个Token。

这个「Token」可以是一段文字描述,也可以是构成图像的一个「视觉词块」,甚至可以是一个指导机器人手臂运动的指令。

这种架构的优越性是显而易见的:

  • 统一性它彻底打破了理解与生成的壁垒。模型在生成图像时,是基于对上下文(包括之前的图像和文字)的深刻理解。

  • 可扩展性它能完美复用为LLM构建的、已极其成熟的训练、推理和强化学习基础设施。这意味着,所有在LLM上验证过的Scaling Law和优化技术,理论上都可以在Emu3.5上「再来一遍」。

「我们终于可以在多模态大模型上实现Scaling up了。」王仲远对此充满信心。

第三种Scaling范式

790年长视频数据与大规模多模态RL

如果说统一的架构是骨架,那么海量且高质量的数据就是血肉。

Emu3.5的训练数据量堪称恐怖:超过13万亿多模态Token

其核心,不再是短视频剪辑或静态的图文对,而是累计时长达790年的互联网长视频,涵盖了纪录片、教学视频、Vlog、游戏动画等。

「长视频里有语音、有交互的文本,它有一个长的上下文,有一致性。」Emu系列研发负责人王鑫龙解释道。相比孤立的数据点,长视频天然蕴含了丰富的时空连续性、因果逻辑和上下文一致性,是学习世界模型的绝佳养料。

为了消化这些海量数据,智源团队构建了一套复杂的自动化数据处理流水线,包括场景分割、语音转文字(ASR)、关键帧提取、质量评估、冗余去除和多模态摘要生成等。

在训练上,Emu3.5的路径清晰而坚定:

  • 大规模预训练

在超过10万亿Token上进行第一阶段预训练,让模型学会基础的多模态对齐和生成能力。整个训练过程「非常稳定」,在多个未见过的下游任务验证集上,损失函数随着算力投入稳步下降,这正是「Scaling范式」存在的有力证据。

  • 大规模多模态强化学习(RL)

这是Emu3.5的另一大创举。众所周知,强化学习是激发LLM(如GPT-4o、DeepSeek-R1)推理和遵循指令能力的关键。但将其应用于更复杂、序列更长的多模态领域,困难重重。

得益于统一的自回归架构,Emu3.5首次实现了统一多任务、多模态的强化学习。团队构建了一个包含通用奖励(如美学、图文一致性)和任务特定奖励(如OCR准确率、人脸ID保持)的复杂奖励系统,通过GRPO算法,在统一的奖励空间内进行优化。


这套「大规模长视频预训练 + 大规模多模态RL」的组合拳,被王仲远称为继语言模型预训练、后训练之后的「第三种Scaling范式」它指明了一条道路:通过不断增加视频数据、模型参数和算力,多模态世界模型的能力将可预见地持续提升。

黑科技DiDA

自回归模型推理飙升20倍

自回归模型「一个Token一个Token」的生成方式,导致其在生成高清图像(通常一张图就需要数千个Token)时速度很慢。这也是为什么Diffusion模型在生成领域长期占据主导地位。

为了攻克这一难题,Emu3.5团队研发了名为离散扩散自适应(Discrete Diffusion Adaptation, DiDA)的黑科技。

DiDA的核心思想是,在模型完成大规模的自回归预训练和后训练之后,通过一个轻量级的「适应」阶段,将其从「逐个Token预测」的模式,转换为「并行生成」的模式。


具体来说,它借鉴了离散扩散的思想,将图像生成过程变成一个「去噪」过程:模型不再是从左到右生成,而是一次性生成所有「带噪声」的视觉Token,然后在几个步骤内并行地、双向地修正它们,最终恢复出清晰的图像。

效果如何?每张图片的推理速度提升约20倍,且几乎没有性能损失

这意味着,Emu3.5的自回归模型,在推理效率上首次能够与顶级的闭源Diffusion模型(如Midjourney)相媲美。这不仅是工程上的巨大胜利,更从根本上解决了原生多模态架构的商业化落地瓶颈。

从图像编辑到具身操作,开源最优

理论的先进性最终要靠效果说话。Emu3.5交出的答卷,足以让任何从业者感到兴奋。

  • 顶级的Any-to-Image生成与编辑:

Emu3.5不仅能生成带有复杂公式、中英文对联的高质量图片,其图像编辑能力更是达到了新的高度。在ImgEdit、GEdit-Bench等权威benchmarks上,Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在内的所有公开模型。

  • 高层语义理解:

    将指定的人物、特定的场景和任意物品进行组合,Emu3.5可以创作出一个符合逻辑的全新世界,展现了其强大的想象力和世界构建能力。



  • 数字与空间理解

    指令「将图片中标号为4的物体换成电影海报」,模型能精准定位并替换。


  • 视角变换

    给定一张建筑正面图,指令「切换到俯视图」,模型能像拥有3D建模能力一样,合理地生成新视角。


  • 长时序、高一致性的「世界学习」能力:

这部分能力,是Emu3.5作为「世界模型」的核心体现,也是它与其他生成模型拉开代差的地方。在与Gemini 2.5 Flash Image的并列生成对比中,Emu3.5在视觉叙事、视觉指导、世界探索和具身操作等任务上的胜率均显著更高。

  • 视觉叙事(Visual Narrative)

    给定一个主题,Emu3.5能生成一系列图文并茂、情节连贯、主角形象高度一致的绘本故事。这得益于其长序列建模能力,解决了传统模型生成多图时「张张换人」的痛点


给图里的宝宝写个故事,要讲他夏天晚上和萤火虫玩

  • 视觉指导(Visual Guidance)

    如何倒水?如何叠衣服?Emu3.5能像一本活的说明书,通过「图片+文字」的步骤,清晰地展示一个任务的全过程


模型输出结果:如何用黏土和颜料手工制作一个宇航员模型


模型输出结果:如何从种子开始种羽衣甘蓝?

  • 世界探索(World Exploration)

用户可以用文字定义一个场景,如「一个阳光明媚的现代客厅」,然后通过「向左转」、「向前走」等指令,模型会生成符合逻辑的、连续的探索画面,仿佛置身于一个可交互的虚拟世界。这部分前面的视频已经展示了。

  • 具身操作(Embodied Manipulation):

这是Emu3.5最具想象力的应用之一。给定一个任务,如「用松灵机械臂把桌面收拾好,12 步完成」,模型能生成一个包含12个步骤的、由松灵机器人手臂执行的图文序列。它不仅规划了子任务,还生成了每个关键步骤的视觉状态。这为解决具身智能领域「数据稀缺」的痛点提供了全新的思路——用世界模型生成海量的、泛化的仿真数据。


智源研究院不仅发布了模型,更公开了详尽的技术报告。这种开放的姿态,旨在邀请全球社区共同探索这条由中国开创的新路。「我们希望这条路后续成为主流的路。」王仲远说,「登珠穆朗玛峰南坡和北坡也许都可以登顶,我们希望我们走的是大家认可的一条路。」

Emu3.5的参数仅为340亿,使用的视频数据不到互联网公开数据的1%。它的能力上限,远未触及。

未来随着模型规模、数据规模的进一步扩大,这个「世界模型基座」还将带来怎样的惊喜,我们拭目以待。

参考资料:

https://zh.emu.world/

https://arxiv.org/pdf/2510.26583

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
95年杭州夫妻花48万囤茅台酒,15年后急用钱,才发现其真实价值

95年杭州夫妻花48万囤茅台酒,15年后急用钱,才发现其真实价值

星宇共鸣
2025-05-27 16:03:28
突发!美元大跳水

突发!美元大跳水

鲁中晨报
2025-11-12 08:55:03
3次被国家队开除,退役11年后再看王濛现状,才明白李琰评价没错

3次被国家队开除,退役11年后再看王濛现状,才明白李琰评价没错

篮球国度
2025-11-12 15:05:22
再次遭窃!英超30岁球星拼了:与持刀劫匪对峙 保护4个孩子

再次遭窃!英超30岁球星拼了:与持刀劫匪对峙 保护4个孩子

叶青足球世界
2025-11-12 11:45:42
俄乌空战给予中国血的教训:我国的歼-20,绝不能再去打火箭弹

俄乌空战给予中国血的教训:我国的歼-20,绝不能再去打火箭弹

Ck的蜜糖
2025-11-13 00:36:11
评分最高的10部犯罪悬疑剧:《沉默的真相》第3,第1名霸榜10年

评分最高的10部犯罪悬疑剧:《沉默的真相》第3,第1名霸榜10年

电影聚焦
2025-11-07 09:56:59
段永平:黄仁勋十年前讲的东西和今天一样,都恐惧英伟达垄断但替代不了

段永平:黄仁勋十年前讲的东西和今天一样,都恐惧英伟达垄断但替代不了

界面新闻
2025-11-12 00:00:04
从吉尼斯到行业变革:红旗HS6 PHEV见证中国混动崛起

从吉尼斯到行业变革:红旗HS6 PHEV见证中国混动崛起

娱乐圈的笔娱君
2025-11-13 02:43:44
王楚钦4-3涉险晋级!男单8强出炉:石头一片坦途 大头有望战小胖

王楚钦4-3涉险晋级!男单8强出炉:石头一片坦途 大头有望战小胖

颜小白的篮球梦
2025-11-12 21:57:01
深圳最堵路段要大变样:大道半下沉,并实现4线自由换乘!

深圳最堵路段要大变样:大道半下沉,并实现4线自由换乘!

深圳壹地产
2025-11-12 18:35:28
11月要小心压力的3个生肖,尤其第一名最情绪化,崩溃只在一瞬间

11月要小心压力的3个生肖,尤其第一名最情绪化,崩溃只在一瞬间

人閒情事
2025-11-12 15:24:14
上海小将又一次力压李弘权入选男篮国家队 郭士强看重他什么?

上海小将又一次力压李弘权入选男篮国家队 郭士强看重他什么?

狼叔评论
2025-11-13 00:18:10
若不是日媒披露,我都不敢相信,中国真的强大到了如此地步

若不是日媒披露,我都不敢相信,中国真的强大到了如此地步

全金猫眼
2025-10-31 22:10:03
何赛飞的嘴,有点东西

何赛飞的嘴,有点东西

最人物
2025-11-12 16:32:23
你能在三秒内认出墙上这14个字吗?书法天才请自来!

你能在三秒内认出墙上这14个字吗?书法天才请自来!

书画相约
2025-10-28 09:24:17
2025年麦当劳加盟费大概要多少?麦当劳官方投资标准10-40万

2025年麦当劳加盟费大概要多少?麦当劳官方投资标准10-40万

老公是生活的合伙人
2025-11-10 09:56:14
三部门联合发文:3至6岁儿童尽量避免接触使用视屏类电子产品

三部门联合发文:3至6岁儿童尽量避免接触使用视屏类电子产品

快科技
2025-11-08 14:30:13
国际油价持续走低

国际油价持续走低

证券时报
2025-11-12 23:11:03
中国女导演曝男星塌房真相:发不雅照、酒后发疯,还把她吓到锁门求生

中国女导演曝男星塌房真相:发不雅照、酒后发疯,还把她吓到锁门求生

澳洲红领巾
2025-11-11 11:24:28
追梦:上赛季换来巴特勒后勇士所有人都想赢,这赛季不一样了

追梦:上赛季换来巴特勒后勇士所有人都想赢,这赛季不一样了

懂球帝
2025-11-12 12:23:04
2025-11-13 03:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13852文章数 66245关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

家居
教育
时尚
公开课
军事航空

家居要闻

情感之所 生活教会设计

教育要闻

人民网专访!陈经纶中学校长独家揭秘

女人年纪大了也不必慌,掌握这3个穿衣技巧,优雅体面极了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版