网易首页 > 网易号 > 正文 申请入驻

刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力

0
分享至




机器之心发布

机器之心编辑部

当业界还在为自回归与扩散这两种主流技术路线孰优孰劣而激辩时,答案可能已经显现。



今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 ——悟界・Emu3.5

这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 “多模态世界大模型”(Multimodal World Foudation Model)。

通过在超过 10 万亿的多模态 Token(主要源自互联网视频,总时长约 790 年)上进行端到端预训练,Emu3.5 得以学习并内化了现实物理世界的动态规律。

这种原生的世界建模能力,是 Emu3.5 与其他生成模型的根本区别,并自然地外化为一系列高级功能:不仅能生成图文并茂的故事,更展现出在长时程视觉指导、复杂图像编辑、世界探索和具身操作等任务上的强大潜力。

不仅如此,Emu3.5 首次揭示了 “多模态 Scaling 范式” 的存在,这是继语言预训练、推理和后训练之后,人工智能的第三条 Scaling 范式。也是团队将其称为 “世界大模型”(World Foundation Model)的原因。

智源在悟道 1.0 发布会上率先提出 “大模型” 一词,他们相信本次悟界・Emu3.5 的发布,“世界大模型”(World Foundation Model)将开启一个全新的探索方向。

为了破解自回归模型在图像生成上的速度瓶颈,团队还提出了离散扩散自适应(DiDA)技术,将每张图像的推理速度提升了近 20 倍,且几乎没有性能损失。这使得 Emu3.5 成为首个在推理速度和生成质量上,能与顶级闭源扩散模型相媲美的自回归模型。

在多个基准测试中,Emu3.5 在图像编辑任务上达到了与谷歌 Gemini-2.5-Flash-Image(Nano Banana)相当的性能,并在文本渲染和一系列交错内容生成任务上显著超越对手。

智源研究院宣布后续将开源 Emu3.5,以支持社区的进一步研究。

  • 悟界・Emu3.5 项目主页:https://zh.emu.world
  • 悟界・Emu3.5 技术报告:https://zh.emu.world/Emu35_tech_report.pdf

Emu3.5:不止于生成

更在于对世界动态的理解和预测

现有的多模态大模型大多遵循一种 “多模块” 模式:以一个强大的 LLM 作为基础,这样做固然以很好地利用已有的强大的 LLM,但这也意味着图像、视频、语音等其他模态需要先转换到文本模态,再进行处理。各个模态之间仍是被区分开的。

智源去年发布的悟界・Emu3 提出了 “原生多模态” 的理念,只基于下一个 token 预测,实现了文本、图像、视频三种模态数据的理解和生成大一统。

Emu3.5 继承了 Emu3 的极简架构,基于一个 34B 的稠密 Transformer 模型。它的创新之处在于其模型的目标统一为 “下一状态预测”(Next-State Prediciton)。

这种 “原生” 特性赋予了 Emu3.5 一种独特的能力:生成交错的视觉 - 语言输出。当用户给出一个指令,Emu3.5 的回答可以是一段文字,紧接着一幅图像,然后是另一段解释性的文字和下一幅图像。这种能力使其天然胜任两类极具挑战性的新任务:

1.视觉叙事(Visual Narrative):Emu3.5 能生成一系列图文并茂的卡片,起点处从牛顿与索尼克在森林相遇、提出一场关于速度与引力的挑战开始,到两个交流和思考,再到最后在月光下共同仰望星空,整个过程逻辑连贯,画面风格统一。



2.视觉指导(Visual Guidance):模型可以生成分步的、带有视觉示例的教程。例如,当被问及 “如何画图中的猫?”,Emu3.5 会生成几个步骤,每个步骤都配有一张清晰的图片,直观地展示从轮廓到最终完成猫图片的全过程。



这种能力标志着多模态模型从 “看图说话” 或 “按需作画” 的单一任务执行者,向着能够进行连续、多步、跨模态创造的 “世界学习器” 迈出了关键一步。

十万亿多模态 Tokens 的世界基座模型训练

悟界・Emu3.5 之所以能具备如此强大的原生多模态能力,其背后是一套极其庞大且精密的训练流程。与以往模型主要依赖静态的 “图像 - 文本对” 不同,Emu3.5 的训练数据主体,是包含超过 10 万亿 Tokens 的视觉 - 语言交错数据,主要来源于互联网视频及其对应的语音转录文本,视频时长总计约 790 年。

为什么视频数据如此重要?因为静态图文对只能教会模型 “这是什么”,而连续的视频帧和同步的解说,则能教会模型现实世界的物理动态、时空连续性和因果等规律。

整个流程分为四个核心阶段:

1.大规模预训练

这是奠定模型基础的阶段。Emu3.5 在超过 10 万亿 Tokens 的数据上,采用统一的 “下一状态预测”(Next-State Predicttion)目标进行端到端训练。这一阶段分为两步,第一步在 10 万亿 Tokens 上进行大规模基础学习,第二步则在 3 万亿更高质量、更高分辨率和更丰富标注的数据上进行能力增强。

值得注意的是,模型在训练过程中,验证集上多个分布外(Out-of-Distribution)任务的损失持续下降,这表明模型涌现出了强大的泛化能力,而不仅仅是记忆训练数据。



曲线表明 Emu3.5 实现了平滑且稳定的优化过程,并在多组验证集上保持了一致的泛化能力

2.监督微调

在预训练之后,模型在一个包含 1500 亿样本的高质量数据集上进行微调。这些数据覆盖了从通用图文生成、视觉问答,到前文提到的视觉叙事、视觉指导、世界探索和具身操作等多种复杂任务。SFT 阶段的目标是建立一个统一的多模态交互接口,让模型学会如何 “听懂” 并完成各种具体指令,并促进不同任务之间的知识迁移。

3.大规模多模态强化学习

为了进一步提升多模态推理和生成质量,Emu3.5 首次在多模态领域进行大规模强化学习。团队构建了一个复杂的多维度奖励系统,能够同时评估生成内容的美学质量、图文对齐度、叙事连贯性、文本渲染准确度等多个指标。

通过在统一的奖励空间中进行优化,模型学会在多个目标之间取得平衡,避免了 “奖励欺骗”(Reward Hacking)现象,实现了跨任务的持续改进。

4.高效自回归推理加速

为了解决自回归模型在生成速度方面的挑战,Emu3.5 团队提出了一种叫做 “离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)的方法。在不牺牲生成质量的前提下,Emu3.5 的单图生成速度提升了约 20 倍。这意味着,Emu3.5 在保持自回归模型强大可控性的同时,获得了接近主流扩散模型的推理效率,成功弥合了两种技术路线之间的鸿沟。



DiDA 的核心思想借鉴了扩散模型,但将其应用于离散的 Token 空间。它将自回归模型的单向、顺序预测,转化为一种并行的、双向的去噪过程。

从视觉叙事到世界探索:Emu3.5 的惊人能力

得益于其原生多模态架构、海量视频数据训练和 DiDA 加速,Emu3.5 在一系列任务中展现了 SOTA 或极具竞争力的表现。

通用图像编辑与生成:在需要精确控制和多模态指令遵循的图像编辑任务上,Emu3.5 表现出色,能够实现开放世界的编辑和时空操作。在文字渲染方面,其准确性和自然度超越了包括 Gemini-2.5-Flash-Image(Nano Banana)在内的领先模型。









世界建模与探索:项目主页中展示的 “世界探索” 和 “具身操作” 能力,使其与谷歌的 Genie 等前沿世界模型处于同一水平。Emu3.5 能够根据指令,生成在虚拟环境中连续移动的视觉序列,并保持场景的几何、语义和外观一致性。



具身操作任务:它能将一个复杂的、长期的机器人操作任务(如倒水、折叠衣物)分解为一系列带有语言指令和关键帧图像的子任务,为训练更通用的具身智能体提供了基础。



这些能力的涌现,验证了 Emu3.5 技术报告的核心观点:通过在海量视频数据上进行大规模训练,模型能够内化现实世界的运行规律,从而进行更深层次的模拟和推理。

无限生成,赋能具身智能的新引擎



Emu3.5 的突破,也为具身智能的发展补全了一块关键的拼图。

一直以来,具身智能领域都苦于缺乏高质量的数据,Emu3.5 可以作为一个无限数据生成器:它不仅能够生成丰富多样的虚拟环境和任务,大幅拓展 AI 学习和测试的空间,还能生成从高层目标到具体操作的分步规划数据,帮助具身智能系统理解和实践复杂任务的全过程。

智源研究院在很早就预判大模型正从数字世界加速迈入物理世界。“悟界” 系列模型,正是这一预判的集中体现。

Emu3.5 通过 “下一状态预测” 和原生多模态融合,自然涌现出对时空、物理规律、因果等世界动态的内在理解,这正是机器人进行自主导航、精细操作、复杂决策等任务的基础。

通往下一代多模态智能

智源悟界・Emu3.5 展示出了作为 “世界模型的基础模型” 的巨大潜力。

通过原生多模态架构、以视频为主的训练数据和创新的 DiDA 加速技术,也向我们展示了如何构建一个更强大、更高效、更接近人类自然学习方式的世界模型。

当然,Emu3.5 也存在局限。技术报告中表示,其视觉分词器(Tokenizer)的压缩率仍有提升空间,DiDA 的加速潜力也未完全挖掘。同时,对于视觉叙事、世界探索等新能力的评估,也需要建立更系统化的基准。

它的开源,无疑将为全球 AI 研究社区提供一个强大的新基座。感兴趣的读者可以填写报名表,申请获取 Emu3.5 的内测资格。

报名链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b

文中视频链接:https://mp.weixin.qq.com/s/wXNDkNzKDG3rx9qZ9GkqgQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中戏风波升级!4位主任都落马,牵涉闫学晶易烊千玺等十多位明星

中戏风波升级!4位主任都落马,牵涉闫学晶易烊千玺等十多位明星

古希腊掌管松饼的神
2026-02-13 16:24:17
气笑了!李家诚告周秀娜,不到半天就被打脸,好在周秀娜早有预防

气笑了!李家诚告周秀娜,不到半天就被打脸,好在周秀娜早有预防

离离言几许
2026-02-13 18:34:28
中央急令!6月底前全国村村必设新部门,老人妇女孩子直接受益

中央急令!6月底前全国村村必设新部门,老人妇女孩子直接受益

复转这些年
2026-02-12 21:57:32
胖东来下架智利车厘子,工作人员:坏果太多、品质达不到要求,新上架了190元每斤的澳洲车厘子

胖东来下架智利车厘子,工作人员:坏果太多、品质达不到要求,新上架了190元每斤的澳洲车厘子

观威海
2026-02-13 09:34:10
美能源部长:美方主导的委内瑞拉石油销售未来数月或带来五十亿美元收入

美能源部长:美方主导的委内瑞拉石油销售未来数月或带来五十亿美元收入

中国能源网
2026-02-13 10:26:28
74岁“肥猫”郑则仕回应加入周润发跑团:一年前膝盖痛,医生建议注射药物,师傅周润发让我跑步;此前暴瘦70斤,跑马引热议

74岁“肥猫”郑则仕回应加入周润发跑团:一年前膝盖痛,医生建议注射药物,师傅周润发让我跑步;此前暴瘦70斤,跑马引热议

极目新闻
2026-02-11 11:36:07
2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

2100万悬赏震动全球,李兆会神秘失踪已11年,行踪仍成谜

别人都叫我阿腈
2026-02-13 18:05:57
13岁体操冠军傅佳丽被虐待致跳楼,央媒跟进:2名涉事教练被立案

13岁体操冠军傅佳丽被虐待致跳楼,央媒跟进:2名涉事教练被立案

奇思妙想草叶君
2026-02-12 20:11:52
突然暴跌!北京降了!价格再下跌!

突然暴跌!北京降了!价格再下跌!

美丽大北京
2026-02-13 16:41:07
谢贤前女友爆料三胎生父,张柏芝体面尽失

谢贤前女友爆料三胎生父,张柏芝体面尽失

仙味少女心
2026-02-13 19:05:55
巨力索具“航天神话”破灭,发布澄清前股东已质押股权数亿元

巨力索具“航天神话”破灭,发布澄清前股东已质押股权数亿元

界面新闻
2026-02-13 14:52:48
体操冠军遭体罚索财后跳楼续:聊天记录曝光,要4万退还家属1.7万

体操冠军遭体罚索财后跳楼续:聊天记录曝光,要4万退还家属1.7万

离离言几许
2026-02-12 22:36:10
菲律宾一美食博主为流量吃剧毒魔鬼蟹身亡,用椰奶炖煮海鲜,嘴唇呈深蓝色,食用海鲜两天后离世

菲律宾一美食博主为流量吃剧毒魔鬼蟹身亡,用椰奶炖煮海鲜,嘴唇呈深蓝色,食用海鲜两天后离世

观威海
2026-02-13 09:02:05
韩媒讥讽中国队冬奥或0金:离开主场优势不行,谷爱凌是唯一希望

韩媒讥讽中国队冬奥或0金:离开主场优势不行,谷爱凌是唯一希望

杨华评论
2026-02-13 19:04:46
听马云一句劝:存钱不如换这4样,未来5年不怕贬值!

听马云一句劝:存钱不如换这4样,未来5年不怕贬值!

明天见灌装冰块
2026-02-13 07:47:40
有种感觉,暴风雨前的宁静,马上就要被撕开了。

有种感觉,暴风雨前的宁静,马上就要被撕开了。

南权先生
2026-02-13 15:25:33
比尔·盖茨现身上海,一片冷清,再也没有鲜花掌声和崇拜目光

比尔·盖茨现身上海,一片冷清,再也没有鲜花掌声和崇拜目光

月满大江流
2026-02-13 08:58:45
女孩因神似敦煌壁画美人意外走红,家长回应:没有炒作,孩子还是要以学业为主

女孩因神似敦煌壁画美人意外走红,家长回应:没有炒作,孩子还是要以学业为主

大象新闻
2026-02-13 17:47:04
李立群回河南祭祖,麦田跪拜落泪,一句以后可能不回了看哭全网

李立群回河南祭祖,麦田跪拜落泪,一句以后可能不回了看哭全网

一盅情怀
2026-02-13 14:23:16
近乎腰斩!蛇年十大熊股出炉,这些股“榜上有名”

近乎腰斩!蛇年十大熊股出炉,这些股“榜上有名”

21世纪经济报道
2026-02-13 17:07:06
2026-02-13 22:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12304文章数 142566关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

浙江"一人公司"兴起 前大厂程序员靠AI直接月入200万

头条要闻

浙江"一人公司"兴起 前大厂程序员靠AI直接月入200万

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

本地
家居
亲子
教育
时尚

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

家居要闻

中古雅韵 乐韵伴日常

亲子要闻

看看后妈是怎么做的

教育要闻

希望这位宝妈想明白后,可以再回来找我!

穿上这些鞋拥抱春天

无障碍浏览 进入关怀版