网易首页 > 网易号 > 正文 申请入驻

刚刚,智源悟界·Emu3.5登场,原生具备世界建模能力

0
分享至




机器之心发布

机器之心编辑部

当业界还在为自回归与扩散这两种主流技术路线孰优孰劣而激辩时,答案可能已经显现。



今天,北京智源人工智能研究院(BAAI)重磅发布了其多模态系列模型的最新力作 ——悟界・Emu3.5

这不仅仅是一次常规的模型迭代,Emu3.5 被定义为一个 “多模态世界大模型”(Multimodal World Foudation Model)。

通过在超过 10 万亿的多模态 Token(主要源自互联网视频,总时长约 790 年)上进行端到端预训练,Emu3.5 得以学习并内化了现实物理世界的动态规律。

这种原生的世界建模能力,是 Emu3.5 与其他生成模型的根本区别,并自然地外化为一系列高级功能:不仅能生成图文并茂的故事,更展现出在长时程视觉指导、复杂图像编辑、世界探索和具身操作等任务上的强大潜力。

不仅如此,Emu3.5 首次揭示了 “多模态 Scaling 范式” 的存在,这是继语言预训练、推理和后训练之后,人工智能的第三条 Scaling 范式。也是团队将其称为 “世界大模型”(World Foundation Model)的原因。

智源在悟道 1.0 发布会上率先提出 “大模型” 一词,他们相信本次悟界・Emu3.5 的发布,“世界大模型”(World Foundation Model)将开启一个全新的探索方向。

为了破解自回归模型在图像生成上的速度瓶颈,团队还提出了离散扩散自适应(DiDA)技术,将每张图像的推理速度提升了近 20 倍,且几乎没有性能损失。这使得 Emu3.5 成为首个在推理速度和生成质量上,能与顶级闭源扩散模型相媲美的自回归模型。

在多个基准测试中,Emu3.5 在图像编辑任务上达到了与谷歌 Gemini-2.5-Flash-Image(Nano Banana)相当的性能,并在文本渲染和一系列交错内容生成任务上显著超越对手。

智源研究院宣布后续将开源 Emu3.5,以支持社区的进一步研究。

  • 悟界・Emu3.5 项目主页:https://zh.emu.world
  • 悟界・Emu3.5 技术报告:https://zh.emu.world/Emu35_tech_report.pdf

Emu3.5:不止于生成

更在于对世界动态的理解和预测

现有的多模态大模型大多遵循一种 “多模块” 模式:以一个强大的 LLM 作为基础,这样做固然以很好地利用已有的强大的 LLM,但这也意味着图像、视频、语音等其他模态需要先转换到文本模态,再进行处理。各个模态之间仍是被区分开的。

智源去年发布的悟界・Emu3 提出了 “原生多模态” 的理念,只基于下一个 token 预测,实现了文本、图像、视频三种模态数据的理解和生成大一统。

Emu3.5 继承了 Emu3 的极简架构,基于一个 34B 的稠密 Transformer 模型。它的创新之处在于其模型的目标统一为 “下一状态预测”(Next-State Prediciton)。

这种 “原生” 特性赋予了 Emu3.5 一种独特的能力:生成交错的视觉 - 语言输出。当用户给出一个指令,Emu3.5 的回答可以是一段文字,紧接着一幅图像,然后是另一段解释性的文字和下一幅图像。这种能力使其天然胜任两类极具挑战性的新任务:

1.视觉叙事(Visual Narrative):Emu3.5 能生成一系列图文并茂的卡片,起点处从牛顿与索尼克在森林相遇、提出一场关于速度与引力的挑战开始,到两个交流和思考,再到最后在月光下共同仰望星空,整个过程逻辑连贯,画面风格统一。



2.视觉指导(Visual Guidance):模型可以生成分步的、带有视觉示例的教程。例如,当被问及 “如何画图中的猫?”,Emu3.5 会生成几个步骤,每个步骤都配有一张清晰的图片,直观地展示从轮廓到最终完成猫图片的全过程。



这种能力标志着多模态模型从 “看图说话” 或 “按需作画” 的单一任务执行者,向着能够进行连续、多步、跨模态创造的 “世界学习器” 迈出了关键一步。

十万亿多模态 Tokens 的世界基座模型训练

悟界・Emu3.5 之所以能具备如此强大的原生多模态能力,其背后是一套极其庞大且精密的训练流程。与以往模型主要依赖静态的 “图像 - 文本对” 不同,Emu3.5 的训练数据主体,是包含超过 10 万亿 Tokens 的视觉 - 语言交错数据,主要来源于互联网视频及其对应的语音转录文本,视频时长总计约 790 年。

为什么视频数据如此重要?因为静态图文对只能教会模型 “这是什么”,而连续的视频帧和同步的解说,则能教会模型现实世界的物理动态、时空连续性和因果等规律。

整个流程分为四个核心阶段:

1.大规模预训练

这是奠定模型基础的阶段。Emu3.5 在超过 10 万亿 Tokens 的数据上,采用统一的 “下一状态预测”(Next-State Predicttion)目标进行端到端训练。这一阶段分为两步,第一步在 10 万亿 Tokens 上进行大规模基础学习,第二步则在 3 万亿更高质量、更高分辨率和更丰富标注的数据上进行能力增强。

值得注意的是,模型在训练过程中,验证集上多个分布外(Out-of-Distribution)任务的损失持续下降,这表明模型涌现出了强大的泛化能力,而不仅仅是记忆训练数据。



曲线表明 Emu3.5 实现了平滑且稳定的优化过程,并在多组验证集上保持了一致的泛化能力

2.监督微调

在预训练之后,模型在一个包含 1500 亿样本的高质量数据集上进行微调。这些数据覆盖了从通用图文生成、视觉问答,到前文提到的视觉叙事、视觉指导、世界探索和具身操作等多种复杂任务。SFT 阶段的目标是建立一个统一的多模态交互接口,让模型学会如何 “听懂” 并完成各种具体指令,并促进不同任务之间的知识迁移。

3.大规模多模态强化学习

为了进一步提升多模态推理和生成质量,Emu3.5 首次在多模态领域进行大规模强化学习。团队构建了一个复杂的多维度奖励系统,能够同时评估生成内容的美学质量、图文对齐度、叙事连贯性、文本渲染准确度等多个指标。

通过在统一的奖励空间中进行优化,模型学会在多个目标之间取得平衡,避免了 “奖励欺骗”(Reward Hacking)现象,实现了跨任务的持续改进。

4.高效自回归推理加速

为了解决自回归模型在生成速度方面的挑战,Emu3.5 团队提出了一种叫做 “离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)的方法。在不牺牲生成质量的前提下,Emu3.5 的单图生成速度提升了约 20 倍。这意味着,Emu3.5 在保持自回归模型强大可控性的同时,获得了接近主流扩散模型的推理效率,成功弥合了两种技术路线之间的鸿沟。



DiDA 的核心思想借鉴了扩散模型,但将其应用于离散的 Token 空间。它将自回归模型的单向、顺序预测,转化为一种并行的、双向的去噪过程。

从视觉叙事到世界探索:Emu3.5 的惊人能力

得益于其原生多模态架构、海量视频数据训练和 DiDA 加速,Emu3.5 在一系列任务中展现了 SOTA 或极具竞争力的表现。

通用图像编辑与生成:在需要精确控制和多模态指令遵循的图像编辑任务上,Emu3.5 表现出色,能够实现开放世界的编辑和时空操作。在文字渲染方面,其准确性和自然度超越了包括 Gemini-2.5-Flash-Image(Nano Banana)在内的领先模型。









世界建模与探索:项目主页中展示的 “世界探索” 和 “具身操作” 能力,使其与谷歌的 Genie 等前沿世界模型处于同一水平。Emu3.5 能够根据指令,生成在虚拟环境中连续移动的视觉序列,并保持场景的几何、语义和外观一致性。



具身操作任务:它能将一个复杂的、长期的机器人操作任务(如倒水、折叠衣物)分解为一系列带有语言指令和关键帧图像的子任务,为训练更通用的具身智能体提供了基础。



这些能力的涌现,验证了 Emu3.5 技术报告的核心观点:通过在海量视频数据上进行大规模训练,模型能够内化现实世界的运行规律,从而进行更深层次的模拟和推理。

无限生成,赋能具身智能的新引擎



Emu3.5 的突破,也为具身智能的发展补全了一块关键的拼图。

一直以来,具身智能领域都苦于缺乏高质量的数据,Emu3.5 可以作为一个无限数据生成器:它不仅能够生成丰富多样的虚拟环境和任务,大幅拓展 AI 学习和测试的空间,还能生成从高层目标到具体操作的分步规划数据,帮助具身智能系统理解和实践复杂任务的全过程。

智源研究院在很早就预判大模型正从数字世界加速迈入物理世界。“悟界” 系列模型,正是这一预判的集中体现。

Emu3.5 通过 “下一状态预测” 和原生多模态融合,自然涌现出对时空、物理规律、因果等世界动态的内在理解,这正是机器人进行自主导航、精细操作、复杂决策等任务的基础。

通往下一代多模态智能

智源悟界・Emu3.5 展示出了作为 “世界模型的基础模型” 的巨大潜力。

通过原生多模态架构、以视频为主的训练数据和创新的 DiDA 加速技术,也向我们展示了如何构建一个更强大、更高效、更接近人类自然学习方式的世界模型。

当然,Emu3.5 也存在局限。技术报告中表示,其视觉分词器(Tokenizer)的压缩率仍有提升空间,DiDA 的加速潜力也未完全挖掘。同时,对于视觉叙事、世界探索等新能力的评估,也需要建立更系统化的基准。

它的开源,无疑将为全球 AI 研究社区提供一个强大的新基座。感兴趣的读者可以填写报名表,申请获取 Emu3.5 的内测资格。

报名链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b

文中视频链接:https://mp.weixin.qq.com/s/wXNDkNzKDG3rx9qZ9GkqgQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海高架“拉链式通行”名场面太丝滑

上海高架“拉链式通行”名场面太丝滑

看看新闻Knews
2025-11-15 09:00:01
网传各大高校2025年两院院士名单!你的高校获评人数上涨了吗?

网传各大高校2025年两院院士名单!你的高校获评人数上涨了吗?

谁为锦年织彩衣
2025-11-15 07:05:03
全运会乒乓球:王楚钦逆转失败!救2局点仍2分惜败,樊振东追平!

全运会乒乓球:王楚钦逆转失败!救2局点仍2分惜败,樊振东追平!

刘姚尧的文字城堡
2025-11-15 13:02:45
东部第二!唐斯39+11尼克斯力克热火 鲍威尔38分沙梅特36分

东部第二!唐斯39+11尼克斯力克热火 鲍威尔38分沙梅特36分

醉卧浮生
2025-11-15 10:51:13
新格伦首次回收成功,蓝色起源打破SpaceX一骑绝尘的十年格局

新格伦首次回收成功,蓝色起源打破SpaceX一骑绝尘的十年格局

三体引力波
2025-11-14 16:49:43
一场演唱会,戳穿岳云鹏圈中地位,这次为他撑腰的,不止师娘王惠

一场演唱会,戳穿岳云鹏圈中地位,这次为他撑腰的,不止师娘王惠

查尔菲的笔记
2025-11-12 22:18:46
1948年,董存瑞牺牲,其遗孀守三年后改嫁,这女人的结局如何了?

1948年,董存瑞牺牲,其遗孀守三年后改嫁,这女人的结局如何了?

简史档案馆
2025-11-14 11:05:03
北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

北京市公安局副局长董亦军突发疾病去世,中央政法委发文号召学习

澎湃新闻
2025-11-15 10:34:28
田曦薇现身上海恒隆,怼脸拍也好美,可盐可甜,捂嘴笑都那么漂亮

田曦薇现身上海恒隆,怼脸拍也好美,可盐可甜,捂嘴笑都那么漂亮

可乐谈情感
2025-11-15 09:53:10
联盟最无脑管理层!球队二当家遭哄抢,大当家卖不出去,威少太苦

联盟最无脑管理层!球队二当家遭哄抢,大当家卖不出去,威少太苦

你的篮球频道
2025-11-15 08:02:41
分手后是怎样复合的。看网友分享的小手段本人望尘莫及难怪我单身

分手后是怎样复合的。看网友分享的小手段本人望尘莫及难怪我单身

侃神评故事
2025-10-11 11:30:03
周总理弥留之际“违规”见一个人,嘱咐他:台湾有两个人不能忘!

周总理弥留之际“违规”见一个人,嘱咐他:台湾有两个人不能忘!

浩渺青史
2025-11-14 20:27:05
曾是上海主持人,巅峰隐退!50多岁的她,如今过得咋样?

曾是上海主持人,巅峰隐退!50多岁的她,如今过得咋样?

策略剖析
2025-11-14 13:51:39
调整!11月15日央视直播全运会乒乓球有变,樊振东+陈梦冲击决赛

调整!11月15日央视直播全运会乒乓球有变,樊振东+陈梦冲击决赛

侃球熊弟
2025-11-15 06:11:29
泰王最爱的西拉米王妃有多美?当年威廉王子也被这位东方美人吸引

泰王最爱的西拉米王妃有多美?当年威廉王子也被这位东方美人吸引

毒舌小红帽
2025-11-10 19:20:11
8亿欧德国队或无缘世界杯 末轮生死战:打平即出线+首轮0-2输对手

8亿欧德国队或无缘世界杯 末轮生死战:打平即出线+首轮0-2输对手

风过乡
2025-11-15 06:56:45
森林狼传闻:凯文·乐福将价值6000万美元的合同揉成一团扔掉

森林狼传闻:凯文·乐福将价值6000万美元的合同揉成一团扔掉

好火子
2025-11-15 03:44:35
4-0!中国队大胜,狂轰4球,全场碾压,球迷欢呼:终于扬眉吐气

4-0!中国队大胜,狂轰4球,全场碾压,球迷欢呼:终于扬眉吐气

二疯说球
2025-11-15 09:08:19
取款不需报备!央行规定:5万以下无须说明用途

取款不需报备!央行规定:5万以下无须说明用途

别人都叫我阿腈
2025-11-15 05:56:15
埃隆·马斯克被23岁女歌手爆粗口,“可悲又自私”,引发争议

埃隆·马斯克被23岁女歌手爆粗口,“可悲又自私”,引发争议

译言
2025-11-14 08:43:50
2025-11-15 13:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

玛莎拉蒂纯电车"甩卖"裸车35万起 有门店月销30多台

头条要闻

玛莎拉蒂纯电车"甩卖"裸车35万起 有门店月销30多台

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

本地
健康
时尚
游戏
公开课

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

金振口服液助力科学应对呼吸道疾病

什么?!你告诉我佘诗曼已经50岁了

《燕云十六声》Steam褒贬不一 画面表现获认可

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版