网易首页 > 网易号 > 正文 申请入驻

智源悟界·Emu3.5发布,开启“下一个状态预测”!王仲远:或开启第三个 Scaling 范式

0
分享至


2024 年 10 月,智源研究院发布了全球首个原生多模态世界模型悟界·Emu3,该模型只基于下一个 token 预测,无需扩散模型或组合方法,实现图像、文本、视频的大一统。模型一经上线便在技术社区引发了热议。

一年后,智源发布悟界·Emu3.5,在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”,获得了可泛化的世界建模能力。

智源研究院院长王仲远表示,世界模型的核心是预测下一个时空状态,这种预测对具身智能至关重要,且不局限于视频或图像形式。他解释道,人类面对真实世界场景时,会形成多模态理解(如看到靠边的咖啡会预判掉落风险),机器人执行相关操作(如抓取咖啡)时,需要精准把控力度、方向等细节。


论文介绍:https://arxiv.org/pdf/2510.26583

Emu3.5 在各方面能力上实现了全面提升。它具备三大特点:一是从意图到规划,模型能够理解高层级的人类意图(如“如何制作一艘宇宙飞船”“如何做咖啡拉花”),并自主生成详细、连贯的多步骤行动路径;二是动态世界模拟,模型在统一框架内无缝融合了对世界的理解、规划与模拟,能够预测物理动态、时空演化和长时程因果关系;三是可成为泛化交互基础:其涌现出的因果推理和规划能力,为 AI 与人类及物理环境进行泛化交互(如具身操控)提供了关键的认知基础。


“我们认为,Emu3.5 很可能开启了第三个 Scaling 范式。”王仲远说道。

随着大语言模型的成功,行业探索出语言预训练的 Scaling 范式,即通过提升模型参数量、数据量与算力,实现性能的显著优化。但随着文本数据逐渐耗尽,过去两年行业将重点转向后训练与推理阶段的 Scaling 范式,这一方向也成功进一步激发了模型潜力,取得了良好效果。但多模态领域长期以来始终缺乏成熟的 Scaling 范式。“从 Emu3 到 Emu3.5 的演进,我们首次证明了多模态领域同样存在这样的 Scaling 可能性,”王仲远表示,其核心依据有三点:

  • Emu3.5 架构采用自回归设计,实现了多模态数据的大一统,能够大规模复用现有计算基础设施;

  • Emu3.5 首次在多模态领域落地自回归架构下的大规模强化学习技术,行业已具备成熟解决方案,这为多模态大模型的 Scaling up 提供了关键支撑;

  • 从 Emu3 到 Emu3.5,模型性能实现显著跃升,目前 Emu3.5 已达到产品级水准,后续将向行业开放。

王仲远介绍,此次团队研发的核心思路是回归第一性原理。这源于对人类学习本质的认知:人类的学习并非从文本开始,每个人自出生起,对世界的认知(包括与他人的交流、物理世界的运行规律),都是以视觉为起点建立的。当前视频形态的存在,恰好为模型学习世界知识提供了优质载体:通过视频,模型能够有效掌握世界的内在运行规律、因果关系、逻辑推理逻辑,以及各类物理常识。

世界多模态模型探索

市面上多数模型仍将 “多模态理解” 与 “多模态生成” 拆分处理。其中,多模态理解类模型多采用组合式架构,例如以大语言模型为基础,先完成语言能力学习,再叠加多模态学习。但这种模式存在明显问题:模型易出现 “遗忘现象”,其记忆能力不足的问题至今未得到妥善解决;同时,Agent 在处理相关任务时如何优化表现等,都是企业场景落地过程中必须突破的关键难点。

Emu 系列模型采用了自回归架构,使其可扩展性更强。它的 Next Token,可以是视觉和文字的 Token,且性能无损。王仲远特别提到,它的强推理、长时序一致性,能给具身智能带来根本性的改变。

相比之下,当前主流模型架构(如 DiT 架构)虽已在特定场景中取得亮眼成果,但其设计本质上限制了模型的泛化能力与任务迁移能力。换言之,这类架构更偏向针对具体问题的 “精巧解决方案”,而非能够跨场景、跨模态实现自适应学习的通用智能系统。

在多模态发展方向上,智源认为,无论是聚焦 Emu3.5 本身,还是从更长时间尺度回望,它都代表了一条切实可行的多模态智能发展路径。

“悟界·Emu3.5 是 AI 大模型领域一项至关重要的原始创新。它并非单纯的算法创新,也不是单一的工程创新,而是融合了算法、工程架构、数据训练范式与模型思想的综合性创新。此类创新恰恰只有智源这样的机构能够实现 —— 因为智源是一种介于高校与企业之间的中间态组织,这种独特的组织形态,为开展跨维度、多层面的综合性创新提供了必要条件。”王仲远表示。

三大技术创新

具体来看,Emu3.5 首先在约 13 万亿 tokens 上进行两阶段端到端预训练,第二阶段进一步提升视觉分辨率多样性、数据质量和标注丰富度,提供更精准的多模态监督。两阶段训练使模型能在统一生成框架下自然处理交错视觉 - 语言输入并生成交错输出。随后,模型在 1500 亿样本上进行有监督微调(SFT)以构建统一多模态生成接口,再通过大规模强化学习提升多模态推理与生成能力。最后,利用少量(数十亿 tokens)SFT 和自蒸馏数据,通过 DiDA 技术快速适配高效推理。


首先,在预训练环节,Emu3.5 消耗了超过 10T Token,这主要得益于其易拓展的架构以及海量长视频数据的支撑。这也是 Emu3.5 与之前版本的主要区别:大部分数据是长视频而不是文字主导。

视觉 - 语言交错数据来源于多样化视频(含开源数据集、公开网络视频及第三方合作获取视频),共包含约 6300 万条视频,平均时长 6.5 分钟,总时长约 790 年。数据覆盖教育、科技、教育、娱乐、体育、游戏、旅游、动画等多个领域,全面捕捉真实世界和想象场景。

值得关注的是,当前 Emu3.5 仅为 340 亿参数规模,所使用的视频数据累计时长达 790 年,却仅占全互联网公开视频数据的不到 1%。这意味着,无论是训练数据量、参数规模的拓展,还是未来向 MOE 架构的演化,所有在语言大模型上已验证的 Scaling up 路径与能力,都有望在多模态领域重新实现。

“训练过程稳定性极佳,即便在各类下游未见过场景的验证损失中,也能观察到随着计算量增加,模型效果持续稳定提升,这也印证了原生多模态的 Scaling 范式有效性。”智源研究员王鑫龙表示。

第二项核心技术是大规模原生多模态强化学习。

GPT-o1 和 DeepSeekR1 通过强化学习极大增强了语言能力,但该技术应用于更长的多模态场景时会面临诸多问题。而依托易拓展的自回归架构与整体范式,Emu3.5 可轻松实现统一多任务的多模态强化学习。

智源团队构建了包含不同奖励的综合奖励系统,为多样化下游任务提供全面统一的指导。该奖励系统具备通用性、任务特异性和统一性三项核心特性,这种多维度奖励系统确保 Emu3.5 可以平衡多种质量标准,更重要的是,避免单一奖励过拟合,实现多任务的一致提升,且不会损害单个任务的性能。

通过多模态强化学习,模型能够模仿多模态交互,将众多多模态任务统一在相同的交互形式下,既包括复杂文生图,也涵盖具备强推理能力的图像编辑(文字与图像均为生成内容)。

例如,精准呈现“一步步拿出手机”“倒水”等动作,体现对现实世界的理解;还能实现交互式探索(室内、室外、想象或真实场景)及问题操作,这些能力定义了下一代原生多模态模型的核心方向。

第三项技术是推理加速领域的实用突破。

自回归模型相较于扩散模型,原本存在推理速度劣势。对此,智源通过自研的 DiDa 技术,无损预测下一个 Token 并将推理速度提升了 20 倍,最终使自回归架构的模型性能能够媲美 Diffusion 架构模型。

DiDA 是一种轻量级自适应方法,在不改变模型文本生成能力的前提下,来加速自回归图像生成。基于预训练自回归模型,DiDA 将离散扩散公式扩展至视觉 token,使模型将图像生成从序列解码转换为并行生成。具体而言,DiDA 在视觉 token 上实现离散扩散过程,整个图像 token 序列一次性初始化,通过一系列离散去噪步骤逐步优化,恢复目标图像。这种设计在不损失输出质量的前提下,实现推理速度的显著提升。


“原来的原生多模态的成本极高的,这一次 20 倍的加速,把原生多模态的成本砍下来了。” 王鑫龙说道。

值得关注的是,这是首次通过 Token 预测方法,实现了可媲美闭源系统最强图像生成的能力,而该能力仅为 Emu3.5 图形能力的一部分。这一突破背后,得益于上述多项核心技术的革新,使得 Emu3.5 在生成性能与速度上均能与顶尖闭源系统相媲美。

结束语

智源认为,世界模型不仅是视频生成,更多的是对整个世界因果关系、时空、物理建模的能力。

“我们更愿意把悟界·Emu3.5 称作为多模态世界大模型,因为它具备了多模态的理解能力和多模态的生成能力。它实际上能够理解时空、长时序、一致性,能够有因果推断,所以 Emu3.5 是一个非常独特的模型。可能很难直接单一的跟任何一个模型去比较。”王仲远说道。

王仲远认为,Emu3.5 的意义在于,可能开创了一个新的大模型的赛道。“虽然业内对世界模型有很多的讨论,但人们最初的讨论是,我们的人类大脑里面应该存在着一个这样的世界模型,它能够理解基本的世界运行规律,包括物理常识、时间空间知识等,能够帮助我们解决日常生活中看似非常简单、但现在对于机器人来讲非常困难的问题。”

会议预告

12 月 19~20 日,AICon 2025 年度收官站 · 北京见。两天时间,聊最热的 Agent、上下文工程、AI 产品创新等等话题,与头部企业与创新团队的专家深度交流落地经验与思考。2025 年最后一场,不容错过。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白宫通告全球,中美达成大交易,话音刚落,欧盟找上中国讨要好处

白宫通告全球,中美达成大交易,话音刚落,欧盟找上中国讨要好处

博览历史
2025-11-05 18:30:24
周四收盘:今天涨到4008,做好准备了,周五很可能将迎来关键变盘

周四收盘:今天涨到4008,做好准备了,周五很可能将迎来关键变盘

好贤观史记
2025-11-06 15:00:23
离开的何止是郑智化

离开的何止是郑智化

老唐有话说
2025-11-04 18:37:23
6-0!国锦赛首位4强选手诞生:吴宜泽连胜12局!淘汰世界第1第13

6-0!国锦赛首位4强选手诞生:吴宜泽连胜12局!淘汰世界第1第13

球场没跑道
2025-11-06 16:43:35
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
菲律宾等四国防长发表涉东海和南海联合声明 外交部回应

菲律宾等四国防长发表涉东海和南海联合声明 外交部回应

新京报
2025-11-06 16:03:04
内涵高露、手撕王传君,“黑料缠身”的白百何,谁给她的勇气?

内涵高露、手撕王传君,“黑料缠身”的白百何,谁给她的勇气?

白面书誏
2025-11-06 16:03:00
炸裂!医生玩这么刺激?湖南副院长眼科主任混乱关系看得令人发麻

炸裂!医生玩这么刺激?湖南副院长眼科主任混乱关系看得令人发麻

阿銍武器装备科普
2025-11-05 23:51:30
奶皮子糖葫芦吃上了吗?第一批“受害者”已经出现了

奶皮子糖葫芦吃上了吗?第一批“受害者”已经出现了

江西新闻联播
2025-11-06 09:24:42
克扣80%工资,偿还80%人生!比骑手捅站长更可悲的是周围人的态度

克扣80%工资,偿还80%人生!比骑手捅站长更可悲的是周围人的态度

垛垛糖
2025-11-05 13:54:23
信手拈来,约基奇18中12砍33分15板16助,生涯第7次30+15+15

信手拈来,约基奇18中12砍33分15板16助,生涯第7次30+15+15

懂球帝
2025-11-06 12:41:13
台当局做战备,连战送郑丽文8个大字,洪秀柱一锤定音,势必统一

台当局做战备,连战送郑丽文8个大字,洪秀柱一锤定音,势必统一

知鉴明史
2025-11-05 18:04:26
网传鹏华基金旗下两位基金经理闫思倩与王子建互殴,已报警、送医院!二人共同管理的基金产品为鹏华创新未来混合(LOF)

网传鹏华基金旗下两位基金经理闫思倩与王子建互殴,已报警、送医院!二人共同管理的基金产品为鹏华创新未来混合(LOF)

和讯网
2025-11-06 16:33:38
湖南省益阳市委原二级巡视员邓正安被公诉,曾被批违规决策造成重大损失

湖南省益阳市委原二级巡视员邓正安被公诉,曾被批违规决策造成重大损失

正义网新闻
2025-11-06 16:23:03
炸锅了炸锅了!港圈突然爆出大新闻:谢霆锋居然通过法律协议

炸锅了炸锅了!港圈突然爆出大新闻:谢霆锋居然通过法律协议

小光侃娱乐
2025-11-05 10:55:03
太空碎片威胁升级,神舟二十号飞船遭撞击,专家:不排除形成灾难

太空碎片威胁升级,神舟二十号飞船遭撞击,专家:不排除形成灾难

一个有灵魂的作者
2025-11-06 09:00:47
美论坛:不管中国承不承认,中国是否已经输掉了关税战?

美论坛:不管中国承不承认,中国是否已经输掉了关税战?

朔方瞭望
2025-11-02 10:06:11
台北豪宅双尸案:9亿CEO与女网红疑“马拉松”连嗨48小时丧命

台北豪宅双尸案:9亿CEO与女网红疑“马拉松”连嗨48小时丧命

吃瓜体
2025-11-06 09:51:51
潘石屹再次预判我国楼市,不出意外,未来3年楼市将迎来“三大走向”

潘石屹再次预判我国楼市,不出意外,未来3年楼市将迎来“三大走向”

亚哥谈古论今
2025-11-03 20:27:36
“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

“臀大腰粗”的女生怎么穿好看?吊带背心搭深灰瑜伽裤,高雅自信

小乔古装汉服
2025-09-29 07:55:03
2025-11-06 19:31:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1110文章数 104关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

女子将社保迁到异地 申请退休时被告知无法在当地退休

头条要闻

女子将社保迁到异地 申请退休时被告知无法在当地退休

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

数码
教育
艺术
公开课
军事航空

数码要闻

三星Exynos 2600芯片采用HPB技术,散热性能提升30%

教育要闻

数阵图看着挺吓人的,其实就是求两个和

艺术要闻

预定年度十佳!49岁的舒淇,杀疯了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国发射洲际弹道导弹 俄方回应

无障碍浏览 进入关怀版