网易首页 > 网易号 > 正文 申请入驻

智源悟界·Emu3.5 开启新赛道,多模态世界大模型新纪元到来

0
分享至

2025年10月30日,智源研究院(下称“智源”)在北京举办“悟界·Emu系列技术交流会”,智源院长王仲远、智源多模态大模型负责人王鑫龙,发布了Emu3.5多模态世界大模型。这项工作的发布开启了AI从语言学习向多模态世界学习演进的新纪元,让原生多模态的大规模预训练、大规模强化学习和高效推理迎来了新突破,指明了多模态 Scaling 的新范式,并证明了一条更简洁、更具扩展性的技术路径的可行性。与此同时,Emu作为“悟界”系列模型的重要组成部分,标志着AI正加速从数字世界迈向物理世界的关键一步。王仲远表示:“在多模态模型和世界模型上,业内没有统一法则,大家都在探索。随着模型的不断研发,我们相信多模态模型和世界模型应该融合成一个更强大的新物种,那就是“多模态世界大模型”。因此,Emu3.5是我们对这一理念的开创性实践,甚至我们认为智源可能定义并开启了一个新赛道。”



遵循第一性原理,实现端到端原生多模态世界建模

据了解,Emu3.5遵循第一性原理,采用单一的自回归Transformer架构,实现了端到端的原生多模态世界建模。它在超过 10 万亿 token 的大规模多模态数据基础上展开训练,其视频数据训练量时长实现从15年到 790年的跃升,参数量从8B上升至34B。在对这一模型进行推理时,智源提出“离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)技术,这项技术是一种高效的混合推理预测方法,能够在不牺牲性能的前提下,将每张图片的推理速度提升近 20 倍,让自回归模型的生成效率得以首次媲美顶尖的闭源扩散模型。

为什么说Emu3.5是“世界模型”?它是如何“理解世界”的?据了解,智源之所以将Emu3.5称为“世界模型”,因为它通过单一、统一的训练目标——“预测下一个状态”(Next-State Prediction),从海量的多模态数据中,自发学习并内化了物理世界的运行规律、时空连续性以及事物间的因果关系。它并非被硬编码灌输这些知识,这种对真实世界物理动态的内在表征,使其能够进行长时程规划和与环境进行可泛化的交互。

那么,Emu3.5与当前其他的多模态模型(如视频生成模型)有什么本质区别?作为一个多模态世界大模型,与专注于内容(如视频)“生成”的模型不同的是,Emu3.5的核心在于“理解、预测与规划”,它不仅能生成对未来的预测,更致力于构建一个关于世界如何运作的内在模型。两者本质区别在于:Emu3.5不仅仅能生成内容,还构建了一个内在世界模型的预测系统,能够从大规模多模态数据中原生学会意图解析、因果推理和多步行动路径规划的能力。

悟界·Emu3.5模型具备学习现实世界物理动态与因果的能力,为探索通用世界模型奠定了坚实的基础。它具备三大重要特点:一是具备从意图到规划的特点,模型能够理解高层级的人类意图(如“如何制作一艘宇宙飞船”“如何做咖啡拉花”),并自主生成详细、连贯的多步骤行动路径。二是具备动态世界模拟的特点,模型在统一框架内无缝融合了对世界的理解、规划与模拟,能够预测物理动态、时空演化和长时程因果关系。三是可以成为泛化交互的基础,其涌现出的因果推理和规划能力,为 AI 与人类及物理环境进行泛化交互如具身操控提供了关键的认知基础。这些特点这让新一代世界模型具备从“理解”到“行动”的全面智能能力,可以生成行动指南和进行图文编辑。并且具备一定的物理直觉,因此可以开展多场景的探索。

Emu3.5 在多模态指导中展现出卓越的时序一致性与步骤推理能力,让复杂任务的执行过程一目了然。多模态叙事能力上,Emu 3.5能围绕任意主题生成沉浸式的故事体验,释放无限想象力。此外模型可实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力,并能在世界探索中保持长距离一致性与可控交互,兼顾真实与虚拟的动态环境,实现自由探索与精准控制。同时,在图文编辑方面,它既能通过自然语言实现任意指令的图片编辑与时空变换,也能以精准、智能、可控且富有创意的方式完成文图生成,让文字与视觉内容的融合更加自然与高保真。在基准测试中,Emu3.5 的表现超越了众多知名的闭源模型。

开创多模态世界大模型新范式,探索通往AGI的演进之路

据介绍,智源的定位是做高校做不了、企业不愿意做的AI创新型研究,创新引领是其主要的使命和愿景。智源是国内最早开始从事大模型研发的机构,过去几年智源在大模型方面做了不少工作,成功研发了悟道1.0、2.0和3.0,很多耳熟能详的大模型人物最初都在智源研究院从事研发,最后通过智源把相关项目孵化了出去。近两年,智源开始将重点放在多模态和面向物理世界的AI研发工作上。之所以聚焦这一重点,是基于智源对于未来技术的研判,即大模型正在加速从数字世界走进物理世界。如今,整个技术路径演进也正在按照智源所预测的大致方向在走。很多大家耳熟能详的视频生成模型和图像生成模型,基本上都是用的 DiT(Diffusion Transformer)架构。因为Diffusion 和 Transformer是两种不同的架构,在实际融合的过程中,就会带来巨大的挑战。从2024年以来智源一直在倡导并希望能够引领原生多模态大模型的研发,把多模态的理解和多模态的生成统一起来。因为只有这样,才能够真正让AI看到、感知和理解这个世界,然后再与硬件结合。正因此,具身智能也是过去这两年智源重点发力的研究方向,最终其希望AI能够进入物理世界,真正解决人类生活中的更多现实问题。

大约一年前左右,智源于2024年10月发布了全球首个原生多模态世界模型悟界·Emu3,该模型只基于下一个token预测,无需扩散模型或组合方法,实现图像、文本、视频的大一统。模型一经上线便在技术社区引发了热议。一年后,智源此次发布的Emu3.5,在“Next-Token Prediction”范式的基础上,模拟了人类自然学习方式,以自回归架构实现了对多模态序列的“下一状态预测(NSP,Next-State Prediction)”,获得了可泛化的世界建模能力,并且观察到多模态大模型性能可以像大语言模型一样随数据、计算和参数规模的增长而提升。王仲远表示:“通过 Emu3 我们验证了自回归架构实现多模态理解与生成大一统的可行性,Emu3.5 则开启了多模态 Scaling 的新时代。更重要的是,它为通往更通用的、能够理解并与物理世界交互的通用AI,提供了一条坚实的、可度量的实践路径。”

王仲远总结称:“以第一性原理来看大模型的未来的话,我们相信AI的下一次跃迁将来自模型对现实世界的深层表征与可泛化行动指导的能力。我们期待与更多科研机构与产业伙伴一起,开创多模态世界大模型新范式,探索通往AGI的演进之路。”接下来,智源将逐步面向学术界合作伙伴开放Emu3.5的科研体验版,以便能够促进基础科学的探索与合作。同时,智源将陆续通过其官方渠道启动面向产业界和开发者的邀请制测试。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我手术差2万,全家失联去国外度假,3年后我妈:你帮忙买下学区房

我手术差2万,全家失联去国外度假,3年后我妈:你帮忙买下学区房

磊子讲史
2025-12-29 14:38:18
新任新疆维吾尔自治区党委常委王刚已任自治区党委政法委书记

新任新疆维吾尔自治区党委常委王刚已任自治区党委政法委书记

澎湃新闻
2026-02-10 07:18:29
才买3年 672辆纯电公交因续航衰减停运!东莞最大公交公司起诉卖家 法院判了

才买3年 672辆纯电公交因续航衰减停运!东莞最大公交公司起诉卖家 法院判了

快科技
2026-02-09 22:34:07
驻村书记刚进省厅就被副厅长当众驱赶,厅长一句话揭露他隐藏身份

驻村书记刚进省厅就被副厅长当众驱赶,厅长一句话揭露他隐藏身份

晏京故事
2026-02-03 10:11:42
巴黎球迷用Tifo嘲讽马赛人是送货的,快递公司:对此行为我方深感遗憾

巴黎球迷用Tifo嘲讽马赛人是送货的,快递公司:对此行为我方深感遗憾

懂球帝
2026-02-10 10:06:39
卡里克获曼联更衣室大佬支持!若未转正三队欲请,下季必执教英超

卡里克获曼联更衣室大佬支持!若未转正三队欲请,下季必执教英超

罗米的曼联博客
2026-02-10 07:34:44
厚黑哲学:一种清醒的生存诗意

厚黑哲学:一种清醒的生存诗意

疾跑的小蜗牛
2026-02-09 23:12:29
婚变实锤?未回北京,春节假期开启,谁注意杜锋去向,妻子态度真实

婚变实锤?未回北京,春节假期开启,谁注意杜锋去向,妻子态度真实

情感大头说说
2026-02-09 21:24:25
广东招生新政重磅落地!教育公平再升级,这些变化关乎每个家庭

广东招生新政重磅落地!教育公平再升级,这些变化关乎每个家庭

教师吧
2026-02-09 21:57:53
年薪5400万,又一次赛季报销!交易彻底失败,你也应该退役了

年薪5400万,又一次赛季报销!交易彻底失败,你也应该退役了

篮球扫地僧
2026-02-09 23:23:15
181个国家研究发现:吃得越咸,寿命越长?清淡有罪,真的吗

181个国家研究发现:吃得越咸,寿命越长?清淡有罪,真的吗

蜉蝣说
2026-02-06 11:34:04
高血压与早起习惯有关?医生提醒:血压高的人,早起少干4件事!

高血压与早起习惯有关?医生提醒:血压高的人,早起少干4件事!

医学原创故事会
2026-02-09 22:50:08
刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

刘伯温预言成真?那位东方圣人早已出世,大概率就藏在这三地

z千年历史老号
2026-02-05 16:31:39
中央明确!退休新规实施后,公务员及事业编制,不能延迟退休吗?

中央明确!退休新规实施后,公务员及事业编制,不能延迟退休吗?

另子维爱读史
2026-02-08 21:13:03
高市胜选第一天!特朗普第一时间祝贺,庆祝完就对中国来了两手?

高市胜选第一天!特朗普第一时间祝贺,庆祝完就对中国来了两手?

一口娱乐
2026-02-10 08:04:08
小米17 Ultra迎“销量降温期”:首周5.8万台下滑至0.8万台

小米17 Ultra迎“销量降温期”:首周5.8万台下滑至0.8万台

CNMO科技
2026-02-09 12:45:06
让“油电混动技术”悲哀的是:打败了所有对手,却输给了时代!

让“油电混动技术”悲哀的是:打败了所有对手,却输给了时代!

张鴘喜欢软软糯糯
2026-01-15 19:22:59
孙颖莎4-3夺冠仅一天!亚洲杯不和谐一幕:球迷疯狂指责王曼昱

孙颖莎4-3夺冠仅一天!亚洲杯不和谐一幕:球迷疯狂指责王曼昱

体育就你秀
2026-02-09 11:38:36
太敢说!咸鱼被称国内黑市,果然够全面

太敢说!咸鱼被称国内黑市,果然够全面

另子维爱读史
2026-02-03 22:10:36
国际乒联官网:42名选手获澳门世界杯参赛资格,中国队才5人

国际乒联官网:42名选手获澳门世界杯参赛资格,中国队才5人

真理是我亲戚
2026-02-09 13:55:32
2026-02-10 10:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16242文章数 514599关注度
往期回顾 全部

科技要闻

Claude搅动硅谷,AI开始抢企业软件饭碗了?

头条要闻

牛弹琴:想营造有利于"拜鬼"的环境 高市早苗是在妄想

头条要闻

牛弹琴:想营造有利于"拜鬼"的环境 高市早苗是在妄想

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

退保黑灰产仍在“隐秘角落”顶风接单

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

房产
时尚
亲子
手机
数码

房产要闻

海南又一千亿级赛道出现,京东、华润、中石化等巨头率先杀入!

冬季穿衣越简单越实用!从这些日常穿搭中收获灵感,大方又自然

亲子要闻

1岁开始赚钱,4岁未上幼儿园,穿破烂衣服摆拍,瑶一瑶现状如何

手机要闻

REDMI、一加、iQOO新机销量比比看,结果很意外

数码要闻

消息称苹果AirPods Pro 3增强版今年上市:耳机也能“看”世界

无障碍浏览 进入关怀版