网易首页 > 网易号 > 正文 申请入驻

智源研究院发布悟界Emu3.5,开启多模态世界大模型新纪元

0
分享至

10月30日,智源研究院在北京举办“悟界 • Emu系列技术交流会”,智源研究院院长王仲远、多模态大模型负责人王鑫龙,发布了Emu3.5多模态世界大模型。这项工作的发布开启了人工智能从语言学习向多模态世界学习演进的新纪元,率先指明了多模态 Scaling 的新范式。而Emu作为“悟界”系列模型的重要组成部分,标志着AI正加速从数字世界迈向物理世界的关键一步。



2024年10月,智源研究院发布了全球首个原生多模态世界模型Emu3,该模型只基于下一个token预测,无需扩散模型或组合方法,实现图像、文本、视频的大一统。模型一经上线便在技术社区引发了热议。

一年后,智源发布Emu3.5,在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归架构实现了对多模态序列的“Next-State Prediction (NSP)”,获得了可泛化的世界建模能力。



王仲远表示:“通过 Emu3 我们验证了自回归架构实现多模态理解与生成大一统的可行性,Emu3.5 则开启了多模态 Scaling 的新时代。更重要的是,它为通往更通用的、能够理解并与物理世界交互的通用人工智能,提供了一条坚实的、可度量的实践路径。”

Emu3.5在超过 10 万亿 token 的大规模多模态数据基础上展开训练,其视频数据训练量时长实现从15年到 790年的跃升,参数量从8B上升至34B,揭示了原生多模态Scaling范式。其推理时,创新性地提出“离散扩散自适应”(Discrete Diffusion Adaptation,DiDA)技术,这一高效的混合推理预测方法,可以在不牺牲性能的前提下,将每张图片的推理速度提升了近 20 倍,首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。

王鑫龙介绍:“EMU3.5突破了原生多模态的大规模预训练、大规模强化学习和高效推理,指出了多模态世界模型的一种简单易扩展的Scaling范式。”

EMU3.5 模型开始具备学习现实世界物理动态与因果的能力,为探索通用世界模型奠定了坚实的基础。它具备三大重要特点。一是从意图到规划,模型能够理解高层级的人类意图(如“如何制作一艘宇宙飞船”“如何做咖啡拉花”),并自主生成详细、连贯的多步骤行动路径。二是动态世界模拟,模型在统一框架内无缝融合了对世界的理解、规划与模拟,能够预测物理动态、时空演化和长时程因果关系。三是可成为泛化交互基础:其涌现出的因果推理和规划能力,为 AI 与人类及物理环境进行泛化交互(如具身操控)提供了关键的认知基础。

这些特点这让新一代世界模型具备从“理解”到“行动”的全面智能能力,可生成行动指南、进行图文编辑,并且同时具备物理直觉可开展多场景的探索。



【Emu3.5 能以精准可控的方式完成文图生成】



【展现出基于视觉理解的图像生成能力】



【Emu3.5 的多模态指导能力:输入“如何做芹菜饺子”,模型输出有步骤的图文指导】

Emu3.5 在多模态指导中展现出卓越的时序一致性与步骤推理能力,让复杂任务的执行过程一目了然。多模态叙事能力上,Emu 3.5能围绕任意主题生成沉浸式的故事体验,释放无限想象力。此外模型可实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力,并能在世界探索中保持长距离一致性与可控交互,兼顾真实与虚拟的动态环境,实现自由探索与精准控制。



【Emu 3.5 能围绕任意主题生成沉浸式的体验,上面是宇航员在探索中遇到皮卡丘的故事】



【只需一句“叠衣服”的简单指令,Emu3.5便能自主规划、拆解任务,并精确生成机器人完成一整套复杂的折叠动作】



【Emu3.5 能够完成复杂的图文编辑任务:进行时空变换后,依旧保持物体与场景的高度一致】

同时,图文编辑方面,它既能通过自然语言实现任意指令的图片编辑与时空变换,也能以精准、智能、可控且富有创意的方式完成文图生成,让文字与视觉内容的融合更加自然与高保真。在基准测试中,Emu3.5 的表现超越了众多知名的闭源模型。

王仲远总结,以第一性原理看大模型未来,我们相信AI的下一次跃迁,将来自模型对现实世界的深层表征与可泛化行动指导的能力。我们期待与更多科研机构与产业伙伴一起,开创多模态世界大模型新范式,探索通往AGI的演进之路。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
半个月内,中央宣讲团成员,到31个省份宣讲

半个月内,中央宣讲团成员,到31个省份宣讲

政知新媒体
2025-11-12 22:11:41
套路太深!知名软件被指看人下菜,你的电脑正沦为“提款机”

套路太深!知名软件被指看人下菜,你的电脑正沦为“提款机”

电脑报
2025-11-12 17:30:28
段永平最新深度访谈:“稀里糊涂 6 个月赚了 20 倍”

段永平最新深度访谈:“稀里糊涂 6 个月赚了 20 倍”

互联网早读课
2025-11-12 08:10:28
快报,快报  菲律宾正式宣布

快报,快报 菲律宾正式宣布

南权先生
2025-11-12 09:15:03
某些领导们,不要再折腾老百姓和自己的手下了……

某些领导们,不要再折腾老百姓和自己的手下了……

靠山屯闲话
2025-11-12 10:40:48
重庆女检察官与富翁通奸丑闻

重庆女检察官与富翁通奸丑闻

宾语观世
2025-11-12 14:30:29
“尊重沈伯洋成为‘台独烈士’的权利”

“尊重沈伯洋成为‘台独烈士’的权利”

环球时报新闻
2025-11-12 21:13:12
爆大冷输越南!国足俊才颜面尽失,裁判多次留情,邵佳一仰天长叹

爆大冷输越南!国足俊才颜面尽失,裁判多次留情,邵佳一仰天长叹

话体坛
2025-11-12 22:13:16
孙杨被取消成绩

孙杨被取消成绩

新京报政事儿
2025-11-12 21:28:58
维C是苹果9倍!冬天使劲吃,一健脾养胃,二养肝护肝,三补钾补铁

维C是苹果9倍!冬天使劲吃,一健脾养胃,二养肝护肝,三补钾补铁

阿龙美食记
2025-11-11 13:47:30
“南朝四百八十寺之一”张家港永庆寺起火!当地文旅局:失火主体文昌阁系2008年新建仿古建筑,损失正在统计

“南朝四百八十寺之一”张家港永庆寺起火!当地文旅局:失火主体文昌阁系2008年新建仿古建筑,损失正在统计

红星新闻
2025-11-12 18:31:11
第38届金鸡奖开幕,陈飞宇主持周冬雨开场,网友:内娱影坛要完

第38届金鸡奖开幕,陈飞宇主持周冬雨开场,网友:内娱影坛要完

八卦南风
2025-11-12 16:29:56
房价不能再跌了,再跌很多家庭真要垮了

房价不能再跌了,再跌很多家庭真要垮了

深蓝夜读
2025-11-12 17:18:09
全面替代,英伟达幻灭

全面替代,英伟达幻灭

南风窗
2025-11-12 13:42:17
两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

两败俱伤!大陆市场700台光刻机全部回购?外媒:荷兰这次闹大了

花心电影
2025-11-12 14:24:18
这两个新闻放一起看,讽刺得让人无话可说

这两个新闻放一起看,讽刺得让人无话可说

清书先生
2025-11-12 15:55:46
尘埃落定!曾医生事件处理结果公布,“撤职留岗”引发舆论两极化

尘埃落定!曾医生事件处理结果公布,“撤职留岗”引发舆论两极化

史行途
2025-11-12 17:10:24
涉赌诈头目佘智江(湖南出生,后获柬埔寨国籍)被引渡回中国,涉案资金超2.7万亿元,曾参与投资开发KK园区

涉赌诈头目佘智江(湖南出生,后获柬埔寨国籍)被引渡回中国,涉案资金超2.7万亿元,曾参与投资开发KK园区

大象新闻
2025-11-12 20:46:22
全运会男足队史首冠!湖北队总分6-4广东 补时绝平+点球大战翻盘

全运会男足队史首冠!湖北队总分6-4广东 补时绝平+点球大战翻盘

我爱英超
2025-11-12 22:35:07
输越南!熊猫杯首战U22国足0-1越南U22,汪士钦解围失误送大礼

输越南!熊猫杯首战U22国足0-1越南U22,汪士钦解围失误送大礼

懂球帝
2025-11-12 21:43:22
2025-11-13 03:23:00
趣味科技 incentive-icons
趣味科技
十佳科技自媒体,冬奥会火炬手
5500文章数 6070关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

头条要闻

涉赌诈头目佘智江被引渡回中国 涉案资金超2.7万亿元

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

游戏
家居
教育
旅游
健康

分析称《GTA6》延期或致PS6等主机推迟:拖到2028年

家居要闻

情感之所 生活教会设计

教育要闻

人民网专访!陈经纶中学校长独家揭秘

旅游要闻

638栋楼的灯光秀,与滕王阁的千年对话

血液科专家揭秘白血病七大误区

无障碍浏览 进入关怀版