网易首页 > 网易号 > 正文 申请入驻

世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超NanoBanana

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

最新最强的开源原生多模态世界模型——

北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。

图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。

先感受一下它的高精度操作:一句话消除手写痕迹。



第一视角漫游动态3D世界:



要知道,现在AI迭代的速度,正在刷新所有人的认知。

尤其是在文生视频这条赛道上,几乎每个月都有新技术出来“搞事情”。

肉眼可见,AI视频一个比一个真,一个比一个长。

but,先别急着鼓掌——

真正的赛点,早已不是“像不像”,而是“懂不懂”。

它知道桌子上的苹果被拿走后,那里应该变空吗?它明白你转身之后,背后的场景依然存在吗?如果答案是否定的,那再逼真的视频,也不过是“高级的GIF”。

现在,致力于攻克这一终极难题的玩家,终于带着悟界·Emu3.5来了。

从官方放出的demo来看,Emu3.5生成的作品展现出极强的连贯性、逻辑性,尤其让AI模拟动态物理世界的能力又双叒增强了。

它能让你以第一人称视角进入它所构建的虚拟世界。你的每一次移动、每一次转身,它都能动态构建出你下一步应该看到的场景,全程保持空间一致性。

除了上面展示的探索3D游戏世界,还能第一视角参观阳光下的客厅:



在火星上开卡丁车也很丝滑:



由于掌握了世界运行的内在规律,它不仅能像专业设计师一样,进行高精度、可控的图像编辑:



还能像拍电影一样,生成图文并茂的视觉故事:



从测评成绩来看,悟界·Emu3.5的表现也极其亮眼——在多项权威基准上,性能媲美甚至超越了Gemini-2.5-Flash-Image,没错,就是那个Nano Banana,在文本渲染和多模态交错生成任务上优势尤其显著。



Emu3.5的命名,就揭示了它的定位:世界模型基座

顾名思义,它要做的是世界模型的基础模型,这等于是在AI领域开辟了一条全新的赛道。

那么,这样一个被寄予厚望的模型究竟有多强?来看更多案例。

像智能体一样理解长时序
核心能力:世界探索与具身操作

这是Emu3.5最核心、最能体现其“世界模型基座”本质的能力。它能像一个智能体(Agent)一样,理解长时序、空间一致的序列,模拟在虚拟世界中的探索和操作。

比如下面这个“整理桌面”的任务,就是通过以下指令一步步实现的:

  1. 先把桌上所有东西清空。
  2. 把所有线缆解开并分类。
  3. 用扎带把线缆捆好。
  4. 用理线槽把线缆隐藏在桌下。
  5. 最后把桌面物品摆放整齐。



进阶能力:视觉指导与复杂图像编辑

正因为掌握了动态世界演变规律,Emu3.5尤为擅长提供具有连贯性和指导意义的视觉内容。

当给了Emu3.5一张狐狸的草图,并给出一系列指令“把它变成3D模型、3D打印出来、再上色”后,它直接一步步生成了从草图到最终手办形态的完整视觉流程。整个过程中,狐狸的核心特征和神态都得到了完美保留,扛住了长时程创作的挑战。



这种能力让它还能生成分步教学指南,手把手教你做菜、画画、种菜:



同时,它也支持多图、多轮指令的复杂图像编辑,主体一致性、风格保持能力达到业界顶尖水平。

敲黑板,由于Emu3.5本身就在海量的互联网视频上进行预训练,所以它天生就具备理解时空连续性的能力,能够生成长时序、逻辑一致的序列,而不会出现风格漂移或事实错乱。

为了构建Emu3.5,智源这次在技术方面也是进行了一系列创新和突破。

背后技术原理

Emu3.5参数量仅34B,整个模型以标准的Decoder-only Transformer为框架,单一模型能够同时完成视觉叙事、视觉引导、图像编辑、世界探索、具身操作等多种任务。

它将所有任务都统一为下一State预测(Next-State Prediction)任务,无论是文本还是图像,都被一个强大的多模态分词器(Tokenizer)转换成离散的Token序列。

  • 海量视频数据预训练
  • 模型在超过10万亿Token的多模态数据上进行训练,其中主力是来自互联网视频的连续帧和转录文本。这使得模型从一开始就沉浸式学习时空连续性和因果关系。
  • 强大的分词器
  • 视觉分词器(Tokenizer)基于IBQ框架,拥有13万的视觉词汇表,并集成了扩散解码器,能实现高达2K分辨率的高保真图像重建。
  • 多阶段对齐
  • 在预训练之后,模型经过了大规模的有监督微调(SFT)和大规模多模态强化学习(RL),使用一个包含通用指标(如美学、图文对齐)和任务特定指标(如故事连贯性、文本渲染准确率)的复杂奖励系统进行优化。
  • 推理加速黑科技
  • 为了解决自回归模型生成图像慢的问题,团队提出了离散扩散适配(DiDA)技术,它能将逐个Token的生成方式转变为并行的双向预测,在不牺牲性能的前提下,使每张图像的推理速度提升近20倍。
One More Thing

这么强的模型,智源选择——开源



全球的开发者、研究者,不用再从零开始,就能直接上手一个懂物理、有逻辑的世界模型。

从生成更逼真的视频,到构建更聪明的智能体,再到赋能千行百业的实际应用……想象空间拉满了。

对了,如果想要体验科研内测版,可戳下方链接申请~

体验链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b

项目主页:https://zh.emu.world/pages/web/landingPage
技术报告:https://zh.emu.world/Emu35_tech_report.pdf

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
果然,出门在外“胡说八道”能省去很多麻烦,这些方法太管用了!

果然,出门在外“胡说八道”能省去很多麻烦,这些方法太管用了!

另子维爱读史
2025-12-12 20:08:38
东契奇:约基奇是MVP很难防 我不爽在于别人说同样话却不吃T

东契奇:约基奇是MVP很难防 我不爽在于别人说同样话却不吃T

罗说NBA
2026-03-06 15:04:02
第21轮反击打响!伊朗通报全球,美航母被炸?特朗普下了死命令

第21轮反击打响!伊朗通报全球,美航母被炸?特朗普下了死命令

墨羽怪谈
2026-03-06 17:22:01
中央明确,弹性退休继续实施,1970年出生的可以在哪年退休?

中央明确,弹性退休继续实施,1970年出生的可以在哪年退休?

轩逸阿II
2026-03-06 06:13:32
省委书记给网友回信,“只要愿追梦,梦就真一次”

省委书记给网友回信,“只要愿追梦,梦就真一次”

国是直通车
2026-03-05 17:34:04
宗教习俗不能扰民:谁给你凌晨敲梆子唤醒的权力?

宗教习俗不能扰民:谁给你凌晨敲梆子唤醒的权力?

西域都护
2026-03-05 22:49:54
人大代表庹庆明建议将70岁以上老人全口义齿修复纳入医保 让更多老人尝到饭香

人大代表庹庆明建议将70岁以上老人全口义齿修复纳入医保 让更多老人尝到饭香

闪电新闻
2026-03-05 18:04:46
张靓颖真的是越来越有女人味了

张靓颖真的是越来越有女人味了

乡野小珥
2026-03-06 18:22:34
60岁到70岁这十年,一个人惜命最好的方式是:做好这三件事

60岁到70岁这十年,一个人惜命最好的方式是:做好这三件事

洞读君
2026-03-03 21:10:03
2026年,各国领导人都多少岁了,马克龙48,普京73,特朗普近80

2026年,各国领导人都多少岁了,马克龙48,普京73,特朗普近80

芊芊子吟
2026-02-27 07:35:05
特朗普宣布暂停所有外交会晤,内塔尼亚胡或成下一个大人物

特朗普宣布暂停所有外交会晤,内塔尼亚胡或成下一个大人物

奇思妙想生活家
2026-03-06 17:01:07
你知道最禽兽的事是什么吗?网友的故事让人毛骨悚然!

你知道最禽兽的事是什么吗?网友的故事让人毛骨悚然!

特约前排观众
2026-02-28 00:15:03
600号边上,上海这家名字特别的研究所火了!招聘要求博士,还给编制!网友好奇:上班即修仙?

600号边上,上海这家名字特别的研究所火了!招聘要求博士,还给编制!网友好奇:上班即修仙?

极目新闻
2026-03-05 17:12:31
出大事了,白宫发言人说漏嘴,以色列情报曝光,特朗普连遭噩耗

出大事了,白宫发言人说漏嘴,以色列情报曝光,特朗普连遭噩耗

策略述
2026-03-06 18:28:15
伊朗顶住了,两大援军已到!特朗普宣布一件事,台当局坐不住了

伊朗顶住了,两大援军已到!特朗普宣布一件事,台当局坐不住了

各生欢喜者
2026-03-06 03:23:56
云南小伙娶伊朗姑娘,战争爆发后滞留伊朗,祖国第一时间护其撤离

云南小伙娶伊朗姑娘,战争爆发后滞留伊朗,祖国第一时间护其撤离

削桐作琴
2026-03-06 18:21:51
伊朗局势牵动全球!韩美协商调遣爱国者导弹,美临时松绑印俄原油

伊朗局势牵动全球!韩美协商调遣爱国者导弹,美临时松绑印俄原油

日月辰星
2026-03-06 16:56:21
中国又一顶级阳谋!台当局不答应?我们照修如初!厦金大桥已抵金门,主线196公里

中国又一顶级阳谋!台当局不答应?我们照修如初!厦金大桥已抵金门,主线196公里

娱乐的硬糖吖
2026-03-06 06:54:55
不愧是黄暴美剧天花板,新版《斯巴达克斯》够猛

不愧是黄暴美剧天花板,新版《斯巴达克斯》够猛

来看美剧
2026-03-05 22:43:56
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
2026-03-06 18:59:00
量子位 incentive-icons
量子位
追踪人工智能动态
12221文章数 176403关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

中东战火重燃之际 金正恩时隔半年再度登上"最大的船"

头条要闻

中东战火重燃之际 金正恩时隔半年再度登上"最大的船"

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

时尚
数码
教育
旅游
公开课

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

数码要闻

苹果顶级服务拒绝清库存!主动取消M4 MacBook订单:换成最新M5

教育要闻

湖南2026年高考体检须在3月16日前全部完成

旅游要闻

枣庄文旅邀您共赴这场跨越千年的文明之约

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版