![]()
封面、内文图源:AI生成
撰文 | 泰伯网 乔帅
泰伯网讯,近日,北京智源人工智能研究院(下称“智源研究院”)推出的多模态大模型“悟界•Emu”登上Nature正刊,成为继DeepSeek之后第二个达成此成就的中国大模型团队研究成果,也是中国首篇多模态大模型路线的Nature论文。
据智源研究院微信公众号,1月28日,智源多模态大模型成果"Multimodal learning with next-token prediction for large multimodal models(通过预测下一个词元进行多模态学习的多模态大模型)"上线国际顶级学术期刊Nature,预计2月12日纸质版正式刊发。
![]()
图源:Nature官网
Nature编辑点评这项研究:Emu3仅基于预测下一个词元(Next-token prediction),实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义,有望推动原生多模态助手、世界模型以及具身智能等方向的发展。

图源:智源研究院
资料显示,Emu3模型于2024年2月立项,当时团队重审大模型发展路径。随着GPT-4、Sora爆火,“预测下一个token”自回归路线改变语言模型领域,引发AGI早期迹象讨论。
不同于Sora的扩散式视频生成,Emu3采用纯自回归方式逐词元(token)生成视频,能够在给定上下文下进行视频延展与未来预测,并在文本引导下生成高保真视频。此外,Emu3还可拓展至视觉语言交错生成,例如图文并茂的菜谱生成;也可拓展至视觉语言动作建模,如机器人操作VLA等,进一步体现了“预测下一个词元”的通用性。

图源:智源研究院
除Nature论文外,智源研究院于2025年10月30日发布了Emu3的后续版本Emu3.5,而后续版本的发布,一度在开发者社区引起讨论和关注,甚至产生了“扩散模型已死”的说法。
对此,智源研究院院长王仲远坦言,目前对于扩散模型的研究趋势尚不能定论。虽然有一些成果如Emu3.5提供了世界模型的可行路径,但并非唯一路径。未来可能会有更多技术路径实现“预测下一个状态”,且扩散模型也在与其他技术结合改进。因此,不能断言扩散模型会消失,而是需要持续观察和学习交流。
尽管不能断言自回归路线已经一统天下,但Emu3已经为产业提供了一条新的康庄大道。
据悉,随着Emu等研究成果发表于Nature等国际顶级期刊,智源将继续围绕智能与物理世界的深层关联,推进面向下一代人工智能的科研创新。
(本期编辑 | 墨川 校对 | 李欢)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.