网易首页 > 网易号 > 正文 申请入驻

我国科研机构主导的大模型成果首次登上Nature

0
分享至

【文/观察者网专栏作者 心智观察所】

几天前,《Nature》杂志刊发了一篇来自中国的人工智能研究论文。这在顶级学术期刊上并非新鲜事,但这篇论文的分量却非同寻常:它来自北京智源人工智能研究院,核心成果是一个名为“Emu3”的多模态大模型,而它试图回答的问题,是整个AI领域过去五年来悬而未决的核心命题——我们能否用一种统一的方式,让机器同时学会看、听、说、写,乃至行动?

这个问题听起来简单,但它的复杂程度足以让全球顶尖的AI实验室争论不休。

OpenAI用Sora惊艳世界,靠的是扩散模型;Google的Gemini整合多模态,用的是复杂的编码器拼接;Meta的Chameleon尝试统一,却始终难以在性能上与专用模型抗衡。而智源的答案,是一个看起来朴素得近乎偏执的选择:只用“下一词预测”。

这个选择的意义,可能需要一些背景知识才能理解。


论文前言

一场关于“语言”的豪赌

如果你问一位2020年的AI研究者,未来的多模态智能会是什么样子,他大概率会给出这样的预测:图像生成归图像生成,文字理解归文字理解,视频处理归视频处理,然后我们用某种“胶水”把它们粘在一起。这不是懒惰,而是当时的技术现实——不同模态的数据特性差异太大,专精往往意味着高效。

事实上,这条路线在过去几年里取得了巨大成功。Stable Diffusion让普通人也能生成惊艳的图像,GPT-4让对话AI变得无所不能,而各种视觉-语言模型则在问答、识别、描述等任务上不断刷新纪录。但问题也随之而来:这些模型就像一个技艺精湛但只会单项运动的运动员,让它们协同工作,需要复杂的工程架构、精细的模态对齐,以及大量的人工干预。

更关键的是,这种“专科化”的发展路径隐含着一个令人不安的假设:也许机器智能天生就是碎片化的,我们永远需要为每一种能力单独训练一个模型。

Emu3挑战的,正是这个假设。

智源团队的核心洞见是:如果我们把图像、视频、文字都转换成同一种“语言”——离散的符号序列——那么让模型学习“预测下一个符号”这一个任务,是否就足以涵盖所有多模态能力(如下图)?

这个想法并非没有先例。早在2020年,GPT-3就已经证明,仅仅通过预测下一个词,语言模型可以涌现出惊人的推理、翻译、编程能力。但将这一范式扩展到图像和视频,面临着截然不同的挑战:一张512×512的图像,如果用简单的方式转换成符号,可能需要几十万个token,这对于Transformer架构来说是灾难性的计算负担;更重要的是,图像的空间结构、视频的时间连续性,与文字的线性叙事有着本质区别,简单的“下一词预测”真的能捕捉这些复杂的关系吗?


智源的答案是肯定的,而Emu3就是他们的证明。

一个分词器的艺术

要理解Emu3的技术突破,首先要理解它的“视觉分词器”(Vision Tokenizer)。这个听起来不起眼的组件,实际上是整个系统的基石。

想象一下,你需要用电报向一个从未见过图片的人描述一幅画。你不可能传输原始的像素值——那太冗长了;你也不能只说“一幅风景画”——那太模糊了。你需要的是一种既紧凑又富有表现力的编码方式,能够在有限的符号中保留足够的视觉信息。

Emu3的视觉分词器做的正是这件事。它能够将一张512×512的图像压缩成仅仅4096个离散符号,压缩比达到64:1;对于视频,它在时间维度上进一步压缩4倍,使得一段4帧的视频片段也只需要4096个符号表示。这些符号来自一个包含32768个“词汇”的码本——你可以把它想象成一本视觉词典,每个“词”代表一种特定的视觉模式。

更精妙的是,这个分词器是为视频原生设计的。传统的图像分词器处理视频时,只能逐帧编码,完全忽略帧与帧之间的时间关联;而Emu3的分词器通过三维卷积核,能够同时捕捉空间和时间维度的信息。在实验中,这种设计用四分之一的符号数量,就达到了与逐帧处理相当的重建质量——这不仅意味着更高的效率,更意味着模型能够真正“理解”视频的动态本质,而非仅仅处理一堆静态图片。

有了这个分词器,图像和视频就变成了与文字一样的符号序列。接下来的事情,就是让一个Transformer学会预测这些序列中的“下一个符号”。

当简单遇上规模

Emu3的模型架构,用一句话就能概括:它就是一个标准的大语言模型,只不过词汇表里多了32768个视觉符号。

这种极简主义设计在AI研究界是罕见的。主流的多模态模型——无论是LLaVA、BLIP-2还是Flamingo——都采用“编码器+语言模型”的复合架构,即先用一个专门的视觉编码器(通常是CLIP)把图像转换成特征向量,再用适配器将这些特征“注入”语言模型。这种设计的好处是可以复用已有的预训练组件,但代价是系统复杂度的急剧上升,以及模态之间潜在的隔阂——视觉编码器和语言模型毕竟是独立训练的,它们对世界的理解未必一致。

Emu3选择了一条更激进的路:不用任何预训练的视觉编码器,不用任何复杂的模态融合机制,只用一个从零开始训练的decoder-only Transformer。所有的多模态知识,都是在统一的下一词预测任务中从数据里学来的。

这种“大道至简”的设计哲学,在实践中转化为了惊人的实验结果。

在图像生成任务上,Emu3在人类偏好评估中得分70.0,超越了Stable Diffusion XL(66.9)这个扩散模型的标杆;在视觉语言理解的12个基准测试上,它的平均分达到62.1,与采用复杂编码器架构的LLaVA-1.6(61.8)持平;在视频生成的VBench评估中,它取得了81.0分,超过了专门的视频扩散模型Open-Sora-1.2(79.8)。

这些数字的意义在于:一个仅仅用“预测下一个符号”训练的模型,在生成和理解两个看似矛盾的方向上,同时达到了专用模型的水平。这在此前被认为是不可能的——毕竟,扩散模型和自回归模型的数学基础完全不同,擅长理解的架构通常不擅长生成,反之亦然。Emu3的成功,相当于一个运动员同时在短跑和马拉松比赛中夺冠,打破的不仅是记录,更是人们对专业化边界的认知。

规模定律的启示

如果说单点性能的突破还可以归因于工程技巧或数据质量,那么Emu3论文中最具科学价值的发现,则来自于它对规模定律Scaling Laws的系统研究。

规模定律是现代AI研究的圣杯之一。它描述的是模型性能与模型规模、数据规模之间的数学关系——如果我们知道这个关系,就能预测一个更大模型的表现,而不需要真的训练它。这对于动辄消耗数百万美元计算资源的大模型研发来说,具有极其重要的实用价值。

此前的规模定律研究主要集中在纯语言模型上。Emu3的贡献在于,它证明了多模态学习同样遵循可预测的规模定律,而且——这是关键——不同模态共享同一套数据扩展指数。

具体而言,无论是文字到图像、图像到文字,还是文字到视频,当训练数据量翻倍时,模型的验证损失都以0.55的指数下降。这意味着多模态能力的提升不是各自为政的,而是遵循统一的数学规律。基于较小模型的实验数据,研究团队准确预测了70亿参数模型的性能,拟合优度超过0.99,误差不到3%。

这个发现的意义远超学术范畴。它暗示着,未来的多模态智能可能不需要为每种能力单独设计训练策略——只要把不同模态的数据混合在一起,用统一的目标训练,规模扩大后能力就会自然涌现。这极大地简化了研发路径,降低了技术门槛,也让通用人工智能AGI的愿景变得更加可信。

论文的另一个亮点,是Emu3在机器人操控任务上的出色表现。

在CALVIN基准测试——一个评估机器人执行长序列任务能力的标准测试——中,Emu3在“连续完成五个任务”的指标上达到了87%的成功率。这意味着机器人在接受语言指令后,能够依次完成一系列复杂操作,如“拿起桌上的杯子”、“打开抽屉”、“把杯子放进去”等,每一步都需要视觉感知、语言理解和动作规划的紧密配合。

这个结果揭示了Emu3框架的深层潜力:它不仅仅是一个内容生成工具,更可能是通往具身智能的一条捷径。传统的机器人学习需要专门设计感知模块、决策模块和控制模块,然后艰难地将它们整合在一起;而Emu3的思路是,把视觉观察、语言指令和机械臂动作都转换成符号序列,让模型在统一的框架下学习它们之间的关联。

论文中展示了一个令人印象深刻的例子:给定一段烹饪视频的前两秒,Emu3可以预测接下来两秒会发生什么——锅中的食材如何翻炒(如下图),厨师的手会移向哪里,蒸汽会如何升腾。这种“世界模型”的能力,被认为是通向更高级AI的关键:一个真正理解物理世界的模型,应该能够预测行动的后果,而非仅仅记忆静态的图像-文字关联。


与海外同行的比较

在全球AI研究的版图上,Emu3处于什么位置?

最直接的比较对象是Meta的Chameleon。这是另一个尝试统一多模态学习的模型,同样采用了token化和自回归预测的范式。但Chameleon在发布时面临着一个尴尬的处境:虽然架构统一,但性能与专用模型存在明显差距,尤其在图像生成质量上。Emu3的突破在于,它证明了这个差距可以被弥合——关键在于视觉分词器的质量和训练策略的优化。

与OpenAI的路线相比,差异则更加根本。OpenAI的Sora代表了扩散模型在视频生成上的巅峰,它的视觉质量和时间一致性令人叹为观止。但扩散模型有一个内在限制:它本质上是一个生成器,而非理解器。要让Sora“理解”视频内容并回答问题,需要额外嫁接一个视觉语言模型——这又回到了模态割裂的老路。Emu3的自回归范式则天然统一了生成与理解:生成是预测视觉符号,理解是预测文字符号,它们在同一个模型里用同一种方式完成。

Google的Gemini采用了一种更折中的策略:它确实整合了多种模态,但内部架构仍然依赖预训练的视觉编码器和复杂的模态融合机制。这种设计的好处是可以快速利用已有的技术积累,但代价是系统的复杂性和潜在的模态偏见。Emu3的从零训练策略虽然计算成本更高,但带来的是更纯粹的多模态表征——所有模态的知识都是在同一个优化目标下共同习得的。

从开放性的角度看,Emu3的优势更为明显。论文作者承诺开源关键技术和模型,包括视觉分词器、训练代码和预训练权重。这与OpenAI对Sora和GPT-4的封闭策略形成鲜明对比。对于中国乃至全球的AI研究社区来说,这意味着一条新的技术路线变得可以复现、可以改进、可以建立在上面。

商业化的想象空间

技术突破最终需要转化为社会价值,而Emu3的架构特性为商业化提供了独特的可能性。

首先是部署效率。Emu3的核心是一个标准的Transformer,这意味着它可以直接复用大语言模型已经非常成熟的推理基础设施——包括vLLM的动态批处理、PagedAttention的内存优化、各种量化和剪枝技术。论文提到,研究团队基于FlagScale开发了支持无分类器引导的推理后端,在保持生成质量的同时实现了低延迟和高吞吐。这为大规模服务奠定了基础。

其次是应用的统一性。传统的多模态服务需要为不同的能力部署不同的模型——一个处理图像生成,一个处理视觉问答,一个处理视频理解——这带来了显著的运维复杂度和资源浪费。Emu3的单一模型架构意味着一套部署可以支撑多种能力,大大降低了服务的边际成本。

更具想象力的是交互形态的变革。当一个模型同时具备生成和理解能力,而且可以处理图像、视频、文字的任意组合时,传统的“输入-输出”界限就变得模糊了。一个用户可以上传一段产品演示视频,要求模型生成配套的图文说明书;可以描述一个场景,让模型生成视频并实时回答关于视频内容的问题;甚至可以让模型“想象”一个物理过程的结果,比如“如果我把这杯水倒在键盘上会发生什么”。这些交互在此前需要复杂的多模型协作,现在可能在单一模型内流畅完成。

在特定垂直领域,Emu3的潜力同样值得关注。教育场景中,一个能够生成演示图像、解释概念、回答问题的统一助手,比分离的工具组合更加自然;电商场景中,从产品图片的生成、变体的创建、到用户问询的回答,可以在同一个模型中完成;医疗影像分析中,统一的多模态理解可能帮助医生更高效地处理报告和图像。

当然,从实验室原型到商业产品还有很长的路要走。论文也坦诚地讨论了现有的局限:推理速度仍有提升空间,视觉分词器在压缩率和保真度之间存在权衡,长视频的处理能力有待增强。但这些是工程优化的问题,而非范式上的死胡同。

一个范式的开端

回到本文开头的问题:Emu3的真正意义是什么?

从技术角度看,它证明了“下一词预测”作为多模态学习统一范式的可行性。这不是一个增量式的改进,而是对主流技术路线的根本性挑战。如果Emu3的结果可以被进一步扩展——更大的模型、更多的数据、更长的上下文——那么AI领域可能正站在一次范式转移的门槛上。

从产业角度看,它为中国AI研究树立了一个新的标杆。在大模型竞争中,中国团队往往被认为是快速跟进者而非规则制定者。Emu3登上Nature,不仅是学术声誉的认可,更重要的是它提出了一条不同于OpenAI、Google、Meta的技术路线,并且用实验证明了这条路线是可行的。这种原创性的贡献,是建立长期技术影响力的基础。

从更宏观的视角看,Emu3的成功暗示着一种可能的未来:也许智能的本质就是预测。预测下一个词,预测下一帧画面,预测下一个动作——当这些预测任务被统一到同一个框架中,涌现出的可能不仅仅是更强的模型,而是对“理解”和“创造”本身的新诠释。

论文的结尾写道:“统一的下一符号建模为世界模型提供了一条有希望的道路,这种模型整合了感知、语言和行动。”这不仅是一个技术愿景,也是一种哲学立场:智能也许不需要被分解成相互独立的模块,它可以是连续的、统一的、自然生长的。

当然,一篇论文不能回答所有问题。Emu3的上下文窗口还不够长,处理小时级视频仍是挑战;它的推理能力与专用语言模型相比仍有差距;它对真实物理世界的”理解”究竟有多深,还需要更严格的测试。但它已经迈出了关键的一步:证明了一条更简洁、更统一的道路是存在的。

在AI发展史上,最重要的突破往往不是做出更复杂的系统,而是找到更简单的原则。从反向传播到注意力机制,从强化学习到扩散模型,每一次飞跃都源于对复杂性的简化。Emu3的贡献,也许正是把多模态智能的复杂性,简化成了一个朴素的问题:下一个符号是什么?

这个问题的答案,将塑造AI的下一个十年。


本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本一男子潜入烤肉店偷16斤牛肉全吃光被抓,该男子回应表示“因为辞职后没有收入才这么做”

日本一男子潜入烤肉店偷16斤牛肉全吃光被抓,该男子回应表示“因为辞职后没有收入才这么做”

都市快报橙柿互动
2026-02-06 13:52:32
金价、油价,突然大跳水!

金价、油价,突然大跳水!

影像渭南
2026-02-07 09:06:59
女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,2015年被亲人点到不赴约

汉史趣闻
2025-11-08 09:27:32
随着利兹联3-1欧冠2冠王,英超最新积分榜出炉

随着利兹联3-1欧冠2冠王,英超最新积分榜出炉

侧身凌空斩
2026-02-07 07:05:17
004航母全力冲刺,4艘航母摆开,西太收入囊中,瘫痪美军最后优势

004航母全力冲刺,4艘航母摆开,西太收入囊中,瘫痪美军最后优势

东方点兵
2026-02-06 18:45:02
日本大选生变,64岁高市早苗患病,已送医诊治,日共产党趁机发难

日本大选生变,64岁高市早苗患病,已送医诊治,日共产党趁机发难

议纪史
2026-02-06 13:30:03
网红直播炫耀非洲老公,直言他是部落酋长,自己嫁过去当王妃

网红直播炫耀非洲老公,直言他是部落酋长,自己嫁过去当王妃

新游戏大妹子
2026-02-06 13:05:10
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
钉钉总部大楼换悟空LOGO被调侃棒打飞书 网友:这波商战太朴实

钉钉总部大楼换悟空LOGO被调侃棒打飞书 网友:这波商战太朴实

快科技
2026-02-05 15:37:11
紫金矿业预告2025年净利超510亿,我买入20万押注周期!

紫金矿业预告2025年净利超510亿,我买入20万押注周期!

真实人物采访
2026-02-07 06:20:03
中国股市炒股其实很简单:"低于20满仓买,高于80满仓卖"稳赚不亏

中国股市炒股其实很简单:"低于20满仓买,高于80满仓卖"稳赚不亏

股经纵横谈
2026-02-06 22:49:33
广东3消息!萨林杰正式被裁,杜锋官宣高升,胡明轩做重要决定

广东3消息!萨林杰正式被裁,杜锋官宣高升,胡明轩做重要决定

多特体育说
2026-02-06 22:08:34
Lisa“雪地比基尼”大秀身材!耐克赢麻了

Lisa“雪地比基尼”大秀身材!耐克赢麻了

李东阳朋友圈
2026-02-06 08:43:48
HU492航班因机械故障原因返航,海南航空致歉

HU492航班因机械故障原因返航,海南航空致歉

环球网资讯
2026-02-07 12:35:16
林孝埈回应缺席冬奥会开幕式:纠结很久临时决定不去,下次一定

林孝埈回应缺席冬奥会开幕式:纠结很久临时决定不去,下次一定

米修体育
2026-02-07 09:31:27
有点尴尬!杨瀚森三分钟拿下2分1板2失误....

有点尴尬!杨瀚森三分钟拿下2分1板2失误....

柚子说球
2026-02-07 13:37:08
从德甲MVP到英超水货,1.25亿先生又成联赛最佳 都是说明书惹的祸

从德甲MVP到英超水货,1.25亿先生又成联赛最佳 都是说明书惹的祸

万花筒体育球球
2026-02-07 12:34:17
邹市明与冉莹颖文体双星光环褪去,创业困局下婚姻狼狈不堪

邹市明与冉莹颖文体双星光环褪去,创业困局下婚姻狼狈不堪

没有偏旁的常庆
2026-02-07 10:24:16
2天2败!中国金花无缘正赛,重组澳网冠军搭档,郑钦文复出迎首秀

2天2败!中国金花无缘正赛,重组澳网冠军搭档,郑钦文复出迎首秀

刘姚尧的文字城堡
2026-02-07 08:52:10
贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

贝克汉姆父子正式断绝!大布清除掉Dad纹身,用3个新图案覆盖

素素娱乐
2026-02-06 10:29:31
2026-02-07 14:04:49
观察者网 incentive-icons
观察者网
全球视野,中国关怀
134088文章数 1849834关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

头条要闻

特朗普公开"表白"支持高市早苗 中方发表看法

体育要闻

中国体育代表团亮相米兰冬奥会开幕式

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

爱尔眼科董事长旗下7家精神病院骗保

汽车要闻

AITO问界与Abu Dhabi Motors达成战略合作

态度原创

艺术
数码
教育
健康
公开课

艺术要闻

江西省美协 | 2026年度作品展油画选刊

数码要闻

德国电商发货AMD 9800X3D处理器约4万颗返修率仅0.71%

教育要闻

2026年小学学位紧张,幼儿园不断关门

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版