网易首页 > 网易号 > 正文 申请入驻

专访智源理事长黄铁军:通往AGI的路已经找到

0
分享至

来源:市场资讯

(来源:知识分子)


智源研究院理事长黄铁军

撰文|张天祁

当下的多模态模型主要依赖专门化路径,文本、视频与图像的处理范式各不相同。是否存在可以统一多模态的通用路线,此前一直缺乏定论。智源研究院在Nature发表的这项研究,基于其多模态模型 Emu3表明:只需采用自回归路线,也就是像大模型处理文本一样,通过预测序列中的下一个词元(Next-token Prediction)来理解和生成数据,就可以实现多模态学习的逻辑统一。

Emu3 在感知和生成任务上均达到了成熟特定任务模型的性能,匹配旗舰系统的表现。更重要的是,在同一套统一架构下,该模型展现了极强的通用性,能自然地扩展到机器人操作以及多模态交互内容生成等任务。

本文通讯作者之一,智源研究院理事长、北京大学计算机学院教授黄铁军接受了《知识分子》的访谈。他详细介绍了Emu3 如何通过自回归路线实现多模态的统一,并对当前通用人工智能(AGI)发展的技术路线发表了见解。


《知识分子》:近年的AI能力进步很快。智源一直关注着AI领域的变化,如果回头看近年以来的突破,您认为真正关键的转折什么?

黄铁军:从 2018 年到现在,人们找到了一条能走通的技术路线,就是自回归路线:基于Transformer的结构,用预测下一个词元(Token)的方式去训练模型。这是最重要的从0到1的突破,这条路通向了通用人工智能(AGI)。

智源一直在坚持一个信念,既然Transformer 加上预测下一个词元的路线,在语言模型上彻底走通了,那它能不能拓展到所有模态的数据,无论是语言、图像、视频,还是视觉—语言—动作(VLA)等多模态数据?这件事在方法论上,我认为是完全可行的。

大家现在谈语言、图像、视频,其实只是我们最常见、最容易理解的数据形态,实际上这个方法可以装得下任意的数据形态,包括这个世界不同层次的各种数据。

但这还只是我们的信念,如果要真正实现,就得继续用这些数据去实践。技术创新只能靠时间去淘洗,靠结果来证明。

《知识分子》:您把2018年视作一个转折点,2018年前后发生了什么变化?

黄铁军:2018 年之前,人工智能主要还是由人主导的,也就是由人来设计智能。无论知识库还是专家系统,设计师像上帝一样掌控着系统背后的每一个逻辑,这是一种偏向传统科学思维的模式,认为先要把具体的原理搞清楚,再去基于原理人工设计一个系统。

但 2018 年之后,随着第一代GPT的诞生,出现了所谓的生成式人工智能,它的方法论发生了根本变化。很多人把“生成”理解为系统能生成文本、图像或视频,但我更倾向于把生成理解为类似地球生命生成的过程,也就是一种演化生成(evolutionary generation)。

地球上从没有生命到有生命,从简单到复杂,背后有没有激励机制?当然有。但背后的激励机制,我们到现在为止还很不清楚。生命科学、脑科学搞了这么多年,总体上还是一个“黑暗森林”,我们只是在一点点地试图发现背后的原理。

2018年后发生的变化也是这样。人们找到了走向通用人工智能的一条可行技术路线,通过数据驱动的方法训练模型,让智能涌现,但是这个技术路线下发生相互作用的过程,我们不清楚。

《知识分子》:您说自回归路线是通向AGI的唯一路径。但对于AGI的定义争论很多,您对它的看法是?

黄铁军:我的观点是,通用人工智能已经在一定程度上实现了。

按照传统思维方式,大家会觉得没实现,因为还没搞清楚它的原理,怎么就算实现了呢?但现在的大模型已经表现出很强的通用能力。你可以测试它,如果从能力上讲,它比很多人还强。在这种情况下,我们还要坚持说它不是一个具有通用的智能系统,这就有点不讲道理。

大家对 AGI 的认知变化,也和人工智能历史上概念的变化有关系。最早的通用人工智能定义,是从行为、功能、表现上看的,也就是图灵测试。如果用一个第三方测试,在互动中判断不出哪个是人、哪个是机器,那就说明这台机器通过了测试。现在大模型已经达到了这个要求。

AGI这个词差不多是在 90 年代末出现的,至今也就二十几年的时间。大家认为 AGI 就是通用人工智能。但按照严格的定义,90 年代提出的 AGI 概念其实是更难实现的,它认为AI需要有自我意识。

如果AGI是指有自我意识的人工智能,我认为今天还没实现,或者这至少是一个开放性问题。但如果我们不采取这种过于严格的概念,说 AGI 指的一定是有自我意识,而只是说它能像人一样完成各种不同的任务,具备这种通用性,那我认为现在是已经有了。

《知识分子》:自回归这条路线为什么能够带来变革。

黄铁军:这种方法抓到了智能演化的关键。“预测下一个词元”看起来简单,但实际是智能的核心问题。因为所有智能系统本质上都在做一件事:用历史推测未来。

动物要根据过去的经验判断是否逃跑;人类根据历史推断经济走势;读书是为了提升对未来判断的能力。智能的最基本功能,就是在不确定环境中,提高做出合理预期的概率。生物智能进化过程,也就是合理选择的概率不断提升的过程。

这条路包含两个缺一不可的部分。第一个是 Transformer。如果用生命科学类比,它就是“结构基础”。生命科学里讲“结构决定功能”,有什么样的 DNA,就决定了什么样的生理形态。在 AGI 领域,Transformer 就是那个基本结构。

但仅有基础还不够。智能是在与周围世界互动中慢慢演化的。人类大脑也一样,它的智能不是一次性形成的,而是在环境变化中逐渐演化。这是所谓功能塑造结构,环境的压力在推动结构的改变。

在人工智能中,这种演化依赖数据驱动。大模型通过自回归训练,也就是不断预测下一个词元来学习规律。每一次预测都是一次尝试:如果预测错了,模型就根据数据调整内部参数。预测对了,就强化这些连接。这样,模型在海量数据作用下逐渐掌握语言、逻辑,甚至多模态信息的规律。 Transformer加上自回归训练,满足了智能演化的基本条件。

《知识分子》:预测下一个词元是如何发挥作用的?

黄铁军:词元是自然语言处理的基本单元,可以是单词、词组或词根,也可以是标点符号或人工定义的标记,本质上只是符号。理解符号的意义有两种方式,一种是直接感受,但AI 没有身体,它只能通过符号与符号之间的关系来学习意义。

2018年之前,早期的词向量方法通过统计词与词之间的共现关系,把每个词映射到一个高维向量空间。谁经常和谁一起出现,它们在空间中的距离就更近。

但这一阶段的表示是“固定”的。一个词无论出现在什么语境中,其向量基本不变。模型学到的是词的平均意义,而不是语境中的动态角色。也就是说,它解决了“词是什么意思”的问题,却没有解决“词在这句话里是什么意思”的问题。

Transformer 的出现改变了这一点。举个例子,《红楼梦》书中前后几十回的伏笔是相互关联的,理解人物不能只看名字,而是要看他与谁互动、经历过什么。Transformer 能够做的,是在给定的词元序列中,发现任意两个词元之间的关系。放到《红楼梦》里,就是能够计算出书中任意两个字的相关性。

人的智能要理解一部小说或长文章,其实也是在上下文中建立关系、反复推敲逻辑。模型本质上就在做这件事,只不过它是在更大规模、更高维度上完成的。不仅理解了内容,甚至比我们绝大多数人读书理解得都要透彻。

所以,当模型预测下一个词元时,它并不是简单地做词频统计。它是在调用一个高度复杂的结构,对当前上下文的全部关系进行压缩表达。预测只是它的表现,真正发生的是结构对规律的内化,并通过这种关系推演出后续的发展。

《知识分子》:人工智能现在表现出的能力已经相当强。但很多研究者认为,如果不能把模型内部机理完全解释清楚,它就不能算真正的通用人工智能。

黄铁军:说实话,这是一种典型的书呆子思维。DeepSeek引发全球震动后,DeepMind CEO哈萨比斯评论道,“DeepSeek可能是中国最好的人工智能模型,但没展示任何新的科学进展”。这种批评就是戴着科学的眼镜来看技术创新问题。

如果一定要类比,人类历史上很多伟大的技术突破都是“先有技术路径,后有科学原理”。比如飞机的发明,莱特兄弟造出飞机时,空气动力学还远未完善,飞机的飞行原理在当时也未能完全被理论界解释清楚,但这并不妨碍飞机已经成功飞上了天,并改变了世界。

人工智能的发展目前也处于这个阶段。大模型现在更接近一项工程创新,而非传统意义上纯粹的科学探索。通过“预测下一个token”这个方法论,人类已经制造出了具备通用能力的智能系统,这种实践上的成功是无可辩驳的。

另外,我们必须明确一点:智能本身是极其复杂的,它不能被简化成一套几条规则或者公式。仅仅因为它不符合特定的原理或规则,就否定当下大模型的智能水平,这像拒绝承认飞机会飞那样可笑。

《知识分子》:但如果一直搞不清楚大模型背后的原理,这种技术创新能算是一门严谨的科学吗?

黄铁军:原理并不是必要的。我之所以强调“不必要”,并不是说原理没有用、不好,而是说不要以它为前提。现在的问题是,一旦讲“必要”,很多人就会认为要发明一套原理才能往下走。我觉得这种认知真的限制了一些人做出更大贡献的机会,因为他们的思维太固化了。其实我以前也是这样的,但我后来终于解放了自己。

我们发现了一套有效的方法论,能把海量数据转化为智能,这套方法已经跑通了。至于其中的机制,那是后续科学研究的任务,不能作为我们放弃技术创新的前提。我们不应因为迷信已知的科学思维方式,就去否认技术创新的客观结果。

当下的重点是工程化、规模化,把这条路走深、走透彻。至于人工智能的科学原理,自然会有后来的研究者完成。

《知识分子》:如果不能总结成一些规则或者公式,可以有一些标准判断智能发展到什么程度了吗?

黄铁军:可以设定一些测量指标,但随着智能的复杂化,测量它的尺子也要有变化。真正的智能的复杂性是无穷无尽的,我们不能削足适履,只拿着静态的标准去丈量智能。有限的测量只能是一个了解它的一个窗口,远远不是全部。

《知识分子》:您此前多次提到,大模型首先是一种技术创新。但像Nature这样的顶级期刊,往往更看重基础科学和理论上的原创贡献。智源这次选择把 Emu3 这种相关的成果投给它,是出于什么考虑?

黄铁军:我希望能纠正传统自然科学的偏见。很多自然科学背景的人,被自己的思维方式固化了。他们习惯于先有一个客观存在的对象,然后去寻找它背后的规律。

但人工智能不是这样。人工智能这个系统本身并不存在于自然界,它是需要被创造出来的,是一个技术创新。和传统自然科学研究的内容,可以说是完全相反的两个方向,用一个方向的思维方式去套到另外一个方向,是南辕北辙的。

很多人总在问:“人工智能背后的规律是什么?”可问题是,首先得有一个已经存在的事物,才谈得上研究它的规律。生命存在,所以可以研究生命规律。但人工智能这个系统本身还在被建造之中,还没做出来就追问它的终极原理,那等于把技术创新的过程卡死了。

如果我们等到完全搞清楚原理才开始动手,那可能 300 年都做不出来。技术史从来不是这样走的。历史的常态,是先有技术突破,后有科学解释。先有飞机,后有空气动力学的发展。先去开发人工智能,再去研究人工智能科学。所谓“事有终始,知所先后,则近道矣”,顺序都没有弄清楚,就用自然科学的尺度去判断完全不同的方向,有什么可骄傲的呢?

《知识分子》:这篇发表在Nature的论文,核心发现是仅通过自回归路径即可实现多模态学习的统一。在您看来,目前主流多模态模型的技术局限在哪里?

黄铁军:现在说到多模态,大家容易想到的是“多个模态”。也就是把视觉、听觉、文字这些模态简单拼在一起,就成了所谓多模态。

例如,Transformer在文字任务上表现优秀,但没有覆盖多模态。现在图像和视频生成领域主要使用的是Diffusion模型,它的原理是通过迭代去噪实现高分辨率合成。视觉-语言感知方面,主要依赖组合式方法,利用 CLIP 编码器与大模型。

如果只是为了解决某个特定模态的问题,针对它的特点去找一些专用的架构或算法,效果确实能做得比较好。但是,如果每一个模态都要靠特殊的补丁去缝合,那就不能叫做通用智能。我们关心的是,有没有一条通用路线,可以解决各种模态、各种数据的智能问题。

这就是自回归路线的价值所在,也是我们认定未来构建通用人工智能的核心思路。Emu3 就是在这一思路下诞生的。通过对 Emu3 的实验验证,我们发现即使不依赖扩散模型或组合式架构,纯粹的自回归模型在感知和生成上也能达到旗舰模型水平。

《知识分子》:论文提到Emu3 采用纯自回归路径生成视频,且性能表现足以对标目前主流的扩散模型(Diffusion Model)。纯自回归与扩散模型在本质区别上是什么?

黄铁军:Diffusion的生成,是生成内容本身,并不是我前面提到的演化生成,这两者有根本区别。

自回归路线适合所有类型的数据,是个通用的方法。通过预测下一个词元,它能够对所有类型的数据进行建模。图像、视频,甚至是机器人的动作,这种方法都能处理。这也是我们坚持自回归路线的理由,它有很大希望能够统一所有的模态。

Diffusion 模型在生成图像和视频时表现很出色,它的核心是模拟物理扩散过程:比如墨水滴在水中扩散,从初始状态到混合状态,然后通过逆向过程生成图像或视频。这类方法擅长生成视觉效果,画面看起来逼真,但它并不关注画面背后事物之间的真实规律。这种方法适合图像生成这个相对较窄的领域,是一个专用的方法。

当面对语言或其他抽象数据时,情况就不同了。语言中,词语之间存在复杂的语义和结构关系,小说中的角色、事件和概念相互联系,形成庞大而复杂的网络。这种复杂性远超过物理世界中分子或像素的相互作用,Diffusion 方法在这种情况下无法有效建模。它无法捕捉词语之间深层的逻辑关系,也不能推演未来的发展。

《知识分子》:后续的研究,还会进一步扩展到其他模态吗?

黄铁军:这篇论文已经给出了答案。我们把Emu3 转化成视觉-语言-动作(VLA)模型,直接去跑机器人操作任务。在 CALVIN 这个长程操作的基准测试里,这种通用路线做出来的效果,完全不输给那些专门针对机器人开发的模型。

有一点很重要:我们是直接做视觉、语言和动作的离散编码,不像有些路径还需要专门搞视频后训练。这再次证明了,自回归就是一个普适逻辑。它不需要针对特定任务打补丁,只要逻辑通了,就能从感知和生成自然地延伸到具身领域。

Nature发表的这项工作,其实是我们在 2024 年基于 Emu3 的初始版本完成的。到了 2025 年,我们又推出了 Emu3.5。

围绕这个新版本,我们有了更深层的发现:随着模型参数、数据和算力的规模增长,模型对物理世界的动态、时空关系以及因果逻辑,表现出了明显的理解和预测能力的涌现。这说明大模型的Scaling Law 不仅仅在语言上灵验,把它扩展到比语言更复杂、充满物理规律的真实世界,这条路同样是走得通的。

《知识分子》:虽然Emu3 证明了自回归路线在多模态上的潜力,但目前这仍然是一种路径尝试。要真正实现“世界模型”,我们还缺什么?

黄铁军:最近很多人在讨论Scaling Law 是不是到头了,我认为这个说法是不对的,不是这条规律到头了,而是语言相关的数据挖掘到头了。

大家现在谈“世界模型”,但什么才叫“世界”?对机器人来说,进房间不碰桌子、抓杯子知道力道,这就算认识世界了吗?远远不够。真实的客观世界有复杂的物理相互作用:你撞墙时,墙是水泥的还是木头的?如果是玻璃,你能不能直接冲过去?这些关于力学、关于物质属性的逻辑,在今天的模型训练里其实是缺失的。

往深了说,原子与分子之间的相互作用、混凝土凝固后的硬度,难道不是世界的一部分吗?如果是,那科学实验的数据、对分子测量的各种数据,都该拿来训练。只靠今天互联网上的这点语言和图像数据,是撑不起真正的通用人工智能的。

哪怕建模了人类已知的所有细节,我们也远没有穷尽这个世界。客观世界的复杂性是无限的,我们只能不断去逼近它。只要这种无限性还在,只要我们能引入更深层的科学数据,Scaling Law 就没有头。

《知识分子》:智源一直在支持来自高校和企业界的学者。那作为一个独立研究机构,智源做的研究和大学以及企业做的研究有什么不同。

黄铁军:智源不做大学和企业正在做的事情。

有些事情大学做不了,不是因为没有能力,而是条件不够。想做一个有系统的、实际可操作的项目,需要团队、经费、时间去搭建。学校里,老师可以自己琢磨理论问题,但要做一个完整的系统,就必须先找经费、组团队,这个周期很长。而AI 的迭代速度根本不等你慢慢跑经费。等你花一年时间把钱拿到手,技术风向可能早就变了。

再说企业。企业是务实的,当一条技术路线还没有彻底跑通、还只是一种信念的时候,企业是不敢砸重金去试错的。企业愿意做的是别人已经试过了、行之有效的东西,然后迅速把它变成可预期的产品。

智源处在大学和企业之间的中间地带。我们有相对稳定的经费和团队,我们只要达成共识,自回归路线是解决所有模态的唯一通用路线,那我们就直接动手干。工程技术的东西,对不对不是靠说服,而是要拿实际的结果来证明。

我们要做的就是花时间把东西做出来。一旦证明这条路通了,企业自然会跟进,花更多的钱去产业化

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我考上了清华,正要告诉全家,班主任却说:你对外说考的是职校!

我考上了清华,正要告诉全家,班主任却说:你对外说考的是职校!

悠悠我心情感集
2025-10-23 16:13:37
印度惨遭羞辱:250万吨尿素全球招标,竟无人问津,中企集体缺席

印度惨遭羞辱:250万吨尿素全球招标,竟无人问津,中企集体缺席

影像温度
2026-04-13 11:42:30
湖人要跪求詹姆斯留队?NBA名记爆料:若淘汰火箭,詹姆斯必续约

湖人要跪求詹姆斯留队?NBA名记爆料:若淘汰火箭,詹姆斯必续约

夜白侃球
2026-04-14 10:51:11
浪姐史上翻车最快的人出现了,网友:人不红果然是有原因的

浪姐史上翻车最快的人出现了,网友:人不红果然是有原因的

小樾说历史
2026-04-13 11:39:20
人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

人穷能卑微到什么地步?网友说:一个男人两千块买了我三个晚上!

黯泉
2026-04-14 12:13:04
高市早苗会辞职吗?

高市早苗会辞职吗?

新民周刊
2026-04-14 09:08:15
阿根廷“卡卡”,10岁患侏儒症,20岁十字韧带撕裂,23岁加盟国米

阿根廷“卡卡”,10岁患侏儒症,20岁十字韧带撕裂,23岁加盟国米

95帕尔马
2026-04-14 12:00:28
看完蒋介石偷走的巨额财产,才知道中国共产党和大陆人民的伟大!

看完蒋介石偷走的巨额财产,才知道中国共产党和大陆人民的伟大!

抽象派大师
2026-04-13 17:29:37
苹果惨遭闭门羹!iPhone 18 Pro加单请求被供应商无情拒绝:罕见

苹果惨遭闭门羹!iPhone 18 Pro加单请求被供应商无情拒绝:罕见

快科技
2026-04-14 12:11:05
美国对伊封锁霍尔木兹海峡,4艘从中国出发的集装箱船拉响警报

美国对伊封锁霍尔木兹海峡,4艘从中国出发的集装箱船拉响警报

壹航运
2026-04-13 15:19:23
002229,垂直涨停!利好,大爆发!601138,巨资抢筹

002229,垂直涨停!利好,大爆发!601138,巨资抢筹

证券时报e公司
2026-04-14 12:22:52
意外吗?归化国脚艾克森迎来久违消息,喊话想重返中国,想念球迷

意外吗?归化国脚艾克森迎来久违消息,喊话想重返中国,想念球迷

罗掌柜体育
2026-04-14 11:00:06
郑丽文刚回到台湾,马英九基金会发布声明,萧旭岑触犯财政纪律?

郑丽文刚回到台湾,马英九基金会发布声明,萧旭岑触犯财政纪律?

青梅侃史啊
2026-04-13 19:49:49
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
安宰贤被传"世界Gay"8年,上综艺一句话把K.Will整不会了

安宰贤被传"世界Gay"8年,上综艺一句话把K.Will整不会了

娱圈观察员
2026-04-14 08:13:17
印度首富小儿媳:弃帅模前男友,嫁300斤阿南特,如今成家族门面

印度首富小儿媳:弃帅模前男友,嫁300斤阿南特,如今成家族门面

照见古今
2026-04-12 19:32:51
大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

大量硼砂,别再给家里人吃了!这10类食物最易掺硼砂,超危险

笑熬浆糊111
2026-04-13 00:05:12
杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

杨丽萍“专属男舞伴”坠楼自杀,跳得果决,和杨丽萍关系非同一般

一盅情怀
2026-04-03 07:49:11
日偶像女团办活动「0人到场」! 5成员低头画面疯传

日偶像女团办活动「0人到场」! 5成员低头画面疯传

ETtoday星光云
2026-04-13 12:40:07
最后的疯狂:许家印被抓捕的失控三秒钟

最后的疯狂:许家印被抓捕的失控三秒钟

财经保探长
2026-04-09 22:30:38
2026-04-14 12:51:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2851590文章数 6623关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

41岁演员文章在上海开面馆 代排队价格被炒到500元

头条要闻

41岁演员文章在上海开面馆 代排队价格被炒到500元

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印受审当庭表示认罪悔罪

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

亲子
家居
旅游
公开课
军事航空

亲子要闻

中日混血萌娃丨优奈的发型太酷啦!

家居要闻

复古风格 自然简约

旅游要闻

菏泽东明:花开黄河岸 田园醉春光

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:今晚10点封锁伊朗 对北约非常失望

无障碍浏览 进入关怀版