网易首页 > 网易号 > 正文 申请入驻

Transformer作者重磅预言:AI无寒冬,推理革命引爆万亿市场!

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】LLM逼近上限?图灵奖得主Yann LeCun和Richard Sutton联手唱衰,却被Transformer之父Kaiser回击!

AI没有寒冬,只有资本与算力的热浪!

Transformer的火种已燃烧七年。如今,推理模型(Reasoning Models)正点燃第二轮革命。

Transformer共同作者、OpenAI研究员Łukasz Kaiser预判:

未来一两年,AI会极速跃升——瓶颈不在算法,而在GPU与能源。

推理模型正改写规则,钱与电,才是决定胜负的「硬通货」。


2017年,Transformer架构横空出世,八位共同作者载入AI史册

值得关注的是,在ChatGPT问世前加盟OpenAI,Łukasz Kaiser此后一直专注研究推理模型——他认为这是继2017年Transformer之后最重大的突破。

最近,他公开表示「推理模型」只是开端,还远未到定义AI的终局时刻。但这也许正是最值得兴奋的地方。

我们终于有了一种能思考的机器。现在该让它少些花哨,多去把事情做完。

万亿美元的AI路线之争

这是一场价值万亿美元的AI观念之争。

「通用人工智能」,已成为业界多数人追逐的目标——真正具备人类认知水平的通用智能体。

OpenAI一路烧钱烧资源,不断Scaling,让硅谷陷入「AGI狂热」:LLM+数据+GPU+能源就是AGI!

OpenAI发布o3之时,经济学家Tyler Cowen认为AGI已诞生,2025年4月16日就是AGI日。


即便是Karpathy表示「AGI还需再等10年」,

但不是没人唱反调:

叫它沉没成本也行,叫它包袱偏见也行,千万别叫它智能。


硅谷的10万亿美元幻觉

强化学习之父、2024年图灵奖得主、《苦涩的教训》的作者Richard Sutton断言,。

在他看来,语言大模型并没有吸取任何「苦涩的教训」。


换言之,他指出大语言模型存在关键缺陷:其改进能力存在极限,而这个极限远比众所周知的要近得多。

图灵奖得主。


Ndea人工智能实验室联创、开源深度学习框架Keras之父François Chollet也这样认为。

LLM是对AGI而言是断头路,所以他联合他人发起百万美元AI奖项ARC Prize,只为让大家重新回到通向AGI的正确道路。


最近,Łukasz Kaiser公开反驳了「LLM是死胡同」这一观点。

他虽不确定Sutton是否针对的推理型LLM,但推理模型存在着根本性突破:它们所需训练数据量比传统模型少几个数量级。

这类模型能真正加速科研进程,本可以并行开展更多实验,只是我们目前缺乏足够的算力支撑。

归根结底是算力瓶颈,关键在于GPU和能源。这才是根本性制约,目前所有实验室都面临同样处境。这就是为何奥特曼为何疯狂融资的原因。

推理革命

LLM推理正引起AI领域重大的范式转移。

普通用户很可能从未接触过真正的推理型大语言模型。

即便使用过,也是通过GPT-5的路由系统间接调用,而他们对此并不知情。

推理模型具备以下能力:

能够自我反思并发现自身思维链输出中的错误,从而及时调整推理路径;

当接收到解决复杂问题的指令时,可通过「深度思考」动态分配更多计算资源;

在推理过程中,直接调用外部工具执行操作;

生成多条备选推理路径,并自主筛选最优解。

这已完全不同于GPT-4这类纯自回归大语言模型的时代。


而且推理模型(Reasoning Models)问世尚不足一年,远未达到潜力上限。

在绝大多数推理密集型任务中,OpenAI的首个推理模型o1显著优于当时最强的通用模型GPT-4o。


它们不急着开口,会先在脑中「打个草稿」——推理、检索、调用工具,像人类在回答问题前的那几秒犹豫。

在这种模式下,AI不仅能接上对话,还能「搞定一件事」:写完一份报告、排查一段代码、核对数据库。

Łukasz Kaiser把这看作一次静悄悄的范式更替。「这就像从对话生成器,变成真正的思考者,」他说。

更让他兴奋的是,推理模型对数据的渴求小得多,却能解决更难的问题

在数学、程序分析这类结构化任务上,效果尤其明显。

16岁遇见AGI之父,AI日新月异

说来有趣,16岁时,Łukasz Kaiser的第一份有偿工作就是为Ben Goertzel编程。


在2001年前后,Ben Goertzel正式使用并普及了「Artificial General Intelligence」(通用人工智能)这一术语,用以区别于当时的「Narrow AI」(狭义人工智能)。

而现在AGI却被理解为完成人类能做的所有任务。

但现实是,AI与人类智能存在本质差异。

它在某些领域(如游戏、数学题解答)已超越大多数人,但在物理世界相关事务上仍无能为力——

现在的机器人,依旧笨拙不堪。

这种差异化发展或许才是技术演进的常态。

因此,Łukasz Kaiser认为未来发展路径将是:

AI能力会持续增强。但至少短期内,在物理世界相关领域仍将存在人类不可替代的工作,无论是技术上还是经济成本上。

比起概念争论,现阶段更值得关注的是推理模型带来的变革。

过去一年最大的突破在于,AI已能真正胜任职场中的某些工作任务,并且完成得相当出色——

不仅是秒级响应,更能持续工作数小时产出有价值成果。

这意味着我们可以将待办事项交由AI处理,从而提升整体效率。无论是否称之为AGI,AI正在变得越来越强大是不争的事实。

编程领域就是最佳例证:自从AI开发者开始聚焦这个方向,进展令人震惊。

无论是Anthropic的Claude还是OpenAI的Codex,现在都能根据需求生成完整程序,耗时仅数小时。

它们擅长理解大型代码库、进行代码审查、发现漏洞甚至安全威胁——这些能力在一年前还难以想象。

回想Claude 3.5约一年前发布时已是划时代突破,当时SWE-Bench基准测试通过率约30%,如今已达75%。


三个月前,代码模型还只是辅助工具,但现在却能真正处理复杂代码库。这种指数级进步意味着什么,不言而喻。

AI发展如此之快,但有些人开始担心我们正在进入另一个AI冬天。

Łukasz Kaiser却相对乐观。

AI的新范式:推理刚刚开始

过去,确实存在过Transformer范式,当时靠Transformer+Scaling,创造了ChatGPT。

当然,这种自回归范式,即预测下一个词,并在越来越多数据上训练越来越大的模型,这样已持续多年了。

通用的互联网数据,基本上已经被使用完了。它已经在所有这些数据上训练过了。谁也无法轻易获得比这多得多的(数据)。


但新的推理范式,才刚刚开始。

Łukasz Kaiser觉得这个范式如此年轻,以至于它仅仅处在一个非常陡峭的上升路径的起点。

就它未来的能力而言,我们已经走了一小段路。所以,我们知道它已经能做惊人的事情。

但我们还没有真正地充分利用它。我们把它扩大了一点规模,但还可以有更多的扩展。有更多的研究方法可以让它变得更好。所以,在这个新范式中,我们正处在一个陡峭的上升路径上。


我们正见证新范式的上升趋势,但它需要进一步深入研究:有些研究效果很好,有些则一般,你永远不知道——这就是研究令人兴奋的部分。

如果你把新旧范式两者结合起来,那么你就需要开始准备——

AI冬天不会即将来临,甚至在未来一两年内改进可能非常猛烈。

之后,世界将翻天覆地——这几乎有点让人害怕。

推理的突破真的非常大。

这不是偶然。GPT-4之前,OpenAI就开始研究推理模型,因为人们清楚地看到,仅仅纯粹的Scaling在经济上不可行,我们需要一个新的范式。

Łukasz Kaiser认为现在的推理模型有点像早期的「RNN」,思考仍然是一步一步的

未来,它们需要「多线并行思考」——

GPT-5 Pro已经初步实现了这一点:同时运行多个思维链(chains of thought),然后让它们「讨论」并选出最佳答案。

这种方法可能带来更快、更强的推理能力。

当前的重点:从任意数据中学习

当前推理模型最值得关注的突破点,Łukasz Kaiser认为是「从任意数据中学习」的能力。这是他最近研究的重点。

现行训练方法需要标注数据正确与否,但现实世界的数据大多不像考试题目那样非对即错。

阅读书籍时,人们不会纠结下一段文字是否正确,而是直接理解吸收。这种自然的学习方式才是更理想的范式。

GPT模型主要使用的是文字信息训练。但OpenAI多模态训练现在进展如何?

目前,ChatGPT确实已经在进行多模态模型训练了。

神经网络把音频编码成离散的音频token(audio tokens),图像也被编码成图像token(image tokens)——不是整张图变成一个token,而是分成多个图像块。

然后模型通过预测下一个token来进行训练。通过这种方式,它就能生成音频、生成图像。


而且这套方法有效到让人惊讶。

总体来看,多模态训练确实取得了成功。

早期,生成的图片人物总是有六根手指,图像文字更是惨不忍睹。

后来,大家增加了训练数据、调整了编码器结构。虽然核心的Transformer序列模型架构没变,但AI生成效果已经突飞猛进。

现在,AI不仅能生成报纸版面的完整文字,音频也能唱歌、耳语、模仿各国口音。虽然偶尔还有瑕疵,但整体效果已经令人惊叹。

如果转向音频和视频训练,数据集规模将实现数量级增长——毕竟视频包含的信息量极其庞大。

但Łukasz Kaiser提醒,视频虽然数据量巨大,但大部分只是颜色、纹理等细节,推理和理解世界帮助有限

AI需要学会「挑重点」,只提取有意义的部分(例如运动、因果、变化)。

文字让模型理解「抽象世界」(逻辑、语言、思维),视频训练则让它理解「现实世界」(物体、空间、动作、物理规律)。

语言模型已经掌握了对抽象世界的建模,反而最欠缺的是人类最熟悉的物理世界的理解。

填补这个空白至关重要——这不仅能解决许多潜在问题,更是实现实用机器人的关键突破。

谷歌的Gemini 1.5 Robotics,已开始结合推理与视觉。


机器人会有「快反应系统」(动作)+「慢思考系统」(推理)。

随着视频理解成熟,机器人有大脑」将真正成真。

OpenAI唯一的Transformer发明者

Łukasz Kaiser是OpenAI 研究员、Transformer 架构创始人之一,此前曾任职于谷歌大脑团队。


他专注于深度学习与自然语言处理的基础研究,共同发明了Transformer架构、推理模型及其他神经序列模型,并参与开发了TensorFlow系统、Tensor2Tensor与Trax库。


在投身机器学习领域之前,他曾任法国国家科学研究中心(CNRS)终身教职研究员,致力于逻辑学与自动机理论的研究。

他曾运用可满足性求解器及其他符号化方法开发游戏对战系统,并从事程序综合研究。在理论探索方面,他完成了复杂性、博弈论和自动机领域的定理证明,解决了多个长期悬而未决的学术难题。

他于2008年获得德国亚琛工业大学博士学位,本科及硕士阶段毕业于波兰弗罗茨瓦夫大学。

参考资料:

https://www.youtube.com/watch?v=gdPMNZo4Vb8

https://www.youtube.com/watch?v=ILRrrntPwj0

https://www.freethink.com/robots-ai/arc-prize-agi

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

从确诊到去世仅15天,“央视最帅主持人”的遭遇为人们敲响警钟

银河史记
2025-11-03 19:31:33
泽连斯基称“全世界都怕特朗普就我不怕”,特朗普:不再资助基辅

泽连斯基称“全世界都怕特朗普就我不怕”,特朗普:不再资助基辅

阿校谈史
2025-11-15 00:59:00
湖南新化一路段改造路基垫高数米,村民出门得爬坡家中易积水,多方回应

湖南新化一路段改造路基垫高数米,村民出门得爬坡家中易积水,多方回应

山西经济日报
2025-11-14 10:53:54
江苏快递员被捅后续:双方争执女子丈夫失控,知情人透露更多

江苏快递员被捅后续:双方争执女子丈夫失控,知情人透露更多

史行途
2025-11-14 13:37:38
曝34岁奥斯卡仍在ICU检查:一度昏迷+几次闭眼 3个月前身体已报警

曝34岁奥斯卡仍在ICU检查:一度昏迷+几次闭眼 3个月前身体已报警

风过乡
2025-11-12 07:46:51
127-115!这就是穆迪和库明加的区别,勇士最强阵容已有答案

127-115!这就是穆迪和库明加的区别,勇士最强阵容已有答案

奕辰说球
2025-11-14 10:35:06
刚刚,关税大消息!降至15%

刚刚,关税大消息!降至15%

中国基金报
2025-11-14 23:06:29
市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

秋风专栏
2025-10-23 11:23:56
朱媛媛去世半年,辛柏青、李乃文为何两度现身此处?

朱媛媛去世半年,辛柏青、李乃文为何两度现身此处?

新民周刊
2025-11-13 12:35:45
茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

阿纂看事
2025-10-13 15:36:03
失业游民的戾气越来越重了

失业游民的戾气越来越重了

经济学教授V
2025-11-12 18:49:14
斯诺克赛程:11局6胜诞生首个决赛席位,赵心童PK小特,冲2大纪录

斯诺克赛程:11局6胜诞生首个决赛席位,赵心童PK小特,冲2大纪录

刘姚尧的文字城堡
2025-11-14 07:13:31
每天一包烟,身体将会收获4大“好处”,抽烟的赶紧都看看

每天一包烟,身体将会收获4大“好处”,抽烟的赶紧都看看

袁医生课堂
2025-11-14 18:55:26
你见过分了以后死缠烂打的,哭着求复合的!但你没见过鹿晗这样的

你见过分了以后死缠烂打的,哭着求复合的!但你没见过鹿晗这样的

乡野小珥
2025-11-12 08:52:22
一旦我国进入战争状态,普通老百姓该做些什么?答案其实很简单

一旦我国进入战争状态,普通老百姓该做些什么?答案其实很简单

文史道
2025-03-25 06:45:05
“很少见,如此深度南下”!强冷空气来了!广东下周开启“速冻模式”

“很少见,如此深度南下”!强冷空气来了!广东下周开启“速冻模式”

佛山电视台小强热线
2025-11-13 21:34:49
日航宣布允许空姐、地勤穿运动鞋上班1.4万员工受惠

日航宣布允许空姐、地勤穿运动鞋上班1.4万员工受惠

环球趣闻分享
2025-11-14 13:40:05
曾医生前夫被低估了!众人说他配不上妻子,实则是眼科大拿

曾医生前夫被低估了!众人说他配不上妻子,实则是眼科大拿

诗意世界
2025-11-13 17:50:38
对华免签14天!亚洲最低调的国家,安全系数高,却只有1%国人去过

对华免签14天!亚洲最低调的国家,安全系数高,却只有1%国人去过

泠泠说史
2025-11-08 15:40:52
30岁的梁启超强行与17岁的王桂荃行房后,却连看都不看她一眼

30岁的梁启超强行与17岁的王桂荃行房后,却连看都不看她一眼

忠于法纪
2025-11-13 08:49:42
2025-11-15 03:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13869文章数 66246关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

本地
时尚
数码
公开课
军事航空

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

“羽绒服+半身裙”,混搭风太好看了!保暖又气质!

数码要闻

小米发布Xiaomi Miloco,探索大模型驱动全屋智能生活

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

国防部:日方若胆敢铤而走险必将碰得头破血流

无障碍浏览 进入关怀版