网易首页 > 网易号 > 正文 申请入驻

Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】Transformer曾是AI革命的巅峰之作,但其发明者Llion Jones警告:它并非终点。就像RNN被取代一样,当前无数微调研究可能只是局部优化,而真正的AGI突破或藏在生物启发的全新架构中。

Transformer是AI的终点吗?

不是,绝对不是。

那Scaling是唯一通向AGI的路径吗?

在Transformer架构上研究最久的人,告诉你:不是。

Sakana AI的创始人、研究科学家Llion Jones,和其他7位合著者,一起发明了Transformer。

除了那七位共同作者,没有人比他在Transformer上的研究更久。

尽管如此,去年,他做出了一个重要决定:大幅减少自己在Transformer上的研究投入。

不是因为这个领域没有新鲜事,而是因为它已经被挤得水泄不通。

他直言,他成了自己成功的受害者:

我不认为Transformer就是终点,也不相信我们只需要继续无限扩大规模。

某一天,我们会再次迎来突破,然后回头发现,现在很多研究其实在白白浪费时间。


Transformer或重演RNN的悲剧

在Transformer出现之前,RNN是主流。

RNN的确是AI历史上的重大突破。

突然间,所有人都开始致力于改进RNN。

但结果总是对同一架构做些微调,比如把门控单元换个位置,将语言建模的性能提升到 1.26、1.25 比特每字符。


在Transformer出现后,当我们把非常深的仅解码器Transformer应用于同一任务时,立刻就达到了1.1 比特/字符。

于是,所有关于RNN的研究突然之间显得白费了。

而现在的论文,似乎又回到了老路子:在同一个架构上,做无数微小的改动——比如调整normalization层的位置,或略微改良训练方式。

2020年,时任谷歌DeepMind的研究员Sarah Hooker提出了「硬件彩票」:

通往AGI的道路不止一条, 深度神经网络刚好碰上了GPU这样的硬件彩票


论文链接:https://hardwarelottery.github.io/

「硬件彩票」这一术语,描述了某种研究思路之所以胜出,是因为它恰好契合现有的软件和硬件条件,而非因为该思路在所有备选研究方向中具有普遍优越性

而Llion Jones则认为,Transformer是一种架构彩票,而业界恐怕重蹈RNN的覆辙。


哪怕已经有一些架构在论文中表现得比Transformer还好。但问题在于,新架构还不足够好到让整个行业放弃Transformer。

原因很现实:大家对Transformer的理解已经非常成熟,训练方法、微调方式、配套软件工具一应俱全。

你要大家从头换一套,除非新架构好到「碾压式胜出」,否则不可能。

Transformer取代RNN,是因为差距大到无法忽视。

深度学习的兴起也是一样。曾经大家还相信符号主义更靠谱,直到神经网络在图像识别上展现出压倒性的优势。

Llion Jones认为Transformer太成功了,反而让大家陷入了「陷阱」:

这就像有个巨大的「重力井」,所有尝试离开的新方法都会被拉回来。

哪怕你真的做出了一个效果更好的新架构,只要OpenAI再把Transformer扩大十倍,那你的成果就被比下去了。


现在的LLM并非通用智能

Llion Jones进一步指出,目前的大语言模型并非通用智能,呈现出「锯齿状智能」(jagged intelligence)的特性。


也就是说,它们能在某些任务上表现得像天才一样,但转眼就能犯出低级错误,让人出戏。

它刚才还解出了一个博士级的问题,下一秒却说出一个连小学生都不会错的答案,这种反差非常刺眼。

他认为,这其实揭示了当前架构中某种根本性的问题。

问题在于,它们太「万金油」了。

你可以让它们做任何事,只要训练足、调参准。

但正因为这样,我们反而忽视了关键问题──「有没有更好的方式来表示知识、思考问题」。

现在,大家把所有东西都往Transformer里堆,把它当成万用工具来用,缺什么功能,就往上面硬加模块。

我们明明知道要有不确定性建模、要有自适应计算能力,但我们却选择把这些特性外挂上去,而不是从架构本身去重新思考。

为了逃脱这个循环,Jones在2025年初大幅减少Transformer相关研究,转向更具探索性的方向。

他和Sakana AI的同事Luke Darlow等人,借鉴生物学和自然启发,设计了连续思维机(Continuous Thought Machines,CTM)。


传送门:https://sakana.ai/ctm/

这不是天马行空的发明,而是对大脑运作的简化模拟。

大脑里的神经元不是静态的开关,而是通过同步振荡来传递信息。

CTM捕捉了这个精髓:它用神经动态作为核心表示,让模型在「内部思考维度」上逐步展开计算。

他说,「我们并没有追求完全生物学可行性,因为大脑并不是靠有线方式让所有神经元同步的。但这种思路带来了全新的研究可能。」

重要的是,他们在做这项研究时,并没有任何学术圈常见的「抢发压力」。

因为没人做这个方向。他们有充分的时间去打磨这篇论文,把研究做实,把对照实验做足。

他希望这项研究能成为一个「示范案例」,鼓励其他研究者去尝试那些看似风险高、但更可能通向下一个大突破的研究方向。

后人哀之而不鉴之

这是近期AI领域最坦诚的言论之一。


Llion Jones承认,当前多数研究可能只是在局部最优解上修修补补,而真正的突破或许在完全不同的方向。

他对此深有体会——毕竟他曾亲手让上一代研究者的成果黯然失色。

令人不安的是:如果他是对的,那么所有埋头改进Transformer变体的人都在浪费时间。

所有混合专家模型、所有架构微调、所有注意力机制变体——都可能在新范式出现时瞬间过时。

但陷阱在于:除非有人真正突破,否则你永远无法确定自己是否困在局部最优里。

身在局中时,一切看似都是进步。直到Transformer出现前,RNN的改进不也看起来势不可挡吗?

同样, Ilya近期也评论道,仅靠Scaling当前架构并不足以实现AGI:

Scaling时代的一个后果是:Scaling吸走了房间里所有的氧气。

正因如此,所有人开始做同样的事。我们走到了今天这个局面——公司数量多于创新电子的世界。

那么该如何抉择?

Llion Jones并未声称知道未来方向,只是坦言Transformer可能不是长期答案。这很诚实,却缺乏可操作性。

这个难题在于:每次范式转移,在事后看来都像是徒劳,但在当时却是必要的探索。我们无法跳过这个阶段,只能祈祷有人能更快找到出口。

Transformer已死?DeepMind正在押注另一条AGI路线

谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线

终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」

一封来自Transformer之父的分手信:8年了!世界需要新的AI架构

参考资料:

https://www.youtube.com/watch?v=DtePicx_kFY&t=1s


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尴尬极了!母亲天天穿紧身裤,女儿吐槽:都快50岁了,穿给谁看呢

尴尬极了!母亲天天穿紧身裤,女儿吐槽:都快50岁了,穿给谁看呢

川渝视觉
2026-05-05 20:33:39
20.99万起!吉利官宣:新车已下线

20.99万起!吉利官宣:新车已下线

手机评测室
2026-05-06 11:50:16
俄乌双双宣布停火!普京:为纪念胜利日,警告乌方若破坏纪念活动,将对基辅发动报复性大规模导弹打击

俄乌双双宣布停火!普京:为纪念胜利日,警告乌方若破坏纪念活动,将对基辅发动报复性大规模导弹打击

每日经济新闻
2026-05-05 23:29:52
为何高端车都用增程!不用插电混动?内行人道破,明白了!

为何高端车都用增程!不用插电混动?内行人道破,明白了!

蓝色海边
2026-05-06 09:36:50
港媒:开赛时间不友好+国足不在,世界杯难吸引到中国球迷

港媒:开赛时间不友好+国足不在,世界杯难吸引到中国球迷

懂球帝
2026-05-06 11:03:20
北大学神吴谢宇弑母真相:与他的口述不符,与舅舅透露的细节有关

北大学神吴谢宇弑母真相:与他的口述不符,与舅舅透露的细节有关

微野谈写作
2026-05-02 15:50:08
英格兰右后卫之争:为什么有人愿意"每天选他"

英格兰右后卫之争:为什么有人愿意"每天选他"

绿茵狂热者
2026-05-05 09:47:23
2-1夺WTA首胜!中国女网15岁天才闪耀成人赛:看齐郑钦文王欣瑜?

2-1夺WTA首胜!中国女网15岁天才闪耀成人赛:看齐郑钦文王欣瑜?

李喜林篮球绝杀
2026-05-06 10:33:13
河南队外援古斯塔沃进球庆祝时,铜梁龙球迷向其投掷大量水瓶

河南队外援古斯塔沃进球庆祝时,铜梁龙球迷向其投掷大量水瓶

懂球帝
2026-05-06 00:48:07
大陆表态后、郑丽文一鸣惊人!赖清德终成笑话,国民党3人丢尽脸

大陆表态后、郑丽文一鸣惊人!赖清德终成笑话,国民党3人丢尽脸

娱乐圈的笔娱君
2026-05-05 12:45:29
巴媒:罗比尼奥因儿子遭内马尔欺负很生气,不接受其道歉了事

巴媒:罗比尼奥因儿子遭内马尔欺负很生气,不接受其道歉了事

懂球帝
2026-05-06 03:58:55
39岁江疏影夜拍东方明珠!不婚不育定居上海,越活越潇洒

39岁江疏影夜拍东方明珠!不婚不育定居上海,越活越潇洒

橙星文娱
2026-05-06 11:36:58
顶级阳谋来了!中国一纸禁令硬刚美国:你不守规矩,我来立规矩!

顶级阳谋来了!中国一纸禁令硬刚美国:你不守规矩,我来立规矩!

浪子阿邴聊体育
2026-05-05 08:37:33
湖人啃老多严重:詹姆斯27分最高韩乔生叹孤掌难鸣 后场双枪31中7

湖人啃老多严重:詹姆斯27分最高韩乔生叹孤掌难鸣 后场双枪31中7

醉卧浮生
2026-05-06 11:37:04
高认知的穷鬼,为何是人间最大的悲哀?

高认知的穷鬼,为何是人间最大的悲哀?

土家铁拳
2026-05-03 09:21:35
骤降98%!日本推动iPS干细胞全面量产,240万跌至5万?

骤降98%!日本推动iPS干细胞全面量产,240万跌至5万?

商悟社
2026-05-05 09:45:04
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
17中12!詹姆斯27分湖人大败于雷霆 他的帮手在哪里?

17中12!詹姆斯27分湖人大败于雷霆 他的帮手在哪里?

仰卧撑FTUer
2026-05-06 11:52:05
特朗普专车先进北京,日本电话打爆白宫:就一个请求,先停东京

特朗普专车先进北京,日本电话打爆白宫:就一个请求,先停东京

网络易不易
2026-05-06 11:33:33
一吃心脏好,二吃睡的香,建议:立夏使劲吃8菜,身体棒,别不懂

一吃心脏好,二吃睡的香,建议:立夏使劲吃8菜,身体棒,别不懂

美食店主
2026-05-06 00:06:52
2026-05-06 12:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15139文章数 66837关注度
往期回顾 全部

科技要闻

告别废话文学与幻觉!GPT-5.5 Instant发布

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

头条要闻

牛弹琴:高市终于下跪了 中韩等亚洲人内心感到气愤

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖 谁在讲故事?

汽车要闻

吉利原生新能源越野架构亮相 AI如何带来极致越野

态度原创

房产
旅游
艺术
家居
公开课

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

旅游要闻

营收同比增长78.64%!东平县五一文旅市场活力迸发

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

家居要闻

大胆前卫 时尚大宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版