网易首页 > 网易号 > 正文 申请入驻

AI大牛张祥雨:Transformer撑不起Agent时代

0
分享至

“Transformer完全不能支撑我们下一步,尤其是在Agent时代走向下一步。”12月18日,90后AI大牛、阶跃星辰首席科学家张翔雨公布了自己最新的研究结论,直指当前AI领域核心架构Transformer的技术瓶颈。

Transformer架构是当前人工智能,特别是生成式AI和大语言模型的基石。它是2017 年由谷歌团队在论文《Attention Is All You Need》中提出的深度学习架构,核心创新在于“自注意力机制”,突破了传统循环神经网络(RNN)处理长序列的瓶颈。可以说,没有Transformer,就没有今天的ChatGPT、Gemini等模型。

张祥雨是深度学习领域的知名学者,以在ResNet(残差神经网络)方面的开创性工作而闻名。此前张祥雨等人完成的论文《Deep Residual Learning for Image Recognition》获CVPR最佳论文,引用已超20万次,是计算机视觉与模式识别类被引用最多的论文。


张祥雨首先承认,当前大模型行业看似进入了一个“稳态”时期,各种创新模型架构最终都收敛到以Transformer为核心的变体上。针对长上下文处理的效率瓶颈,业界通过如线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等技术手段“小修小补”,这并未改变 Transformer 的本质建模能力。

“但是很快我们发现了一个巨大的副作用。”张祥雨说,真正的难点是模型的智商会随着文本变化快速下降。“今天的Transformer,不管号称发布出来说支持到多少Token,基本上到8万个就不可用了。”

这个问题指向了Transformer的一个缺陷,就是它的单向信息流设计。无论输入序列(Context)多长,模型的有效“思考深度”的信息只能从浅层向深层单向传递,缺乏从深层向浅层的反馈与压缩机制,这与人类大脑“无限流”的记忆机制存在本质差异。

“我今天讲过的每一句话,都是历史上我见过的所有信息的函数。”张祥雨用比喻阐明,“这个函数能用层数固定的网络来表示吗?肯定不可以。”他说人类大脑能够对从小到大的海量经历进行动态压缩和选择性回溯,而当前Transformer结构无法实现这种类似“无限流”世界的智能处理需求,这制约了AI向具备高度自主性、能长期持续学习的通用Agent演进。

事实上,当前已经开始有研究者讨论Transformer是否存在根本局限性。就在今年10月,Transformer 架构的共同创造者Llion Jones在TED AI大会上说自己已经受够了 Transformer,并开始寻找下一次重大突破。他直言尽管现在AI领域投入了前所未有的资金与人才,但研究者却变得越来越狭窄,他们更倾向于利用现有架构而非探索新路径,“错失下一个重大突破的风险正在加剧。”

挑战已经出现。Mamba、TTT(Test-Time Training)等架构正吸引越来越多目光。英伟达、Meta、腾讯等巨头已在探索将Mamba与Transformer融合;中国科学院自动化所与沐曦合作研发的类脑脉冲大模型“瞬悉1.0”,则展示了构建非Transformer架构生态的可行性。

张祥雨透露,阶跃星辰团队已经在探索新的架构方向,一些小规模实验已取得积极结论。他认为,未来的架构是基于非线性递归网络(non-Linear RN)的全新架构。但他也坦言,这种架构革新将给系统效率和可并行度带来巨大挑战,需要协同设计才能落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

钱再多也没用,林子祥叶倩文如今现状,给“老少恋”夫妻提了个醒

查尔菲的笔记
2026-01-24 20:06:02
输给宁波13分!揪出最大“废柴”,9中2+关键失误 坑惨了广东队

输给宁波13分!揪出最大“废柴”,9中2+关键失误 坑惨了广东队

体育哲人
2026-02-01 22:09:44
2-0,国际米兰4连胜领跑,甩AC米兰8分,泽林斯基飙无敌世界波

2-0,国际米兰4连胜领跑,甩AC米兰8分,泽林斯基飙无敌世界波

侧身凌空斩
2026-02-02 02:55:10
恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

恭喜湖人!冠军中锋来了!老詹东契奇或迎雷霆首发内线哈滕

湖人侃球师
2026-02-01 06:50:07
劳塔罗:全场最佳奖杯送给我过生日的女儿;要为爆竹事件道歉

劳塔罗:全场最佳奖杯送给我过生日的女儿;要为爆竹事件道歉

懂球帝
2026-02-02 04:01:09
为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

另子维爱读史
2025-12-29 17:29:04
华裔乒乓球名将自曝:因与中国队决裂出走,在体校要给刘国梁洗衣

华裔乒乓球名将自曝:因与中国队决裂出走,在体校要给刘国梁洗衣

运动探索
2026-01-14 15:33:12
美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

美芯片价格暴跌90%!美媒破防:责任在中国,因为中国不买了!

我心纵横天地间
2026-02-01 13:08:34
47岁薛佳凝近况曝光!曾与胡歌相恋多年,极具商业头脑却孤身一人

47岁薛佳凝近况曝光!曾与胡歌相恋多年,极具商业头脑却孤身一人

代军哥哥谈娱乐
2026-02-01 09:41:51
1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

1959年庐山会议后,彭德怀惹怒毛主席,叶帅哭着说出一句心里话

叹为观止易
2026-01-20 10:14:29
黄景瑜的妈妈是她,年轻时是东北美女浓眉大眼,干会计工作已退休

黄景瑜的妈妈是她,年轻时是东北美女浓眉大眼,干会计工作已退休

揽星河的笔记
2026-01-26 15:16:11
工行、农行、中行、建行、交行,集体发布风险提示

工行、农行、中行、建行、交行,集体发布风险提示

新京报政事儿
2026-02-01 17:31:11
江西:寒假严禁中小学违规补课

江西:寒假严禁中小学违规补课

中国教育新闻网
2026-02-02 08:37:17
安踏95后“少帅”,开战lululemon

安踏95后“少帅”,开战lululemon

华商韬略
2026-01-30 10:42:40
上海交大:每次起床后大量喝水的人,用不了多久,身体或有7变化

上海交大:每次起床后大量喝水的人,用不了多久,身体或有7变化

读懂世界历史
2025-11-23 11:18:04
上场后连丢两球,乌加特出场的情况曼联本赛季已经丢了24球

上场后连丢两球,乌加特出场的情况曼联本赛季已经丢了24球

懂球帝
2026-02-02 00:52:21
96年创业向大舅借9000被拒,三叔卖猪凑钱,送三叔套房他却找上门

96年创业向大舅借9000被拒,三叔卖猪凑钱,送三叔套房他却找上门

人间百态大全
2026-02-01 06:50:03
中华曲艺学会换届,周炜当选会长,程野当选副会长!

中华曲艺学会换届,周炜当选会长,程野当选副会长!

达文西看世界
2026-02-01 18:04:32
明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

明明长得一模一样,为啥一个叫牡蛎,另一个叫生蚝?

半解智士
2026-01-30 17:14:17
皇马官方:贝林左侧大腿半腱肌受伤,后续恢复情况有待观察

皇马官方:贝林左侧大腿半腱肌受伤,后续恢复情况有待观察

懂球帝
2026-02-02 08:18:05
2026-02-02 09:36:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
243236文章数 621394关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

头条要闻

媒体:莫迪也上了爱泼斯坦文件 情节有点尴尬

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

健康
房产
亲子
艺术
公开课

耳石症分类型,症状大不同

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

亲子要闻

2-5岁孩子如何在家做早教?用好这些小道具,孩子进步超快!

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版