网易首页 > 网易号 > 正文 申请入驻

AI大牛张祥雨:Transformer撑不起Agent时代

0
分享至

“Transformer完全不能支撑我们下一步,尤其是在Agent时代走向下一步。”12月18日,90后AI大牛、阶跃星辰首席科学家张翔雨公布了自己最新的研究结论,直指当前AI领域核心架构Transformer的技术瓶颈。

Transformer架构是当前人工智能,特别是生成式AI和大语言模型的基石。它是2017 年由谷歌团队在论文《Attention Is All You Need》中提出的深度学习架构,核心创新在于“自注意力机制”,突破了传统循环神经网络(RNN)处理长序列的瓶颈。可以说,没有Transformer,就没有今天的ChatGPT、Gemini等模型。

张祥雨是深度学习领域的知名学者,以在ResNet(残差神经网络)方面的开创性工作而闻名。此前张祥雨等人完成的论文《Deep Residual Learning for Image Recognition》获CVPR最佳论文,引用已超20万次,是计算机视觉与模式识别类被引用最多的论文。


张祥雨首先承认,当前大模型行业看似进入了一个“稳态”时期,各种创新模型架构最终都收敛到以Transformer为核心的变体上。针对长上下文处理的效率瓶颈,业界通过如线性注意力(Linear Attention)、稀疏注意力(Sparse Attention)等技术手段“小修小补”,这并未改变 Transformer 的本质建模能力。

“但是很快我们发现了一个巨大的副作用。”张祥雨说,真正的难点是模型的智商会随着文本变化快速下降。“今天的Transformer,不管号称发布出来说支持到多少Token,基本上到8万个就不可用了。”

这个问题指向了Transformer的一个缺陷,就是它的单向信息流设计。无论输入序列(Context)多长,模型的有效“思考深度”的信息只能从浅层向深层单向传递,缺乏从深层向浅层的反馈与压缩机制,这与人类大脑“无限流”的记忆机制存在本质差异。

“我今天讲过的每一句话,都是历史上我见过的所有信息的函数。”张祥雨用比喻阐明,“这个函数能用层数固定的网络来表示吗?肯定不可以。”他说人类大脑能够对从小到大的海量经历进行动态压缩和选择性回溯,而当前Transformer结构无法实现这种类似“无限流”世界的智能处理需求,这制约了AI向具备高度自主性、能长期持续学习的通用Agent演进。

事实上,当前已经开始有研究者讨论Transformer是否存在根本局限性。就在今年10月,Transformer 架构的共同创造者Llion Jones在TED AI大会上说自己已经受够了 Transformer,并开始寻找下一次重大突破。他直言尽管现在AI领域投入了前所未有的资金与人才,但研究者却变得越来越狭窄,他们更倾向于利用现有架构而非探索新路径,“错失下一个重大突破的风险正在加剧。”

挑战已经出现。Mamba、TTT(Test-Time Training)等架构正吸引越来越多目光。英伟达、Meta、腾讯等巨头已在探索将Mamba与Transformer融合;中国科学院自动化所与沐曦合作研发的类脑脉冲大模型“瞬悉1.0”,则展示了构建非Transformer架构生态的可行性。

张祥雨透露,阶跃星辰团队已经在探索新的架构方向,一些小规模实验已取得积极结论。他认为,未来的架构是基于非线性递归网络(non-Linear RN)的全新架构。但他也坦言,这种架构革新将给系统效率和可并行度带来巨大挑战,需要协同设计才能落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

日本乒乓球名将水谷隼说:中国队之所以强大,根本不是技术优势

篮球看比赛
2026-02-04 17:46:56
县交警队长被举报工作日KTV饮酒;镇雄公安:事先已请假,未违规违纪

县交警队长被举报工作日KTV饮酒;镇雄公安:事先已请假,未违规违纪

大风新闻
2026-05-10 15:07:12
深圳2-0浙江晋级四强:贺希宁23分末节4三分 程帅澎25分史密斯3双

深圳2-0浙江晋级四强:贺希宁23分末节4三分 程帅澎25分史密斯3双

醉卧浮生
2026-05-10 21:44:46
想不到的广东:全国最富的省份,7成城市却在平均线以下

想不到的广东:全国最富的省份,7成城市却在平均线以下

风向观察
2026-05-10 19:34:45
张本智和父亲:请中国人不要骂我儿子,他比你们99%的人都优秀!

张本智和父亲:请中国人不要骂我儿子,他比你们99%的人都优秀!

拳击时空
2026-05-10 07:42:20
不访华了?鲁比奥称美方愿让步,中俄高抬贵手,已为自己找好台阶

不访华了?鲁比奥称美方愿让步,中俄高抬贵手,已为自己找好台阶

书纪文谭
2026-05-10 21:13:02
一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

上游新闻
2026-05-10 15:45:20
安妮公主佩戴标志性钟乳石胸针亮相白金汉宫花园派对

安妮公主佩戴标志性钟乳石胸针亮相白金汉宫花园派对

娱圈观察员
2026-05-10 00:03:21
教育“特权”全清零,9月起上学再也不需要拼爹拼房了

教育“特权”全清零,9月起上学再也不需要拼爹拼房了

辉哥说动漫
2026-05-10 18:18:32
上层圈子的潜规则:没人明说,但招招致命

上层圈子的潜规则:没人明说,但招招致命

细说职场
2026-05-10 09:39:27
就算歪路,也要早走

就算歪路,也要早走

求实处
2026-05-10 01:09:58
男乒夺冠颁奖!手拉手站奖台,王楚钦最轻松,林诗栋被吓出表情包

男乒夺冠颁奖!手拉手站奖台,王楚钦最轻松,林诗栋被吓出表情包

篮球资讯达人
2026-05-11 02:15:53
赢球还道歉?梁靖崑赛后哽咽全程不敢看镜头,心里是憋了多大委屈

赢球还道歉?梁靖崑赛后哽咽全程不敢看镜头,心里是憋了多大委屈

乐悠悠娱乐
2026-05-10 11:56:28
伊朗对美国方案的回应聚焦“结束战争与海上安全”

伊朗对美国方案的回应聚焦“结束战争与海上安全”

新华社
2026-05-10 23:08:04
刀尖上的舞者,梁靖崑再演大逆转,决胜局连得8分3-2战胜张本智和

刀尖上的舞者,梁靖崑再演大逆转,决胜局连得8分3-2战胜张本智和

真理是我亲戚
2026-05-11 00:43:58
三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

北纬的咖啡豆
2026-05-10 11:43:20
刘三姐“全裸演出”引争议,张艺谋惹怒全网

刘三姐“全裸演出”引争议,张艺谋惹怒全网

营销头版
2026-05-10 20:09:26
突传死讯!香港知名演员老公在家中离世,坐在轮椅上没了呼吸

突传死讯!香港知名演员老公在家中离世,坐在轮椅上没了呼吸

一盅情怀
2026-05-10 12:46:52
摩洛哥姑娘嫁江苏农村小伙,婚礼全程开心大笑,摄影师感慨:拍了七年婚礼没见过这样的

摩洛哥姑娘嫁江苏农村小伙,婚礼全程开心大笑,摄影师感慨:拍了七年婚礼没见过这样的

可达鸭面面观
2026-05-10 13:46:52
突然大涨!霍尔木兹,大消息

突然大涨!霍尔木兹,大消息

中国基金报
2026-05-11 00:11:08
2026-05-11 03:11:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
252797文章数 622251关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
旅游
数码
公开课
军事航空

教育要闻

高考地理中的共享经济

旅游要闻

北京“二绿地区”郊野公园焕新升级

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版