网易首页 > 网易号 > 正文 申请入驻

教授直言:AI突破关键非Transformer架构

0
分享至

只要一提到大模型,很多人张口闭口就是Transformer架构有多么颠覆。似乎掌握了架构设计,就拿到了通往通用人工智能的门票。

普林斯顿大学助理教授庄刘(Zhuang Liu)在最近的一次交流中,直接打破了这种固有认知。

作为在深度学习架构领域的顶尖学者,他明确指出,在实际应用中,有很多因素远比单纯的架构选择重要得多。



现在学术界在AI架构研究上到底处于什么状态?在落地应用时,决定AI表现的究竟是什么?



相比于前几年各种新架构层出不穷,现在的学术界在底层架构研究上,变得没有那么活跃了。

庄刘教授坦诚地点出了痛点:学术界现在根本负担不起足够大的计算规模,来在有说服力的体量上去验证这些架构创新的效果。

理想情况下,如果有了新的架构点子,应该在最前沿的规模上进行验证。不一定是万亿美元级别,但至少也得在70亿、或者300亿参数这样的庞大规模上跑出效果。



因为工业界需要看到这个规模的收益才会信服。

目前,反而是那些拥有开放权重模型的科技公司,比如Kimi、DeepSeek等,还在不断地摆弄和优化架构。他们有大量的计算资源去测试如何修改残差连接,以及如何连接不同的网络层。

受限于算力资源,学术界在超大规模底层架构的探索上面临困难。但这并不意味着探索停止,庄刘教授表示,他自己还是会在大学现有的资源下试着研究,借助云代码工具亲手写代码进行验证。



那么,所谓的“颠覆性架构”真的不可替代吗?庄刘团队在2021年做了一项名为“面向20年代的卷积网络”的研究。

当时,Transformer刚进入计算机视觉领域,性能极其亮眼,整个视觉圈子都在从传统的卷积网络往视觉Transformer迁移。

他们想搞清楚:这种性能差距,究竟是因为自注意力机制的内在优势,还是因为其他细小的设计细节?

研究得出的答案是后者。他们通过系统性地控制设计组件,将卷积网络进行了现代化改造,比如调整激活函数的使用、减少归一化层。



结果发现,改造后的卷积网络在各种任务上,都能跟当时极强的视觉Transformer打平。

根本没有任何一个单一的改动能瞬间拉升性能,真正起作用的是把所有的小细节组合在一起。这些小细节的组合,比看起来像是网络核心组件的改变要重要得多。

只要输入输出接口保持不变,不管选哪种架构,只要用上残差连接、自注意力等合理机制,在合适位置放对激活函数和前馈层,最终都会非常接近性能与效率的最高前沿。在过去很多年里,除了成熟架构,并没有什么真正被广泛采用的根本性创新。



既然架构选择不是唯一的决定性因素,在实际应用中,什么才是最核心的命门?

庄刘教授给出了肯定的答案:用什么数据来训练模型,比架构的选择重要得多。

一旦用更多的计算、更多样化的大规模互联网数据去训练,同样的模型就会涌现出极具竞争力的性能。深度学习最大的启示是:你想让模型在哪方面做得好,就必须针对那方面去训练。

为了让模型什么都会,普遍的假设是模型需要在训练时见过所有的东西。但计算资源和模型容量是有限的,模型学到的不同能力之间会相互竞争。

如何平衡不同数据领域是关键。庄刘教授提到,不能让“怎么理发”的话题跟“怎么编程”拥有同样多的数据,因为编程显然更重要。需要把关心的所有领域大致划分出来,在训练集里让它们保持恰当的配比。



如果你希望模型在面向用户时对各种任务都有不错的能力,那么在训练集里拥有足够的数据就是最合理的解法。



现在的模型能力很强,但人类有超强的记忆力,模型却比不上。在职业和个人生涯里,有太多东西我们希望模型能记住,比如互动历史、偏好等,这样就不必反复去讲。



如何不让模型遗忘,这是持续学习需要解决的问题。如果能成功解决记忆问题,会比搭建协作式智能体更有价值。之所以需要大量智能体分开做不同任务,就是因为一个智能体记不住所有事情。

除了记忆,对于不同类型的工作,模型的需求也不同。对于数字工作、白领工作,很多事在数字空间里完成,可能只需要一个能读懂电脑屏幕的模型,不需要世界模型。

但对于体力劳动,比如建筑、开车、理发、医疗手术等物理活动,工作中的反馈非常精细,这确实需要视觉世界模型。超过半数的工作想真正做好的话,都需要视觉世界模型。



综上所述,当前的AI领域,学术界受限于算力规模,在超大架构研究上面临门槛。而研究也表明,细致的组件优化往往能达到与核心架构改变相似的效果。

在实际落地应用中,优质、海量且配比合理的数据,是决定模型能力的关键。未来,谁能突破模型长久记忆与持续学习的瓶颈,谁能构建出适应物理世界的视觉世界模型,谁就能让AI产生真正的质变。

对于AI总是记不住你的指令和偏好这件事,你在日常使用中有没有遇到过类似的烦恼?欢迎在评论区留下你的看法!

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小刀又要奉子成婚了

小刀又要奉子成婚了

毒舌扒姨太
2026-05-05 22:31:14
快讯!台湾美丽电子报董事长吴子嘉发言了!

快讯!台湾美丽电子报董事长吴子嘉发言了!

故事终将光明磊落
2026-05-06 10:36:07
吴宜泽仅有3个代言在手,夺冠后商业价值飙涨,收入或将突破3000万

吴宜泽仅有3个代言在手,夺冠后商业价值飙涨,收入或将突破3000万

体坛最前线66
2026-05-06 15:37:10
黄仁勋彻底破防:中国不应获得英伟达的最先进芯片,美国应保持AI领先地位!网友:狐狸尾巴终究是藏不住了

黄仁勋彻底破防:中国不应获得英伟达的最先进芯片,美国应保持AI领先地位!网友:狐狸尾巴终究是藏不住了

大白聊IT
2026-05-06 08:05:27
大众威然这次豁出去了!给出 12.29 万优惠,网友:夯爆了

大众威然这次豁出去了!给出 12.29 万优惠,网友:夯爆了

汽车网评
2026-05-05 23:10:28
谢娜演唱会半个娱乐圈都挽救不了 ,被网友吐槽像大型幼儿园汇演!

谢娜演唱会半个娱乐圈都挽救不了 ,被网友吐槽像大型幼儿园汇演!

动物奇奇怪怪
2026-05-06 02:20:24
美军不宣而战闯海峡,伊朗导弹密集发射,特朗普逼着北约选边站

美军不宣而战闯海峡,伊朗导弹密集发射,特朗普逼着北约选边站

万物知识圈
2026-05-06 14:39:45
吕后刚死吕家就被屠尽?毛泽东点破:没把握的权力,终是取死之道

吕后刚死吕家就被屠尽?毛泽东点破:没把握的权力,终是取死之道

掠影后有感
2026-04-30 09:29:54
荷兰光刻机巨头:中国人太聪明了,封锁中国活不下去的是西方企业

荷兰光刻机巨头:中国人太聪明了,封锁中国活不下去的是西方企业

慕名而来只为你
2026-05-06 13:13:31
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
骑士101-111不敌活塞,0-1!一战看清了5个现实:米哈季后赛太拉

骑士101-111不敌活塞,0-1!一战看清了5个现实:米哈季后赛太拉

毒舌NBA
2026-05-06 09:49:54
“窒息时刻”:9700万桶原油撑爆储罐,特朗普“不战而屈人之兵”

“窒息时刻”:9700万桶原油撑爆储罐,特朗普“不战而屈人之兵”

民间胡扯老哥
2026-05-05 06:43:13
闻泰科技等20余股将被实施ST

闻泰科技等20余股将被实施ST

财闻
2026-05-06 08:37:45
5中4!奇兵干趴湖人!雷霆又一笔血赚交易

5中4!奇兵干趴湖人!雷霆又一笔血赚交易

篮球实战宝典
2026-05-06 13:08:41
接到陌生电话先问这3个字!骗子听到马上挂断,记得转告身边人

接到陌生电话先问这3个字!骗子听到马上挂断,记得转告身边人

小谈食刻美食
2026-04-25 09:47:09
【人物】“00后”冠军吴宜泽:一个中国斯诺克家庭为他押上了一切

【人物】“00后”冠军吴宜泽:一个中国斯诺克家庭为他押上了一切

界面新闻
2026-05-05 11:06:08
工龄决定退休金!20—40年差距对照表——算清养老账,退休不吃亏

工龄决定退休金!20—40年差距对照表——算清养老账,退休不吃亏

匹夫来搞笑
2026-05-06 09:57:42
得不偿失!内马尔终于送上把柄,巴西队难以征召,安切洛蒂笑了

得不偿失!内马尔终于送上把柄,巴西队难以征召,安切洛蒂笑了

祥谈体育
2026-05-06 15:45:58
湖人G1输18分,却有3个亮点,一策略可以继续用,一人可以给战术

湖人G1输18分,却有3个亮点,一策略可以继续用,一人可以给战术

体坛大辣椒
2026-05-06 11:22:05
泽连斯基谴责俄罗斯的5月9日停火“极其虚伪”,誓言作出回应

泽连斯基谴责俄罗斯的5月9日停火“极其虚伪”,誓言作出回应

山河路口
2026-05-05 21:08:22
2026-05-06 16:11:00
丁铗惊悚影视解说
丁铗惊悚影视解说
关注我,每天高清电影剪辑看不停!
2208文章数 206关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

世界杯FIFA给中国开出天价版权费 电视转播谈判陷僵局

头条要闻

世界杯FIFA给中国开出天价版权费 电视转播谈判陷僵局

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

人形机器人七小龙:谁真能卖 谁在讲故事?

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

时尚
房产
健康
本地
游戏

今年夏天最时髦的6组搭配,照着穿美出新高度!

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

干细胞治烧烫伤面临这些“瓶颈”

本地新闻

用青花瓷的方式,打开西溪湿地

《生肖山》登陆Steam牌组构建游戏节

无障碍浏览 进入关怀版