网易首页 > 网易号 > 正文 申请入驻

Transformer是推断还是记忆?初始化大小很重要

0
分享至

Transformer 架构在当前大语言模型中的地位,堪比麦当劳里的牛肉饼——谁不爱呢?这位“全能选手”能解数学题、写诗作赋,简直是 AI 界的“跨界网红”。不过,要揭开它才华横溢的秘密,可比哄孩子吃饭还费劲。

直接研究真实的大语言模型,难度堪比在菜市场里向大妈们讲解狭义相对论——你会被讨价还价的嘈杂声淹没。所以,咱们换个思路,采用“锚点-关键项”这招“偷天换日”,既省时又高效。接下来,让我们一探 Transformer 学习复合函数的究竟:它是靠推理,还是单纯拼记忆?

论文标题: Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing 论文链接: https://arxiv.org/abs/2405.05409

假设我们有四种基本运算,它们可以组合出 16 种“变身形态”(16 种复合运算)。如果我们只拿其中 15 种训练模型,你猜:它能掌握剩下那个“遗珠”吗?

答案是肯定的!

我们给模型输入一个 Token 序列,其中有一对从 {1, 2, 3, 4} 中选出的“天选锚点”,每个代表一种加减法运算。还有一个从 20 到 100 中挑选的“关键项”,它在经过“天选锚点”的洗礼后,幻化成序列的目标值。我们令四个锚点分别代表 “+5”、“+1”、“-2”、“-8” 四种魔法。举个栗子,如果关键项是 80,锚点是(1, 2),那目标值就是(80+5)+1=86。

如果我们只用 15 个锚点组合训练,模型竟然能掌握第 16 个的套路。这就像隔着手机屏幕学会做大餐,是不是很酷?那模型到底是怎么做到的呢?为了方便讨论,我们就假设缺席训练的是(4, 3)这对“神仙眷侣”。

其实,模型的学习机制有两种可能。一是走“福尔摩斯”路线,通过演绎推理出每个单锚点的能力,再将 “4”、“3” 的技能组合,找到推理解,破解(4, 3)的奥秘。二是走“复制粘贴”路线,发现(a, b)和(b, a)这两类锚点组合的效果一样(因为加减法可交换嘛),于是把(3, 4)的规律“拿来主义”,安到(4, 3)头上,找到对称解。Transformer 究竟更爱哪一套呢?

破案的方法很简单,我们把(3, 4)的效果从 “-10” 改成“-6”,看(4, 3)是否也跟着变。如果(4, 3)的结果仍是 “-10”,说明模型是靠推理;如果变成了 “-6”,就说明模型其实在背公式。

实验发现,以默认初始化为分水岭,大的初始化推动模型多用背诵,学到对称解,小的初始化则有利于推理。这就像健身房的两类人,一类死记硬背每个动作,一类则掌握基本原理,灵活运用。

这其实与模型复杂度有关。对于推断机制,模型仅需要记住 4 种单 anchor 运算,而对于记忆机制,模型需要学习所有非对称关系的运算规律(如(1,1),(1,2)(1,3),(1,2),(2,2)等共 10 种)。因此学习推断机制所需要的模型复杂度更低。对于小初始化,模型初始复杂度低,模型参数会 发生凝聚现象。简单来说,就是同层的神经元会趋同。例如 矩阵的列,在小初始化时,有明显地相似度(低秩),但大初始化下并没有这种现象。

训练开始时,参数聚集在少数方向,随着训练深入,聚集的方向逐渐增多,模型复杂度水涨船高。当模型发现学 4 种映射就够拟合训练集,学习就停止了,所以它更爱简单的推理解。而在大初始化下,复杂度够高,模型很快记住其中的对称性。如果初始化再大一点,它干脆把每个输入序列到输出的映射都记住,反而学不到算术规律,连见过的锚点组合都不能保证完美复现。

通过这项研究,我们发现,Transformer 模型的初始化大小决定了它是像福尔摩斯一样通过推理解谜,还是像我奶奶一样通过记忆菜谱来做饭。小初始化让模型像侦探一样,只需要记住几个关键的线索(运算规则),就能推理出所有结果。而大初始化则像孙悟空,把所有知识吃下去的方式记下来。

展望未来,科学家们可能会像调配宇宙飞船的发动机一样,精确调节 Transformer 的初始化参数,以便它们在各种复杂任务中都能表现出色。想象一下,将来有一天,Transformer 不仅可以帮你证定理、写论文,还能帮你规划度假行程,甚至给你家的猫咪制定健身计划。

不过,要实现这些目标,我们还需要深入探讨不同初始化对模型复杂度和泛化能力的影响,就像农民研究如何让奶牛在听音乐时产奶更多一样。这不仅需要大量实验,还需要一点点运气和许多好奇心。

参考文献

[1] Zhongwang Zhang, Pengxiao Lin, Zhiwei Wang, Yaoyu Zhang, Zhi-Qin John Xu*, Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing, arxiv 2405.05409 (2024)

[2] Zhongwang Zhang#, Zhiwei Wang#, Junjie Yao, Zhangchen Zhou, Xiaolong Li, Weinan E, Zhi-Qin John Xu*, Anchor function: a type of benchmark functions for studying language models, arxiv 2401.08309 (2024)


作者:张众望、许志钦 来源:公众号【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
阿森纳真要完?他们距离英超十亚王还有多远?

阿森纳真要完?他们距离英超十亚王还有多远?

体坛周报
2026-02-20 16:34:45
美媒评全球最差7艘航母,辽宁舰在列,福建舰山东舰情况如何?

美媒评全球最差7艘航母,辽宁舰在列,福建舰山东舰情况如何?

林子说事
2026-02-19 17:59:48
曾国藩卸任归乡遭县令耍官威,他拿出一块腰牌,吓得县令跪地求饶

曾国藩卸任归乡遭县令耍官威,他拿出一块腰牌,吓得县令跪地求饶

千秋文化
2026-02-17 14:44:19
广东CBA球星回村过年打友谊赛 不断送出精彩助攻 他是徐杰高中队

广东CBA球星回村过年打友谊赛 不断送出精彩助攻 他是徐杰高中队

郝小小看体育
2026-02-20 13:59:25
特朗普开了前所未有的一个会

特朗普开了前所未有的一个会

牛弹琴
2026-02-20 08:16:27
卖国求荣!为讨美国欢心,不惜将总统送进大牢,如今结局大快人心

卖国求荣!为讨美国欢心,不惜将总统送进大牢,如今结局大快人心

顾史
2026-01-22 20:28:11
iPhone17ProMax突然大量变二手,把我彻底看傻了

iPhone17ProMax突然大量变二手,把我彻底看傻了

3C毒物
2026-02-19 20:27:09
英媒:中国将中子弹纳入常规装备,若属实,代理人战争算是废了

英媒:中国将中子弹纳入常规装备,若属实,代理人战争算是废了

我心纵横天地间
2026-01-29 15:24:36
王宝强也没料到,释永信毁灭牵出前妻马蓉旧事,自己差点“垫背”

王宝强也没料到,释永信毁灭牵出前妻马蓉旧事,自己差点“垫背”

阿讯说天下
2026-02-19 17:27:11
澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

命运自认幽默
2026-02-17 19:50:44
莫言说:当你老了,躺在病床上面,无依无靠时,你就会明白:这辈子最亲的,并非血脉至亲,竟是这3样东西。

莫言说:当你老了,躺在病床上面,无依无靠时,你就会明白:这辈子最亲的,并非血脉至亲,竟是这3样东西。

品读时刻
2026-02-11 17:17:59
日本50岁,美国39岁,印度29岁,中国呢?

日本50岁,美国39岁,印度29岁,中国呢?

地图帝
2026-02-17 23:41:30
日本人不爱运动,却是长寿的国家,7个习惯是关键,值得学习

日本人不爱运动,却是长寿的国家,7个习惯是关键,值得学习

39健康网
2026-02-04 18:13:56
轰16+5+9!完美激活了双塔,阿特金森猛赞哈登,莫布里也说出优点

轰16+5+9!完美激活了双塔,阿特金森猛赞哈登,莫布里也说出优点

巴叔GO聊体育
2026-02-20 14:49:18
梅德韦杰夫:我们在微电子领域真的落后得很远

梅德韦杰夫:我们在微电子领域真的落后得很远

桂系007
2026-02-19 23:42:55
我国的内海渤海,古往今来为何那么重要?

我国的内海渤海,古往今来为何那么重要?

地图帝
2026-02-20 10:16:47
“爸妈来后冰箱都变‘老’了!”网友:原来全国都这样

“爸妈来后冰箱都变‘老’了!”网友:原来全国都这样

环球网资讯
2026-02-20 11:34:10
加盟4连胜!哈登三节打卡16+9米切尔露齿大笑 骑士15战13胜真北伐

加盟4连胜!哈登三节打卡16+9米切尔露齿大笑 骑士15战13胜真北伐

颜小白的篮球梦
2026-02-20 10:47:29
突发!无限期缺阵+5年2.24亿,三大悍将全躺下,魔术是真的倒霉啊

突发!无限期缺阵+5年2.24亿,三大悍将全躺下,魔术是真的倒霉啊

球童无忌
2026-02-20 14:34:01
燃油MPV硬刚电动潮!日产君爵入局25-35万市场家庭用户悄悄改主意

燃油MPV硬刚电动潮!日产君爵入局25-35万市场家庭用户悄悄改主意

沙雕小琳琳
2026-02-19 23:46:44
2026-02-20 23:15:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

数码
本地
时尚
公开课
军事航空

数码要闻

西部数据推出内容创作产品线G-DRIVE,替代原有闪迪大师

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

消息人士透露:美军赴黄海活动 解放军有效应对处置

无障碍浏览 进入关怀版