网易首页 > 网易号 > 正文 申请入驻

405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+

0
分享至

新智元报道

编辑:alan

【新智元导读】近日,来自斯坦福、MIT等机构的研究人员推出了低秩线性转换方法,让传统注意力无缝转移到线性注意力,仅需0.2%的参数更新即可恢复精度,405B大模型两天搞定!

生产级大模型应用线性注意力的方法,来了。

线性Attention(包括RNN系列),再也不用困在几B参数的范围内娱乐了。

一套方法,即可线性化现有各种量级的Transformer模型,上至Llama 3.1 405B,也只需要十来张显卡在两天内搞定!

这就是斯坦福、MIT等科研机构推出的低秩线性转换LoLCATs(Low-rank Linear Conversion with Attention Transfer)。

论文与代码:https://github.com/HazyResearch/lolcats

应用LoLCATs,可以实现传统注意力(softmax)到线性注意力的无缝转移,

且转换后仅需开销很低的微调(LoRA),0.2%的参数更新即可恢复精度,对比同类的线性注意力模型或方法, 5-shot MMLU直接提高了20分左右!

也就是说,在几乎不损失Transformer大模型语言能力的基础上,将LLM的计算复杂度从二次方降到了线性。

线性Attention一事,前人之述备矣,然则,能够真正做大做强,还是第一次。

尤其具有实用价值的是,LoLCATs实现了极小的开销和接近原始模型的性能。

LoLCATs的线性化转换只需两个步骤:

首先使用线性Attention的形式替换原始Attention部分,并利用简单的MSE损失训练新增的参数,以近似softmax注意力;

然后通过低成本的微调(LoRA)来进一步提高模型的精度。

为了实现可扩展性,作者采用更精细的「block by block」训练,将LLM的每k层看成一个block,尽在块内联合训练注意力,以提高分层注意力匹配。

就如上图所表示的那样,一个羊驼(Llama)可以看成多个小刺猬叠在一起,每个小刺猬拥有独特的用于线性化的参数,并且相互之间可以独立训练。

LoLCATS 加速 LLM

为了避免昂贵的训练成本,研究者们一直在不断探索两个方面:

make models fast 与 create fast models

诸如Mamba、RWKV、TransNormer、Hawk、 Griffin和 StripedHyena等高效的subquadratic models不断出现,

而关于将流行的LLM线性化的工作也让我们眼前一亮。

但是线性化LLM往往伴随着模型质量的显著降低,你甚至能通过MMLU的测试分数猜出一个模型是不是传统的Attention架构,或者传统Attention块在模型中的占比。

另外,从实用的角度讲,只有拿下了生产级别的大模型,线性化的道路才能真正与传统Transformer平分秋色。

预备知识

先打基础:为什么要线性化?

正常的softmax注意力可以表示为下图上面的公式:

由于softmax的缘故,只能先算Q乘K,导致中间缓存和计算量随序列长度的平方增长;

线性化就是设计俩函数来近似softmax,从而把公式转化成下面的形式。

此时Q和K不需要绑在一起了,就可以先算K乘V,这个顺序的改变导致中间缓存和计算量随向量长度的平方增长,而相对于序列长度是线性关系。

这就是线性化的意思,这样的Attention也就不惧怕长序列带来的压力了。

开始线性化

本文中,作者的主要想法是向线性化Transformer中添加三个简单的概念:

1. Learnable (Linear) Attentions:可学习的(线性)注意力 2. Low-rank Adaptation:低秩适配 3. Layer-wise Optimization:分层优化

Learnable Attentions

首先训练线性注意力来模拟和替换softmax注意力。这种「注意力转移」的灵感来自作者之前的一篇工作:Hedgehog。

论文地址:https://arxiv.org/pdf/2402.04347

如何设计设计精妙复杂的函数来近似softmax注意力?

作者表示:与其让人类煞费苦心,不如交给AI自己去学!

相比于Hedgehog中只使用可学习的线性注意力,作者在LoLCATs中,将其推广为可学习的线性注意力和 + 滑动窗口。

研究人员将线性和softmax注意力统一在一个层中,训练一些新增的参数以从整体上近似softmax注意力。

对于N个token的序列,前W个token用于计算softmax注意力,后N-W个token用于计算线性注意力,然后将这些值组合。

在Hedgehog中,作者通过KL散度来训练特征图以匹配注意力权重,而本文改为在注意力层的输出上使用MSE 失。

这绕过了Hedgehog的一个限制:需要将所有注意力权重实例化为监督目标。

相反,LoLCATs可以使用FlashAttention来计算softmax注意力输出,并将线性化注意力的内存消耗保持在O(N)。

只需将这些特征图插入到每个现有的注意力中,即可创建线性化的 LLM。冻结所有其他权重,只训练这些特征图,对于7B的LLM来说,只需要调整0.2%的参数。

Low-rank Adaptation

之前的线性化工作,通常需要一个比较昂贵的端到端训练阶段。

但在LoLCATs这里,可以通过简单地将低秩适应(LoRA)应用于注意力的QKVO权重来恢复模型的性能。

冻结所有其他内容,只训练LoRA权重,在某些自然语言数据上,最大限度地减少LLM输出的next-token预测损失。

Layer-wise Optimization

大多数情况下,只需要以上两步就搞定了。但对于像Llama 3.1 405B这种规模的模型来说,还需要努力一下。

通过简单地联合优化所有层,可以成功地线性化7B到70B参数范围的LLM,但整体训练时,后面层的MSE会比前面的层更大。

当模型变得更大更深时,MSE升级为了微调Llama 3.1 405B的真正问题。

为此,研究人员使用了更精细的逐块训练,将Llama 3.1 405B分成多个k层块,并仅在每个块内联合训练注意力。

当使用一些线性化数据并行训练所有模块时,只需为每个块预先计算LLM的隐藏状态。

可以调节k来平衡并行训练的速度与预计算的内存,并将隐藏状态保存到磁盘。不需要花哨的成本模型,对于50M token的线性化来说:

k = 1时,需要2字节 × 126层 × 50M token × 16384(hidden size)= 200TB的磁盘空间来存储隐藏状态。

而k = 9时,磁盘空间的需求将减少为22TB,这时仍然能在单个GPU上并行训练每个块(9层)。

——后者显然更友好一点,所以作者将Llama 3.1 405B的126层拆分为14个9层块,在14个GPU上并行进行注意力的线性化,过程仅需5个小时。然后用LoRA将它们全部拼接在一起,就得到了最终模型。

实验结果

质量恢复

下表给出了6个流行的LLM评估任务的结果。

与最近的一些线性化方法相比,LoLCATs显著提高了不同任务和不同LLM的质量和训练效率。

尽管只训练了0.2% 的模型参数(40M token),LoLCATs将线性化与原始模型的性能差距平均缩小了80%以上,token to model的效率提高了500~2500倍。

在7B这个量级上,LoLCATs优于所有的线性注意力(包括RNN系列)模型:Mamba、RWKV、TransNormer、Hawk、 Griffin和 StripedHyena。

挑战405B大模型

最后,作者使用LoLCATs将线性化扩展到Llama 3.1 70B和更大的405B模型。

与之前的线性化方法相比,首先是质量上的显著改进。通过控制相同的线性 + 滑动窗口层,对于Llama 3.1 70B,在5-shot MMLU上的精度实现了39点的提升,对于Llama 3.1 405B,同样实现了38.3分的改进。

其次是训练效率的提高,在单个8x80GB H100上线性化Llama 3.1 70B仅需18个小时,而线性化Llama 3.1 405B所花费的时间比之前用于8B模型的方法还要少。

参考资料:

https://x.com/simran_s_arora/status/1845909074774475125

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坐滩破船迎来大结局?中国把仁爱礁围成铁桶,菲军参谋长下死命令

坐滩破船迎来大结局?中国把仁爱礁围成铁桶,菲军参谋长下死命令

古事寻踪记
2025-08-29 07:31:53
通缩杀疯了!99%的人抢降价货,1%的人囤这3样躺赢

通缩杀疯了!99%的人抢降价货,1%的人囤这3样躺赢

流苏晚晴
2025-11-01 22:08:24
美国报道的南海撞机事件,迫降后全国专家会诊,美方说万幸没升级

美国报道的南海撞机事件,迫降后全国专家会诊,美方说万幸没升级

干史人
2025-08-30 07:00:02
釜山会谈刚结束,德国火速转向,柏林果断炒掉外长,荷兰却沦为最大笑话

釜山会谈刚结束,德国火速转向,柏林果断炒掉外长,荷兰却沦为最大笑话

孔孔说体育
2025-11-02 06:19:25
39岁知名男演员自曝:被亲戚骗光所有积蓄

39岁知名男演员自曝:被亲戚骗光所有积蓄

喜欢历史的阿繁
2025-11-02 18:40:16
适合轻熟气质的姐姐穿的简约搭配

适合轻熟气质的姐姐穿的简约搭配

美女穿搭分享
2025-10-08 14:47:01
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
离婚才7天,41岁唐嫣直接官宣喜讯,原来早用行动给出了答案

离婚才7天,41岁唐嫣直接官宣喜讯,原来早用行动给出了答案

科学发掘
2025-10-31 06:27:46
王艺迪4:3夺冠,拿到4万美元,收获第三个冠军赛女单冠军

王艺迪4:3夺冠,拿到4万美元,收获第三个冠军赛女单冠军

郭揦包工头
2025-11-03 00:45:32
央视国宴那瓶水火了!不是娃哈哈,更不是农夫山泉,背后有何讲究

央视国宴那瓶水火了!不是娃哈哈,更不是农夫山泉,背后有何讲究

山河月明史
2025-09-09 17:00:57
3年之后,两岸统一的希望,恐将落在这个人的身上!

3年之后,两岸统一的希望,恐将落在这个人的身上!

老范谈史
2025-10-18 21:13:14
朱芊曦2-4王艺迪,重要的不是输赢,而是赛后朱芊曦诚恳的表态

朱芊曦2-4王艺迪,重要的不是输赢,而是赛后朱芊曦诚恳的表态

大嘴说台球
2025-11-02 22:34:13
1946年,朱旦华被救回延安后,江青仔细看她的长相:我认识你

1946年,朱旦华被救回延安后,江青仔细看她的长相:我认识你

元哥说历史
2025-11-01 16:20:03
老师不敢讲了!教科书遭清洗,敏感内容全删除,美国教育风向变了

老师不敢讲了!教科书遭清洗,敏感内容全删除,美国教育风向变了

壹知眠羊
2025-10-31 14:37:57
41岁白百何现身东京,她的下跨变得好大啊,脸也胖了,变化真大

41岁白百何现身东京,她的下跨变得好大啊,脸也胖了,变化真大

手工制作阿歼
2025-10-31 11:34:31
惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

惋惜!前中超冠军陨落:7年后再降级,季末7轮不胜+3次崩盘被绝平

我爱英超
2025-11-02 17:29:43
波司登有对手了!山东小厂逆袭成户外黑马,13亿卖爆中产衣柜

波司登有对手了!山东小厂逆袭成户外黑马,13亿卖爆中产衣柜

今日美食分享
2025-11-01 00:48:51
网传某律所合伙人带小三产检被抓,正妻质问:叫你妹妹还是姐姐?怀上没?

网传某律所合伙人带小三产检被抓,正妻质问:叫你妹妹还是姐姐?怀上没?

互联网大观
2025-11-01 09:51:44
养花人的天塌了!工业废土伪装成养花土被曝光,自制营养土成潮流

养花人的天塌了!工业废土伪装成养花土被曝光,自制营养土成潮流

环球网资讯
2025-11-01 12:11:29
致哀!兰州大学发讣告

致哀!兰州大学发讣告

双一流高校
2025-11-02 20:26:44
2025-11-03 03:59:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13769文章数 66236关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

家居
游戏
时尚
亲子
军事航空

家居要闻

吸睛艺术 富有传奇色彩

TES给Faker打困了!网友称第一次见到Faker打哈欠

最近很火的发型,原来这么简单!

亲子要闻

我发现一个带娃永远不生气的理论

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版