网易首页 > 网易号 > 正文 申请入驻

2500星项目把残差连接拆了!Transformer每层能"挑"

0
分享至


GitHub上有个叫Attention Residuals的项目,两周攒了2500星。它不是新模型,而是给Transformer做了个小手术——把用了7年的残差连接(Residual Connection)换成了注意力机制。这事儿听着像学术炫技,但MoonshotAI放出来的数据挺硬:同样算力下,模型能更深、训练更稳。

残差连接是什么?简单说就是每层输出都"叠"到总账上,权重固定为1。层数一多,早期信号就被稀释成噪声。这是PreNorm架构的老毛病,业内叫"隐藏状态爆炸"。

AttnRes的解法很直接:每层不再被动累加,而是主动"看"前面所有层,用softmax决定采信谁。公式就一行,但改的是Transformer最底层的加法逻辑。

正方:为什么该换

标准残差的问题,做过大模型训练的人都懂。

层数堆到96层、128层之后,梯度传播路径太长。早期层的特征被后期层反复覆盖,模型其实是在"遗忘"而非"积累"。MoonshotAI的论文里有个实验:在同等深度下,AttnRes的验证损失曲线更平滑,后期不抖——这说明每层确实在有效利用前面信息,而不是被噪声淹没。

更关键的是内存可控。Full AttnRes需要O(Ld)内存存所有层输出,显然跑不了大模型。Block AttnRes把层分成N个块,块内正常残差,块间才做注意力。8个块就能追回大部分收益, overhead可以忽略。


代码里这个block_attn_res函数,核心就6行:把块表示堆成向量、归一化、算logits、softmax加权。伪查询(pseudo-query)每个层学一个,不增加推理时的KV缓存压力。

从工程角度,这是典型的"算力换效率"——用一点额外的矩阵运算,换掉固定加法的结构性缺陷。对正在卷长上下文、卷多模态的团队来说,多一个可控的 depth-wise 注意力通道,意味着特征融合更灵活。

反方:为什么不该动

但动残差连接,等于动Transformer的承重墙。

2017年ResNet和Transformer几乎同时证明:深层网络能训,全靠这条捷径(skip connection)。它保证了梯度恒为1的流动路径,这是优化稳定性的数学基础。现在把固定权重改成学习的注意力,理论保证没了,训练会不会更敏感?

论文里的实验规模有限。2.5k星的项目,放出来的结果主要在语言建模(language modeling)和图像分类,最大模型到多大、在真正的大集群上表现如何,数据还没看到。Block AttnRes的"8个块"是调出来的经验值,换任务、换深度要不要重调?没给迁移指南。

更实际的顾虑是生态成本。残差连接是硬件和框架的假设前提。CUDA kernel、编译器优化、量化方案,都默认了这个计算图结构。改成动态注意力,算子融合(operator fusion)会不会 broken?TPU/GPU 上的实际吞吐是升是降?论文没测。


还有一层怀疑:这个"选择性聚合"的需求,是不是已经被别的机制满足了?MoE(混合专家模型)在层内做路由,RWKV、Mamba 这些架构在改整个序列建模方式。AttnRes卡在中间层做 depth-wise attention,增量价值到底有多少?

判断:什么时候值得试

我的看法分三层。

第一层,学术价值确定。它把"深度方向的注意力"这个思路做成了可插拔的模块,证明了残差不是唯一选择。这对架构创新有启发——Transformer的每个组件都值得被重新审视,哪怕用了七年。

第二层,工程落地要谨慎。小团队、新模型,可以把它当 ablation 选项测一测。但已有的大模型训练栈,换这个的成本远高于收益。除非你的场景恰好卡在"深度够了但特征融合不够"的瓶颈,否则不建议硬上。

第三层,长期值得关注。大模型正在从"堆参数"转向"堆效率"。任何能在不增参、不增显存的前提下提升特征利用率的改动,都可能被集成进下一代架构。AttnRes的Block版本是个务实的折中,如果后续能在多模态、长视频、具身智能这些对时序敏感的任务上证明优势,会成为标准组件。

GitHub仓库里有个细节:README的Citation部分还是空的,论文刚挂arXiv。2.5k星里有多少是"mark一下等成熟",有多少真会去改forward函数?这个数字本身说明,社区对"修底层"的创新有饥渴,但也清楚知道,从代码到生产,中间隔着几十个未知的bug。

如果你正在训一个32层以上的模型,且观察到后期层loss震荡或特征退化,可以把Block AttnRes放进消融列表。官方给的伪代码足够清晰,半天能搭起来。但记得测完收敛曲线后,再跑一遍端到端吞吐——有些优化,纸上快不代表墙上快。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

中东实战打出真相!伊朗越猛越显中国实力,美军彻底慌了神

小舟谈历史
2026-03-28 04:42:18
终于爆发了,击落大批美以军机:隐身战机,超级大黄蜂不断下坠!

终于爆发了,击落大批美以军机:隐身战机,超级大黄蜂不断下坠!

混沌录
2026-03-27 16:39:18
打虎!郭永航被查

打虎!郭永航被查

新京报
2026-03-27 18:25:25
朝阳初三女孩318分,家长无奈:老师建议去职高。

朝阳初三女孩318分,家长无奈:老师建议去职高。

特约前排观众
2026-03-28 00:20:03
独家|中远海运集运旗下两艘集装箱船已向波斯湾方向折返 暂未通过霍尔木兹海峡

独家|中远海运集运旗下两艘集装箱船已向波斯湾方向折返 暂未通过霍尔木兹海峡

财联社
2026-03-27 15:20:06
美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

极目新闻
2026-03-26 20:16:01
全世界会发现,伊朗战争打完后,世界只剩下一个超级大国了

全世界会发现,伊朗战争打完后,世界只剩下一个超级大国了

揭秘历史的真相
2026-03-27 21:04:15
顶流品牌罗技侮辱中国消费者像狗!晋江文学城被女会员狂冲!

顶流品牌罗技侮辱中国消费者像狗!晋江文学城被女会员狂冲!

魔都囡
2026-03-27 10:11:34
许家印遭受最大亏损的三个项目分别是什么?

许家印遭受最大亏损的三个项目分别是什么?

混沌录
2026-03-21 15:41:07
以色列退出比利-简-金杯:去不太受欢迎的国家风险太大

以色列退出比利-简-金杯:去不太受欢迎的国家风险太大

懂球帝
2026-03-27 20:09:24
网传《雄狮少年》出品方倒闭,当年怼网友,终于为自己的行为买单

网传《雄狮少年》出品方倒闭,当年怼网友,终于为自己的行为买单

八卦南风
2026-03-27 17:17:39
蒙古朝鲜越南这三大邻国,面对中国都做出了同一个抉择

蒙古朝鲜越南这三大邻国,面对中国都做出了同一个抉择

凡知
2026-03-27 18:31:34
车险改革了!42%的车主放弃了车损险,2026年这么买最划算

车险改革了!42%的车主放弃了车损险,2026年这么买最划算

小李子体育
2026-03-28 03:15:46
形势有多严峻?35岁失业男与年轻女人事激烈碰撞,评论区炸锅…

形势有多严峻?35岁失业男与年轻女人事激烈碰撞,评论区炸锅…

慧翔百科
2026-03-27 12:17:09
央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

阿伧说事
2026-03-25 07:11:23
陈松伶跑5公里马拉松,本人晒照和路人拍的差距大,看着差出20岁

陈松伶跑5公里马拉松,本人晒照和路人拍的差距大,看着差出20岁

八怪娱
2026-03-27 13:32:01
吴京戳脸“一按一个坑”,网友劝其注意身体,本人回应:含水量高了些,身体还不错,谢谢大家关心!

吴京戳脸“一按一个坑”,网友劝其注意身体,本人回应:含水量高了些,身体还不错,谢谢大家关心!

极目新闻
2026-03-28 00:50:32
想拿中国尿素救春耕,先还钱!中国锁定俄油巨单,印度彻底出局

想拿中国尿素救春耕,先还钱!中国锁定俄油巨单,印度彻底出局

小蔑谈事
2026-03-28 01:32:42
2026-03-28 08:35:00
码上闲叙
码上闲叙
有态度网友ytd
734文章数 5关注度
往期回顾 全部

科技要闻

杨植麟张鹏夏立雪罗福莉,聊龙虾、聊涨价

头条要闻

特朗普称暂停打击伊能源设施不到1天 美以空袭伊核设施

头条要闻

特朗普称暂停打击伊能源设施不到1天 美以空袭伊核设施

体育要闻

邵佳一:足球就像一场马拉松

娱乐要闻

范玮琪加盟,官宣《浪姐7》遭全网抵制

财经要闻

我在小吃培训机构学习“科技与狠活”

汽车要闻

与众08,金标大众不能输的一战

态度原创

健康
教育
艺术
公开课
军事航空

干细胞抗衰4大误区,90%的人都中招

教育要闻

语文老师解读中西历险本质区别

艺术要闻

一位好“色”的摄影师

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:已组织超100万人为地面战斗做准备

无障碍浏览 进入关怀版