网易首页 > 网易号 > 正文 申请入驻

顶会研究系列 | EFLA:可精确求解的稳定线性注意力!

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。

wisemodel社区持续举办系列顶会会享,欢迎研究人员的团队报名分享与投稿

线性注意力和 SSM 这两年被频繁拿出来讨论,原因很简单:softmax attention 的二次复杂度在长上下文场景下已经越来越难以接受。但与此同时,一个同样反复出现的现象也越来越明显——只要上下文一拉长、输入尺度一放大,很多线性注意力模型就开始数值不稳定,性能迅速退化。

通常的解释路径是熟悉的:线性注意力缺少 softmax 的归一化、对输入能量敏感、需要额外的 gate 或 decay 机制来稳住训练。但 EFLA 这篇论文提出了一个更底层、也更“数学正确”的解释:问题不在注意力本身,而在于之前一直在用一个过于粗糙的数值方法去实现它。


项目地址:https://wisemodel.cn/codes/kkkkkleeiii/EFLA

01.

线性注意力其实在“解一个连续系统”

如果把 DeltaNet 这一类线性注意力的状态更新写下来,会发现它本质上是在维护一个 key→value 的关联矩阵,并在每个时间步对这个矩阵做一次小幅修正。这个过程通常被解释为 online regression 或 fast weights:


但 EFLA 指出,更自然的理解其实是:

这是一个连续时间动力系统,被强行离散化成了逐 token 的更新。


在连续时间里,这个系统的行为非常清晰:一方面,旧的记忆沿着当前 key 的方向指数衰减;另一方面,新的 value 沿着同一个方向被注入进状态中。换句话说,这是一个带衰减项和输入项的一阶线性 ODE。

而在代码里看到的 DeltaNet 更新,其实只是对这个连续系统做了一步最简单的数值积分。

02.

真正的问题:之前一直在用Euler

从数值分析的角度看,DeltaNet 使用的更新方式等价于显式 Euler 方法。Euler 的优点是简单、快,但它也是最低阶的一种数值积分方法。它的误差在单步看起来很小,但会随着步数线性累积。

把这个事实代回线性注意力,就会发现很多“经验现象”突然说得通了:

为什么序列一长就容易不稳?为什么 key 的范数一大,状态就会爆?为什么在高能输入或者 OOD scale 下模型直接崩掉?

不是模型设计出了问题,而是你在用一个一阶方法,去长期积分一个本来就带指数行为的系统。

03.

那为什么不直接“把系统解对”

听起来很自然的一个想法是:既然这是一个连续系统,那能不能直接用更高阶的方法,甚至直接算解析解?

答案通常是否定的。原因也很现实:连续系统的精确解会涉及矩阵指数,而对一般矩阵来说,解 的计算代价是

,在注意力里根本不可接受。但 EFLA 的关键发现是:线性注意力里的这个系统,有一个被长期忽略的特殊结构。

04.

关键在于:这个矩阵几乎永远是rank-1

在 DeltaNet 和类似方法中,决定衰减方向的矩阵,实际上是由当前 key 的外积构成的。也就是说,它只有一个非零方向,本质上是 rank-1。


这个结构带来了一个非常“白捡”的结果:矩阵指数可以被化简成一个闭式表达,而且计算量仍然是线性的。

换句话说,原本看起来不可能的“精确解”,在这里突然变成了可计算的。

05.

EFLA做的事情,其实非常克制

最终得到的 EFLA 更新形式,和 DeltaNet 几乎一模一样:


原来直接使用的地方,被替换成了一个由 key 能量自动调节的系数。


这个系数的行为非常直观:当 key 的能量很大时,更新会自然饱和,避免状态被一次输入冲垮;当 key 很弱时,它又会退化回原来的 delta rule 行为。重要的是,这不是人为设计的 gate,而是连续系统的精确解本来就应该长成这样。

06.

稳定性不是“调出来的”,而是算出来的

这也解释了一个论文中看似反直觉、但非常一致的实验现象:EFLA 在训练早期通常更稳、更抗噪,但在后期可能需要更大的全局学习率。原因并不复杂。精确解带来的指数衰减,本身就会压缩高能更新的幅度。如果学习率还沿用 DeltaNet 的设置,模型反而会“更新不够”。这不是缺点,而是精确解的自然代价。

07.

工程上,它并不更难用

一个很容易被误解的点是:EFLA 会不会牺牲并行性,或者只能串行计算?

答案是否定的。因为它的更新结构与 DeltaNet 完全同构,所有已有的 chunk-wise 并行技巧、硬件友好的实现路径都可以直接复用。从工程视角看,它更像是把一个近似更新,替换成了一个物理上正确的更新核。

EFLA 并没有试图“发明一种更聪明的注意力”。它只是指出了一件被长期忽略的事实:线性注意力本来就是一个连续时间系统,而之前一直在用最低阶的方法去解它。在 rank-1 这个极其常见的结构下,精确解并不昂贵。而一旦把系统解对了,很多稳定性问题会自然消失。

编辑:成蕴年

----- END -----

wisemodel相关:

系列模型:


关于wisemodel更多


1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖南一女子年前回家探夫  留宿一晚甩下5万就走惹争议

湖南一女子年前回家探夫 留宿一晚甩下5万就走惹争议

阿SIR观察
2026-01-28 17:12:51
大国排队访华,G7来了4个

大国排队访华,G7来了4个

极目新闻
2026-01-28 08:37:55
詹姆斯回骑士遭血虐,布朗尼3中3 湖人99:129惨败骑士

詹姆斯回骑士遭血虐,布朗尼3中3 湖人99:129惨败骑士

寒律
2026-01-29 11:12:56
外媒:伊朗最高领袖哈梅内伊转入地堡,日常事务已交由儿子接管

外媒:伊朗最高领袖哈梅内伊转入地堡,日常事务已交由儿子接管

极目新闻
2026-01-26 13:47:08
事业单位员工感叹退休后没了这些补贴和奖金,老师们只有羡慕的份

事业单位员工感叹退休后没了这些补贴和奖金,老师们只有羡慕的份

郭爱华追问教育
2026-01-29 06:38:13
19战16胜还将延续?快船余下赛程西部第6轻松 卡登再顶12场可出头

19战16胜还将延续?快船余下赛程西部第6轻松 卡登再顶12场可出头

颜小白的篮球梦
2026-01-28 18:34:10
别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

陈洪标写字说画
2026-01-27 22:31:02
笑喷!果然人的尊严比命还重要,强忍着把裙子扯下去也是够拼了

笑喷!果然人的尊严比命还重要,强忍着把裙子扯下去也是够拼了

另子维爱读史
2026-01-28 20:40:05
赵本山没想到,爱徒宋晓峰因为女儿闺蜜的爆料,体面被撕得粉碎!

赵本山没想到,爱徒宋晓峰因为女儿闺蜜的爆料,体面被撕得粉碎!

荣亭小吏
2026-01-29 10:38:55
一夜暴富!男子花15元买体彩中1404万大奖 中奖率仅有1/4285142

一夜暴富!男子花15元买体彩中1404万大奖 中奖率仅有1/4285142

念洲
2026-01-29 08:05:29
为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

今朝牛马
2026-01-08 16:05:10
郑州李文丽失联6天有结果:1月25日下午3点打捞出遗体,曾留封信

郑州李文丽失联6天有结果:1月25日下午3点打捞出遗体,曾留封信

观察鉴娱
2026-01-28 09:44:40
福州夫妻用1234万购得清代府邸,翻修绣楼时发现暗室,查看后傻眼

福州夫妻用1234万购得清代府邸,翻修绣楼时发现暗室,查看后傻眼

今天说故事
2025-08-28 18:30:53
不装了!46岁董洁22年后再牵手“蓝颜知己”,潘粤明当年没说错

不装了!46岁董洁22年后再牵手“蓝颜知己”,潘粤明当年没说错

小熊侃史
2026-01-29 07:25:08
全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

全世界都被特朗普耍了!打击伊朗只是个幌子,真正目标已布局四年

兴史兴谈
2026-01-27 05:18:52
魔术133-124力克热火,班凯罗31+11,布莱克26分

魔术133-124力克热火,班凯罗31+11,布莱克26分

懂球帝
2026-01-29 11:17:19
格拉西莫夫再次宣布俄罗斯占领库皮扬斯克,这已经是第三次了

格拉西莫夫再次宣布俄罗斯占领库皮扬斯克,这已经是第三次了

山河路口
2026-01-27 18:39:14
比朝鲜还封闭的国家?富得流油,首都只能开白车,建筑只能是白色

比朝鲜还封闭的国家?富得流油,首都只能开白车,建筑只能是白色

闻识
2025-12-30 16:59:56
3人销售火麻种子被判缓刑申诉获再审:法院维持原判,已上诉

3人销售火麻种子被判缓刑申诉获再审:法院维持原判,已上诉

澎湃新闻
2026-01-28 15:07:10
贝克汉姆大儿媳的零花钱曝光,“真富养”,带丈夫喝16万一瓶红酒

贝克汉姆大儿媳的零花钱曝光,“真富养”,带丈夫喝16万一瓶红酒

译言
2026-01-29 07:25:37
2026-01-29 12:00:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
447文章数 14关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

女子辞了北京房地产工作 去2800公里外浙江无人岛上班

头条要闻

女子辞了北京房地产工作 去2800公里外浙江无人岛上班

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

黄金价格太高了吗

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

亲子
数码
游戏
本地
公开课

亲子要闻

强烈建议,所有孩子在这个年龄前就开始预防近视!

数码要闻

Osmo 360单品独占53.6%份额,大疆2026筑牢运动影像全球领军优势

游民专访《仁王3》制作人 终局玩法可能通过DLC实现

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版