网易首页 > 网易号 > 正文 申请入驻

Kimi新架构让马斯克叹服!17岁高中生作者一战成名

0
分享至

  • 克雷西 发自 凹非寺
    量子位 | 公众号 QbitAI

17岁高中生,以一作身份,在Kimi团队把Ilya提出的设想,变成了现实。

Ilya之前有个预言,把按时间先后顺序处理数据的LSTM网络“旋转90度”,也就是把时间轴换成模型深度轴,就变成了现在的残差网络。

Kimi团队认为,既然时间上的LSTM能对应深度上的残差,那后来淘汰了LSTM的“注意力机制”自然也可以照做。

他们新搞出的Attention Residuals技术,就相当于把注意力机制也“旋转了90度”。



用了这套新方法后,模型在计算当前层时可以聪明地“回头看”,根据需要自由决定去提取前面哪一层的信息。

这篇论文让马斯克也来围观,表示令人印象深刻。



除了马斯克,这篇论文也引发了大神Karpathy的思考,直言我们对Attention is All You Need这篇Transformer开山之作的理解还是不够。



这种新机制放到Kimi自家的Kimi Linear 48B大模型(3B激活参数)上验证,训练效率提升25%,推理延迟增加不到2%。



残差连接的“记忆负担”

先回顾一下残差连接的工作原理。

传统做法是:第N层的输出 = 第N层的计算结果 + 第N-1层的输出。这样一路累加下去,每一层都能“记住”前面所有层的信息。

问题来了,在大模型PreNorm主流范式下,残差连接中所有层的贡献都是等权累加。

就像一个“记忆力太好的人”,把所有经历都以相同权重存进大脑。贡献被逐步稀释,早期信息难以检索,且大量层可被剪枝而损失微小,称之为“PreNorm dilution problem”。

更麻烦的是,隐藏状态的范数会随着深度不断增长。研究人员发现,在深层网络中,这种unbounded growth会导致训练不稳定。

月之暗面团队换了个思路:既然问题出在“无差别累加”,那就让网络自己决定该回忆什么。

用注意力“选择性回忆”

团队观察到一个有趣的对偶性:网络的深度维度和序列的时间维度,本质上是同构的。

在Transformer处理序列时,用注意力机制让当前位置“选择性关注”之前的位置。那么在深度维度上,为什么不能让当前层“选择性关注”之前的层?

Attention Residuals就这么来的:

  • 当前层的可学习伪查询向量作为query(learnable pseudo-query)
  • 所有前层的输出作为key和value
  • 用注意力机制加权聚合

这样一来,网络可以学会哪些层的信息对当前计算最重要,就多关注一点;不相关的层,权重自然降低。

但这带来一个新问题:计算量爆炸。

如果一个100层的网络,每一层都要对前面99层做full attention residual,复杂度是O(L²),根本跑不动。

Block AttnRes:分块压缩

论文中的解决方案是Block AttnRes。

核心思想是把连续的若干层打包成一个block,对block内部的输出做压缩,只保留一个“摘要向量”。



具体操作如下:

  • 把L层网络分成B个block,每个block包含若干层
  • 每个block结束时,把block内的信息压缩成单个向量
  • 后续层做attention时,只需要关注块间表征+块内实时层输出,而非全部L个层

这样一来,attention的复杂度从O(L²)降到了O(L·B),在实践中B可以设得很小(论文用的是8-16)。

此外,团队还做了数个工程优化:缓存式流水线通信、序列分片预填充、KV 缓存粒度优化等等。

Kimi Linear验证:1.25倍效率提升

理论说得通,但真正让人信服的是大规模验证。

团队在自家的Kimi Linear架构上做了测试。这是一个采用线性注意力的大模型,总参数48B,激活参数3B(MoE架构)。

同等计算预算下,Attention Residuals能获得更好的下游性能;反过来说,达到相同性能需要的训练计算量减少了约20%,相当于获得了1.25倍的效率优势。

在具体任务上,数学推理(MATH、GSM8K)、代码生成(HumanEval、MBPP)均持平或略优,多语言理解的一致性也有所改善。



更重要的是,Attention Residuals是一个drop-in replacement,不需要修改网络其他部分,直接替换残差连接即可。

论文里还讲到一个有意思的视角。

团队把这项工作称为“时间-深度对偶性”(time-depth duality)的应用。

在他们看来,深度神经网络的“层”和循环神经网络的“时间步”,本质上是都是对信息的迭代处理。

Transformer之所以成功,是因为用attention替代了RNN中固定的recurrence。

那么在深度维度上,是不是也该用attention替代固定的residual?

17岁高中生入列共同一作

更有意思的是,这篇让马斯克、Karpathy等人都为之一震的论文,共同一作之一是一名年仅17岁的高中生——陈广宇(Nathan)。



另外两名共同一作,分别是Kimi的关键人物之一、RoPE(旋转位置编码)的提出者苏神(苏剑林),以及Kimi Linear的第一作者张宇。

诚然Attention Residuals是团队协作取得的成果,但一名高中生出现在这样的团队之中,还与两位大神共列一作,已经足够震撼。



a16z创始人Marc Andreessen、Thinking Machines的联创等人都关注了他的X账号。



一年前才刚刚开始了解大模型的陈广宇,是从北京的一场黑客松开始,一路走向硅谷的。

后来回国时,他选择加入了Kimi。

经手过月之暗面投资的奇绩创坛(原YC中国)创始成员董科含,也曾在其个人公众号上刊载过陈广宇的一份自传。

去年二月,北京的一场中学生黑客松上,陈广宇展示了一个关于“人类第三只机械辅助手”的创新构想——ThirdArm。

也正是这个项目,让他结识了黑客松评委董科含,后者也成为了他的创业导师。

当时,董科含追问他,未来是否会深耕这项技术,这促使他开始重新审视自己的职业方向。

随后他入选了董科含发起的只有极少数人入选的青年计划,开始接触IOI(国际信息学奥林匹克)金牌得主及资深科研人员。

此前他曾尝试经营Shopify跨境电商店铺、运营短视频账号,但经过董科含的建议,他决定转向理解时代的底层技术。

当时还不知道Transformer是什么的他,在DeepSeek研究员袁境阳的指导下,利用Gemini作为辅助工具,通过研读经典论文、追踪GitHub开源项目等方式逐步建立认知。

有一次他在推特上分享了对一篇博客的反思后,获得了作者的回复,这篇帖子也因此引起了一家硅谷AI初创公司CEO的关注。

该公司于2024年底成立,2025年初完成了800万美元种子轮融资,资方背景涉及OpenAI与Anthropic。

在通过一项限时通宵完成的实验测试后,他拿到了对方的录用通知。

暑假期间,他前往旧金山开启了为期七周的实习。其中前两周,他负责定义并推进一个涉及144张H100显卡的探索性项目。

在CEO直接指导下,他的工作延伸至运营层面,参与了招聘系统搭建、技术内容输出及融资策略讨论,并获得与早期投资者Vinod Khosla交流的机会。

在硅谷期间,他维持着高强度工作节奏,通过咖啡社交与英伟达工程师及初创创始人建立联系。这次经历让他将科研视为一种支撑创造的底层能力。



实习结束后,陈广宇回到国内,并于去年11月加入月之暗面。

把他吸引进去的,正是Kimi一直做的Flash Linear Attention这一类高效attention工作。

实际上,正是GitHub上的FLA项目,吸引了他对机器学习的兴趣并被邀请加入Kimi团队。

也正是顺着这条线,他开始一路往更底层钻,从读论文、看实现,到研究 Triton kernel、理解attention为什么能被这样重写、这样加速。

到了月之暗面,这条路也算是绕了一圈又落回原点——

他最初是被底层技术吸引,最后做的也正是最底层、最核心的那部分事。

相比于讲一个“少年天才一路开挂”的故事,陈广宇的经历更像是另一种成长路径——

先被时代最前沿的技术击中,再一步步把兴趣磨成能力,把能力带到真正的大模型研发现场里。

论文地址:
https://github.com/MoonshotAI/Attention-Residuals/
[1]https://mp.weixin.qq.com/s/gRR99pEDWb5qsk2a2hwe2w
[2]https://nathanchen.me/public/About%20me.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

天天热点见闻
2026-05-15 06:26:40
万项:输日本时我以为该收拾东西走人了;这个剧本从未经历过

万项:输日本时我以为该收拾东西走人了;这个剧本从未经历过

懂球帝
2026-05-15 10:46:45
33岁博格巴无缘世界杯!法国只带5名中场,卡马文加落选原因揭晓

33岁博格巴无缘世界杯!法国只带5名中场,卡马文加落选原因揭晓

球场没跑道
2026-05-15 11:51:51
“亓”怎么读?“亓”是什么意思? 90%的人都认错了!

“亓”怎么读?“亓”是什么意思? 90%的人都认错了!

未央看点
2026-05-15 04:44:59
明星卸妆后,曾黎邋遢憔悴,田曦薇像无眉大侠,黄晓明撞脸大衣哥

明星卸妆后,曾黎邋遢憔悴,田曦薇像无眉大侠,黄晓明撞脸大衣哥

流云随风去远方
2026-05-13 08:12:48
拒绝1亿大合同,如今年薪2200万?火箭25岁前锋失算,6场打没身价

拒绝1亿大合同,如今年薪2200万?火箭25岁前锋失算,6场打没身价

熊哥爱篮球
2026-05-15 12:45:41
台湾问题解决方案出炉:领土回归,人员往来自由,逃跑的取消国籍

台湾问题解决方案出炉:领土回归,人员往来自由,逃跑的取消国籍

风眼军情
2026-02-21 21:02:08
特朗普刚走,北京会晤就定了三件事,中美关系真变了 接下来会怎样

特朗普刚走,北京会晤就定了三件事,中美关系真变了 接下来会怎样

野渡舟山人
2026-05-15 11:01:59
北京富商给瘫痪女儿找女婿,穷小子咬牙答应,洞房夜那晚他傻眼了

北京富商给瘫痪女儿找女婿,穷小子咬牙答应,洞房夜那晚他傻眼了

小月文史
2025-01-24 11:38:45
上海楼市爆了!

上海楼市爆了!

地产观点
2026-05-14 18:00:07
男子买榴莲,11480错输成114804,多掏10万元!商家称早已退款,钱却退到销售账上!律师解读→

男子买榴莲,11480错输成114804,多掏10万元!商家称早已退款,钱却退到销售账上!律师解读→

大风新闻
2026-05-14 17:44:04
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
是哪两位国军大佬,没有起义,也没有投降,但却受到高规格的待遇

是哪两位国军大佬,没有起义,也没有投降,但却受到高规格的待遇

历史龙元阁
2026-05-14 11:40:21
分析:乌克兰真的在扭转战局吗?

分析:乌克兰真的在扭转战局吗?

被误解的时候能微微一笑
2026-05-12 16:39:15
文班正式站队GOAT!承认詹姆斯最强,却把“历史第一”投给了乔丹

文班正式站队GOAT!承认詹姆斯最强,却把“历史第一”投给了乔丹

体育闲话说
2026-05-15 09:11:58
一动一静太戳人!国宴同框马斯克放飞红衣服务员沉稳圈粉全网

一动一静太戳人!国宴同框马斯克放飞红衣服务员沉稳圈粉全网

阿废冷眼观察所
2026-05-15 11:43:10
最新:乌克兰收复红军村北部失地!攻破俄领土库尔斯克

最新:乌克兰收复红军村北部失地!攻破俄领土库尔斯克

项鹏飞
2026-05-14 17:28:37
当年身患渐冻症,还坚持在抗疫一线的张定宇院长,如今境况如何?

当年身患渐冻症,还坚持在抗疫一线的张定宇院长,如今境况如何?

长星寄明月
2026-05-14 15:44:53
“早晚高峰只能龟速前进” !深圳水官高速免费通行仅半月,网友吐槽太堵!专家建议

“早晚高峰只能龟速前进” !深圳水官高速免费通行仅半月,网友吐槽太堵!专家建议

南方都市报
2026-05-15 09:02:51
博士肄业生把985院长拉下马:同济刚免职,又有三所高校被爆造假

博士肄业生把985院长拉下马:同济刚免职,又有三所高校被爆造假

妍妍教育日记
2026-05-13 09:55:04
2026-05-15 13:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12627文章数 176463关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间:女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

艺术
本地
房产
手机
公开课

艺术要闻

一个北大 “反卷教授” 的意外走红

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

手机要闻

红魔11S Pro系列手机搭载8000mAh电池,自带80W氮化镓充电器

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版