网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Kimi新架构让马斯克叹服！17岁高中生作者一战成名

2026-03-17 14:47:09　来源: 量子位

北京举报

0

分享至

克雷西发自凹非寺
量子位 | 公众号 QbitAI

17岁高中生，以一作身份，在Kimi团队把Ilya提出的设想，变成了现实。

Ilya之前有个预言，把按时间先后顺序处理数据的LSTM网络“旋转90度”，也就是把时间轴换成模型深度轴，就变成了现在的残差网络。

Kimi团队认为，既然时间上的LSTM能对应深度上的残差，那后来淘汰了LSTM的“注意力机制”自然也可以照做。

他们新搞出的Attention Residuals技术，就相当于把注意力机制也“旋转了90度”。

用了这套新方法后，模型在计算当前层时可以聪明地“回头看”，根据需要自由决定去提取前面哪一层的信息。

这篇论文让马斯克也来围观，表示令人印象深刻。

除了马斯克，这篇论文也引发了大神Karpathy的思考，直言我们对Attention is All You Need这篇Transformer开山之作的理解还是不够。

这种新机制放到Kimi自家的Kimi Linear 48B大模型（3B激活参数）上验证，训练效率提升25%，推理延迟增加不到2%。

残差连接的“记忆负担”

先回顾一下残差连接的工作原理。

传统做法是：第N层的输出 = 第N层的计算结果 + 第N-1层的输出。这样一路累加下去，每一层都能“记住”前面所有层的信息。

问题来了，在大模型PreNorm主流范式下，残差连接中所有层的贡献都是等权累加。

就像一个“记忆力太好的人”，把所有经历都以相同权重存进大脑。贡献被逐步稀释，早期信息难以检索，且大量层可被剪枝而损失微小，称之为“PreNorm dilution problem”。

更麻烦的是，隐藏状态的范数会随着深度不断增长。研究人员发现，在深层网络中，这种unbounded growth会导致训练不稳定。

月之暗面团队换了个思路：既然问题出在“无差别累加”，那就让网络自己决定该回忆什么。

用注意力“选择性回忆”

团队观察到一个有趣的对偶性：网络的深度维度和序列的时间维度，本质上是同构的。

在Transformer处理序列时，用注意力机制让当前位置“选择性关注”之前的位置。那么在深度维度上，为什么不能让当前层“选择性关注”之前的层？

Attention Residuals就这么来的：

当前层的可学习伪查询向量作为query（learnable pseudo-query）
所有前层的输出作为key和value
用注意力机制加权聚合

这样一来，网络可以学会哪些层的信息对当前计算最重要，就多关注一点；不相关的层，权重自然降低。

但这带来一个新问题：计算量爆炸。

如果一个100层的网络，每一层都要对前面99层做full attention residual，复杂度是O(L²)，根本跑不动。

Block AttnRes：分块压缩

论文中的解决方案是Block AttnRes。

核心思想是把连续的若干层打包成一个block，对block内部的输出做压缩，只保留一个“摘要向量”。

具体操作如下：

把L层网络分成B个block，每个block包含若干层
每个block结束时，把block内的信息压缩成单个向量
后续层做attention时，只需要关注块间表征+块内实时层输出，而非全部L个层

这样一来，attention的复杂度从O(L²)降到了O(L·B)，在实践中B可以设得很小（论文用的是8-16）。

此外，团队还做了数个工程优化：缓存式流水线通信、序列分片预填充、KV 缓存粒度优化等等。

Kimi Linear验证：1.25倍效率提升

理论说得通，但真正让人信服的是大规模验证。

团队在自家的Kimi Linear架构上做了测试。这是一个采用线性注意力的大模型，总参数48B，激活参数3B（MoE架构）。

同等计算预算下，Attention Residuals能获得更好的下游性能；反过来说，达到相同性能需要的训练计算量减少了约20%，相当于获得了1.25倍的效率优势。

在具体任务上，数学推理（MATH、GSM8K）、代码生成（HumanEval、MBPP）均持平或略优，多语言理解的一致性也有所改善。

更重要的是，Attention Residuals是一个drop-in replacement，不需要修改网络其他部分，直接替换残差连接即可。

论文里还讲到一个有意思的视角。

团队把这项工作称为“时间-深度对偶性”（time-depth duality）的应用。

在他们看来，深度神经网络的“层”和循环神经网络的“时间步”，本质上是都是对信息的迭代处理。

Transformer之所以成功，是因为用attention替代了RNN中固定的recurrence。

那么在深度维度上，是不是也该用attention替代固定的residual？

17岁高中生入列共同一作

更有意思的是，这篇让马斯克、Karpathy等人都为之一震的论文，共同一作之一是一名年仅17岁的高中生——陈广宇（Nathan）。

另外两名共同一作，分别是Kimi的关键人物之一、RoPE（旋转位置编码）的提出者苏神（苏剑林），以及Kimi Linear的第一作者张宇。

诚然Attention Residuals是团队协作取得的成果，但一名高中生出现在这样的团队之中，还与两位大神共列一作，已经足够震撼。

a16z创始人Marc Andreessen、Thinking Machines的联创等人都关注了他的X账号。

一年前才刚刚开始了解大模型的陈广宇，是从北京的一场黑客松开始，一路走向硅谷的。

后来回国时，他选择加入了Kimi。

经手过月之暗面投资的奇绩创坛（原YC中国）创始成员董科含，也曾在其个人公众号上刊载过陈广宇的一份自传。

去年二月，北京的一场中学生黑客松上，陈广宇展示了一个关于“人类第三只机械辅助手”的创新构想——ThirdArm。

也正是这个项目，让他结识了黑客松评委董科含，后者也成为了他的创业导师。

当时，董科含追问他，未来是否会深耕这项技术，这促使他开始重新审视自己的职业方向。

随后他入选了董科含发起的只有极少数人入选的青年计划，开始接触IOI（国际信息学奥林匹克）金牌得主及资深科研人员。

此前他曾尝试经营Shopify跨境电商店铺、运营短视频账号，但经过董科含的建议，他决定转向理解时代的底层技术。

当时还不知道Transformer是什么的他，在DeepSeek研究员袁境阳的指导下，利用Gemini作为辅助工具，通过研读经典论文、追踪GitHub开源项目等方式逐步建立认知。

有一次他在推特上分享了对一篇博客的反思后，获得了作者的回复，这篇帖子也因此引起了一家硅谷AI初创公司CEO的关注。

该公司于2024年底成立，2025年初完成了800万美元种子轮融资，资方背景涉及OpenAI与Anthropic。

在通过一项限时通宵完成的实验测试后，他拿到了对方的录用通知。

暑假期间，他前往旧金山开启了为期七周的实习。其中前两周，他负责定义并推进一个涉及144张H100显卡的探索性项目。

在CEO直接指导下，他的工作延伸至运营层面，参与了招聘系统搭建、技术内容输出及融资策略讨论，并获得与早期投资者Vinod Khosla交流的机会。

在硅谷期间，他维持着高强度工作节奏，通过咖啡社交与英伟达工程师及初创创始人建立联系。这次经历让他将科研视为一种支撑创造的底层能力。

实习结束后，陈广宇回到国内，并于去年11月加入月之暗面。

把他吸引进去的，正是Kimi一直做的Flash Linear Attention这一类高效attention工作。

实际上，正是GitHub上的FLA项目，吸引了他对机器学习的兴趣并被邀请加入Kimi团队。

也正是顺着这条线，他开始一路往更底层钻，从读论文、看实现，到研究 Triton kernel、理解attention为什么能被这样重写、这样加速。

到了月之暗面，这条路也算是绕了一圈又落回原点——

他最初是被底层技术吸引，最后做的也正是最底层、最核心的那部分事。

相比于讲一个“少年天才一路开挂”的故事，陈广宇的经历更像是另一种成长路径——

先被时代最前沿的技术击中，再一步步把兴趣磨成能力，把能力带到真正的大模型研发现场里。

论文地址：
https://github.com/MoonshotAI/Attention-Residuals/
[1]https://mp.weixin.qq.com/s/gRR99pEDWb5qsk2a2hwe2w
[2]https://nathanchen.me/public/About%20me.html

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

马斯克儿子带火虎头包，国潮好物反向输出热销

三湘都市报 2026-05-15 09:34:03
0 跟贴 0
雷军欢迎晚宴找马斯克合影马斯克深呼一口气挤眉弄眼

全球速览 2026-05-14 18:44:15
8978 跟贴 8978

马斯克带儿子到人民大会堂小家伙蹦蹦跳跳非常开心

台海青年 2026-05-14 16:41:14
6892 跟贴 6892

欢迎宴会现场：马斯克与库克合影搞怪品尝美食用手抓

全球速览 2026-05-14 18:31:24
715 跟贴 715
马斯克承认落后，xAI推出首款编程智能体，剑指行业顶流Claude Code

华尔街见闻官方 2026-05-15 05:46:52
0 跟贴 0

马斯克不懂如何造电池？7年豪赌4680电池，固态电池时代提前到来

风俱话生活 2026-05-14 11:32:24
0 跟贴 0

马斯克参加欢迎仪式的第一视角视频：黄仁勋满头白发走前面

台海青年 2026-05-14 18:07:34
1 跟贴 1
马斯克用手机拍摄人民大会堂，360度转圈打卡

财经网 2026-05-14 17:33:12
0 跟贴 0

马斯克拿1万亿工资，为什么大家都觉得超值

雷科技 2025-11-08 14:17:34
6 跟贴 6
黄仁勋GTC直言：现在是OpenClaw的时代，SaaS都将变AgaaS

机器之心Pro 2026-03-17 17:22:21
0 跟贴 0
马斯克用Grok替代X员工，裁员90%

量子位 2025-11-29 16:58:47
30 跟贴 30
火出圈了！马斯克幼子带火中国非遗「虎头包」，一夜售罄

雷科技 2026-05-15 11:25:00
2 跟贴 2
马斯克推出1.2兆瓦超快充，比V4超充快3倍

独舞独舞 2026-05-15 01:20:00
5 跟贴 5
马斯克的小目标：星舰10000发/年，太空AI算力1太瓦/年

量子位 2026-02-08 23:37:12
1 跟贴 1
雷军蹲着找马斯克拍照，一张国宴自拍，炸出多少玻璃心！

主持人璐璐lu 2026-05-15 11:12:50
3 跟贴 3
人手一个数据库，Kimi背后这套AI基建到底有多能扛？

量子位 2026-05-14 22:54:30
0 跟贴 0
马斯克仅靠两张图，证明了自己对自动驾驶的顶级理解

网易科技态度见闻 2026-05-11 18:26:43
1 跟贴 1
马斯克点赞宇树载人变形机甲直言很酷网友称帮马斯克圆梦了

快科技 2026-05-13 21:09:33
0 跟贴 0
贝佐斯创业，马斯克嘲笑，两人的恩怨纠葛20年

量子位 2025-11-22 12:44:22
0 跟贴 0
国产GPU首获全球顶级推理框架「原生门票」：MUSA合入SGLang主线

机器之心Pro 2026-05-14 16:03:08
0 跟贴 0
刚刚，OpenAI Codex登陆ChatGPT手机App，所有用户都能用

机器之心Pro 2026-05-15 10:48:50
0 跟贴 0
在四五年内，在太空运行大规模AI将比地面更划算

每日经济新闻 2026-01-22 12:48:26
0 跟贴 0
好消息：微信有 AI 了！坏消息：是元宝

爱范儿 2026-05-15 10:47:38
0 跟贴 0
马斯克带儿子参加中美工商界代表会议：其儿子一蹦一跳地跟着

车马点兵V 2026-05-14 17:26:37
0 跟贴 0
微软小冰往事：一个AI明星产品是如何坠落的

钛媒体APP 2026-02-11 13:31:19
19 跟贴 19
美国代表团在人民大会堂外列队等候马斯克掏手机拍摄

RT今日俄罗斯 2026-05-14 13:00:19
0 跟贴 0
为什么有大部分高中生上不了本科？高中家长一定要看看

不出门星ren 2026-05-15 01:38:33
0 跟贴 0
美国访问团参加欢迎仪式，有说有笑，经常来中国的马斯克忙着拍照

毛豆的家 2026-05-15 00:54:43
0 跟贴 0
马斯克带小儿子进入人民大会堂

RT今日俄罗斯 2026-05-14 18:42:10
0 跟贴 0
有这个人在，马斯克永远被打脸，民主党干的好事

搞笑的沙雕 2026-05-14 09:22:07
1 跟贴 1
马斯克对镜头做鬼脸

RT今日俄罗斯 2026-05-14 22:50:06
0 跟贴 0
高中生第一次表白失败，竟产生了邪恶的念头

影中见影 2026-05-14 00:26:22
1 跟贴 1
马斯克和黄仁勋也在现场：面对这么大的迎接阵仗，马斯克左看右看

车马点兵V 2026-05-13 21:37:23
12 跟贴 12
吃完晚饭马斯克、鲁比奥、赫格塞思、黄仁勋和库克高兴走了出来

台海大林 2026-05-15 08:52:08
1 跟贴 1
国宴现场：库克请马斯克合影，黄仁勋忙着社交，鲁比奥左顾右盼！

台海大林 2026-05-15 08:31:20
1 跟贴 1
湖南衡南一高中男生跑步时倒地离世，家人校门口失声痛哭！

爆料视频 2026-05-13 11:19:38
1056 跟贴 1056
马斯克带娃出席座谈会：儿子带着书包蹦蹦跳跳，马斯克笑着挥手

Bobo字幕组 2026-05-14 17:55:56
1 跟贴 1
特斯拉CEO马斯克已抵达北京

不看车bukanche 2026-05-13 20:09:11
80 跟贴 80
马斯克直言:“我就是亲华，因为中国是个有正能量的国家嘛”

老赵日常杂谈 2026-05-15 09:29:24
11 跟贴 11
学生的动手能力有多强？高中生在学校自制薯片盒寿司

重庆热点 2026-05-14 19:11:34
0 跟贴 0

日本乒协没想到，被骂惨的张本智和，如今一句话在中国逆转了口碑

日本乒协没想到，被骂惨的张本智和，如今一句话在中国逆转了口碑

天天热点见闻

2026-05-15 06:26:40

万项：输日本时我以为该收拾东西走人了；这个剧本从未经历过

万项：输日本时我以为该收拾东西走人了；这个剧本从未经历过

懂球帝

2026-05-15 10:46:45

33岁博格巴无缘世界杯！法国只带5名中场，卡马文加落选原因揭晓

33岁博格巴无缘世界杯！法国只带5名中场，卡马文加落选原因揭晓

球场没跑道

2026-05-15 11:51:51

“亓”怎么读？“亓”是什么意思？ 90%的人都认错了！

“亓”怎么读？“亓”是什么意思？ 90%的人都认错了！

未央看点

2026-05-15 04:44:59

明星卸妆后，曾黎邋遢憔悴，田曦薇像无眉大侠，黄晓明撞脸大衣哥

明星卸妆后，曾黎邋遢憔悴，田曦薇像无眉大侠，黄晓明撞脸大衣哥

流云随风去远方

2026-05-13 08:12:48

拒绝1亿大合同，如今年薪2200万？火箭25岁前锋失算，6场打没身价

拒绝1亿大合同，如今年薪2200万？火箭25岁前锋失算，6场打没身价

熊哥爱篮球

2026-05-15 12:45:41

台湾问题解决方案出炉：领土回归，人员往来自由，逃跑的取消国籍

台湾问题解决方案出炉：领土回归，人员往来自由，逃跑的取消国籍

风眼军情

2026-02-21 21:02:08

特朗普刚走，北京会晤就定了三件事，中美关系真变了接下来会怎样

特朗普刚走，北京会晤就定了三件事，中美关系真变了接下来会怎样

野渡舟山人

2026-05-15 11:01:59

北京富商给瘫痪女儿找女婿，穷小子咬牙答应，洞房夜那晚他傻眼了

北京富商给瘫痪女儿找女婿，穷小子咬牙答应，洞房夜那晚他傻眼了

小月文史

2025-01-24 11:38:45

上海楼市爆了！

地产观点

2026-05-14 18:00:07

男子买榴莲，11480错输成114804，多掏10万元！商家称早已退款，钱却退到销售账上！律师解读→

男子买榴莲，11480错输成114804，多掏10万元！商家称早已退款，钱却退到销售账上！律师解读→

大风新闻

2026-05-14 17:44:04

最高院：提供 “口交” “肛交”等进入式性服务，是否属卖淫行为？

最高院：提供 “口交” “肛交”等进入式性服务，是否属卖淫行为？

周军律师聊案子

2026-04-21 09:50:16

是哪两位国军大佬，没有起义，也没有投降，但却受到高规格的待遇

是哪两位国军大佬，没有起义，也没有投降，但却受到高规格的待遇

历史龙元阁

2026-05-14 11:40:21

分析：乌克兰真的在扭转战局吗？

分析：乌克兰真的在扭转战局吗？

被误解的时候能微微一笑

2026-05-12 16:39:15

文班正式站队GOAT！承认詹姆斯最强，却把“历史第一”投给了乔丹

文班正式站队GOAT！承认詹姆斯最强，却把“历史第一”投给了乔丹

体育闲话说

2026-05-15 09:11:58

一动一静太戳人！国宴同框马斯克放飞红衣服务员沉稳圈粉全网

一动一静太戳人！国宴同框马斯克放飞红衣服务员沉稳圈粉全网

阿废冷眼观察所

2026-05-15 11:43:10

最新：乌克兰收复红军村北部失地！攻破俄领土库尔斯克

最新：乌克兰收复红军村北部失地！攻破俄领土库尔斯克

项鹏飞

2026-05-14 17:28:37

当年身患渐冻症，还坚持在抗疫一线的张定宇院长，如今境况如何？

当年身患渐冻症，还坚持在抗疫一线的张定宇院长，如今境况如何？

长星寄明月

2026-05-14 15:44:53

“早晚高峰只能龟速前进” ！深圳水官高速免费通行仅半月，网友吐槽太堵！专家建议

“早晚高峰只能龟速前进” ！深圳水官高速免费通行仅半月，网友吐槽太堵！专家建议

南方都市报

2026-05-15 09:02:51

博士肄业生把985院长拉下马：同济刚免职，又有三所高校被爆造假

博士肄业生把985院长拉下马：同济刚免职，又有三所高校被爆造假

妍妍教育日记

2026-05-13 09:55:04

追踪人工智能动态

12627文章数 176463关注度

往期回顾全部

科技要闻

两年联姻一地鸡毛，传苹果OpenAI濒临决裂

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

体育要闻

德约科维奇买的球队，从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间：女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕启境GT7内饰发布

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

本地

房产

手机

公开课

艺术要闻

一个北大 “反卷教授” 的意外走红

本地新闻

用苏绣的方式，打开江西婺源

房产要闻

海南楼市新政要出！拟调公积金贷款额度，最高可贷168万！

手机要闻

红魔11S Pro系列手机搭载8000mAh电池，自带80W氮化镓充电器

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版