网易首页 > 网易号 > 正文 申请入驻

难怪黄仁勋GTC请了杨植麟,读完Kimi新论文我懂了

0
分享至


这是苍何的第 511 篇原创!

Token,正在成为 AI 时代的水和电。

谁能用更少的算力压出更多的 token 效率,谁就能在这场军备竞赛里活得更久。

这也是为什么今年英伟达 GTC 大会的焦点,开始从"谁的卡更多"转向"谁用得更聪明"。


图片来自中国蓝新闻

这就不得不提刚在GTC上演讲的杨植麟了,因为他演讲的一个重要主题就是 Token 效率。

这可能也是老黄请他的原因。

杨植麟这次演讲的主题是《How We Scaled Kimi K2.5》,首次完整披露了 Kimi 下一代模型的技术路线图。他把 Kimi 的进化逻辑概括为三个维度:

  • Token 效率:用 MuonClip 优化器替代用了 11 年的 Adam,token 效率翻倍

  • 长上下文:Kimi Linear 架构在 128K-1M 上下文范围内,解码速度提升 5-6 倍

  • 智能体集群:引入 Orchestrator 编排器,让多个 Agent 并行协作


但真正让我注意到的,是他在演讲里提到的第三项底层创新:「Attention Residuals」


因为就在 GTC 前两天,我看到 Kimi 刚发了这篇论文。而马斯克转发后直接说了句:「Impressive work from Kimi」。


Karpathy 看完也半开玩笑地说:我们是不是没把「Attention is All You Need」这句话理解透。


一篇改残差连接的论文,怎么就让这帮人集体激动了?我去读了下。


论文我也下载下来了,私信回复暗号即可获取:Attention_Residuals

主角我居然还挺熟——残差连接

简单说下残差连接是什么。

2015 年 ResNet 提出了一个极其简单的操作:每一层的输出 = 上一层传下来的东西 + 这一层自己算出来的东西。就是一个加法。

这个加法让深层网络成为可能,也让后来的 Transformer 站稳了脚跟。从 2015 年到现在,几乎所有大模型都在用它,权重恒定为 1,所有层一视同仁


问题在哪?

打个比方:一个学生上了 40 节课,期末复习的时候把所有笔记等量堆在一起看——不管哪门课跟考试相关,每门课都占同样的复习时间。

结果就是:

  • 早期学到的重要内容,传到深层已经被稀释得差不多了

  • 后面的层想产生影响,得"喊"得比前面所有层加起来还大声

  • 研究甚至发现,很多大模型里相当一部分层可以直接删掉,性能几乎不受影响


用了十年没人动,不是因为它完美,是因为"够用"让人失去了追问的动力。

DeepSeek 去年底发了篇论文(mHC),核心思路是:既然固定权重太死板,那就让权重变成可学习的,让模型自己决定怎么混合各层的信号。

DeepSeek 在残差连接基础上改进的 mHC(流形约束超连接) 架构,解决了 Hyper-Connections 的训练不稳定问题,同时保持表达能力,并在 3B/9B/27B 规模模型上验证了效果。


这个方向是对的,但有一个局限:权重训练完就固定了,不管输入是什么,每一层拿到的混合方式都一样

Kimi 团队这篇论文问了一个更往下的问题:就算权重可以学,每一层拿到的依然是"混合过的状态"。它没有办法说"我要单独看第 3 层的输出"。

信息一旦被搅进累积状态,就找不回来了。

Kimi 的解法,来自一个很漂亮的类比。

把 Attention 旋转 90 度

Transformer 处理文本的时候,用注意力机制让每个词可以"回头看"前面所有的词,根据内容动态决定关注哪里。这是横向的——在序列维度上。

Kimi 团队在思考:那层与层之间,为什么不能做同样的事?

把注意力机制"旋转 90 度"——从序列维度转向深度维度。

改完之后,每一层拥有一个可学习的查询向量(query),用它对所有前序层的输出做 attention。哪些层对当前计算更重要,权重就更高;不相关的层,权重自动降低。


回到复习的比喻:现在这个学生有了一套智能系统:做每道题之前,系统根据题目内容自动从 40 节课的笔记里挑出最相关的几份重点看。


最关键的一点:这个权重是动态的。同一个模型,处理不同的输入,每一层对前序层的关注程度完全不同——实时决定,而非训练完就固定。

Ilya 说过,LSTM 旋转 90 度就是 ResNet。现在 Kimi 证明,Attention 也可以旋转 90 度。


效果:等效白赚 25% 算力

工程上,Kimi 把模型分成约 8 个 block,块内用传统残差,块间做 attention。推理延迟增加不到 2%,几乎免费。

在自家 48B 参数模型(Kimi Linear,3B 激活参数)上验证:

  • GPQA-Diamond(科学推理):+7.5 分

  • Math(数学):+3.6 分

  • HumanEval(代码):+3.1 分

同等算力下性能更好;反过来说,达到同等性能需要的训练预算减少约 20%。相当于不加机器、不加数据,只改信息流结构,白赚 25% 的算力效果。


这几年大模型的竞争,表面上是参数量、数据量、卡的数量在比拼。

但 GTC 的风向已经变了.

黄仁勋自己也清楚,光靠堆算力的时代正在见顶。

他需要在台上展示的,是"聪明地用算力"的人。

杨植麟带来的三项底层创新: MuonClip、Kimi Linear、Attention Residuals。

恰好都在回答同一个问题:

怎么用更少的资源做出更好的模型。

Adam 用了 11 年,Attention 用了 8 年,残差连接用了 10 年。

这些东西不是不能动,是大部分人默认了"不需要动"。

当所有人都在想怎么买更多的卡,有人在想怎么让每张卡的每个 token 都更值钱。

这才是黄仁勋真正想让世界看到的。

过去两年,从 DeepSeek 到 Kimi,中国大模型团队动手的位置越来越深。

从训练方法论到核心网络架构,再到最底层的信号传递结构。

大力出奇迹的故事讲了太久了。接下来的竞争,属于那些敢拆「地基」的人。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王石被限制出境

王石被限制出境

料道new
2026-03-30 16:29:44
郑丽文称两岸不是终须一战,卢秀燕紧急切割:个人意见不代表全部

郑丽文称两岸不是终须一战,卢秀燕紧急切割:个人意见不代表全部

影孖看世界
2026-03-30 23:13:51
鲁山舅舅娶亡姐大结局!新华社通报调查结果,这次终于真相大白了

鲁山舅舅娶亡姐大结局!新华社通报调查结果,这次终于真相大白了

青橘罐头
2026-03-31 07:11:50
晴天霹雳!武汉孕期女子哭诉丈夫突然被裁,房贷4500,生活或停摆

晴天霹雳!武汉孕期女子哭诉丈夫突然被裁,房贷4500,生活或停摆

火山詩话
2026-03-30 07:26:27
打破欧美日垄断数十年!张雪机车WSBK夺冠 张雪:五年吃掉国际大牌50%以上份额

打破欧美日垄断数十年!张雪机车WSBK夺冠 张雪:五年吃掉国际大牌50%以上份额

快科技
2026-03-31 07:22:06
张雪峰反复提的这7所大学,毕业就是铁饭碗,关键分数还不高!

张雪峰反复提的这7所大学,毕业就是铁饭碗,关键分数还不高!

优墨出品
2026-03-30 19:24:31
Claude Code创始人:我所有的代码都是AI写的

Claude Code创始人:我所有的代码都是AI写的

顶级大佬思维
2026-03-30 11:42:17
苹果在中国意外推出Apple Intelligence 已紧急移除

苹果在中国意外推出Apple Intelligence 已紧急移除

CNMO科技
2026-03-31 07:15:16
哈佛大学研究显示:每月性行为频次≥21次,可以大幅降低患癌风险

哈佛大学研究显示:每月性行为频次≥21次,可以大幅降低患癌风险

黯泉
2026-03-29 12:00:55
全红婵哽咽谈体重减不下来:饿到不行,希望大家不要再骂我了!

全红婵哽咽谈体重减不下来:饿到不行,希望大家不要再骂我了!

新民周刊
2026-03-30 15:38:07
突发!伊朗,危险了!

突发!伊朗,危险了!

财经要参
2026-03-31 07:04:55
59岁尹乃菁陪郑丽文赴江苏,这位镇江籍央视评论员又要“回家”了

59岁尹乃菁陪郑丽文赴江苏,这位镇江籍央视评论员又要“回家”了

阿讯说天下
2026-03-31 12:09:49
央视紧急曝光:全是假货!别再往家里拎了,很多人天天在用!

央视紧急曝光:全是假货!别再往家里拎了,很多人天天在用!

兴史兴谈
2026-03-30 15:15:11
郑丽文将访问大陆,重启什么,开创什么?

郑丽文将访问大陆,重启什么,开创什么?

新民周刊
2026-03-31 09:08:20
大战一触即发,特朗普准备豪赌

大战一触即发,特朗普准备豪赌

南风窗
2026-03-30 15:29:40
一定要大量读书:经常读书的人,一眼就能看出来

一定要大量读书:经常读书的人,一眼就能看出来

欣辰读书
2026-03-29 22:35:04
伊朗最大岛屿遭美以袭击,致8人死亡,位于霍尔木兹海峡北侧

伊朗最大岛屿遭美以袭击,致8人死亡,位于霍尔木兹海峡北侧

鲁中晨报
2026-03-31 09:57:01
释放维护两岸和平坚定信号,回应台湾主流民意殷殷期盼,大陆宣布国民党主席4月来访

释放维护两岸和平坚定信号,回应台湾主流民意殷殷期盼,大陆宣布国民党主席4月来访

环球网资讯
2026-03-31 07:12:04
新旧三幻神,你怎么选?

新旧三幻神,你怎么选?

贵圈真乱
2026-03-31 12:16:05
国足被打懵!8分钟连丢2球,颜骏凌不满,媒体人:怎么这么菜

国足被打懵!8分钟连丢2球,颜骏凌不满,媒体人:怎么这么菜

奥拜尔
2026-03-31 14:19:49
2026-03-31 15:03:00
苍何
苍何
前大厂工程师,努力分享AI干货知识
85文章数 153关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

头条要闻

美方:伊朗前领导人对特朗普"撒谎" 所以我们杀了他们

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

时尚
艺术
手机
房产
数码

妈妈们的人生,不该只有一个选项

艺术要闻

石涛『野色册』

手机要闻

四曲面屏重出江湖!iPhone 20将搭载1.1毫米极窄边框

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

数码要闻

炬芯端侧AI ATS3231单芯片高端游戏耳机方案西伯利亚重磅首发!

无障碍浏览 进入关怀版