网易首页 > 网易号 > 正文 申请入驻

中国AI双子星5次撞车:你的论文成了我的训练方案,我的架构成了你的底座

0
分享至

「用 MuonClip 而非 Adam 训练 Transformer 大模型,效果会好得多。」杨植麟在英伟达 GTC 2026 演讲中的这句话,今天成了另一份技术报告里的脚注。

两家被外界反复对比的「开源双子星」,技术底层早就长到了一起。你中有我,我中有你——这是中国 AI 圈最魔幻的一幕,也是过去十二个月里最值得拆解的产品现象。


Muon 优化器:从一场演讲到另一份技术报告

V4 发布的技术报告里,大多数人滑过了这个名词:Muon 优化器。

三天前,Kimi 2.6 刚刚用它实现了同等训练量下 2 倍效率提升,并在 1 万亿参数规模上解决了训练不稳定难题。杨植麟当时算过一笔账:在数据墙面前,token 效率翻倍相当于把 50 万亿 token 用出 100 万亿的效果。

现在这项技术出现在 V4 的训练方案里。大多数模块用 Muon 加速收敛,嵌入层和预测头仍用 AdamW,混合使用。

这不是简单的「拿来主义」。Kimi 在万亿参数规模上踩过的坑,另一家直接受益。

杨植麟在 GTC 上详细拆解过那个技术卡点:当 Muon 扩展到 1 万亿参数,最大 logits 爆炸超过 1000(正常值 50 到 100),损失先降后炸,根本无法收敛。Kimi 的解法是 QK-Clip,对每个注意力头计算最大 logit 的裁剪值,把查询和键限制在合理范围内。

K2 模型用这套技术完成了训练,创下机器学习史上最大规模 Muon 训练的纪录。四个月后,这套方法论写进了 V4 的技术文档。

反过来,Kimi K2 的架构底座写着另一个名字:它采用了 V3 提出的 MLA(多头潜在注意力,Multi-head Latent Attention)。通过压缩 KV 缓存大幅降低推理成本,这是 V3 最核心的架构创新之一。

你的论文成了我的基础设施,我的创新成了你的底座。写在引用列表里的互相成就。

5 次「撞车」:巧合还是必然?

算上 V4 和 K2.6 前后脚上线,这已经是两家过去一年里的第 5 次「撞车」。

第 1 次最戏剧性。2025 年 1 月 20 日晚 8 点 10 分,R1 发布并以 MIT 协议完全开源。不到两小时后,Kimi k1.5 亮相。

两者都瞄准同一件事:让模型从「张嘴就来」变成「先想后说」,用强化学习跑通长思维链推理(Long-CoT)。

OpenAI 后来在一篇论文中点名指出:这两家是「最早复现 OpenAI-o1 Long-CoT」的公司。全世界只有这两家中国公司看懂了 OpenAI 在做什么,并且用自己的方式做了出来。

那是中国 AI 从「追随者」开始变成「引领者」的分水岭。

第 2 次到第 4 次,时间线逐渐密集。每次撞车恰好对应一个行业拐点的到来:从「学会思考」到「学会干活」,从「改 Transformer」到「改算力底座」。

最近这次在 4 天内完成。K2.6 带来了 SWE-Bench Pro 58.6% 的 Agent 集群并行编程能力,V4 把百万上下文做成了所有服务的标配,输出长度拉到 384K tokens。

两家同时推进国产芯片适配:V4 下半年支持华为昇腾 950,寒武纪已完成 Day 0 适配;K2.6 支持国产芯片混合推理。

Agent 能力、编程天花板、百万上下文、国产芯片适配、开源生态,全齐了。

如果只是时间重合,那叫巧合。但把每次发布的内容拉出来看,你会发现一条清晰的暗线:对同一个方向的必然趋同。

底层架构:挑战同一批「古老」基础设施

技术路线上,一家以推理模型见长,另一家以 Agent 能力著称。但在更底层的架构层面,两家都在挑战同一批 ResNet 时代留下来的遗产。

Kimi 发了「注意力残差」论文,另一家做了多头压缩(mHC)残差连接,目标一致:改掉残差连接的旧范式。

在长文本这条线,Kimi 探索线性注意力(Kimi Linear),另一家探索稀疏注意力(DSA),路径不同,终点相近。

在长文本推理成本上,两家都在压缩 KV 缓存:MLA 把缓存压到原来的 1/4,Kimi 的 MQA 变体进一步压到 1/8。

这些不是「抄作业」。两家团队都在回答同一个问题:当模型规模突破万亿参数、上下文突破百万 token,1980 年代设计的神经网络基础组件,哪些该留着,哪些该拆掉重建?

硅谷的 AI 巨头们很少这样。OpenAI 的论文不会引用 Anthropic 的技术细节,Gemini 的训练报告里找不到对 GPT 架构的致谢。封闭生态里,技术路线是护城河,互相引用是示弱。

但开源世界里,引用是尊重,复现是接力。一家公司的突破,很快成为全行业的公共品。

5 次撞车的背后,是两家团队对技术方向的共同判断:数据墙来了,要抢效率;算力受限了,要改架构;Agent 是下一个战场,国产芯片必须支持。

这不是内卷,是中国 AI 在用自己的方式定义下一代基础设施。你中有我,我中有你——恰恰是开源精神最硬核的注脚。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国民党内讧,前高层冲闯党部斥责郑丽文:你不配当主席,是个卒子

国民党内讧,前高层冲闯党部斥责郑丽文:你不配当主席,是个卒子

面包夹知识
2025-12-31 23:04:14
血管堵塞的6个信号,别等堵死才发现!错过可能拖成大病

血管堵塞的6个信号,别等堵死才发现!错过可能拖成大病

孟大夫之家1
2026-04-27 13:20:05
轰炸中,伊朗国宝来到中国

轰炸中,伊朗国宝来到中国

中国新闻周刊
2026-04-27 07:30:21
吉林一女子救下毒蛇,赖着不走12年,怪事不断,至今无法解释

吉林一女子救下毒蛇,赖着不走12年,怪事不断,至今无法解释

灿烂夏天
2025-02-23 23:30:44
牧民草原捡来小马驹养了5年,兽医摸摸它失声大叫:这根本不是马

牧民草原捡来小马驹养了5年,兽医摸摸它失声大叫:这根本不是马

飞云如水
2025-05-15 21:32:09
不会吧!2亿顶薪要泡汤?常规赛场均19分,季后赛场均仅9分

不会吧!2亿顶薪要泡汤?常规赛场均19分,季后赛场均仅9分

球毛鬼胎
2026-04-27 17:46:03
演都不演了!电诈园松口放人前,先提了一个要求,父亲察觉不对劲

演都不演了!电诈园松口放人前,先提了一个要求,父亲察觉不对劲

八斗小先生
2026-04-25 13:55:54
伊朗外长向巴基斯坦递交停战条件

伊朗外长向巴基斯坦递交停战条件

新华社
2026-04-26 23:15:28
草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

草蜢40周年演唱会,蔡一杰首度公开病情:脑癌已扩散,但永不言弃

一盅情怀
2026-04-27 09:48:43
黎巴嫩女孩到沈阳留学,和广东小伙谈恋爱,直言自己是半个中国人

黎巴嫩女孩到沈阳留学,和广东小伙谈恋爱,直言自己是半个中国人

不写散文诗
2026-04-22 16:12:04
男子从内地偷运51公斤盒饭回澳门,被海关查获

男子从内地偷运51公斤盒饭回澳门,被海关查获

极目新闻
2026-04-26 20:33:46
赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,但素颜却没有那么美

赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,但素颜却没有那么美

喜欢历史的阿繁
2026-04-26 12:24:07
瓜迪奥拉暗示他下赛季会重返曼城!

瓜迪奥拉暗示他下赛季会重返曼城!

夜白侃球
2026-04-27 10:01:14
26岁网坛冰美人罕见暴怒 质疑郑钦文ACE出界 与主裁争吵 全场狂嘘

26岁网坛冰美人罕见暴怒 质疑郑钦文ACE出界 与主裁争吵 全场狂嘘

我爱英超
2026-04-27 06:24:59
代县推土埋人后续:火到央媒,任某平多重身份曝光,被埋村民病危

代县推土埋人后续:火到央媒,任某平多重身份曝光,被埋村民病危

奇思妙想草叶君
2026-04-27 16:51:11
王曼昱让位,重用没打过世乒赛的蒯曼,马琳伦敦这步险棋有多妙?

王曼昱让位,重用没打过世乒赛的蒯曼,马琳伦敦这步险棋有多妙?

以茶带书
2026-04-27 19:21:23
难怪张柏芝准备寿衣遗照!谢霆锋不再隐瞒,坦白不娶王菲另有其因

难怪张柏芝准备寿衣遗照!谢霆锋不再隐瞒,坦白不娶王菲另有其因

秋姐居
2026-04-13 09:58:48
许世友酒后和386旅政委打架,惹怒了陈赓,刘伯承直接将他调走!

许世友酒后和386旅政委打架,惹怒了陈赓,刘伯承直接将他调走!

北海史记
2026-04-03 14:55:11
三大利好!外资大举加仓(名单)

三大利好!外资大举加仓(名单)

证券之星
2026-04-27 16:16:04
情况紧急,普京连派两人访朝!收到大礼的金正恩,1句话送上定心丸

情况紧急,普京连派两人访朝!收到大礼的金正恩,1句话送上定心丸

小陆搞笑日常
2026-04-27 20:20:41
2026-04-27 22:40:50
爬虫饲养员
爬虫饲养员
业余养了只叫“龙虾”的AI爬虫,主业是给互联网打工。
1800文章数 17关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

水库放水21人被困下游河滩 有人让家人踩肩头爬树避险

头条要闻

水库放水21人被困下游河滩 有人让家人踩肩头爬树避险

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

数码
家居
教育
健康
艺术

数码要闻

因竞争力下滑,消息称三星电子将停止在中国销售家电及电视产品

家居要闻

江景风格 流动的秩序

教育要闻

京雄学子共探一日科技营

干细胞如何让烧烫伤皮肤"再生"?

艺术要闻

你绝对想不到,摄影能让她成为女神!

无障碍浏览 进入关怀版