翻完DeepSeek报告，我们发现了中国AI的默契|残差|黄仁勋|上下文|kimi|开源模型|deepseek

翻完DeepSeek报告，我们发现了中国AI的默契

2026-04-26 13:21:55　来源: 机器之心Pro

河北举报

分享至

编辑｜冷猫、+0

这两天，全球顶级大模型接连更新，重磅消息一个接一个。

中国这边也迎来热闹非凡的一周，从周一开始，Qwen、Kimi、小米、腾讯相继发布最新模型。周五，千呼万唤的 DeepSeek 终于发布 V4 双版本，引发了国内 AI 圈的一波海啸。

其中，中国迈入万亿参数俱乐部并已开源的模型有 DeepSeek 和 Kimi 两家，小米也预告了将会开源最新的万亿模型。

翻完 DeepSeek V4 近 60 页的技术报告，我们发现这两个已开源万亿模型之间的默契，比任何单打独斗都可怕。

再往前溯源的话，我们发现 DeepSeek 和 Kimi 已经是第 N 次「偶遇」了。这可能源于梁文锋和杨植麟对 Scaling Law 的共同信仰和对 AGI 的竞逐。

多次偶遇背后的一场「合谋」

从 DeepSeek-R1 和 Kimi K1.5 仅隔两小时发布，DeepSeek-NSA 与 Kimi MoBA 论文同期发表、Kimi 数学推理模型 Kimina-Prover 启发 DeepSeek-Prover V2，到如今的 Kimi K2.6 与 DeepSeek-V4 在同一周发布，齐头并进。

这两家公司不是在互相厮杀，而是在用一种近乎「开源共享」的方式，一起进步。

引用车圈的一句话说，「好的设计总是心有灵犀」。

从 Kimi K2 采用 DeepSeek V3 的 MLA 注意力机制，到 DeepSeek V4 引入了 Kimi 大规模验证的 Muon 优化器，可以说，技术上的联动，成为了行业的一个亮点。

MLA 注意力机制：DeepSeek 创新，Kimi 复用

首先要提到的是，DeepSeek 在 V3 中首创了 MLA 注意力机制，这个设计通过低秩压缩技术有效减少了显存占用，从而让长上下文推理变得可能。这个创新很快被行业广泛认可，Kimi K2 在自己的注意力机制中也采用了 MLA 注意力机制。

二阶优化器：Kimi 大规模验证，DeepSeek 跟进

除了注意力机制，另一个备受关注的突破是优化器技术。2025年2月，Kimi 发表《Muon is Scalable for LLM Training》论文，在 480 亿参数的 Moonlight 系列模型上验证了 Muon 优化器的效果，用来取代已经用了 10年的行业标准技术 Adam。2025 年 7 月，在万亿参数 Kimi K2 中，二阶优化器 Muon 被首次大规模应用，展示了其在大规模语言模型训练中的优势。

如今，DeepSeek V4 也跟进用 Muon 优化器技术，实现训练效率的稳定性。两家公司将底层的优化技术相互吸纳，打破了技术壁垒，展现出前所未有的深度合作。

残差连接：两种不同的解决方案

说到残差连接，DeepSeek 和 Kimi 也各有突破。

DeepSeek 在 V4 中引入了 mHC 残差连接，目标也是提高信息传递的效率。通过改变多头注意力的拼接方式，mHC 提高了梯度流动的效率，实测训练效率提高了约 30%。

Kimi 提出的 Attention Residuals（注意力残差）优化了信息流的传递效率，提升了模型的表现。这一创新得到了广泛的认可，Andrej Karpathy 点评称「我们对《Attention is All You Need》的理解还不够」，OpenAI 推理之父 Jerry Tworek 点评称「我们应该重新思考一切，深度学习的2.0时代正在到来」，马斯克也在社交媒体上为此点赞，称是「令人印象深刻的研究」。

这两种方案各有特色，展现了两家公司在同一技术问题上不同的思路。

长上下文推理：两种技术路线的探索

长上下文推理是 AI 模型的一大挑战，Kimi 和 DeepSeek 在这一点上的思路也各不相同。Kimi 在 2024 年实现了百万 Token 上下文的能力，尽管这一能力非常强大，但成本问题依然很大，超长上下文的计算开销呈现出线性增长，普通开发者很难承受。

到了 2026 年，DeepSeek 和 Kimi 分别提出了两种解决方案：

DeepSeek选择了稀疏注意力，通过让模型只关注输入中的关键部分，降低计算量，从而让百万上下文的成本变得更可接受。这种方法虽然能够精准聚焦关键信息，但设计和调优难度较大。
Kimi则推出了线性注意力架构，改变了注意力机制的计算方式，使得计算复杂度从 O(n²) 降到 O(n)，从理论上大幅降低了长上下文的计算成本。

这两种方案同样各有优势，稀疏注意力强调精准性，线性注意力则追求高效性。更重要的是，Kimi 和 DeepSeek 同时在这两条技术路线上都在发力，为未来的长上下文推理提供了多种选择。

从「两个公司」到「一套基础设施」

DeepSeek 和 Kimi 的「偶遇」故事不只是技术圈的热闹，也是关乎中国 AI 产业格局的一件大事。

GPT-4 的参数量至今未正式公布（外界估计在 1.8T 左右），Claude 3.5 Opus 同样闭源。而中国的这两家创业公司，不仅做出了同等规模的模型，还选择了全部开源。这意味着任何开发者、任何研究机构、任何企业，都可以免费获取这些模型进行二次开发和部署。

直接的结果是：企业私有化部署的成本砍到了原来的1/10。中小企业终于能在自己的服务器上跑万亿参数级别的模型了，这事儿放在一年前，想都不敢想。

生态这块也在悄悄成形，在 OpenRouter 平台上，两者的 API 调用量稳居中国前两名；在应用层，Kimi 被海外爆款编程工具「套壳」接入，而 DeepSeek 则被日本乐天集团直接包装成了 Rakuten AI 3.0。

就连硅谷的巨头们，也不得不正视这股来自东方的力量。

在 Meta 最新模型 Muse Spark 发布的官方技术博客中，Llama 4 被直接拿来与 DeepSeek-V3.1 以及 Kimi-K2 进行性能对比：

而在黄仁勋的CES主题演讲上，黄仁勋更是将 DeepSeek 和 Kimi K2-Thinking 模型赫然放上大屏幕，作为展示其下一代 Blackwell 与 Rubin 芯片强大性能的 Benchmark 标杆：

与此同时，两家公司都在国产芯片适配上做出了实质性投入。

DeepSeek V4 首次深度适配华为昇腾芯片，推理环节将运行在国产硬件上；Kimi 的 Prefill-as-a-Service 方案则提出了跨数据中心异构硬件推理框架，允许用不同类型的国产芯片分别承担 Prefill 和 Decode 阶段，实测吞吐量提升 54%，首 token 延迟降低 64%。这为国产芯片进入大模型推理链条打开了一个现实的切入口。

黄仁勋在播客节目中说了一句意味深长的话：「芯片又不是铀浓缩，阻挡不了中国芯片的进步，他们依旧可以通过国产芯片来开发模型。」

他可能没想到，DeepSeek 和 Kimi 正在用实际行动让这一天来得这么早，这么快。

结语：两个广东人，撑起中国 AI 的半边天

技术的高度，最终取决于人的格局。

2023 年同年起步，用最短时间双双叩开百亿美金十角兽大门——DeepSeek 与 Kimi，始终保持着业内人数最精简、但人才密度最顶尖的配置。两位同样来自广东的创始人，杨植麟与梁文锋，既是技术的狂热信徒，也是被寄予厚望的中国 AI 国家队。

在总理主持召开的经济形势专家和企业家座谈会上，两人时隔一年分别建言献策，成为了中国 AI 发展史上的一个有力注脚。他们都是技术范式的引领者：DeepSeek 向世界证明了「思维链」的威力，而 Kimi 则在国内引领了「智能体」的落地狂潮。

在追逐 AGI 的这场马拉松里，没有哪一家公司可以闭门造车地跑完全程。DeepSeek 与 Kimi 之间，有竞争，也有共鸣——Muon 与 MLA 的技术互通，底层机制上惺惺相惜的探索，恰恰说明：中国 AI 真正的底气，从来不是某一家公司的单打独斗，而是这种在「偶遇」中碰撞出的技术火花，以及在开源生态里悄然生长的互利共生。

双峰并峙，终将顶峰相见。属于中国大模型的万亿级航海时代，才刚刚拉开序幕。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.