网易首页 > 网易号 > 正文 申请入驻

翻完DeepSeek报告,我们发现了中国AI的默契

0
分享至



编辑|冷猫、+0

这两天,全球顶级大模型接连更新,重磅消息一个接一个。

中国这边也迎来热闹非凡的一周,从周一开始,Qwen、Kimi、小米、腾讯相继发布最新模型。周五,千呼万唤的 DeepSeek 终于发布 V4 双版本,引发了国内 AI 圈的一波海啸。

其中,中国迈入万亿参数俱乐部并已开源的模型有 DeepSeek 和 Kimi 两家,小米也预告了将会开源最新的万亿模型。

翻完 DeepSeek V4 近 60 页的技术报告,我们发现这两个已开源万亿模型之间的默契,比任何单打独斗都可怕。

再往前溯源的话,我们发现 DeepSeek 和 Kimi 已经是第 N 次「偶遇」了。这可能源于梁文锋和杨植麟对 Scaling Law 的共同信仰和对 AGI 的竞逐。

多次偶遇背后的一场「合谋」

从 DeepSeek-R1 和 Kimi K1.5 仅隔两小时发布,DeepSeek-NSA 与 Kimi MoBA 论文同期发表、Kimi 数学推理模型 Kimina-Prover 启发 DeepSeek-Prover V2,到如今的 Kimi K2.6 与 DeepSeek-V4 在同一周发布,齐头并进。



这两家公司不是在互相厮杀,而是在用一种近乎「开源共享」的方式,一起进步。

引用车圈的一句话说,「好的设计总是心有灵犀」。

从 Kimi K2 采用 DeepSeek V3 的 MLA 注意力机制,到 DeepSeek V4 引入了 Kimi 大规模验证的 Muon 优化器,可以说,技术上的联动,成为了行业的一个亮点。

MLA 注意力机制:DeepSeek 创新,Kimi 复用

首先要提到的是,DeepSeek 在 V3 中首创了 MLA 注意力机制,这个设计通过低秩压缩技术有效减少了显存占用,从而让长上下文推理变得可能。这个创新很快被行业广泛认可,Kimi K2 在自己的注意力机制中也采用了 MLA 注意力机制。



二阶优化器:Kimi 大规模验证,DeepSeek 跟进

除了注意力机制,另一个备受关注的突破是优化器技术。2025年2月,Kimi 发表《Muon is Scalable for LLM Training》论文,在 480 亿参数的 Moonlight 系列模型上验证了 Muon 优化器的效果,用来取代已经用了 10年 的行业标准技术 Adam。2025 年 7 月,在万亿参数 Kimi K2 中,二阶优化器 Muon 被首次大规模应用,展示了其在大规模语言模型训练中的优势。

如今,DeepSeek V4 也跟进用 Muon 优化器技术,实现训练效率的稳定性。两家公司将底层的优化技术相互吸纳,打破了技术壁垒,展现出前所未有的深度合作。



残差连接:两种不同的解决方案

说到残差连接,DeepSeek 和 Kimi 也各有突破。

DeepSeek 在 V4 中引入了 mHC 残差连接,目标也是提高信息传递的效率。通过改变多头注意力的拼接方式,mHC 提高了梯度流动的效率,实测训练效率提高了约 30%。



Kimi 提出的 Attention Residuals(注意力残差)优化了信息流的传递效率,提升了模型的表现。这一创新得到了广泛的认可,Andrej Karpathy 点评称「我们对《Attention is All You Need》的理解还不够」,OpenAI 推理之父 Jerry Tworek 点评称「我们应该重新思考一切,深度学习的2.0时代正在到来」,马斯克也在社交媒体上为此点赞,称是「令人印象深刻的研究」。

这两种方案各有特色,展现了两家公司在同一技术问题上不同的思路。

长上下文推理:两种技术路线的探索

长上下文推理是 AI 模型的一大挑战,Kimi 和 DeepSeek 在这一点上的思路也各不相同。Kimi 在 2024 年实现了百万 Token 上下文的能力,尽管这一能力非常强大,但成本问题依然很大,超长上下文的计算开销呈现出线性增长,普通开发者很难承受。

到了 2026 年,DeepSeek 和 Kimi 分别提出了两种解决方案:

  • DeepSeek选择了稀疏注意力,通过让模型只关注输入中的关键部分,降低计算量,从而让百万上下文的成本变得更可接受。这种方法虽然能够精准聚焦关键信息,但设计和调优难度较大。
  • Kimi则推出了线性注意力架构,改变了注意力机制的计算方式,使得计算复杂度从 O(n²) 降到 O(n),从理论上大幅降低了长上下文的计算成本。

这两种方案同样各有优势,稀疏注意力强调精准性,线性注意力则追求高效性。更重要的是,Kimi 和 DeepSeek 同时在这两条技术路线上都在发力,为未来的长上下文推理提供了多种选择。

从「两个公司」到「一套基础设施」

DeepSeek 和 Kimi 的「偶遇」故事不只是技术圈的热闹,也是关乎中国 AI 产业格局的一件大事。

GPT-4 的参数量至今未正式公布(外界估计在 1.8T 左右),Claude 3.5 Opus 同样闭源。而中国的这两家创业公司,不仅做出了同等规模的模型,还选择了全部开源。这意味着任何开发者、任何研究机构、任何企业,都可以免费获取这些模型进行二次开发和部署。

直接的结果是:企业私有化部署的成本砍到了原来的1/10。中小企业终于能在自己的服务器上跑万亿参数级别的模型了,这事儿放在一年前,想都不敢想。

生态这块也在悄悄成形,在 OpenRouter 平台上,两者的 API 调用量稳居中国前两名;在应用层,Kimi 被海外爆款编程工具「套壳」接入,而 DeepSeek 则被日本乐天集团直接包装成了 Rakuten AI 3.0。



就连硅谷的巨头们,也不得不正视这股来自东方的力量。

在 Meta 最新模型 Muse Spark 发布的官方技术博客中,Llama 4 被直接拿来与 DeepSeek-V3.1 以及 Kimi-K2 进行性能对比:



而在黄仁勋的CES主题演讲上,黄仁勋更是将 DeepSeek 和 Kimi K2-Thinking 模型赫然放上大屏幕,作为展示其下一代 Blackwell 与 Rubin 芯片强大性能的 Benchmark 标杆:



与此同时,两家公司都在国产芯片适配上做出了实质性投入。

DeepSeek V4 首次深度适配华为昇腾芯片,推理环节将运行在国产硬件上;Kimi 的 Prefill-as-a-Service 方案则提出了跨数据中心异构硬件推理框架,允许用不同类型的国产芯片分别承担 Prefill 和 Decode 阶段,实测吞吐量提升 54%,首 token 延迟降低 64%。这为国产芯片进入大模型推理链条打开了一个现实的切入口。

黄仁勋在播客节目中说了一句意味深长的话:「芯片又不是铀浓缩,阻挡不了中国芯片的进步,他们依旧可以通过国产芯片来开发模型。」

他可能没想到,DeepSeek 和 Kimi 正在用实际行动让这一天来得这么早,这么快。

结语:两个广东人,撑起中国 AI 的半边天

技术的高度,最终取决于人的格局。

2023 年同年起步,用最短时间双双叩开百亿美金十角兽大门——DeepSeek 与 Kimi,始终保持着业内人数最精简、但人才密度最顶尖的配置。两位同样来自广东的创始人,杨植麟与梁文锋,既是技术的狂热信徒,也是被寄予厚望的中国 AI 国家队。

在总理主持召开的经济形势专家和企业家座谈会上,两人时隔一年分别建言献策,成为了中国 AI 发展史上的一个有力注脚。他们都是技术范式的引领者:DeepSeek 向世界证明了「思维链」的威力,而 Kimi 则在国内引领了「智能体」的落地狂潮。

在追逐 AGI 的这场马拉松里,没有哪一家公司可以闭门造车地跑完全程。DeepSeek 与 Kimi 之间,有竞争,也有共鸣——Muon 与 MLA 的技术互通,底层机制上惺惺相惜的探索,恰恰说明:中国 AI 真正的底气,从来不是某一家公司的单打独斗,而是这种在「偶遇」中碰撞出的技术火花,以及在开源生态里悄然生长的互利共生。

双峰并峙,终将顶峰相见。属于中国大模型的万亿级航海时代,才刚刚拉开序幕。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯诺克世锦赛!四强赛对阵出炉,赵心童将战墨菲,比赛时间确定

斯诺克世锦赛!四强赛对阵出炉,赵心童将战墨菲,比赛时间确定

杨仔述
2026-04-26 21:53:19
中国军事崛起全靠叶利钦?他到底为我国做了什么,竟值一吨大勋章

中国军事崛起全靠叶利钦?他到底为我国做了什么,竟值一吨大勋章

朝子亥
2026-04-23 19:20:03
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
广州7岁男童无法走路说话,被当脑瘫治疗多年,父母翻病历发现其出生时颅骨骨折疑在医院摔伤,医院否认,一文梳理关键时间线

广州7岁男童无法走路说话,被当脑瘫治疗多年,父母翻病历发现其出生时颅骨骨折疑在医院摔伤,医院否认,一文梳理关键时间线

大象新闻
2026-04-25 16:49:18
不吐不快:车展看了9款大6座SUV,设计撞脸成常态,造车像下饺子

不吐不快:车展看了9款大6座SUV,设计撞脸成常态,造车像下饺子

周哥一影视
2026-04-26 11:27:08
独家:三大运营商业绩最惨的一个季度来了! 每家都叫苦!还都不是装的! 员工薪酬会受影响吗?

独家:三大运营商业绩最惨的一个季度来了! 每家都叫苦!还都不是装的! 员工薪酬会受影响吗?

新浪财经
2026-04-26 22:11:22
采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

千秋文化
2026-04-15 20:18:32
首组2-2!尼克斯大胜老鹰进天王山 唐斯20+10+10布伦森19分

首组2-2!尼克斯大胜老鹰进天王山 唐斯20+10+10布伦森19分

醉卧浮生
2026-04-26 08:52:23
阿尔卡拉斯退出法网,德约科维奇迎来25冠最佳良机!

阿尔卡拉斯退出法网,德约科维奇迎来25冠最佳良机!

网球之家
2026-04-25 23:16:45
原来她就是莫言女儿,清华才女还是知名编剧,丈夫在北师大任职

原来她就是莫言女儿,清华才女还是知名编剧,丈夫在北师大任职

洲洲影视娱评
2026-04-25 14:25:11
3-0,申花5连胜积分达到10分 盖伊连场破门 河南把握机会能力太差

3-0,申花5连胜积分达到10分 盖伊连场破门 河南把握机会能力太差

替补席看球
2026-04-26 22:00:22
中超最新积分榜!蓉城8轮不败领跑,申花升至第5,仅剩天津负2分

中超最新积分榜!蓉城8轮不败领跑,申花升至第5,仅剩天津负2分

夏侯看英超
2026-04-26 23:11:40
39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

揽星河的笔记
2026-04-14 15:18:30
目前“最值得捡漏”的一款iPhone,从11899元暴跌到1929元

目前“最值得捡漏”的一款iPhone,从11899元暴跌到1929元

辉哥说动漫
2026-04-24 12:40:40
南京一通信公司高管组织40多名员工上班时间干私活,研发竞品长达9年,被按法定上限判赔580万元

南京一通信公司高管组织40多名员工上班时间干私活,研发竞品长达9年,被按法定上限判赔580万元

环球网资讯
2026-04-26 16:19:07
触碰红线,华晨宇抚仙湖演唱会被立刻叫停,原因被扒,令人唏嘘

触碰红线,华晨宇抚仙湖演唱会被立刻叫停,原因被扒,令人唏嘘

许三岁
2026-04-24 22:36:22
太瘆人!男子晒小区电梯图,网友调侃豪华火化炉,评论区毛骨悚然

太瘆人!男子晒小区电梯图,网友调侃豪华火化炉,评论区毛骨悚然

谭谈社会
2026-04-23 01:58:02
北京车展冒出一堆路虎风味国产电车

北京车展冒出一堆路虎风味国产电车

源Auto
2026-04-24 20:19:02
斯诺克最新战报!赵心童破百夺赛点领先丁俊晖,吴宜泽逆转塞尔比

斯诺克最新战报!赵心童破百夺赛点领先丁俊晖,吴宜泽逆转塞尔比

刘姚尧的文字城堡
2026-04-26 19:26:26
一步一脚印,李弘权3年前获最快进步球员,今年入选一阵

一步一脚印,李弘权3年前获最快进步球员,今年入选一阵

懂球帝
2026-04-26 21:58:38
2026-04-27 00:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12855文章数 142636关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

以色列政坛重大变局 内塔尼亚胡迎来劲敌

头条要闻

以色列政坛重大变局 内塔尼亚胡迎来劲敌

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

本地
游戏
教育
公开课
军事航空

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

《剑星》在今天迎来发售两周年 官方发贺图

教育要闻

2026调研中国,建议参加么!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版