网易首页 > 网易号 > 正文 申请入驻

详解Kimi K2 Thinking:谢谢DeepSeek,我先去干掉GPT-5了

0
分享至

来源:市场资讯

(来源:硅星人)


作者 | 周一笑

邮箱 | zhouyixiao@pingwest.com

“这是又一次DeepSeek式的辉煌时刻吗?开源软件再次超越闭源软件。”

2025年11月6日,Hugging Face 联合创始人 Thomas Wolf 在 X 上的感慨,精准概括了Kimi K2 Thinking模型发布后所引发的讨论。


Kimi K2 Thinking在多个基准测试中取得了亮眼的成绩,追平、乃至超过了SOTA的闭源模型。例如,在HLE(Humanity's Last Exam)text-only子集的基准上,其工具增强版得分达到44.9%,超过了GPT-5的41.7% 。

Kimi K2 Thinking是基于 Kimi K2 模型训练而来的,专注于提升Agentic能力和推理能力。这是一个拥有1万亿总参数的混合专家模型(Mixture-of-Experts, MoE),每次推理激活约320亿参数,支持256k的上下文窗口,并采用了原生INT4量化技术。设计思路是在保持巨大模型规模的同时,想办法控制计算成本和训练成本。据CNBC援引知情人士的报道,该模型的训练成本仅为460万美元。作为对比,DeepSeek披露的 V3训练成本(租赁价,正式训练阶段)是560 万美元,R1为29.4万美元。这里主要考虑的是GPU预训练费用,不包括研发、基础设施等投资。

Kimi K2 Thinking的一个核心特性是Agent能力,官方宣称它能够连续执行200-300次工具调用来解决复杂问题。Grok-4等闭源阵营广泛采用RL提升工具使用与长程规划,但在开源模型中看到如此的实现还是第一次。它表明开源社区正在快速跟上智能体技术的前沿,同时也对模型托管服务提出了更高的要求。

Kimi K2 Thinking目前还没有发布技术报告,仅有技术博客、使用文档,未披露它的训练数据、RL细节或配方。模型发布后不久,技术社区的关于模型架构本身的讨论也开始出现。在X和Reddit上,一张将其与DeepSeek模型并排比较的架构图又开始流传,引发了关于其技术渊源的讨论。

在DeepSeek的R2“难产”已久、社区翘首以盼的背景下,Kimi带着一个架构存在继承关系且同样是开源SOTA推理模型的模型出现,让人恍惚以为Kimi是替DeepSeek把R2发了。

1

架构的“继承”与工程的“魔法”


LLM研究工程师Sebastian Raschka对此进行了详细的分析,他在threads指出了两者间的具体异同:

•每个MoE层的专家数量增加约1.5倍(384 vs 256)

•更大的词汇表(160k vs 129k)

•K2每个token激活约320亿参数(DeepSeek R1为370亿)

•MoE之前的密集FFN块更少


“简而言之,Kimi K2本质上就是一个规模上略作调整的 DeepSeek V3/R1。它的改进主要体现在数据和训练配方上。”

Raschka的分析指出了一个关键事实,Kimi K2 Thinking对DeepSeek核心架构的“继承”是显而易见的,包括MoE机制、MLA(多头潜在注意力)等设计。这是在一个已被验证的基座上,根据自身的目标进行了针对性的调整和优化。例如,减少注意力头和激活参数量,旨在降低推理成本;而增加专家数量和词汇表,则是为了增强模型的知识容量和表达能力。这种“站在巨人肩膀上”的做法,是开源精神最直接的体现。

除了对DeepSeek架构的继承,Kimi K2 Thinking的成果也离不开对整个开源生态成果的广泛“化用”。从底层用于加速注意力计算的FlashAttention,到K2技术报告中提到的、为解决训练不稳定性而改进的MuonClip优化器,再到各种数据处理和后训练方法论,都整合了开源社区的集体智慧。

如果说架构和开源技术决定了模型的骨架,那么让其血肉丰满的,则是月之暗面自身的工程实现能力。这主要体现在三个方面:

1、训练稳定性:在长达15.5万亿tokens的预训练过程中,Kimi K2 Thinking实现了“零loss spike(损失尖峰)”。这意味着训练过程极其稳定,无需因模型崩溃而进行成本高昂的回滚。这对于万亿参数规模的模型来说,是一项重要的工程成就。

2、原生量化推理:Kimi K2 Thinking支持原生INT4量化推理,据称能在极小的性能损失下,将推理速度提升约2倍,并显著降低部署所需的GPU显存。这是将大参数模型从实验室推向广泛应用的关键。

3、长程任务执行:模型能够稳定执行200-300轮工具调用,这不仅考验了模型的推理能力,也检验了其系统鲁棒性。在长达数百步的交互中,模型必须能处理各种异常,背后需要一套复杂的工程机制。

Kimi团队在选择和整合这些开源技术时的具体决策,及其工程团队最终的执行能力,共同构成了Kimi K2 Thinking取得当前成果的基础。这种技术路线和成功范式,让许多人联想到了当初R1发布时的情景。它承接DeepSeek 的 MLA+MoE高效架构与“可验证任务优先”的数据/奖励取向,用工程手段(如 MuonClip、长上下文、工具链)把能力做稳。不同点在于K2 Thinking的开放形态与目标更偏应用交付。

1

SOTA之外的取舍

对Kimi K2 Thinking的全面审视,不能只停留在Benchmark的分数上。一个绕不开点是其Benchmark成绩的来源。Kimi K2 Thinking在技术博客中展示的许多SOTA分数,是基于一个特殊的“Heavy”模式获得的。根据官方在Hugging Face上的说明,这个模式通过并行运行多达8个推理然后通过反思性地聚合所有输出来生成最终结果。这种做法在学术界和模型竞赛中很常见。在今年7月9日的Grok 4的发布会上,xAI公布Grok 4 Heavy的HLE得分为44.4 %,text-only 子集得分50.7%。

这种heavy模式也带来一些问题,一是资源消耗巨大,普通用户通过API或本地部署几乎不可能复现这种性能,二是它造成了Benchmark分数与模型单实例真实能力之间的差距。用户实际能体验到的标准模式,与榜单上的“野兽模式”不是一回事。

对效率的追求,也体现在模型底层的工程决策中,而这些决策往往遵循着性能与成本的交换原则。例如,模型采用的原生INT4量化,虽然官方宣称性能损失极小,但从FP16到INT4的精度压缩是巨大的。这种量化在标准评测集上可能表现良好,但在更长、更复杂的推理链条中,精度损失的累积效应是否会影响任务的最终成功率,仍有待更广泛的实际应用检验。

同样,将注意力头从128个减少到64个,也是Kimi团队为降低内存带宽和计算开销做出的主动选择。但K2技术报告也承认,更多的注意力头通常能带来更好的模型质量。这意味着,Kimi K2为了更高的推理效率,在模型能力上做出了一定的妥协。

Kimi K2 Thinking对Agent能力的押注,也带来了其他维度的局限性。官方公布的基准测试显示,K2 Thinking 在"智能体推理"和"智能体搜索"两项指标上超越了 OpenAI 与 Anthropic 的顶级模型(GPT-5 和 Sonnet 4.5 Thinking),但在“编程能力”方面尚未登顶。

在前沿模型纷纷将多模态作为标配的今天,Kimi K2 Thinking仍然是一个纯文本模型。这种差异在处理涉及视觉或空间推理的任务时尤为明显。例如,在生成一个“鹈鹕骑自行车”的SVG图像这类任务上,纯文本模型可能会因为缺乏对物理世界的基本视觉理解而存在一些问题:


Kimi K2 Thinking生成的SVG

Kimi K2 Thinking的发布,给人的感觉就像是开源AI社区又一次集体狂欢。它站在DeepSeek这样所有优秀开源成果之上,想明白了自己此阶段最重要的性能目标,对细节进行改进,对训练效率进行提高,得到一个可以在今天最关键方向上超过闭源最强模型的新开源模型。然后这个模型也给开源社区带来反馈和启发,同时它也是Kimi下一代更大更完整模型的一块拼图——也许下一次DeepSeek时刻不远了,而且它可能真的不需要由DeepSeek自己带来。


点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
从“仅退款”到“强制上门”:拼多多的刀,终于砍向了快递员头上

从“仅退款”到“强制上门”:拼多多的刀,终于砍向了快递员头上

颗粒度财经1
2026-03-22 20:13:29
女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

长安一孤客
2026-03-25 16:22:18
45岁李尚宝家中离世,死因未明,一家四口皆已离世,一生未婚

45岁李尚宝家中离世,死因未明,一家四口皆已离世,一生未婚

陈意小可爱
2026-03-31 09:52:46
猛料!向太曝马伊琍已再婚:11年了,文章终究过不了自己那道坎

猛料!向太曝马伊琍已再婚:11年了,文章终究过不了自己那道坎

小徐讲八卦
2026-02-24 16:25:03
《隐身的名字》大结局:任小名认罪,柏庶开枪杀人,张放为爱自首

《隐身的名字》大结局:任小名认罪,柏庶开枪杀人,张放为爱自首

手工制作阿歼
2026-03-31 07:05:23
中国直接动手扣船了?美国出头替巴拿马撑腰,遭中方3句回应痛批

中国直接动手扣船了?美国出头替巴拿马撑腰,遭中方3句回应痛批

卷史
2026-03-31 01:48:30
官方:CCTV5+转播亚洲杯首轮中国女足U20vs越南女足U20

官方:CCTV5+转播亚洲杯首轮中国女足U20vs越南女足U20

懂球帝
2026-03-31 11:26:14
全红婵生日,时尚资源大爆发,小脸愈发圆润,陈若琳、樊振东发声

全红婵生日,时尚资源大爆发,小脸愈发圆润,陈若琳、樊振东发声

嫹笔牂牂
2026-03-29 07:26:56
杨振宁离世5个月,翁帆远赴英国真相曝光,藏21年的秘密瞒不住了

杨振宁离世5个月,翁帆远赴英国真相曝光,藏21年的秘密瞒不住了

离离言几许
2026-03-13 22:38:05
哈梅内伊的终极反击:用生命做诱饵,把美国这个巨人拖进了泥潭

哈梅内伊的终极反击:用生命做诱饵,把美国这个巨人拖进了泥潭

百年历史老号
2026-03-28 20:28:57
定了!2026高速手机绑车牌通行,全年24天免费,车主有福了

定了!2026高速手机绑车牌通行,全年24天免费,车主有福了

沙雕小琳琳
2026-03-31 07:21:25
官方回应湖南一地“祭扫现场发钱”:系极个别现象,多部门联合倡议移风易俗

官方回应湖南一地“祭扫现场发钱”:系极个别现象,多部门联合倡议移风易俗

极目新闻
2026-03-30 22:24:25
国台办刚官宣郑丽文“访陆事宜”,卢秀燕坐不住,公开唱了反调

国台办刚官宣郑丽文“访陆事宜”,卢秀燕坐不住,公开唱了反调

北纬的咖啡豆
2026-03-30 22:14:09
你家里有铁皮茶叶盒吗?赶紧回家找出来,作用太厉害花钱都难买!

你家里有铁皮茶叶盒吗?赶紧回家找出来,作用太厉害花钱都难买!

妙招酷
2026-02-26 23:48:36
专家总算说实话了!为什么很多有养老金的人,反而不愿出去旅行?

专家总算说实话了!为什么很多有养老金的人,反而不愿出去旅行?

小虎新车推荐员
2026-03-31 11:12:18
特鲁多与谷爱凌罕同框,一头卷发很有辨识度,双手背后尽显沉稳感

特鲁多与谷爱凌罕同框,一头卷发很有辨识度,双手背后尽显沉稳感

八八尚语
2026-03-31 10:12:03
中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

叹知
2026-03-29 18:13:46
清朝知县告老还乡发现老宅被占,他没有争执,七日后全村人跪拜

清朝知县告老还乡发现老宅被占,他没有争执,七日后全村人跪拜

卡西莫多的故事
2025-11-25 10:12:54
多多:总喊内马尔回巴西队的人,根本没看他现在踢成什么样

多多:总喊内马尔回巴西队的人,根本没看他现在踢成什么样

懂球帝
2026-03-30 14:17:08
比亚迪名人车主再加一!足坛名帅瓜迪奥拉喜提海狮07 EV

比亚迪名人车主再加一!足坛名帅瓜迪奥拉喜提海狮07 EV

快科技
2026-03-30 20:49:22
2026-03-31 12:20:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2693878文章数 6274关注度
往期回顾 全部

科技要闻

尚未正式宣发,国行苹果AI半夜"意外闪现"

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

头条要闻

牛弹琴:中东新的大麻烦来了 特朗普又盯上了新目标

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

丝芭传媒举报鞠婧祎:瞒报收入竟达85%

财经要闻

高薪内推藏陷阱!"招转培"骗局盯上求职者

汽车要闻

16万级最强2.0T 全新一代瑞虎9来了

态度原创

数码
时尚
亲子
旅游
房产

数码要闻

Intel 12纯大核CPU在Z790上点亮!纯AI写BIOS:离跑分只差一步

妈妈们的人生,不该只有一个选项

亲子要闻

科普|“忌口”可能是错的?—— 重新认识儿童食物过敏与免疫耐受

旅游要闻

这个春天,总要去一趟栾川!

房产要闻

14亿!电竞巨头出手,海棠湾“超级运动综合体”来了!

无障碍浏览 进入关怀版