网易首页 > 网易号 > 正文 申请入驻

Kimi K2 Thinking,是月之暗面的“复仇”

0
分享至

Kimi K2 Thinking的发布,对于月之暗面而言,就像是《基督山伯爵》里那座名为蒙特克里斯托的宝藏岛,曾被困在伊夫堡的那个“人”回来了,而且带着一个让世界措手不及的计划。

在年末预计发布的Gemini 3和GPT-5.1,以及DeepSeek的新模型之前,中国大模型厂商月之暗面先拿出了里程碑之作——Kimi K2 Thinking。

该如何形容Kimi K2 Thinking的价值?

或许HuggingFace联合创始人 Thomas Wolf的评价,反映出大多数人的心声,“这是又一个‘DeepSeek’时刻么,开源再次超过闭源。”

彼时,开源的DeepSeek R1超过OpenAI闭源模型旗舰模型o1,如今,Kimi K2 Thinking直接对标GPT-5、Claude 4.5 Sonnet 这样的顶尖闭源模型,尽管还有一些瑕疵,但是不妨碍月之暗面的成功。

如果说此前的大肆投流商业化以及DeepSeek的成功,让不少人对月之暗面心有怀疑,还能不能做最有希望的大模型创业企业,此后Kimi K1.5可以视为月之暗面的推理摸索,K2已经让人感到惊艳,Kimi K2 Thinking则是确定了内外部的信心。

月之暗面证明了自己,仍然有能力站在大模型第一梯队。

11月11日凌晨,月之暗面创始人杨植麟以及合伙人周昕宇、吴育昕,在海外Reddit社区办了一场有问必答线上活动,回答关于Kimi K2 Thinking以及大模型相关的问题。


460万美元成本不重要,K3或有新架构特性

围绕Kimi K2 Thinking的横空出世,外界对其训练方法、工程策略与未来规划一直充满好奇,月之暗面从460万美元训练成本的真伪,聊到为何大胆采用未经验证的Muon优化器,再到长链推理背后的技术突破,这是一场难得的技术直球交流。

Kimi团队首先澄清了“460万美元训练成本”这一热门传闻。团队表示,这并非官方数字。训练成本难以量化,尤其是大模型预训练大量依赖研究、探索和失败实验,本身就难以用单纯的金钱衡量。

而关于外界最惊讶的一点——为什么敢在如此大型模型上使用一个几乎没人测试过的Muon优化器——团队解释得相当直白:Muon虽然未经他人验证,但他们严格遵循了缩放定律的验证流程,确保它在所有小规模测试中表现稳定。在Muon出现之前,已有几十种优化器和架构被淘汰,这让团队对自己的研究体系建立起了信心。

在硬件方面,Kimi确认他们使用的是Infiniband互联的H800 GPU,相比美国厂商的高端算力设备并不占优。但团队强调:“我们充分压榨了每一张卡。”在严格预算下最大化产出,是这支团队的一大风格。

谈到预训练期间的核心指标,团队强调最重要的依然是损失(Loss)、基准测试表现,以及内部稳定性。每一次架构消融都必须在更大规模前通过验证,不允许跳步。如果模型出现任何异常,扩容会被立刻暂停。

关于数据,Kimi用了一个颇具浪漫气质的比喻:“找到合适的数据集,是一门艺术。”团队认为数据之间存在大量交互效应,直觉固然重要,但最终必须以实验为准。

对于外界关心的方向策略,Kimi也给出了明确态度。选择先发布纯文本模型,是因为视频模型的数据准备与训练周期都更长;至于1M上下文窗口,团队已做过尝试,只是目前服务成本过高,未来版本中很可能重新引入。

被许多用户称道的“K2独特散文风格”来自何处?Kimi表示,这既来自预训练阶段打下的知识底蕴,也来自后训练阶段的风味调校,甚至不同的强化学习策略都会导致截然不同的“风味差异”。模型性格,某种程度上也反映了团队本人的喜好。

对于一些用户提出的批评,例如模型在战斗场景或冲突对话中过于“安全”、略显“有毒的积极”,Kimi团队坦言这是长期挑战,但相信有解决方案。他们也正在探索如何在保持安全的前提下降低不必要的审查力度。至于NSFW内容,团队并不排斥可能性,但前提是建立可靠的年龄验证机制并调整服务条款。

关于技术栈,Kimi继续强调他们在长链推理上的独特优势。K2 Thinking目前能稳定完成200到300步的工具调用,团队将其归功于端到端智能体强化学习训练方式。再加上INT4推理带来的速度优势,使得单次长推理成为可能。

至于未来技术升级路线,Kimi透露他们正在研究新架构KDA(Kernel Attention Dual Architecture),并很可能在K3模型中投入使用。此外,团队不排斥进一步开源更多组件,包括安全对齐技术栈,但同时强调需要找到机制确保开源细化不会被滥用。

Kimi K2 Thinking强在哪?

按照官方介绍,这是月之暗面目前最强的开源思考模型,拥有1万亿参数规模,采用384个专家混合架构,它以“思考型智能体”为目标打造,能够在使用工具的同时逐步推理,在 Humanity’s Last Exam(HLE)、BrowseComp 等多个基准测试上取得最新的业界领先成绩,在推理、智能体搜索、代码、写作以及通用能力等方面都有大幅提升。

当然,对评分不那么感冒的朋友,更看重实效。Kimi K2 Thinking 能在没有人工干预的情况下,连续执行 200 到 300 次工具调用, 并在数百步的链式推理中保持连贯,解决复杂问题,标志着在测试时扩展(test-time scaling)上的最新进展,包括扩大思考 token 的规模,以及扩大工具调用的链路深度,这是堪比Claude长程规划和自适应推理能力,Kimi K2 Thinking直接把门槛大幅拉低。

Kimi K2 Thinking 在多项衡量推理、编码和智能体能力的基准上刷新记录。它在带工具的 HLE 中达到 44.9%,在 BrowseComp 上达到 60.2%,在 SWE-Bench Verified 上达到 71.3%,展现了作为顶级思考型智能体模型的强泛化能力。


图片来自AI生成

Kimi K2 Thinking 还能在推理过程中主动调用多种工具,数百步的序列中也能完成规划、推理、执行与自适应调整,处理一些最具挑战性的学术与分析类问题。在某次测试中,它通过 23 次交错进行的推理与工具调用,成功解决了一道博士级数学难题,充分展示了其深度结构化推理能力与长程问题求解能力。

编码也是体现智能体能力的重点,Kimi K2 Thinking 在编码和软件开发任务上表现出显著提升,尤其在HTML、React 以及组件密集型前端任务上表现突出,能够将想法转化为功能完整、响应灵敏的产品。在代理式编码场景中,它在调用工具的同时进行推理,能够流畅地融入软件代理,精确且灵活地执行复杂的多步骤开发工作流。

低比特量化(Low-bit quantization)是减少大规模推理服务器延迟和 GPU 内存占用的有效方法。然而,思考型模型通常使用过长的解码长度,因此量化往往会导致显著的性能下降。

为解决这一挑战,月之暗面在后训练阶段采用了 量化感知训练(Quantization-Aware Training, QAT),并对 MoE 组件应用 仅权重的 INT4 量化。这使得 K2 Thinking 能够支持原生 INT4 推理,在生成速度上大约提升 2 倍,同时仍保持最先进的性能。

总体来看,月之暗面通过K2 Thinking证明其大模型技术能力,也更清晰地印证了当前大模型发展的一个核心趋势:从追求规模参数转向追求推理效能和实用化能力。

但其长期竞争力,仍需放在与Gemini、GPT等巨头模型的持续迭代和更广泛的市场检验中观察。行业的竞争,已进入一个比拼技术深度、工程效率与生态策略的更为复杂的综合阶段。(文 | TechPulse ,作者 | 张帅,编辑 | 盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拔出萝卜带出泥!张雪峰"出轨"风波升级,知情人爆料,本人破防了

拔出萝卜带出泥!张雪峰"出轨"风波升级,知情人爆料,本人破防了

白面书誏
2025-11-14 18:33:59
校园餐虫虾仁告破,绿捷吊销双证、8人被捕,市区分管领导获处分

校园餐虫虾仁告破,绿捷吊销双证、8人被捕,市区分管领导获处分

薇微笑语
2025-11-14 19:31:21
中央定调,延退落地!1970至1975年生男性,能申请提前退休多久?

中央定调,延退落地!1970至1975年生男性,能申请提前退休多久?

王五说说看
2025-11-14 07:07:13
坑同胞2.7万亿!老乡谈之色变,被抓还嚣张,佘智江哪来的底气?

坑同胞2.7万亿!老乡谈之色变,被抓还嚣张,佘智江哪来的底气?

阅微札记
2025-11-14 16:11:50
冷空气到达广州时间,确定!网友:干冷还是湿冷?

冷空气到达广州时间,确定!网友:干冷还是湿冷?

鲁中晨报
2025-11-15 07:27:04
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
11月14日俄乌:公正的回应

11月14日俄乌:公正的回应

山河路口
2025-11-14 18:51:04
外交部:任何势力胆敢阻挠中国的统一大业,都是痴心妄想、螳臂当车

外交部:任何势力胆敢阻挠中国的统一大业,都是痴心妄想、螳臂当车

澎湃新闻
2025-11-14 18:02:26
家长买“猪肉记号笔”标记新生婴儿,医院:现在基本不会抱错孩子,不推荐使用

家长买“猪肉记号笔”标记新生婴儿,医院:现在基本不会抱错孩子,不推荐使用

潇湘晨报
2025-11-14 09:15:24
杀人诛心?世界第1回应6连鞭赵心童:我状态只有10% 他给了我机会

杀人诛心?世界第1回应6连鞭赵心童:我状态只有10% 他给了我机会

风过乡
2025-11-15 08:53:22
苏州迎来新任市委书记,迈向更强“苏大强”

苏州迎来新任市委书记,迈向更强“苏大强”

黎禾梨财经人物
2025-11-14 20:55:22
中到大雪!中雨!大风!吉林省紧急通知!

中到大雪!中雨!大风!吉林省紧急通知!

鲁中晨报
2025-11-15 09:39:03
婚宴后茅台酒“集体失踪”? 网络视频质疑服务员“藏酒” 酒店硬刚回复: 用宴会厅监控还原每瓶酒的轨迹

婚宴后茅台酒“集体失踪”? 网络视频质疑服务员“藏酒” 酒店硬刚回复: 用宴会厅监控还原每瓶酒的轨迹

扬子晚报
2025-11-13 22:34:04
一场4-2夺冠,主帅抢镜意外引热议,邓亚萍直言:国际赛场不允许

一场4-2夺冠,主帅抢镜意外引热议,邓亚萍直言:国际赛场不允许

大秦壁虎白话体育
2025-11-15 09:02:46
赛事方回应赵鸿刚申诉:判罚已不能改变,希望你尽快回来再打一场

赛事方回应赵鸿刚申诉:判罚已不能改变,希望你尽快回来再打一场

杨华评论
2025-11-14 15:54:05
6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

乐天闲聊
2025-11-14 11:42:56
越南向世界隐瞒40余年,对越反击战中,越南竟然还藏了惊人力量

越南向世界隐瞒40余年,对越反击战中,越南竟然还藏了惊人力量

牛马搞笑
2025-11-15 04:51:19
高圆圆和大学四个闺蜜的合照里,活脱脱现实版“五朵金花”

高圆圆和大学四个闺蜜的合照里,活脱脱现实版“五朵金花”

TVB的四小花
2025-11-14 13:55:30
案情越来越清晰!长治“狗咬人引发命案”的致命伤,或与被告无关

案情越来越清晰!长治“狗咬人引发命案”的致命伤,或与被告无关

火山诗话
2025-11-14 08:58:55
后续!破坏马库斯小屋的贾某被扒,背后组织曝光 官方处罚大快人心

后续!破坏马库斯小屋的贾某被扒,背后组织曝光 官方处罚大快人心

鋭娱之乐
2025-11-14 17:34:23
2025-11-15 10:52:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
126287文章数 861396关注度
往期回顾 全部

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

头条要闻

业主爆改一梯一户 公摊电梯厅成火锅涮菜区和私人影院

头条要闻

业主爆改一梯一户 公摊电梯厅成火锅涮菜区和私人影院

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

科技要闻

撕掉流量外衣,小米还剩什么?

态度原创

健康
亲子
手机
公开课
军事航空

金振口服液助力科学应对呼吸道疾病

亲子要闻

勇敢朝前走彩虹在后头

手机要闻

CounterPoint称iPhone Air成鲶鱼,倒逼中国手机企业紧跟eSIM

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版