K2 Thinking再炸场，杨植麟凌晨回答了21个问题|算法|调用|优化器|新模型|kimi|thinking

分享至

文｜邓咏仪

编辑｜苏建勋

继上周发布K2 Thinking再度引起全球热议后，很快，北京时间凌晨11月11日，月之暗面创始人杨植麟，以及合伙人周昕宇、吴育昕，在Reddit社区进行了长达数小时的线上AMA（Ask Me Anything）环节，解答新模型相关的问题。

这也是数位联创第一次共同露面。

从高举高打到转向模型技术冲锋，如今的Kimi不再投流，愈发安静了。这次的新模型发布，和三个月前K2发布一样走低调路线：不开线下正式发布会，在社区直接发布模型。

团队主创选择在Reddit、知乎上回答问题，也和Kimi现在的开源路线一脉相承——这些社区都是AI从业者、极客聚集的地方。

国外开发者们毫不吝啬对Kimi K2的喜爱。AMA环节开始后，数十个问题很快填满讨论串，夹杂着对Kimi性价比、开源深度的称赞，“绝对伟大的模型！”不少用户表示。

不少开发者还现场“催更”，希望Kimi团队快点推出K2 Thinking更小体量的模型，部署在PC端，或者用于企业生产环境。

杨植麟也首次澄清了一系列传闻——还会继续开源吗？K2 Thinking的460万美金训练成本是真的吗？以及下一代K3模型的计划，K2 Thinking关键的训练细节。

△杨植麟回应训练成本问题

△以后会发布更大规模的闭源模型吗？一个含蓄的回答：如果模型变得越来越危险的话:)

Kimi团队也坦诚回应了技术讨论，甚至幽默地回应了一下最近的AI泡沫——“我们也不知道（为什么OpenAI烧钱哦），只有Sam知道，我们有自己的节奏。”月之暗面联合创始人周昕宇表示。

△月之暗面联合创始人周昕宇

新发布的K2 Thinking，是个高达1万亿参数，稀疏混合专家（MoE）架构模型——这是开源模型里相当大的体量。

在多个代表前沿能力的基准测试中，K2 Thinking确实取得了不错的成绩，尤其强在推理、任务执行上。

在以高难度著称的测试集HLE（Humanity's Last Exam，有超过3000道高难度人类专家测试题）、BrowseComp（自主网页浏览）等Agent榜单上，K2-Thinking的分数甚至超过了GPT-5。

K2 Thinking继承了DeepSeek的架构设计，不过在此基础上做了更多创新工作——参数放得更大，采用了INT4等新的量化手段。

从价格上看，K2-Thinking的成本优势巨大，其百万token输出价格为2.5美元，仅为GPT-5（10美元）的四分之一，被很多人称之为GPT-5和Claude Sonnet 4.5的“平替”。

“这是又一次DeepSeek式的辉煌时刻吗？”K2 Thinking发布后，Hugging Face联合创始人Thomas Wolf在X上感慨。

最近几个月，可以说是国产大模型的丰收季。各大厂商像是约好了接力开源，给了硅谷一点小小的震撼——9月，智谱发布GLM-4.6，10月MiniMax发布M2，加上这次的K2 Thinking，在全球榜单上上打得有来有回，好不热闹。

（我们也将此次AMA的完整问答整理在了文末）

话唠的K2 Thinking，是为了更好做任务

在AMA环节以及知乎等社区，不少开发者的第一个感觉是：K2 Thinking很话唠。问它一个问题，思考时间很长，虽然便宜，但Token消耗巨大。

话唠，其实是为了一个最重要的目的：让AI能够帮人类完成更多任务。

从K2到K2 Thinking，一切设计都围绕这一点开始：专注Agentic（智能体）能力，让AI不只是聊天，而是能真正完成任务。

K2 Thinking高达万亿参数，但大体量并不是为了炫技，而是希望能够让模型能够囊括更多知识，有利于理解和执行任务，这相当于“脑子更聪明”；但K2 Think在实际运行时，激活参数控制在300亿，也保证了回答问题和执行任务的速度足够快。

长思维链是K2 Thinking的长板。据Kimi官方介绍，K2 Thinking能够连续执行200-300次工具调用来解决复杂问题，保证任务连续性。

知乎上的一位答主@平凡就做了个实验：给K2 Thinking一个博士级别的数学难题，仅用了23次工具调用，K2 Thinking就成功了解决问题。

K2 Thinking的具体执行过程是这样的：

第一步：模型首先理解问题，规划出解决路径
第二步：调用搜索工具，查找相关的解法和理论
第三步：分析搜索结果，判断是否可用
第四步至第N步：反复调用Python代码执行器，编写代码、进行计算、验证假设

循环：在"思考-调用工具-验证结果"的循环中不断迭代，直到问题解决

不难看出，这是在模仿人类解决问题的过程，在“思考-调用工具-验证结果”的循环中不断迭代。

“步数”衡量的是模型的长程执行能力和耐力。步数越多，代表模型能处理的任务越复杂、越需要多轮迭代，并且在这个过程中，如何让模型不容易跑偏最初的目标，这个是训练的主要难点之一。

K2 Thinking的很多设计，核心目标是确保模型能够完整处理复杂任务而不丢失信息。为了达到“性能第一”这个目标，Kimi团队的取舍在于，可以牺牲一点Token效率——话唠一点也没关系，但要保证任务完成。

对于前不久DeepSeek爆火的OCR路线研究（纯像素输入模型），团队也谈了谈想法。“我个人觉得这条路走得有点重了，我更倾向于继续在特征空间（Feature Space）里下功夫，去找到更通用、并且与具体模态无关（Modality-agnostic）的方法，来提升模型效率。”月之暗面联合创始人吴育昕说。

△月之暗面联合创始人周昕宇

除了文本模型，Kimi团队也表示，其他模态如视觉理解，正在努力当中，时间线可能还要往后推推。

Claude断供后，国内创新速度反而更快了

无论是Kimi K2 Thinking的发布，还是GLM、MiniMax M2，共同指向的一个趋势是：在基础设施如芯片受限、Claude断供的情况下，国产大模型在算法创新上反而加快了进程。

关于训练成本，杨植麟明确表示460万美元“不是官方数字”，并表示很难量化培训成本，因为主要部分是研究和实验，这部分无法包含在一次性训练成本当中。

可以肯定的是，K2 Thinking是在比较有限的条件下完成的。杨植麟表示，K2 Thinking包括在配备Infiniband的H800 GPU上进行训练。相比美国，Kimi在GPU数量上处于劣势，但把每张显卡的性能都压榨到了极致。

不止是Kimi，如今仍在基座模型上投入的国内团队，都在算法层面找到了细分创新方向。

一个典型例子是，MiniMax和月之暗面面对“如何高效处理长上下文”这个问题，就给出了不一样的选择。

MiniMax的上一代模型M1，采用的一个关键模型极致是Linear Attention（线性注意力机制），但到了M2，又回退到了full attention（全注意力机制）。

两者区别在于，MiniMax希望技术实现更稳定，在处理长链条信息时不要丢失关键内容。MiniMax在近期的技术博客就表示：在实际应用中发现，虽然Linear Attention能省算力，但对于多步推理的复杂Agent任务，传统方法反而更可靠，他们更看重在当前工程体系下的稳定性。

Kimi则选择了更激进的路径。比如最近发布的Kimi Linear，从更底层的硬件、架构层面，研发了KDA+MLA路线，即用3:1的比例，把KDA和MLA路线混合在一起。

传统的Transformer架构，就像一个记忆力超群但有点健忘的秘书——模型每个字都能记住，不会遗漏细节；但记的东西越多，模型的计算时间就以平方为单位增加。

而采用KDA架构之后，迫使模型学会“抓重点信息”。模型可以选择性按照每个字来标注重要性、时效性等维度，选择性忘掉一些细节。这种新架构在性能、速度、显存占用上，会有巨大优势。

技术路线的选择背后，也和各家如今商业目标的不同有关。

各家公司的打法开始出现明显分化。Minimax M2的定位是性价比，推理速度快，多模态选择丰富，希望吸引开发者在他们的平台上构建丰富的应用生态；

Kimi则选择继续“爬山”，专注于把文本模型的能力做到极致，探索智能的上限。在这个目标之下，团队选择性能为先，让Agent更可用，暂时不太考虑Token消耗效率。

而智谱GLM就抢占了不少Claude断供之后的市场，特别是在编程和推理场景，GLM-4.6从性能、效率和价格上，是一个相对全面的模型，让企业能够快速上手使用，很多应用厂商也可以直接套壳。

这些选择没有对错之分，只是在当前环境下不同的生存策略。

实际上，中国开源模型的应用生态正在形成自己的优势——许多海外开发者开始在中国的开源模型上构建应用，并积极提供反馈。可以预见的是，这场开源风暴，也会带来应用的更多爆发。

附在AMA环节问答，经《智能涌现》编辑整理，有部分合并：

Q：460万美元训练成本是真的吗？

Kimi：这不是一个官方数字。很难量化培训成本，因为还有很大一部分工作是研究和实验。

Q：是什么导致你们这些疯子（深情地说），选择用一个相对未经测试的优化器，来训练如此庞大的模型？

Kimi：Muon是一个未经其他人测试的优化器（Optimizer），但是在我们的实验里，它通过了缩放定律验证流程（Scaling Laws Ladder）。

我们对我们的研究体系（Research Stack）有信心，你可能会认为我们选择Muon只是运气好，但是选择的背后是，有几十个优化器和架构没有（在实验中）通过考验。

Q：你们的训练硬件配置是怎么样的？想了解一下你们的基础设施和美国顶尖公司相比有什么不同。

Kimi：我们用的是配备Infiniband的H800 GPU。虽然不如美国的高端GPU，我们在数量上也不占优势，但我们充分利用了每一张卡！

Q：在你们的预训练中过程中，最重要的指标是什么？消融架构更改的过程是怎么样的？在什么尺度上进行测试，需要查看哪些指标，以确保模型表现良好？

以及，你们做了什么，在预训练前后，让数据更有利于模型学习？有哪些指标可以预测数据是否对模型有益/有益，可以分享一些经验吗？

Kimi：最重要的指标是：损失（Loss）、基准测试（Benchmarks）和内部稳定性内部指标。

我们有一个在多个尺度上不断发展的缩放定律验证流程，模型消融环节必须在进行下一个之前通过小规模验证。所有指标都很重要。

如果有任何意外，我们将暂停扩大模型规模，直到问题被理解和解决。

最重要的超参数是学习率（以及学习率调度器）。变量太多，所以最好在深入超参数搜索工作之前，先了解一下超参数的情况。

一个好的数据集，必须在训练期间有一个好的基准趋势。如果不是，那就好优化数据或找到一个更好的基准来显示进展。

我想说的是，找到合适的数据集（data mixture）是一门艺术。因为数据集之间有太多的交互和共享模式。从你的直觉开始，但最终相信实验。

Q：只做纯文本模型，这是一个为了达到SOTA（达到当前最好的性能）的取舍，还是说这是你们真就押注的长期方向？未来会考虑增加上下文窗口到1M吗？

Kimi：要做视频理解模型，获取数据和训练都需要时间，因此我们选择首先发布文本模型。

我们以前做过1M上下文窗口，但是现在服务太贵了。我们将来会重新审视更长的上下文窗口。我们应该能够在未来的版本中增加上下文长度。

Q：你们会发布适合MacBook的小型模型吗？或者有没有计划制作32B或20B 模型？

Kimi：我们注意到了这个需求，但目前没有对MacBook友好型模型的具体计划。像Kimi Linear这样的小模型很可爱，我们很可能会在未来发布更多作为研究演示。

Kimi-Linear-48B-A3B-Instruct是我们发布的小模型的一个例子。将来我们很可能会训练更多并添加更多功能。

Q：Kimi K2 Instruct是如何拥有如此独特而富有洞察力的散文风格的？这主要是归功于后训练吗？

Kimi：我们也喜欢它的写作风格，它是我们后期训练数据和评估的重要组成部分。

预训练阶段为模型打下了基础，赋予了它相关的先验知识和能力（priors），这就像是奠定了模型的“底蕴”。

而后训练阶段在此基础上增添了一些独特的风味和个性（taste）。

很有意思的是，不同的强化学习（RL）策略或方法（RL recipes）确实能让模型呈现出截然不同的风格和特点（different tastes）。

人们对这些细微之处有不同的喜好，模型的风格大体上也反映了我们的喜好。

Q：Kimi K2 Thinking虽然称得上是目前最适合创意写作的大模型，但仍有很大的提升空间。它在语言表达上存在不少瑕疵（slop issues）。

此外，尽管Kimi比其他模型审查更少、刻意的“正能量”也更少，但在处理残酷的战斗场景或角色间充满矛盾的真实对话时，输出内容过于安全和套路化（GPT-isms）。给人的感觉不是真实的人类情感，而是一种“有毒的积极”（toxic positivity）。这些问题在未来版本中会得到解决吗？

最后一个问题：未来会支持NSFW（成人内容）吗？Grok允许生成NSFW内容，但文笔很差。OpenAI最近也宣布会推出ChatGPT的成人版本。如果Kimi能大幅放宽审查，这是一个能发挥Kimi写作优势、抢占市场的好机会。

Kimi：这是非常宝贵的反馈。

关于语言表达的瑕疵问题（slop），我们已经取得了一些进展，但这确实是所有大语言模型（LLM）长期面临的挑战。从技术上讲，LLM的训练过程会不断强化数据中已有的模式，导致某些模式被过度放大，从而偏离了真实人类的偏好。但我们相信，这个问题是有解决方案的。

关于减少审查和刻意的正面引导，这应该是可以实现的，我们会进一步研究！

至于NSFW内容，我们需要先找到一种可靠的年龄验证方法。我们可能需要根据不同场景对模型进行调整，并更新我们的服务条款来反映这些变化。这些都是非常棒的建议！

Q：会开发双向对话模型吗？

Kimi：我们没有专门的双向对话模型。不过，任何双向注意力机制（Bidirectional Attention），都可以通过延长因果注意力模型（Causal Attention）的上下文长度，来实现类似的效果。

Q：K2 Thinking最大的技术挑战是什么？

Kimi：一个挑战是支持交错的"思考-工具-思考-工具"模式。这在LLM中是一种相对较新的挑战，需要大量的工作才能正确运行。

Q：K2可以做到200-300步的稳定工具调用，这是如何实现的？

Kimi：我们使用端到端智能体强化学习（End-to-end Agent RL）训练K2 Thinking，这导致了数百个步骤的工具调用以及包括检索（Retrieval）在内的中间步骤的更好性能。

Q：如何保障长链推理的稳定性？为什么Kimi K2思维可以在单次推理中，实现如此长的推理时间和推理链？GPT5 Pro使用代理来延长推理时间，但推理效果仍然不如K2的单次长推理。将来会进一步考虑提高基础模型的推理时间吗？

Kimi：这需要大量的工程工作才能正确实现。当数据集组合时，我们可以更好地进行观察泛化（Generalization）。

推理时间取决于API吞吐量，而Token的数量取决于如何训练模型。我们训练K2思维的方式，倾向于用相对更多的Token来思考，以达到最佳结果。

我们的K2 Thinking Turbo的API应该更快。此外，K2思维本身就是采用的INT4，这进一步加快了推理过程。

Q：想请教一下，你们觉得从int4到fp4算是一次实质性的提升吗？还是说int4的效果其实已经足够好了？

Kimi：我们选择int4，主要是为了更好地兼容非Blackwell架构的GPU，同时也能直接用上社区现有的Marlin int4推理内核（https://github.com/IST-DASLab/marlin)。

对这个话题，我们团队的工程师有一篇更详细的分析，可以参考（中文）：https://www.zhihu.com/question/654759544/answer/3493279960

Q：以后的K3，会有什么新突破？

Kimi：我们很乐意在K3中加入重大架构更改并开发新功能。KDA（Kernel-Attention Dual Architecture）是我们最新的实验架构，相关的想法很可能会在K3中使用。

Q：你们有计划推出像AI浏览器这样的产品吗？

Kimi：我们目前的重心还是在模型训练上，但会持续将我们的最新能力更新到kimi.com 网站上。

我们认为，要做好模型，并不需要再去做一个浏览器“壳”（Chromium Wrapper）。

Q：会计划发布更大规模的闭源模型吗？

Kimi：如果模型变得越来越危险的话（if it gets too dangerous）:)

Q：为什么选择开源策略？Kimi会开源安全对齐技术栈吗？

Kimi：同意。发布安全对齐（Safety Alignment）技术栈，将惠及更多从事开放模型进一步微调（Fine-tuning）的人。我们可能还需要更多机制，确保这些微调工作遵循特定的安全协议。

我们拥抱开源，因为我们相信AGI（通用人工智能，Artificial General Intelligence）应该是一种导致团结而不是分裂的追求。

Q：如何看待与OpenAI等巨头的竞争？为什么OpenAI这么烧钱？

Kimi：不知道，可能只有Sam知道哦，我们有自己的方式和节奏。我们的使命是“寻求从能源到智能的最佳转换”。在可预见的未来，我们依旧将专注于提高智能。

Q：会提升多语言能力吗？

Kimi：我们很想教Kimi说更多的语言，但我们在不同语言方面的带宽和知识有限。也许这也是开源社区可以提供帮助的地方，例如在数据采集方面。

Q：你们如何看待最近从一些闭源模型（Gemini、GPT）过度赞美用户的趋势？Kimi会试图阻止这种行为吗？

Kimi：模型具有不同的个性化偏好是好的。我们相信，未来模型拥有更多元化的风格与能力将成为一种趋势。

Q：你们是“AGI信徒”吗？预测一下AGI什么时候能实现？

Kimi：AGI这件事很难定义，但大家已经能感觉到那个范儿了，未来会有更多更强大的模型。

封面来源｜AI生成

欢迎交流

本文来自微信公众号“智能涌现”，作者：邓咏仪，36氪经授权发布。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.