月之暗面三位联创深夜回应一切！3小时答全球网友23问，杨植麟剧透Kimi K3提升巨大|于新|算法|ama|kimi

分享至

智东西
编译陈骏达
编辑云鹏

智东西1月29日报道，今天凌晨，月之暗面核心团队在社交媒体平台Reddit上举行了一场有问必答（AMA）活动。三位联合创始人杨植麟（CEO）、周昕宇（算法团队负责人）和吴育昕与全球网友从0点聊到3点，把许多关键问题都给聊透了，比如Kimi K2.5是否蒸馏自Claude、Kimi K3将带来的提升与改变，以及如何在快速迭代与长期基础研究之间取得平衡。

▲AMA栏目截图（图源：Reddit）

一开始，便有网友抛出尖锐问题：Kimi K2.5有时会自称为Claude，有人怀疑这是对Claude进行蒸馏的证据。杨植麟回应道，这一现象主要是由在预训练阶段对最新编程数据进行了上采样，而这些数据似乎与“Claude”这个token的关联性较强，事实上，K2.5在许多基准测试中似乎都优于Claude。

谈及Kimi K3，杨植麟没透露太多细节，但提到了K3会在Kimi Linear上加入更多架构优化，他相信，就算Kimi K3没比K2.5强10倍，也肯定会强很多。

整场问答中，月之暗面的三位联合创始人共回答了40多个问题。智东西也向他们提出了3个问题，并获得了直接回应。

当智东西问及月之暗面的算力储备时，杨植麟称，GPU数量的差距并未缩小，但实现AGI究竟需要多少算力，仍需拭目以待，而周昕宇补充了一句颇具哲理的话：创新往往诞生于约束之中。

▲杨植麟、周昕宇回应智东西关于算力储备的问题（图源：Reddit）

周昕宇还提到，月之暗面有“把事情真正做成并落地”的共同价值观，而不仅仅是为了表面光鲜。

此次AMA正值Kimi K2.5的发布。这是月之暗面目前最强大的模型，在视觉、编程、Agent以及各种通用任务上都有不错的表现，还通过一项名为智能体蜂群的技术实现一个模型对多达100个“子智能体”的调度，任务执行效率最高提升450%。

发布后2天左右，Kimi K2.5获得权威AI评测榜单Artificial Analysis开源模型第一的成绩，仅次于来自OpenAI、Anthropic和谷歌的4款模型。

我们将AMA中的精华内容梳理归纳为23个关键问题，分为三章呈现，第一章聚焦月之暗面公司本身及AI行业相关话题，第二章介绍 Kimi K2.5的技术细节，第三章展望月之暗面的未来规划。

完整问答链接：

https://www.reddit.com/r/LocalLLaMA/comments/1qpewj7/comment/o28hvpt/

一、GPU数量差距并未缩小，但创新往往诞生于约束之中

（1）智东西提问：在上次的AMA中，您提到月之暗面的GPU数量（相较其他企业）处于劣势。在2026年，这种差距会缩小吗？

杨植麟：我认为差距并没有缩小。但是，要实现通用人工智能（AGI）究竟需要多少算力？我们拭目以待。

周昕宇：可用算力受到太多因素的影响。但无论如何，创新往往诞生于约束之中（innovation loves constraints）。

（2）网友提问：您对DeepSeek的Engram架构有何期待？您是否正在考虑采用这种架构？

周昕宇：对嵌入进行Scaling是一个值得探索的有趣方向。但在我们通过Scaling阶梯对其进行测试之前，我们还没有太多可靠的数据。

（3）智东西提问：这是一个关于你们研究文化的问题。大规模模型训练会消耗大量的GPU时间，如何界定沉没成本？比如说，某个方向经过三个月的实验后没有明显的性能提升，你们的团队会根据哪些指标来决定是继续、调整方向还是彻底放弃？

鉴于行业内快速迭代的步伐，你们是否担心追求短期成功的压力，会影响那些需要多年才能见效的基础研究？您如何使您的团队免受这种压力的影响？

周昕宇：非常好的问题。针对第一个问题，我们会将所有相关实验的结果分享给所有技术人员，并进行深入讨论，直到最终决定是继续、转型还是彻底放弃。

讨论每天都会进行，我们鼓励每个人对所有事情提出质疑，从目标设定到最细微的技术细节。

针对第二个问题，长期以来，我们在押注技术基本面的走势上有着相当不错的记录。MoBA几乎从公司成立之初就开始了；Kimi Linear也经历了将近一年的探索与挣扎。

关键在于团队要有“把事情真正做成并落地”的共同价值观，而不仅仅是为了表面光鲜。我们的组织、文化和管理都是为了支撑这一价值观而建立的。

（4）网友提问：你们最喜欢工作中的哪一部分？

杨植麟：我们喜欢训练模型，因为这让人感觉在不断接近真相：关于什么是有效的、什么是无效的真相，关于智能是如何被创造出来的真相。

（5）网友提问：请问训练视觉语言模型（VLM）的主要挑战是什么？为什么Kimi如此致力于训练视觉模型？

杨植麟：主要挑战在于如何同时提升文本和视觉性能。我们发现，当方法得当时，文本和视觉可以相互促进。

例如，我们观察到，在视觉任务上进行强化学习训练可以提升文本知识基准测试的成绩。另一方面，像K2这样强大的文本库对于提升视觉性能也至关重要。

（6）网友提问：Kimi Code和Claude Code有什么区别？为什么Kimi要开发自己的编程工具？

杨植麟：我们认为我们需要一个与模型最匹配的框架。但使用Claude Code时，框架会不断变化，兼容性有时会成为问题。

此外，Kimi Code还拥有一些独有的功能，例如视频输入。我们认为video2code（视频生代码）非常重要，代表着前端开发的未来。

（7）网友提问：强化学习基础设施已成为关注的焦点。考虑到训练像智能体蜂群这样的系统的复杂性，在像verl这样的开源框架上实现起来会相当具有挑战性。你们在强化学习基础设施方面所做的具体改进是什么？

吴育昕：强化学习基础设施的确是一项巨大的挑战，我们力求在保持良好灵活性的同时实现高效率。在效率方面，我们尝试在开发训练和推理系统时充分考虑强化学习的实际应用场景，以便复用所有繁重的计算工作，从而实现规模化扩展。

智能体蜂群的部署逻辑尤其复杂，但我们的系统具有极高的灵活性，允许我们将不同的框架和子智能体设置集成到训练过程中。

（8）网友提问：我想问一下与你们的Scaling阶梯有关的问题。你们开始实验的最小规模（主动/被动）是多少？通常步长是多少？另外，你们是否会根据所做的更改类型（数据、优化器、线性注意力机制等）采用不同的Scaling阶梯？

周昕宇：我们从非常小的规模开始。我个人有时会从小到可以在单个CPU上训练的模型开始。

核心目标是预测系统的可扩展性。有些架构无法扩展，有些优化器无法扩展，甚至有些数据也无法扩展。在低FLOPs下评估可扩展性是一个有趣的研究课题，它需要对训练过程中的数学动态有深刻的理解，同时也需要兼顾严谨性和创造性。

举个例子：我们曾经急于将Kimi Linear移植到Kimi K2中，但它在达到一定规模后Scaling失败了。我们不得不暂停开发，经过漫长的调试过程，最终历经数月才使其达到如今Kimi Linear的水平。

从统计学角度来看，大多数小规模行之有效的方案都无法突破规模化瓶颈。而那些能够成功推广的方案通常都简单有效，并且有数学依据。研究的重点在于如何应对失败，而不是庆祝成功。

二、模型自称Claude并非因为蒸馏，智能的上限取决于新学习算法

（9）智东西提问：Kimi K2.5使用了平行智能体强化学习技术。你们会不会将主要算力预算从预训练转向强化学习？在K3路线图中，强化学习的算力规模是否会超越预训练？

杨植麟：强化学习的计算量将持续增长。更重要的是，增加强化学习计算量的方法有很多，而且有些方法比其他方法更有效。未来可能会出现更多新的目标函数来对模型进行强化训练，尤其是在智能体领域。

（10）网友提问：Kimi K2.5已经证明，通过强化学习扩展思考token是实现前沿推理的可行途径。考虑到训练CoT（思维链）策略的巨大工程开销和生成思考token的推理延迟，你们是否正在探索架构递归作为一种在不将计算外部化到KV缓存的情况下实现P/poly复杂度的方法？

杨植麟：在当前的架构下，我们所关心的许多问题在计算意义上其实都是可解的。在很多情况下，模型能力的瓶颈并不在于其路线复杂度（circuit complexity），而在于任务本身是否是可验证的。这意味着两点：

一方面，我们当然可以通过设计更高效的架构来降低特定任务所需的路线复杂度，从而提升token使用效率；

不过，智能的上限更多地取决于能否发明新的学习算法。这些算法应当能够超越预先定义的、可验证的任务，而不仅仅是依赖更高效的模型架构。

（11）网友提问：Kimi K2.5非常棒，但我看到有人说模型会自称为Claude，并把这当作你们大量蒸馏（distill）自Claude模型的证据。这是怎么回事？

杨植麟：我们的观察是，在正确的系统提示词下，它有很高的概率回答“Kimi”，尤其是在思考模式下。

但当系统提示为空时，它就进入了一个未定义区域，这更多地反映了预训练数据的分布情况。其中一项改进是，我们在预训练阶段对来自互联网的最新编程数据进行了上采样，而这些数据似乎与词元“Claude”的关联性更强。

事实上，K2.5在许多基准测试中似乎都优于Claude，例如HLE、BrowseComp、MMMU Pro和MathVision等等。

（12）网友提问：我想知道你们是如何降低K2的幻觉问题的？幻觉问题似乎是K2模型的主要弱点，也是我之前没有使用Kimi的原因。但目前来看，2.5版本更加可靠。

吴育昕：对于所有大模型来说，管理幻觉仍然是一个巨大的挑战。我们已经通过提高数据质量（更多经过验证的知识，更少低质量的说法）和奖励机制（例如，当模型出现幻觉时进行惩罚）来改善这种情况，但我们认为仍然有很多方法可以进一步改进。

（13）网友提问：Kimi K2.5使用了较高的参数比例（约470:1）。您认为我们目前是否因为使用15万亿个token进行过度训练而“浪费”了计算资源？

吴育昕：我不确定1:1最优性是否仍然成立，但从这个意义上讲，我们确实会“浪费”一些训练计算资源。否则模型会更大，并且与我们现在的模型相比，会“浪费”大量的推理计算资源。

周昕宇：如果你追求计算最优（compute-optimal）的训练方式，那么大多数有用的模型实际上都是被过度训练的；更大的模型只是“过度训练得没那么严重”。

而计算最优训练通常要求模型规模足够大，这会对现有基础设施带来巨大的挑战，同时也会显著提高推理成本。我并不认为过度训练是一种“浪费”，而更像是我们为了获得更优整体权衡而主动支付的一种“成本”。

（14）网友提问：Kimi K2.5的“智能体蜂群”功能最多可协调100个子智能体。在这种规模下，“协调器”模型往往会成为瓶颈。Kimi K2.5如何处理管理100个并行推理流所带来的延迟和上下文信息丢失问题？

吴育昕：“智能体蜂群”的一个很酷的点在于，各个子智囊团可以在不“腐蚀”或污染主调度器上下文的情况下独立执行子任务。它们本质上拥有各自的工作记忆，只在必要时将结果返回给调度器。这使我们能够在一个全新的维度上扩展整体的上下文长度。

（15）网友提问：在Kimi K2.5中，你们如何权衡强化编程能力与保持甚至提升非编程能力（如创意写作和情绪理解）之间的关系？

在K2发布时你们在官方介绍中强调了创意写作和情商。团队是如何在训练和优化过程中，确保这些对用户体验至关重要但更“软性”的能力不发生退化的？

杨植麟：在模型参数规模足够的情况下，我认为编程能力和创意写作之间不存在根本性的冲突。但确实，随着我们不断改进奖励模型，要在不同模型版本之间保持一致的“写作品味”本身就是一项挑战。

我们的一项做法是依赖内部基准评测（几乎可以看作一种“元评测”）来反映模型在创意写作方面的进展，并据此对奖励模型进行相应调整。

（16）网友提问：K2.5的个性和写作风格明显变得更加通用，更像其他模型的“贴心助手”风格了。我们非常喜欢K2的个性！K2.5到底发生了什么？你们是否已经注意到这个问题并正在调查？

吴育昕：遗憾的是，每次新版本发布后，我们都会看到模型“个性”发生一定程度的变化。这是一个相当棘手的问题，因为个性是模型主观且难以评估的特征。我们正在努力解决这个问题，并且希望能够让产品更好地满足每位用户的个性化需求。

三、K3将在Kimi Linear基础上优化，即便没比K2.5强10倍也会强得多

（17）网友提问：Kimi K3的重点会是什么？原始性能？长期目标？还是上下文长度？

杨植麟：我们正在尝试新的架构和新功能。

（18）网友提问：Kimi K3是否一定会采用线性架构或其他新架构？如果真是如此，您将如何确保K2.5 Thinking的性能得以保留，甚至进一步提升？尤其是在多模态性能方面。我担心架构改变后可能会出现不稳定的情况。

杨植麟：线性架构是一个非常不错的选择。我们做了很多研究，包括Kimi Linear。希望我们能在此基础上加入更多架构优化。

我相信Kimi K3就算没有比K2.5强10倍，也肯定会强得多（I’m sure it will be much, if not 10x, better than K2.5.）。

（19）网友提问：你们未来对在线/持续学习方面有什么计划，特别是针对Agentic模型？Kimi Linear与K2.5有什么关系？线性注意力仍然是主要研究方向之一，还是会发展成为一个独立的研究分支？

周昕宇：我们相信，持续学习能够提升模型的自主性，并使它们能够更长时间地高效工作。我们正在积极探索这一方向。Kimi Linear是与K2.5并行开展的一项专门研究项目。我们正大力投资于线性注意力机制，将其作为未来模型的一个关键方向。

（20）网友提问：你们是如何考虑模型的角色塑造的？如果有的话，你们对“Kimi”这个角色有什么目标？

杨植麟：我认为模型的核心在于“品味”，因为智能本身是非同质化的（non-fungible）。我个人很喜欢K2.5打造的前端设计，它有着独特的审美取向。

模型的性格也是“品味”的一种体现。有报道称，K2.5相比其他模型更少迎合用户。这或许是一种好的性格特征，因为持续不断地强化用户原有的观点，在某些情况下可能是危险的。

（21）网友提问：请问你们有计划开源“智能体蜂群”或者将其作为一项功能添加到Kimi-cli中吗？

杨植麟：目前它还处于测试阶段。待其更加稳定后，我们将向开发者提供框架。希望很快就能实现。

（22）网友提问：为什么不把视觉编码器做得大于400M呢？

吴育昕：小型编码器在很多方面都有利于Scaling，所以我们甚至会问自己：为什么不把它设为0呢？

（23）网友提问：你们有计划推出带有原生音频输入功能的模型吗？

杨植麟：目前我们没有足够的资源来处理音频输入，所以可能会把重点放在训练更好的智能体上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.