网易首页 > 网易号 > 正文 申请入驻

K2 Thinking再炸场,杨植麟凌晨回答了21个问题

0
分享至

文|邓咏仪

编辑|苏建勋

继上周发布K2 Thinking再度引起全球热议后,很快,北京时间凌晨11月11日,月之暗面创始人杨植麟,以及合伙人周昕宇、吴育昕,在Reddit社区进行了长达数小时的线上AMA(Ask Me Anything)环节,解答新模型相关的问题。

这也是数位联创第一次共同露面。

从高举高打到转向模型技术冲锋,如今的Kimi不再投流,愈发安静了。这次的新模型发布,和三个月前K2发布一样走低调路线:不开线下正式发布会,在社区直接发布模型。

团队主创选择在Reddit、知乎上回答问题,也和Kimi现在的开源路线一脉相承——这些社区都是AI从业者、极客聚集的地方。

国外开发者们毫不吝啬对Kimi K2的喜爱。AMA环节开始后,数十个问题很快填满讨论串,夹杂着对Kimi性价比、开源深度的称赞,“绝对伟大的模型!”不少用户表示。

不少开发者还现场“催更”,希望Kimi团队快点推出K2 Thinking更小体量的模型,部署在PC端,或者用于企业生产环境。

杨植麟也首次澄清了一系列传闻——还会继续开源吗?K2 Thinking的460万美金训练成本是真的吗?以及下一代K3模型的计划,K2 Thinking关键的训练细节。


△杨植麟回应训练成本问题


△以后会发布更大规模的闭源模型吗?一个含蓄的回答:如果模型变得越来越危险的话:)

Kimi团队也坦诚回应了技术讨论,甚至幽默地回应了一下最近的AI泡沫——“我们也不知道(为什么OpenAI烧钱哦),只有Sam知道,我们有自己的节奏。”月之暗面联合创始人周昕宇表示。


△月之暗面联合创始人周昕宇

新发布的K2 Thinking,是个高达1万亿参数,稀疏混合专家(MoE)架构模型——这是开源模型里相当大的体量。

在多个代表前沿能力的基准测试中,K2 Thinking确实取得了不错的成绩,尤其强在推理、任务执行上。

在以高难度著称的测试集HLE(Humanity's Last Exam,有超过3000道高难度人类专家测试题)、BrowseComp(自主网页浏览)等Agent榜单上,K2-Thinking的分数甚至超过了GPT-5。

K2 Thinking继承了DeepSeek的架构设计,不过在此基础上做了更多创新工作——参数放得更大,采用了INT4等新的量化手段。

从价格上看,K2-Thinking的成本优势巨大,其百万token输出价格为2.5美元,仅为GPT-5(10美元)的四分之一,被很多人称之为GPT-5和Claude Sonnet 4.5的“平替”。

“这是又一次DeepSeek式的辉煌时刻吗?”K2 Thinking发布后,Hugging Face联合创始人Thomas Wolf在X上感慨。

最近几个月,可以说是国产大模型的丰收季。各大厂商像是约好了接力开源,给了硅谷一点小小的震撼——9月,智谱发布GLM-4.6,10月MiniMax发布M2,加上这次的K2 Thinking,在全球榜单上上打得有来有回,好不热闹。

(我们也将此次AMA的完整问答整理在了文末)

话唠的K2 Thinking,是为了更好做任务

在AMA环节以及知乎等社区,不少开发者的第一个感觉是:K2 Thinking很话唠。问它一个问题,思考时间很长,虽然便宜,但Token消耗巨大。

话唠,其实是为了一个最重要的目的:让AI能够帮人类完成更多任务。

从K2到K2 Thinking,一切设计都围绕这一点开始:专注Agentic(智能体)能力,让AI不只是聊天,而是能真正完成任务。

K2 Thinking高达万亿参数,但大体量并不是为了炫技,而是希望能够让模型能够囊括更多知识,有利于理解和执行任务,这相当于“脑子更聪明”;但K2 Think在实际运行时,激活参数控制在300亿,也保证了回答问题和执行任务的速度足够快。

长思维链是K2 Thinking的长板。据Kimi官方介绍,K2 Thinking能够连续执行200-300次工具调用来解决复杂问题,保证任务连续性。

知乎上的一位答主@平凡就做了个实验:给K2 Thinking一个博士级别的数学难题,仅用了23次工具调用,K2 Thinking就成功了解决问题。

K2 Thinking的具体执行过程是这样的:

  • 第一步:模型首先理解问题,规划出解决路径
  • 第二步:调用搜索工具,查找相关的解法和理论
  • 第三步:分析搜索结果,判断是否可用
  • 第四步至第N步:反复调用Python代码执行器,编写代码、进行计算、验证假设

循环:在"思考-调用工具-验证结果"的循环中不断迭代,直到问题解决

不难看出,这是在模仿人类解决问题的过程,在“思考-调用工具-验证结果”的循环中不断迭代。

“步数”衡量的是模型的长程执行能力和耐力。步数越多,代表模型能处理的任务越复杂、越需要多轮迭代,并且在这个过程中,如何让模型不容易跑偏最初的目标,这个是训练的主要难点之一。

K2 Thinking的很多设计,核心目标是确保模型能够完整处理复杂任务而不丢失信息。为了达到“性能第一”这个目标,Kimi团队的取舍在于,可以牺牲一点Token效率——话唠一点也没关系,但要保证任务完成。

对于前不久DeepSeek爆火的OCR路线研究(纯像素输入模型),团队也谈了谈想法。“我个人觉得这条路走得有点重了,我更倾向于继续在特征空间(Feature Space)里下功夫,去找到更通用、并且与具体模态无关(Modality-agnostic)的方法,来提升模型效率。”月之暗面联合创始人吴育昕说。


△月之暗面联合创始人周昕宇

除了文本模型,Kimi团队也表示,其他模态如视觉理解,正在努力当中,时间线可能还要往后推推。

Claude断供后,国内创新速度反而更快了

无论是Kimi K2 Thinking的发布,还是GLM、MiniMax M2,共同指向的一个趋势是:在基础设施如芯片受限、Claude断供的情况下,国产大模型在算法创新上反而加快了进程。

关于训练成本,杨植麟明确表示460万美元“不是官方数字”,并表示很难量化培训成本,因为主要部分是研究和实验,这部分无法包含在一次性训练成本当中。

可以肯定的是,K2 Thinking是在比较有限的条件下完成的。杨植麟表示,K2 Thinking包括在配备Infiniband的H800 GPU上进行训练。相比美国,Kimi在GPU数量上处于劣势,但把每张显卡的性能都压榨到了极致。

不止是Kimi,如今仍在基座模型上投入的国内团队,都在算法层面找到了细分创新方向。

一个典型例子是,MiniMax和月之暗面面对“如何高效处理长上下文”这个问题,就给出了不一样的选择。

MiniMax的上一代模型M1,采用的一个关键模型极致是Linear Attention(线性注意力机制),但到了M2,又回退到了full attention(全注意力机制)。

两者区别在于,MiniMax希望技术实现更稳定,在处理长链条信息时不要丢失关键内容。MiniMax在近期的技术博客就表示:在实际应用中发现,虽然Linear Attention能省算力,但对于多步推理的复杂Agent任务,传统方法反而更可靠,他们更看重在当前工程体系下的稳定性。

Kimi则选择了更激进的路径。比如最近发布的Kimi Linear,从更底层的硬件、架构层面,研发了KDA+MLA路线,即用3:1的比例,把KDA和MLA路线混合在一起。

传统的Transformer架构,就像一个记忆力超群但有点健忘的秘书——模型每个字都能记住,不会遗漏细节;但记的东西越多,模型的计算时间就以平方为单位增加。

而采用KDA架构之后,迫使模型学会“抓重点信息”。模型可以选择性按照每个字来标注重要性、时效性等维度,选择性忘掉一些细节。这种新架构在性能、速度、显存占用上,会有巨大优势。

技术路线的选择背后,也和各家如今商业目标的不同有关。

各家公司的打法开始出现明显分化。Minimax M2的定位是性价比,推理速度快,多模态选择丰富,希望吸引开发者在他们的平台上构建丰富的应用生态;

Kimi则选择继续“爬山”,专注于把文本模型的能力做到极致,探索智能的上限。在这个目标之下,团队选择性能为先,让Agent更可用,暂时不太考虑Token消耗效率。

而智谱GLM就抢占了不少Claude断供之后的市场,特别是在编程和推理场景,GLM-4.6从性能、效率和价格上,是一个相对全面的模型,让企业能够快速上手使用,很多应用厂商也可以直接套壳。

这些选择没有对错之分,只是在当前环境下不同的生存策略。

实际上,中国开源模型的应用生态正在形成自己的优势——许多海外开发者开始在中国的开源模型上构建应用,并积极提供反馈。可以预见的是,这场开源风暴,也会带来应用的更多爆发。

附在AMA环节问答,经《智能涌现》编辑整理,有部分合并:

Q:460万美元训练成本是真的吗?

Kimi:这不是一个官方数字。很难量化培训成本,因为还有很大一部分工作是研究和实验。

Q:是什么导致你们这些疯子(深情地说),选择用一个相对未经测试的优化器,来训练如此庞大的模型?

Kimi:Muon是一个未经其他人测试的优化器(Optimizer),但是在我们的实验里,它通过了缩放定律验证流程(Scaling Laws Ladder)。

我们对我们的研究体系(Research Stack)有信心,你可能会认为我们选择Muon只是运气好,但是选择的背后是,有几十个优化器和架构没有(在实验中)通过考验。

Q:你们的训练硬件配置是怎么样的?想了解一下你们的基础设施和美国顶尖公司相比有什么不同。

Kimi:我们用的是配备Infiniband的H800 GPU。虽然不如美国的高端GPU,我们在数量上也不占优势,但我们充分利用了每一张卡!

Q:在你们的预训练中过程中,最重要的指标是什么?消融架构更改的过程是怎么样的?在什么尺度上进行测试,需要查看哪些指标,以确保模型表现良好?

以及,你们做了什么,在预训练前后,让数据更有利于模型学习?有哪些指标可以预测数据是否对模型有益/有益,可以分享一些经验吗?

Kimi:最重要的指标是:损失(Loss)、基准测试(Benchmarks)和内部稳定性内部指标。

我们有一个在多个尺度上不断发展的缩放定律验证流程,模型消融环节必须在进行下一个之前通过小规模验证。所有指标都很重要。

如果有任何意外,我们将暂停扩大模型规模,直到问题被理解和解决。

最重要的超参数是学习率(以及学习率调度器)。变量太多,所以最好在深入超参数搜索工作之前,先了解一下超参数的情况。

一个好的数据集,必须在训练期间有一个好的基准趋势。如果不是,那就好优化数据或找到一个更好的基准来显示进展。

我想说的是,找到合适的数据集(data mixture)是一门艺术。因为数据集之间有太多的交互和共享模式。从你的直觉开始,但最终相信实验。

Q:只做纯文本模型,这是一个为了达到SOTA(达到当前最好的性能)的取舍,还是说这是你们真就押注的长期方向?未来会考虑增加上下文窗口到1M吗?

Kimi:要做视频理解模型,获取数据和训练都需要时间,因此我们选择首先发布文本模型。

我们以前做过1M上下文窗口,但是现在服务太贵了。我们将来会重新审视更长的上下文窗口。我们应该能够在未来的版本中增加上下文长度。

Q:你们会发布适合MacBook的小型模型吗?或者有没有计划制作32B或20B 模型?

Kimi:我们注意到了这个需求,但目前没有对MacBook友好型模型的具体计划。像Kimi Linear这样的小模型很可爱,我们很可能会在未来发布更多作为研究演示。

Kimi-Linear-48B-A3B-Instruct是我们发布的小模型的一个例子。将来我们很可能会训练更多并添加更多功能。

Q:Kimi K2 Instruct是如何拥有如此独特而富有洞察力的散文风格的?这主要是归功于后训练吗?

Kimi:我们也喜欢它的写作风格,它是我们后期训练数据和评估的重要组成部分。

预训练阶段为模型打下了基础,赋予了它相关的先验知识和能力(priors),这就像是奠定了模型的“底蕴”。

而后训练阶段在此基础上增添了一些独特的风味和个性(taste)。

很有意思的是,不同的强化学习(RL)策略或方法(RL recipes)确实能让模型呈现出截然不同的风格和特点(different tastes)。

人们对这些细微之处有不同的喜好,模型的风格大体上也反映了我们的喜好。

Q:Kimi K2 Thinking虽然称得上是目前最适合创意写作的大模型,但仍有很大的提升空间。它在语言表达上存在不少瑕疵(slop issues)。

此外,尽管Kimi比其他模型审查更少、刻意的“正能量”也更少,但在处理残酷的战斗场景或角色间充满矛盾的真实对话时,输出内容过于安全和套路化(GPT-isms)。给人的感觉不是真实的人类情感,而是一种“有毒的积极”(toxic positivity)。这些问题在未来版本中会得到解决吗?

最后一个问题:未来会支持NSFW(成人内容)吗?Grok允许生成NSFW内容,但文笔很差。OpenAI最近也宣布会推出ChatGPT的成人版本。如果Kimi能大幅放宽审查,这是一个能发挥Kimi写作优势、抢占市场的好机会。

Kimi:这是非常宝贵的反馈。

关于语言表达的瑕疵问题(slop),我们已经取得了一些进展,但这确实是所有大语言模型(LLM)长期面临的挑战。从技术上讲,LLM的训练过程会不断强化数据中已有的模式,导致某些模式被过度放大,从而偏离了真实人类的偏好。但我们相信,这个问题是有解决方案的。

关于减少审查和刻意的正面引导,这应该是可以实现的,我们会进一步研究!

至于NSFW内容,我们需要先找到一种可靠的年龄验证方法。我们可能需要根据不同场景对模型进行调整,并更新我们的服务条款来反映这些变化。这些都是非常棒的建议!

Q:会开发双向对话模型吗?

Kimi:我们没有专门的双向对话模型。不过,任何双向注意力机制(Bidirectional Attention),都可以通过延长因果注意力模型(Causal Attention)的上下文长度,来实现类似的效果。

Q:K2 Thinking最大的技术挑战是什么?

Kimi:一个挑战是支持交错的"思考-工具-思考-工具"模式。这在LLM中是一种相对较新的挑战,需要大量的工作才能正确运行。

Q:K2可以做到200-300步的稳定工具调用,这是如何实现的?

Kimi:我们使用端到端智能体强化学习(End-to-end Agent RL)训练K2 Thinking,这导致了数百个步骤的工具调用以及包括检索(Retrieval)在内的中间步骤的更好性能。

Q:如何保障长链推理的稳定性?为什么Kimi K2思维可以在单次推理中,实现如此长的推理时间和推理链?GPT5 Pro使用代理来延长推理时间,但推理效果仍然不如K2的单次长推理。将来会进一步考虑提高基础模型的推理时间吗?

Kimi:这需要大量的工程工作才能正确实现。当数据集组合时,我们可以更好地进行观察泛化(Generalization)。

推理时间取决于API吞吐量,而Token的数量取决于如何训练模型。我们训练K2思维的方式,倾向于用相对更多的Token来思考,以达到最佳结果。

我们的K2 Thinking Turbo的API应该更快。此外,K2思维本身就是采用的INT4,这进一步加快了推理过程。

Q:想请教一下,你们觉得从int4到fp4算是一次实质性的提升吗?还是说int4的效果其实已经足够好了?

Kimi:我们选择int4,主要是为了更好地兼容非Blackwell架构的GPU,同时也能直接用上社区现有的Marlin int4推理内核(https://github.com/IST-DASLab/marlin)。

对这个话题,我们团队的工程师有一篇更详细的分析,可以参考(中文):https://www.zhihu.com/question/654759544/answer/3493279960

Q:以后的K3,会有什么新突破?

Kimi:我们很乐意在K3中加入重大架构更改并开发新功能。KDA(Kernel-Attention Dual Architecture)是我们最新的实验架构,相关的想法很可能会在K3中使用。

Q:你们有计划推出像AI浏览器这样的产品吗?

Kimi:我们目前的重心还是在模型训练上,但会持续将我们的最新能力更新到kimi.com 网站上。

我们认为,要做好模型,并不需要再去做一个浏览器“壳”(Chromium Wrapper)

Q:会计划发布更大规模的闭源模型吗?

Kimi:如果模型变得越来越危险的话(if it gets too dangerous):)

Q:为什么选择开源策略?Kimi会开源安全对齐技术栈吗?

Kimi:同意。发布安全对齐(Safety Alignment)技术栈,将惠及更多从事开放模型进一步微调(Fine-tuning)的人。我们可能还需要更多机制,确保这些微调工作遵循特定的安全协议。

我们拥抱开源,因为我们相信AGI(通用人工智能,Artificial General Intelligence)应该是一种导致团结而不是分裂的追求。

Q:如何看待与OpenAI等巨头的竞争?为什么OpenAI这么烧钱?

Kimi:不知道,可能只有Sam知道哦,我们有自己的方式和节奏。我们的使命是“寻求从能源到智能的最佳转换”。在可预见的未来,我们依旧将专注于提高智能。

Q:会提升多语言能力吗?

Kimi:我们很想教Kimi说更多的语言,但我们在不同语言方面的带宽和知识有限。也许这也是开源社区可以提供帮助的地方,例如在数据采集方面。

Q:你们如何看待最近从一些闭源模型(Gemini、GPT)过度赞美用户的趋势?Kimi会试图阻止这种行为吗?

Kimi:模型具有不同的个性化偏好是好的。我们相信,未来模型拥有更多元化的风格与能力将成为一种趋势。

Q:你们是“AGI信徒”吗?预测一下AGI什么时候能实现?

Kimi:AGI这件事很难定义,但大家已经能感觉到那个范儿了,未来会有更多更强大的模型。

封面来源|AI生成


欢迎交流

本文来自微信公众号“智能涌现”,作者:邓咏仪,36氪经授权发布。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2025年度中央安全生产考核巡查正式启动

2025年度中央安全生产考核巡查正式启动

界面新闻
2025-11-11 11:18:14
西部排名又乱了:快船爆冷连败,马刺高歌猛进,6队排名互换

西部排名又乱了:快船爆冷连败,马刺高歌猛进,6队排名互换

篮球大视野
2025-11-11 17:50:29
日本最伟大的演员,今天去世了

日本最伟大的演员,今天去世了

虹膜
2025-11-11 12:33:51
江西某院血腥大裁员

江西某院血腥大裁员

黯泉
2025-11-11 18:21:01
昨天,8名干部落马!中纪委网站发布→

昨天,8名干部落马!中纪委网站发布→

鲁中晨报
2025-11-11 10:43:05
中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

中国有权在日本驻军,高市早苗闯了大祸,日方意识到大事不妙!

安珈使者啊
2025-11-11 14:21:13
这一次当众落泪的陈芋汐,给全红婵提了个醒,原来周继红说的没错

这一次当众落泪的陈芋汐,给全红婵提了个醒,原来周继红说的没错

小鬼头体育
2025-11-08 01:47:10
认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

诗意世界
2025-11-10 18:51:56
央视直播,国足VS越南,冲3-0开门红,邵佳一督战,首发11人浮现

央视直播,国足VS越南,冲3-0开门红,邵佳一督战,首发11人浮现

球场没跑道
2025-11-11 21:34:38
奇瑞汽车执行副总裁:瞬间刹停违反物理学原理

奇瑞汽车执行副总裁:瞬间刹停违反物理学原理

第一财经资讯
2025-11-10 22:50:37
35分10板11助!哈登燃尽自己,NBA神级纪录诞生,快船迎魔鬼赛程

35分10板11助!哈登燃尽自己,NBA神级纪录诞生,快船迎魔鬼赛程

世界体育圈
2025-11-11 15:48:21
从下一个星期一开始,人民币将会被踢出伦敦金属交易所的期货合约

从下一个星期一开始,人民币将会被踢出伦敦金属交易所的期货合约

流苏晚晴
2025-11-09 21:02:26
陈坤不再回避儿子生母身份,高调官宣喜讯:瞒了21年,终于......

陈坤不再回避儿子生母身份,高调官宣喜讯:瞒了21年,终于......

感觉会火
2025-11-11 12:12:54
全澳炸锅! 加拿大一刀砍印度签证, 全送澳洲! 大批澳人抵制印度移民! 中国网友也崩溃了...

全澳炸锅! 加拿大一刀砍印度签证, 全送澳洲! 大批澳人抵制印度移民! 中国网友也崩溃了...

澳洲红领巾
2025-11-10 14:42:00
它才是菜中人参,冬天包饺子好吃,鲜美多汁营养高,不懂吃真可惜

它才是菜中人参,冬天包饺子好吃,鲜美多汁营养高,不懂吃真可惜

阿龙美食记
2025-11-10 14:34:38
联大激战,8个代表团围攻中国,中方打出王炸,日本跳脚要求撤回

联大激战,8个代表团围攻中国,中方打出王炸,日本跳脚要求撤回

军机Talk
2025-11-11 14:48:54
四川阿坝红旗特大桥垮塌无伤亡,提前发现险情的巡逻人员被赞“立大功”,官方回应是否会奖励

四川阿坝红旗特大桥垮塌无伤亡,提前发现险情的巡逻人员被赞“立大功”,官方回应是否会奖励

极目新闻
2025-11-11 19:50:37
11中8爆砍28分,辽宁神射投疯了!韩德君宝刀不老 直击广东冲决赛

11中8爆砍28分,辽宁神射投疯了!韩德君宝刀不老 直击广东冲决赛

兵哥篮球故事
2025-11-10 21:34:59
“贝壳衣”引争议,网友:“还以为漏奶了!”

“贝壳衣”引争议,网友:“还以为漏奶了!”

LOGO研究所
2025-11-11 17:57:03
我退休金9800妻子无收入,我坚持AA,她去饭店洗碗结果我悔不当初

我退休金9800妻子无收入,我坚持AA,她去饭店洗碗结果我悔不当初

红豆讲堂
2025-10-24 14:50:03
2025-11-11 22:20:49
36氪 incentive-icons
36氪
让一部分人先看到未来
149802文章数 2847245关注度
往期回顾 全部

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

头条要闻

美方代表拒绝出席第四轮国别人权审议 中方回应

头条要闻

美方代表拒绝出席第四轮国别人权审议 中方回应

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

家居
房产
本地
教育
手机

家居要闻

国美学子 打造筑梦空间

房产要闻

海口湾,1300亩巨无霸地块登场!

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

教育要闻

“真女人就来10001对掏”,考研生晒报名截图,网友:掏过头咋办

手机要闻

小米澎湃 OS 3 系统新增文件夹打断动画,消息称升级机型“都有”

无障碍浏览 进入关怀版