网易首页 > 网易号 > 正文 申请入驻

我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线

0
分享至


作者 | 周一笑
编辑 | 王兆洋

最近的AI圈,如果说有什么事能让东西方开发者社区同时“上头”,那可能就是月之暗面和它的 Kimi K2 Thinking模型了。K2 Thinking在推理和编码能力上超越了不少前沿模型,被许多开发者誉为新SOTA ,发布后迅速在海内外技术社区引发热议。

就在这波热度席卷全球之时,Kimi团队也趁热打铁,在Reddit举办了一场AMA (Ask Me Anything问我任何事)。

据了解,这次直接通宵答疑的正是月之暗面的三位联合创始人杨植麟、周昕宇和吴育昕。这也算是三位联创难得的对外“集体亮相”。

从回答阵容来看,杨植麟用了一个叫“ComfortableAsk4494”的账号来直接在线答疑。

而我们也问了两个外界很关注的问题,得到了回答。

1

460万真的吗?为何一直在做纯文本

我们关注的两个问题分别是此次K2 Thinking传出的极低的成本,以及Kimi至今依然在走的纯文本和Agent路线的原因。以下是他的回答。


Q:K2 思维模型 460 万美元的训练成本是真的吗?

A:这不是官方数据。由于训练成本中很大一部分是研究和实验,所以很难量化具体数字。


Q:纯文本 Agent 专注策略是为了短期达到 SOTA 而做出的,还是你们长期看好的方向?

A:训练视觉语言模型需要时间获取数据和调整训练,所以我们决定先发布一个文本模型。

AMA是Reddit由来已久的传统,从奥巴马到基努·里维斯再到OpenAI团队和Sam Altman,政商科技与娱乐圈的许多知名人物都曾通过这种形式与社区进行交流。Kimi这次选择的是r/LocalLLaMA 这个分区,这是一个关于开源模型、模型本地化部署分区,聚集了许多硬核的开发者。这可能也是第一次中国AI公司选择这种形式在海外技术社区开诚布公。以下是更多AMA内容:

1

AMA实录

在我们提的这些问题之外,Kimi核心团队也回答了全球开发者的更多问题,从Kimi本身的模型到整个行业的一些看法。

以下是这次AMA的省流版和实录:

  • 训练成本:460万美元训练成本不是一个官方数字。

  • 用什么训练的: 配备 InfiniBand 的 H800 GPU。

  • K3新架构: 将采用混合架构。

  • K2为何采用 INT4: 为了更好地兼容非 Blackwell 架构的 GPU。

  • 多模态:“我们正在做。”

  • Muon优化器:可良好扩展至 1 万亿参数

  • K3什么时候来: “Sam的万亿级数据中心建成之前”。

Q:你们的训练硬件配置是怎样的?很好奇你们的架构与美国那些巨头使用的系统相比如何?

A:我们使用的是配备 Infiniband 的 H800 GPU;虽然比不上美国的高端 GPU,数量上也处于劣势,但我们把每张显卡的性能都榨取得淋漓尽致


Q:非常感谢你们为开源社区带来了最先进的模型!我的问题是:Kimi 的下一代旗舰模型会采用 KDA 技术吗?它有什么优势?

A:在我们对预训练和强化学习的公平比较中,采用 NoPE MLA 的 KDA 混合模型表现优于全量 RoPE MLA 模型。它们不仅获得了更高的基准分数,而且速度更快、更经济高效,使我们能够加速预训练、在强化学习阶段更快部署,并服务更多用户。我们还有更多改进正在研发中,将在准备就绪时分享。

A:KDA 是我们最新的实验性架构。

相关理念很可能会应用于 K3 架构中。


Q:K3 什么时候出?

A:在 Sam 的万亿级数据中心建成之前


Q:是什么让你们这群狠人(亲切地说)决定用一个相对未经充分测试的优化器来训练如此庞大的模型?

A:Muon 是一种未经他人测试的优化器,但我们已经通过所有扩展阶梯验证了它的有效性。

我们对自身的研究体系充满信心。或许你会觉得 Muon 只是运气好,但事实上已有数十种优化器和架构在严苛考验中被淘汰。


Q:请问您认为 fp4 与 int4 相比是否确实有显著提升?还是说 int4 已经足够好地完成编码任务?

A:我们选择 int4 是为了更好地兼容非 Blackwell 架构的 GPU,同时利用现有的 int4 推理 Marlin 内核(https://github.com/IST-DASLab/marlin)。

我们的工程师对此话题有详细中文解读:https://www.zhihu.com/question/1969558404759544488/answer/1970539327902679960

除了分享技术亮点,Kimi 团队回应了一些对模型槽点的质疑,并给出了对未来规划和行业发的看法。


Q:关于 token 效率问题,kimi k2 thinking 似乎使用了过多 token。你们计划在下一个版本中修复这个问题吗?

A:说得好。在当前版本中,我们更看重绝对性能而非 token 效率。后续会尝试将效率纳入奖励机制,让模型学会压缩思考过程。


Q:你好 Moonshot 团队!感谢你们为闭源模型提供了真正的竞争 在开发 k2 思维模型的过程中,你们遇到的最大挑战是什么?谢谢!

A:一个挑战是支持"思考-工具-思考-工具"的交替模式。这是 LLMs 中相对较新的行为,需要大量工作才能正确实现。


Q:你认为 LLM 架构的下一个重大突破会是什么?

A:我们测试了 Kimi Linear 模型,效果看起来很有潜力。它还可以与稀疏性技术结合使用。


Q:为什么OpenAI 在烧这么多钱?是当前商业规则(税收、生活成本等)导致的,还是你认为有其他原因?

A:不知道。只有 Sam 清楚。我们有自己的一套方法和节奏


Q:你们有计划发布更重量级的闭源模型吗?

A:if it gets too dangerous :)

在这些对与Kimi有关的话题之外,Kimi的联创团队也难得回答了许多带有一点“隔空对话”火药味的问题。

当被问道是否需要像OpenAI那样也搞一个Chromium的套壳浏览器时,Kimi的回答是:No。

另一个非常有趣的回答则来自周昕宇。一个用户问到了此前被广为夸赞的DeepSeek的OCR模型,当时这款模型被认为是一个非常棒的创新,试图用视觉的方式来解决原本依赖文字token的存储和记忆的问题。

他回答到:

我个人的想法是,这个太刻意了。我宁愿留在特征空间,并找到更通用和模式无关的方法来让模型更有效率。


这种和开发者当面聊的亲历感,或许正是AMA这种形式的最大特点。而由联合创始人级别的核心技术成员亲自下场,在海外技术社区与开发者交流技术细节,足见Kimi团队的重视。而且这种交流过程里,也能让这些对架构创新等的不同看法,从水底露出来一下,让外界更加了解这样一个技术团队的思考方式。

这可能是更多AI研究团队可以考虑的方式,这样的交流至少更加有人味儿。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

19岁王钰栋再谈留洋:出国非易事 有合适机遇才去 不关注外界批评

我爱英超
2026-03-26 18:48:21
巴基斯坦外长说美伊正进行间接谈判

巴基斯坦外长说美伊正进行间接谈判

新华社
2026-03-26 18:55:07
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

扬子晚报
2026-03-26 07:27:54
为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

为何越来越多有钱人,宁愿买两套房和父母住对门,也要搬离别墅?

装修秀
2026-03-26 14:05:47
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

新版《哈利·波特》黑人斯内普教授首曝光!梳脏辫戴金戒引热议,演员本人却称被死亡威胁?

英国报姐
2026-03-26 21:26:58
伊朗抓捕14名叛国分子

伊朗抓捕14名叛国分子

财联社
2026-03-26 20:04:13
内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

内部人士:NBA或将取消快船队科怀·伦纳德的“无效”合同

好火子
2026-03-25 23:51:43
越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

林轻吟
2026-03-26 07:34:21
没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

没想到,张雪峰的离开,意外让蓝盈莹采访火了,才懂她活得多清醒

林轻吟
2026-03-26 07:22:50
郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

郑裕彤家族为什么不自救?不是说香港豪门隐形资产很多么?

担扑
2026-03-26 17:02:51
十二届上海市委第八轮巡视启动,将对21家市管单位开展常规巡视

十二届上海市委第八轮巡视启动,将对21家市管单位开展常规巡视

上观新闻
2026-03-26 19:41:07
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
艺高人胆大!比赛剩12秒2队战平,鬼才少帅巧换一人,绝杀了对

艺高人胆大!比赛剩12秒2队战平,鬼才少帅巧换一人,绝杀了对

金山话体育
2026-03-26 22:21:04
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
德媒:德总统批评美以违反国际法 伊朗外长点赞

德媒:德总统批评美以违反国际法 伊朗外长点赞

参考消息
2026-03-25 21:54:32
大陆发布统一后安排,蔡正元赶在坐牢前,留下5个字,措辞不寻常

大陆发布统一后安排,蔡正元赶在坐牢前,留下5个字,措辞不寻常

影孖看世界
2026-03-26 23:36:59
美团去年净亏234亿元,核心本地商业经营亏损69亿元

美团去年净亏234亿元,核心本地商业经营亏损69亿元

澎湃新闻
2026-03-26 18:28:26
皮衣+裙,高级到炸

皮衣+裙,高级到炸

Yuki女人故事
2026-03-25 21:59:58
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-03-26 20:45:03
2026-03-27 00:11:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
教育
旅游
数码
艺术

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

天天学习|走进课堂的“大朋友”

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

艺术要闻

哪一座桥不是风景?

无障碍浏览 进入关怀版