网易首页 > 网易号 > 正文 申请入驻

再给老外亿点点震撼?Kimi杨植麟:啥时发K3? 奥特曼的万亿数据中心建成前

0
分享至

最近AI圈又炸了!月之暗面的Kimi K2 Thinking模型一经发布,就让海外开发者社区彻底沸腾。

这款模型在Humanity's Last Exam、TAU-Bench等多项核心基准测试中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,而API调用价格远低于两者。

Hugging Face联合创始人Thomas Wolf直接惊呼:"这是又一次DeepSeek式的辉煌时刻吗?"


就在全球开发者热议之际,北京时间11月11日凌晨,当国内大部分人还在睡梦中时,月之暗面创始人杨植麟,以及联合创始人周昕宇、吴育昕,在Reddit社群平台进行了一场长达数小时的AMA(Ask Me Anything)问答。


这也是三位联创首次共同露面,面对海外开发者的各种尖锐提问。

问答持续数小时,从460万美元训练成本传闻到K3何时发布,从开源策略到行业竞争,从技术路径到AGI时间表,杨植麟团队一口气回答了数十个问题。

460万美元传闻不实,真实成本难以量化

最受关注的问题莫过于传闻中的460万美元训练成本。面对这个让整个硅谷都震惊的数字,杨植麟直接回应:

"这不是官方数据。由于训练成本中很大一部分是研究和实验,所以很难量化具体数字。"


这一回应打破了业界对K2 Thinking"超低成本"的猜测。尽管具体数字未公布,但从技术实现来看,该模型确实在成本控制上有所突破:

K2 Thinking采用1万亿参数的混合专家架构,但每次推理仅激活320亿参数,并使用原生INT4量化技术,将推理速度提升约2倍。

在硬件配置方面,杨植麟透露团队使用配备Infiniband的H800 GPU进行训练。"虽然不如美国的高端GPU,我们在数量上也不占优势,但我们把每张显卡的性能都榨取得淋漓尽致。"


据悉,K2 Thinking的API调用价格为每百万token输入1-4元,输出16元,仅为GPT-5的四分之一,真正做到了性能与成本的完美平衡。

这种性价比优势,正在吸引越来越多的企业用户从闭源模型转向开源方案。

K2 Thinking过于“话痨”?专注Agent能力

面对众多开发者关于K2 Thinking"过于话唠"的质疑,团队给出了明确回应。


杨植麟表示:"当前版本中,我们更看重绝对性能而非token效率。后续会尝试将效率纳入奖励机制,让模型学会压缩思考过程。"


这种设计理念反映了月之暗面的技术取舍:为了确保复杂任务的完成质量,可以适当牺牲token效率。K2 Thinking能够连续执行200-300次工具调用来解决复杂问题,在"思考-工具-思考-工具"的交替模式中保持稳定性。

开发过程中的最大挑战

在技术实现上,团队采用端到端智能体强化学习训练方式,使模型在数百个步骤的工具调用以及包括检索在内的中间步骤中表现更佳。这种训练方式的核心是让AI模仿人类解决问题的过程,在反复迭代中逐步接近最优解。

月之暗面联合创始人吴育昕在回答中透露,支持交错的"思考-工具-思考-工具"模式是开发过程中的主要挑战之一,"这在LLM中是一种相对较新的行为,需要大量工作才能正确实现。"


K3什么时候发布?

当有网友问及K3的发布时间时,杨植麟给出了一个颇具幽默感的回答:

"在Sam(山姆·奥特曼)的万亿级数据中心建成之前。"


有人调侃:“所以,永远等不到了,反正他永远也搞不定那个烂尾工程?开个玩笑啦~”

为什么先推纯文本模型?

对于多模态能力的发展,杨植麟表示:"训练视觉语言模型需要时间获取数据和调整训练,所以我们决定先发布一个文本模型。"


AGI有那个范儿了

在开源动机方面,杨植麟给出了颇具理想主义色彩的回答:"我们拥抱开源,因为我们相信AGI应该是一种导致团结而不是分裂的追求。"


K2 Thinking采用Modified MIT许可证,在保留标准MIT许可证大部分自由的基础上,添加了一项关键限制:当模型被用于超过一亿月活用户或2000万美元月收入的商业产品时,需要注明使用了Kimi K2模型。

当被问及AGI时间线时,杨植麟给出了相对谨慎的回答:"AGI这件事很难定义,但大家已经能感觉到那个范儿了,未来会有更多更强大的模型。"


是否会发布更大规模闭源模型?

对于是否会发布更大规模闭源模型的问题,杨植麟给出了一个耐人寻味的回答:"如果它变得太危险的话:)"


这既暗示了对模型安全性的考虑,也为未来的商业化策略留下了想象空间。

当前,K2 Thinking在发布后不到48小时内下载量已超过5万,成为Hugging Face最热门的开源模型。

与DeepSeek的技术路径分歧:OCR和KDA

面对不同技术路线的选择,月之暗面团队展现出了明确的技术偏好。对于DeepSeek近期备受关注的OCR路线,周昕宇表达了不同看法:

"我个人觉得这条路走得有点重了,我更倾向于继续在特征空间里下功夫,去找到更通用、并且与具体模态无关的方法,来提升模型效率。"

在未来发展方向上,团队透露KDA是他们最新的实验性架构,相关理念很可能会应用于K3中。KDA采用3:1的比例将KDA和MLA路线混合,在传统Transformer基础上让模型学会"抓重点信息",在性能、速度、显存占用方面实现优化。


杨植麟表示,团队已内部试验Kimi Linear新结构(架构的核心是KDA,一种表达能力更强的线性注意力模块),初步结果看起来有前景,并可进一步与稀疏化技术组合。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
41岁张雪峰去世,死因曝光,他至少有3次活命机会,全被耽误了!

41岁张雪峰去世,死因曝光,他至少有3次活命机会,全被耽误了!

小舟谈历史
2026-03-25 18:56:59
巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

游民星空
2026-03-25 19:48:32
表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

背包旅行
2026-03-26 15:03:43
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

安安说
2026-03-14 18:50:59
东方财富、同花顺、指南针、大智慧......互联网券商信息服务商业绩大扫描!有何亮点?

东方财富、同花顺、指南针、大智慧......互联网券商信息服务商业绩大扫描!有何亮点?

券商中国
2026-03-26 12:24:18
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

大卫聊科技
2026-03-25 12:22:18
黄仁勋:芯片公司的时代已经结束了

黄仁勋:芯片公司的时代已经结束了

芯榜
2026-03-26 01:34:50
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

离离言几许
2026-03-25 15:07:06
75岁刘晓庆发文:这么想我死啊

75岁刘晓庆发文:这么想我死啊

都市快报橙柿互动
2026-03-25 15:21:36
医生给你暗示过什么话?网友:小兔崽子不安分

医生给你暗示过什么话?网友:小兔崽子不安分

夜深爱杂谈
2026-03-19 19:32:51
别再被蔬菜的外表骗了,内行人:这6种蔬菜,暗藏“科技与狠活”

别再被蔬菜的外表骗了,内行人:这6种蔬菜,暗藏“科技与狠活”

洪洋美食日记
2026-03-26 15:10:01
特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

每日经济新闻
2026-03-26 09:53:08
疯狂!狂轰59+10+5,场均31.8分+历史得分王,竟然打不了NBA

疯狂!狂轰59+10+5,场均31.8分+历史得分王,竟然打不了NBA

球童无忌
2026-03-26 11:10:26
消息人士:若美国打通霍尔木兹海峡,伊朗或在曼德海峡开辟新战线

消息人士:若美国打通霍尔木兹海峡,伊朗或在曼德海峡开辟新战线

极目新闻
2026-03-26 10:13:04
国企的中层小领导也熬不住了

国企的中层小领导也熬不住了

微微热评
2026-01-30 11:32:23
千万粉丝网红嘲讽张雪峰离世,引众怒!这波操作,三观碎一地

千万粉丝网红嘲讽张雪峰离世,引众怒!这波操作,三观碎一地

LOGO研究所
2026-03-26 15:54:28
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

阿凫爱吐槽
2026-03-25 15:24:29
都说你是CBA高铁,如今打成联盟第一,手握顶薪,妻子很漂亮

都说你是CBA高铁,如今打成联盟第一,手握顶薪,妻子很漂亮

大西体育
2026-03-26 14:23:06
2026-03-26 16:32:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
143563文章数 2653025关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
艺术
数码
公开课
军事航空

手机要闻

苹果回应iPhone自动打电话 升级系统可解决

艺术要闻

哪一座桥不是风景?

数码要闻

三星更新870 EVO系列SATA SSD:最高8TB 定价超1万元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版