网易首页 > 网易号 > 正文 申请入驻

再给老外亿点点震撼?Kimi杨植麟:啥时发K3? 奥特曼的万亿数据中心建成前

0
分享至

最近AI圈又炸了!月之暗面的Kimi K2 Thinking模型一经发布,就让海外开发者社区彻底沸腾。

这款模型在Humanity's Last Exam、TAU-Bench等多项核心基准测试中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,而API调用价格远低于两者。

Hugging Face联合创始人Thomas Wolf直接惊呼:"这是又一次DeepSeek式的辉煌时刻吗?"


就在全球开发者热议之际,北京时间11月11日凌晨,当国内大部分人还在睡梦中时,月之暗面创始人杨植麟,以及联合创始人周昕宇、吴育昕,在Reddit社群平台进行了一场长达数小时的AMA(Ask Me Anything)问答。


这也是三位联创首次共同露面,面对海外开发者的各种尖锐提问。

问答持续数小时,从460万美元训练成本传闻到K3何时发布,从开源策略到行业竞争,从技术路径到AGI时间表,杨植麟团队一口气回答了数十个问题。

460万美元传闻不实,真实成本难以量化

最受关注的问题莫过于传闻中的460万美元训练成本。面对这个让整个硅谷都震惊的数字,杨植麟直接回应:

"这不是官方数据。由于训练成本中很大一部分是研究和实验,所以很难量化具体数字。"


这一回应打破了业界对K2 Thinking"超低成本"的猜测。尽管具体数字未公布,但从技术实现来看,该模型确实在成本控制上有所突破:

K2 Thinking采用1万亿参数的混合专家架构,但每次推理仅激活320亿参数,并使用原生INT4量化技术,将推理速度提升约2倍。

在硬件配置方面,杨植麟透露团队使用配备Infiniband的H800 GPU进行训练。"虽然不如美国的高端GPU,我们在数量上也不占优势,但我们把每张显卡的性能都榨取得淋漓尽致。"


据悉,K2 Thinking的API调用价格为每百万token输入1-4元,输出16元,仅为GPT-5的四分之一,真正做到了性能与成本的完美平衡。

这种性价比优势,正在吸引越来越多的企业用户从闭源模型转向开源方案。

K2 Thinking过于“话痨”?专注Agent能力

面对众多开发者关于K2 Thinking"过于话唠"的质疑,团队给出了明确回应。


杨植麟表示:"当前版本中,我们更看重绝对性能而非token效率。后续会尝试将效率纳入奖励机制,让模型学会压缩思考过程。"


这种设计理念反映了月之暗面的技术取舍:为了确保复杂任务的完成质量,可以适当牺牲token效率。K2 Thinking能够连续执行200-300次工具调用来解决复杂问题,在"思考-工具-思考-工具"的交替模式中保持稳定性。

开发过程中的最大挑战

在技术实现上,团队采用端到端智能体强化学习训练方式,使模型在数百个步骤的工具调用以及包括检索在内的中间步骤中表现更佳。这种训练方式的核心是让AI模仿人类解决问题的过程,在反复迭代中逐步接近最优解。

月之暗面联合创始人吴育昕在回答中透露,支持交错的"思考-工具-思考-工具"模式是开发过程中的主要挑战之一,"这在LLM中是一种相对较新的行为,需要大量工作才能正确实现。"


K3什么时候发布?

当有网友问及K3的发布时间时,杨植麟给出了一个颇具幽默感的回答:

"在Sam(山姆·奥特曼)的万亿级数据中心建成之前。"


有人调侃:“所以,永远等不到了,反正他永远也搞不定那个烂尾工程?开个玩笑啦~”

为什么先推纯文本模型?

对于多模态能力的发展,杨植麟表示:"训练视觉语言模型需要时间获取数据和调整训练,所以我们决定先发布一个文本模型。"


AGI有那个范儿了

在开源动机方面,杨植麟给出了颇具理想主义色彩的回答:"我们拥抱开源,因为我们相信AGI应该是一种导致团结而不是分裂的追求。"


K2 Thinking采用Modified MIT许可证,在保留标准MIT许可证大部分自由的基础上,添加了一项关键限制:当模型被用于超过一亿月活用户或2000万美元月收入的商业产品时,需要注明使用了Kimi K2模型。

当被问及AGI时间线时,杨植麟给出了相对谨慎的回答:"AGI这件事很难定义,但大家已经能感觉到那个范儿了,未来会有更多更强大的模型。"


是否会发布更大规模闭源模型?

对于是否会发布更大规模闭源模型的问题,杨植麟给出了一个耐人寻味的回答:"如果它变得太危险的话:)"


这既暗示了对模型安全性的考虑,也为未来的商业化策略留下了想象空间。

当前,K2 Thinking在发布后不到48小时内下载量已超过5万,成为Hugging Face最热门的开源模型。

与DeepSeek的技术路径分歧:OCR和KDA

面对不同技术路线的选择,月之暗面团队展现出了明确的技术偏好。对于DeepSeek近期备受关注的OCR路线,周昕宇表达了不同看法:

"我个人觉得这条路走得有点重了,我更倾向于继续在特征空间里下功夫,去找到更通用、并且与具体模态无关的方法,来提升模型效率。"

在未来发展方向上,团队透露KDA是他们最新的实验性架构,相关理念很可能会应用于K3中。KDA采用3:1的比例将KDA和MLA路线混合,在传统Transformer基础上让模型学会"抓重点信息",在性能、速度、显存占用方面实现优化。


杨植麟表示,团队已内部试验Kimi Linear新结构(架构的核心是KDA,一种表达能力更强的线性注意力模块),初步结果看起来有前景,并可进一步与稀疏化技术组合。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
轰18+8夺冠!中国男篮21岁1米96控卫蜕变:新四字外援打动郭导?

轰18+8夺冠!中国男篮21岁1米96控卫蜕变:新四字外援打动郭导?

李喜林篮球绝杀
2026-02-13 11:14:52
暴跌!内存价格闪崩!

暴跌!内存价格闪崩!

中国半导体论坛
2026-02-12 20:15:38
今日金价:突发!2月13日金价大变脸,看完再决定买不买!

今日金价:突发!2月13日金价大变脸,看完再决定买不买!

奇思妙想生活家
2026-02-13 15:21:27
2026年犯太岁整体运势分析 2026年犯太岁运势

2026年犯太岁整体运势分析 2026年犯太岁运势

食物心理营养师
2026-02-13 07:28:23
张子宇篮下制霸却登场时间受限,老帅着眼女篮未来蓄力

张子宇篮下制霸却登场时间受限,老帅着眼女篮未来蓄力

麦咪熊熊
2026-02-14 00:39:06
鲁迅跟国民党当局唱了多年的对台戏,为何始终没被逮捕或遭暗杀?

鲁迅跟国民党当局唱了多年的对台戏,为何始终没被逮捕或遭暗杀?

小豫讲故事
2026-02-07 06:00:13
江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

江西女硕士失踪,被发现时已在教授实验室待6年,魔鬼真的存在

灿烂夏天
2025-02-10 20:20:13
越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

越来越多孩子得白血病?医生坦言:家里4样东西是祸根,趁早扔了

DrX说
2025-11-19 14:42:09
冬奥会17岁少女绝杀夺金创历史奇迹

冬奥会17岁少女绝杀夺金创历史奇迹

老税系戏精北鼻
2026-02-13 09:04:25
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
英媒:老佛爷的确没输,通过欧超他已经得到了想要的东西

英媒:老佛爷的确没输,通过欧超他已经得到了想要的东西

懂球帝
2026-02-13 07:59:31
利润2.7亿,年终奖发1.8亿,河南矿山“全网最爱发钱”老板发声

利润2.7亿,年终奖发1.8亿,河南矿山“全网最爱发钱”老板发声

第一财经资讯
2026-02-13 14:19:57
一度被认为灭绝!2025年云南一山洞中发现6条,已消失近半个世纪

一度被认为灭绝!2025年云南一山洞中发现6条,已消失近半个世纪

万象硬核本尊
2026-01-03 19:30:50
特朗普:美国“必须”与伊朗达成协议 否则局势将“非常严重”

特朗普:美国“必须”与伊朗达成协议 否则局势将“非常严重”

每日经济新闻
2026-02-13 07:11:34
既然国家这么有钱,为什么不把这些钱发给老百姓?

既然国家这么有钱,为什么不把这些钱发给老百姓?

流苏晚晴
2026-02-12 17:05:21
暴雷!来澳洲养老,生不如死!

暴雷!来澳洲养老,生不如死!

澳洲财经见闻
2026-02-13 04:57:39
很不满意!维斯塔潘:这根本不是F1赛车

很不满意!维斯塔潘:这根本不是F1赛车

体育妞世界
2026-02-13 20:08:27
中戏多位领导被查,闫学晶也跟着上热搜了!

中戏多位领导被查,闫学晶也跟着上热搜了!

麦杰逊
2026-02-13 18:07:20
黄如任国家发改委副主任(兼职),曾长期在高校任职

黄如任国家发改委副主任(兼职),曾长期在高校任职

澎湃新闻
2026-02-13 16:22:26
曼城的痛:26岁阿尔瓦雷斯飙世界波+妙传,率队4-0横扫巴塞罗那

曼城的痛:26岁阿尔瓦雷斯飙世界波+妙传,率队4-0横扫巴塞罗那

侧身凌空斩
2026-02-13 07:24:57
2026-02-14 03:40:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
141765文章数 2652535关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

艺术
旅游
本地
公开课
军事航空

艺术要闻

砸25亿,中原第一高楼绿地造,坐标郑州!

旅游要闻

土耳其自驾行记(八)地中海边的慢时光——卡什小镇

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

多次成功应对外舰、外机挑衅 太原舰展示052D硬核实力

无障碍浏览 进入关怀版