网易首页 > 网易号 > 正文 申请入驻

再给老外亿点点震撼?Kimi杨植麟:啥时发K3? 奥特曼的万亿数据中心建成前

0
分享至

最近AI圈又炸了!月之暗面的Kimi K2 Thinking模型一经发布,就让海外开发者社区彻底沸腾。

这款模型在Humanity's Last Exam、TAU-Bench等多项核心基准测试中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,而API调用价格远低于两者。

Hugging Face联合创始人Thomas Wolf直接惊呼:"这是又一次DeepSeek式的辉煌时刻吗?"


就在全球开发者热议之际,北京时间11月11日凌晨,当国内大部分人还在睡梦中时,月之暗面创始人杨植麟,以及联合创始人周昕宇、吴育昕,在Reddit社群平台进行了一场长达数小时的AMA(Ask Me Anything)问答。


这也是三位联创首次共同露面,面对海外开发者的各种尖锐提问。

问答持续数小时,从460万美元训练成本传闻到K3何时发布,从开源策略到行业竞争,从技术路径到AGI时间表,杨植麟团队一口气回答了数十个问题。

460万美元传闻不实,真实成本难以量化

最受关注的问题莫过于传闻中的460万美元训练成本。面对这个让整个硅谷都震惊的数字,杨植麟直接回应:

"这不是官方数据。由于训练成本中很大一部分是研究和实验,所以很难量化具体数字。"


这一回应打破了业界对K2 Thinking"超低成本"的猜测。尽管具体数字未公布,但从技术实现来看,该模型确实在成本控制上有所突破:

K2 Thinking采用1万亿参数的混合专家架构,但每次推理仅激活320亿参数,并使用原生INT4量化技术,将推理速度提升约2倍。

在硬件配置方面,杨植麟透露团队使用配备Infiniband的H800 GPU进行训练。"虽然不如美国的高端GPU,我们在数量上也不占优势,但我们把每张显卡的性能都榨取得淋漓尽致。"


据悉,K2 Thinking的API调用价格为每百万token输入1-4元,输出16元,仅为GPT-5的四分之一,真正做到了性能与成本的完美平衡。

这种性价比优势,正在吸引越来越多的企业用户从闭源模型转向开源方案。

K2 Thinking过于“话痨”?专注Agent能力

面对众多开发者关于K2 Thinking"过于话唠"的质疑,团队给出了明确回应。


杨植麟表示:"当前版本中,我们更看重绝对性能而非token效率。后续会尝试将效率纳入奖励机制,让模型学会压缩思考过程。"


这种设计理念反映了月之暗面的技术取舍:为了确保复杂任务的完成质量,可以适当牺牲token效率。K2 Thinking能够连续执行200-300次工具调用来解决复杂问题,在"思考-工具-思考-工具"的交替模式中保持稳定性。

开发过程中的最大挑战

在技术实现上,团队采用端到端智能体强化学习训练方式,使模型在数百个步骤的工具调用以及包括检索在内的中间步骤中表现更佳。这种训练方式的核心是让AI模仿人类解决问题的过程,在反复迭代中逐步接近最优解。

月之暗面联合创始人吴育昕在回答中透露,支持交错的"思考-工具-思考-工具"模式是开发过程中的主要挑战之一,"这在LLM中是一种相对较新的行为,需要大量工作才能正确实现。"


K3什么时候发布?

当有网友问及K3的发布时间时,杨植麟给出了一个颇具幽默感的回答:

"在Sam(山姆·奥特曼)的万亿级数据中心建成之前。"


有人调侃:“所以,永远等不到了,反正他永远也搞不定那个烂尾工程?开个玩笑啦~”

为什么先推纯文本模型?

对于多模态能力的发展,杨植麟表示:"训练视觉语言模型需要时间获取数据和调整训练,所以我们决定先发布一个文本模型。"


AGI有那个范儿了

在开源动机方面,杨植麟给出了颇具理想主义色彩的回答:"我们拥抱开源,因为我们相信AGI应该是一种导致团结而不是分裂的追求。"


K2 Thinking采用Modified MIT许可证,在保留标准MIT许可证大部分自由的基础上,添加了一项关键限制:当模型被用于超过一亿月活用户或2000万美元月收入的商业产品时,需要注明使用了Kimi K2模型。

当被问及AGI时间线时,杨植麟给出了相对谨慎的回答:"AGI这件事很难定义,但大家已经能感觉到那个范儿了,未来会有更多更强大的模型。"


是否会发布更大规模闭源模型?

对于是否会发布更大规模闭源模型的问题,杨植麟给出了一个耐人寻味的回答:"如果它变得太危险的话:)"


这既暗示了对模型安全性的考虑,也为未来的商业化策略留下了想象空间。

当前,K2 Thinking在发布后不到48小时内下载量已超过5万,成为Hugging Face最热门的开源模型。

与DeepSeek的技术路径分歧:OCR和KDA

面对不同技术路线的选择,月之暗面团队展现出了明确的技术偏好。对于DeepSeek近期备受关注的OCR路线,周昕宇表达了不同看法:

"我个人觉得这条路走得有点重了,我更倾向于继续在特征空间里下功夫,去找到更通用、并且与具体模态无关的方法,来提升模型效率。"

在未来发展方向上,团队透露KDA是他们最新的实验性架构,相关理念很可能会应用于K3中。KDA采用3:1的比例将KDA和MLA路线混合,在传统Transformer基础上让模型学会"抓重点信息",在性能、速度、显存占用方面实现优化。


杨植麟表示,团队已内部试验Kimi Linear新结构(架构的核心是KDA,一种表达能力更强的线性注意力模块),初步结果看起来有前景,并可进一步与稀疏化技术组合。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台海局势变化太快!特朗普称:美国有很多导弹,中国不想发生冲突

台海局势变化太快!特朗普称:美国有很多导弹,中国不想发生冲突

读懂世界历史
2025-11-15 14:58:22
21独家|MEGA起火,理想问责14人

21独家|MEGA起火,理想问责14人

21世纪经济报道
2025-11-14 17:40:08
别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

别再可怜李咏了!离世7年后医生揭秘离世真相,难怪选择葬身美国

喜欢历史的阿繁
2025-11-08 15:09:21
日女首相发强硬对华言论,中国网友请求撤换驻大阪薛剑总领事

日女首相发强硬对华言论,中国网友请求撤换驻大阪薛剑总领事

熊孩子爱科技
2025-11-14 16:22:33
黄金,突然直线大跌!比特币跌超7%,超28万人爆仓

黄金,突然直线大跌!比特币跌超7%,超28万人爆仓

每日经济新闻
2025-11-14 22:38:03
中央美术学院城市设计学院通报“学院学生涉嫌抄袭”:该生未经许可借用他人创作元素情况属实,奖学金公示不予通过

中央美术学院城市设计学院通报“学院学生涉嫌抄袭”:该生未经许可借用他人创作元素情况属实,奖学金公示不予通过

极目新闻
2025-11-15 12:17:50
1982年高材生王佐良娶瘫痪的张海迪,40年后,才知他是人间清醒

1982年高材生王佐良娶瘫痪的张海迪,40年后,才知他是人间清醒

以茶带书
2025-11-15 12:31:58
37岁的付辛博给所有男人提了醒,一定要找生理上真正喜欢的妻子

37岁的付辛博给所有男人提了醒,一定要找生理上真正喜欢的妻子

诗意世界
2025-11-14 14:23:59
全运会乒乓:王曼昱拒绝让分轰11-0,马龙首秀丢局,陈熠剃光头

全运会乒乓:王曼昱拒绝让分轰11-0,马龙首秀丢局,陈熠剃光头

知轩体育
2025-11-14 22:56:39
11月15日央视5台直播乒乓球时间表!今日国乒赛程,附CCTV5节目表

11月15日央视5台直播乒乓球时间表!今日国乒赛程,附CCTV5节目表

林子说事
2025-11-15 10:50:45
日本毫不悔改,扬言给中方10天时间,期限前“处理”薛剑总领事

日本毫不悔改,扬言给中方10天时间,期限前“处理”薛剑总领事

云上乌托邦
2025-11-15 15:03:30
人民日报撕开32岁周深处境:那英淘汰他时那句话,如今全部应验

人民日报撕开32岁周深处境:那英淘汰他时那句话,如今全部应验

动物奇奇怪怪
2025-11-13 01:23:59
乐视创始人欠122亿巨债跑美七年,400多名老员工让乐视起死回生。

乐视创始人欠122亿巨债跑美七年,400多名老员工让乐视起死回生。

百态人间
2025-11-05 05:35:03
湖人这替补咋办?双核轮番带都带不动,不尽快调整要累死首发!

湖人这替补咋办?双核轮番带都带不动,不尽快调整要累死首发!

篮球资讯达人
2025-11-15 15:35:52
郑州灵活就业参保缴费通知:12月31日前完成!

郑州灵活就业参保缴费通知:12月31日前完成!

大象新闻
2025-11-15 13:42:22
勇士队库里砍49分,与勒布朗·詹姆斯和迈克尔·乔丹并肩

勇士队库里砍49分,与勒布朗·詹姆斯和迈克尔·乔丹并肩

好火子
2025-11-15 15:29:10
全运会混双夺冠!颁奖时刘诗雯无意间一动作,网友瞬间泪崩

全运会混双夺冠!颁奖时刘诗雯无意间一动作,网友瞬间泪崩

不写散文诗
2025-11-15 12:44:40
官媒发文,63岁何超琼再破天花板,让许晋亨和整个豪门圈沉默了

官媒发文,63岁何超琼再破天花板,让许晋亨和整个豪门圈沉默了

小鬼头体育
2025-11-10 04:33:10
男子花3000买显卡,全程录视频,却只收到两本书,店家回应亮了

男子花3000买显卡,全程录视频,却只收到两本书,店家回应亮了

揽星河的笔记
2025-11-14 17:06:16
三星杯,丁浩,包围金志锡数子,90%胜率,中国队3连冠近在咫尺!

三星杯,丁浩,包围金志锡数子,90%胜率,中国队3连冠近在咫尺!

L76号
2025-11-15 13:33:16
2025-11-15 15:55:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
137581文章数 2651454关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

专家:我们对日本必须丢掉幻想 做好斗争准备

头条要闻

专家:我们对日本必须丢掉幻想 做好斗争准备

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

旅游
本地
时尚
教育
公开课

旅游要闻

1次明月山行,刷新了我对江西宜春的全部印象

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

冬天的“销冠”,已被羽绒服预定

教育要闻

来上课了——高一下核心词汇讲解(四)第3段

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版