网易首页 > 网易号 > 正文 申请入驻

再给老外亿点点震撼?Kimi杨植麟:啥时发K3? 奥特曼的万亿数据中心建成前

0
分享至

最近AI圈又炸了!月之暗面的Kimi K2 Thinking模型一经发布,就让海外开发者社区彻底沸腾。

这款模型在Humanity's Last Exam、TAU-Bench等多项核心基准测试中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,而API调用价格远低于两者。

Hugging Face联合创始人Thomas Wolf直接惊呼:"这是又一次DeepSeek式的辉煌时刻吗?"


就在全球开发者热议之际,北京时间11月11日凌晨,当国内大部分人还在睡梦中时,月之暗面创始人杨植麟,以及联合创始人周昕宇、吴育昕,在Reddit社群平台进行了一场长达数小时的AMA(Ask Me Anything)问答。


这也是三位联创首次共同露面,面对海外开发者的各种尖锐提问。

问答持续数小时,从460万美元训练成本传闻到K3何时发布,从开源策略到行业竞争,从技术路径到AGI时间表,杨植麟团队一口气回答了数十个问题。

460万美元传闻不实,真实成本难以量化

最受关注的问题莫过于传闻中的460万美元训练成本。面对这个让整个硅谷都震惊的数字,杨植麟直接回应:

"这不是官方数据。由于训练成本中很大一部分是研究和实验,所以很难量化具体数字。"


这一回应打破了业界对K2 Thinking"超低成本"的猜测。尽管具体数字未公布,但从技术实现来看,该模型确实在成本控制上有所突破:

K2 Thinking采用1万亿参数的混合专家架构,但每次推理仅激活320亿参数,并使用原生INT4量化技术,将推理速度提升约2倍。

在硬件配置方面,杨植麟透露团队使用配备Infiniband的H800 GPU进行训练。"虽然不如美国的高端GPU,我们在数量上也不占优势,但我们把每张显卡的性能都榨取得淋漓尽致。"


据悉,K2 Thinking的API调用价格为每百万token输入1-4元,输出16元,仅为GPT-5的四分之一,真正做到了性能与成本的完美平衡。

这种性价比优势,正在吸引越来越多的企业用户从闭源模型转向开源方案。

K2 Thinking过于“话痨”?专注Agent能力

面对众多开发者关于K2 Thinking"过于话唠"的质疑,团队给出了明确回应。


杨植麟表示:"当前版本中,我们更看重绝对性能而非token效率。后续会尝试将效率纳入奖励机制,让模型学会压缩思考过程。"


这种设计理念反映了月之暗面的技术取舍:为了确保复杂任务的完成质量,可以适当牺牲token效率。K2 Thinking能够连续执行200-300次工具调用来解决复杂问题,在"思考-工具-思考-工具"的交替模式中保持稳定性。

开发过程中的最大挑战

在技术实现上,团队采用端到端智能体强化学习训练方式,使模型在数百个步骤的工具调用以及包括检索在内的中间步骤中表现更佳。这种训练方式的核心是让AI模仿人类解决问题的过程,在反复迭代中逐步接近最优解。

月之暗面联合创始人吴育昕在回答中透露,支持交错的"思考-工具-思考-工具"模式是开发过程中的主要挑战之一,"这在LLM中是一种相对较新的行为,需要大量工作才能正确实现。"


K3什么时候发布?

当有网友问及K3的发布时间时,杨植麟给出了一个颇具幽默感的回答:

"在Sam(山姆·奥特曼)的万亿级数据中心建成之前。"


有人调侃:“所以,永远等不到了,反正他永远也搞不定那个烂尾工程?开个玩笑啦~”

为什么先推纯文本模型?

对于多模态能力的发展,杨植麟表示:"训练视觉语言模型需要时间获取数据和调整训练,所以我们决定先发布一个文本模型。"


AGI有那个范儿了

在开源动机方面,杨植麟给出了颇具理想主义色彩的回答:"我们拥抱开源,因为我们相信AGI应该是一种导致团结而不是分裂的追求。"


K2 Thinking采用Modified MIT许可证,在保留标准MIT许可证大部分自由的基础上,添加了一项关键限制:当模型被用于超过一亿月活用户或2000万美元月收入的商业产品时,需要注明使用了Kimi K2模型。

当被问及AGI时间线时,杨植麟给出了相对谨慎的回答:"AGI这件事很难定义,但大家已经能感觉到那个范儿了,未来会有更多更强大的模型。"


是否会发布更大规模闭源模型?

对于是否会发布更大规模闭源模型的问题,杨植麟给出了一个耐人寻味的回答:"如果它变得太危险的话:)"


这既暗示了对模型安全性的考虑,也为未来的商业化策略留下了想象空间。

当前,K2 Thinking在发布后不到48小时内下载量已超过5万,成为Hugging Face最热门的开源模型。

与DeepSeek的技术路径分歧:OCR和KDA

面对不同技术路线的选择,月之暗面团队展现出了明确的技术偏好。对于DeepSeek近期备受关注的OCR路线,周昕宇表达了不同看法:

"我个人觉得这条路走得有点重了,我更倾向于继续在特征空间里下功夫,去找到更通用、并且与具体模态无关的方法,来提升模型效率。"

在未来发展方向上,团队透露KDA是他们最新的实验性架构,相关理念很可能会应用于K3中。KDA采用3:1的比例将KDA和MLA路线混合,在传统Transformer基础上让模型学会"抓重点信息",在性能、速度、显存占用方面实现优化。


杨植麟表示,团队已内部试验Kimi Linear新结构(架构的核心是KDA,一种表达能力更强的线性注意力模块),初步结果看起来有前景,并可进一步与稀疏化技术组合。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
民间创业仙人,一拳打碎发财梦

民间创业仙人,一拳打碎发财梦

虎嗅APP
2025-11-16 17:00:32
惊天反转!王菲保安曾曝猛料:李亚鹏凌晨回家,真相藏不住了

惊天反转!王菲保安曾曝猛料:李亚鹏凌晨回家,真相藏不住了

艳儿说电影
2025-10-29 09:44:23
教练张超激情指挥诗与远方夺冠惹争议 邓亚萍:国际赛场不允许这样

教练张超激情指挥诗与远方夺冠惹争议 邓亚萍:国际赛场不允许这样

劲爆体坛
2025-11-15 06:46:09
女性“出轨率”最高的5大职业,最后一个意想不到

女性“出轨率”最高的5大职业,最后一个意想不到

小鬼头体育
2025-11-11 11:40:02
实在是高!美学者:统一应尊重台湾人。高志凯:林肯尊重南方吗?

实在是高!美学者:统一应尊重台湾人。高志凯:林肯尊重南方吗?

李博世财经
2025-11-15 17:12:18
曾经嫌弃的“土味内胆”,今年我却被它刷屏了?

曾经嫌弃的“土味内胆”,今年我却被它刷屏了?

印客美学
2025-11-16 12:00:08
活了101岁的英王太后,很有远见,把遗产大部分留给了哈里

活了101岁的英王太后,很有远见,把遗产大部分留给了哈里

喜欢历史的阿繁
2025-11-14 15:35:44
让女人对你“上瘾”的3个特质!只占一个,她就戒不掉

让女人对你“上瘾”的3个特质!只占一个,她就戒不掉

伊人河畔
2025-11-03 19:59:09
中国留学生被判无期!专挑中国女性下手,全英最恶劣连环强奸犯

中国留学生被判无期!专挑中国女性下手,全英最恶劣连环强奸犯

英国那些事儿
2025-11-16 23:25:46
男子结婚找老同学订8箱五粮液,没喝完按原价退6箱,老同学:不退

男子结婚找老同学订8箱五粮液,没喝完按原价退6箱,老同学:不退

一月爱八月
2025-11-11 20:02:56
王楚然现身机场,被网友吐槽:腰好粗,和照片上天差地别。

王楚然现身机场,被网友吐槽:腰好粗,和照片上天差地别。

老吴教育课堂
2025-11-14 13:27:48
日本政府正式宣布!11 月 11 日日本政府官宣 2026 年上调签证费

日本政府正式宣布!11 月 11 日日本政府官宣 2026 年上调签证费

南权先生
2025-11-13 15:52:13
易烊千玺和宋佳摘下金鸡奖的那一刻,影人们的微表情才是一场大戏

易烊千玺和宋佳摘下金鸡奖的那一刻,影人们的微表情才是一场大戏

科学发掘
2025-11-16 10:57:13
新规频出,五大措施全方位对网贷乱象进行整治!

新规频出,五大措施全方位对网贷乱象进行整治!

老汤胡说
2025-11-16 21:42:46
日驻澳大使喊话中国,建立台海沟通渠道,日本何时有资格谈这些?

日驻澳大使喊话中国,建立台海沟通渠道,日本何时有资格谈这些?

叮当当科技
2025-11-17 00:16:20
俄罗斯有多穷?莫斯科有多富?| 地球知识局

俄罗斯有多穷?莫斯科有多富?| 地球知识局

地球知识局
2025-10-28 20:28:17
官方披露:夏某受境外组织派遣,以“提供医疗援助”等名义为掩护,深入我西南山区,暗中搜集军事管理区数据

官方披露:夏某受境外组织派遣,以“提供医疗援助”等名义为掩护,深入我西南山区,暗中搜集军事管理区数据

鲁中晨报
2025-11-13 15:59:03
何恺明论文总被引次数位列全球所有学者前五,ResNet成21世纪最具影响力论文

何恺明论文总被引次数位列全球所有学者前五,ResNet成21世纪最具影响力论文

算法与数学之美
2025-11-16 20:31:05
为什么说健身辣妹只在网上出现,现实中她们是这样的....

为什么说健身辣妹只在网上出现,现实中她们是这样的....

健身S叔
2025-10-30 19:46:51
上海多区出现!紧急提醒:破坏力强大,看到立即上报!

上海多区出现!紧急提醒:破坏力强大,看到立即上报!

环球网资讯
2025-11-16 21:13:14
2025-11-17 01:39:00
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
137603文章数 2651471关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
游戏
教育
家居
军事航空

艺术要闻

这些获奖摄影作品,简直让人目不暇接!

《纪元117:罗马和平》多人游戏问题大 育碧承诺修复

教育要闻

妈妈晒高二儿子吃宵夜,女网友眼睛看直了:这颜值,小姑娘遭殃了

家居要闻

现代简逸 寻找生活的光

军事要闻

海军四川舰顺利完成首次航行试验

无障碍浏览 进入关怀版