网易首页 > 网易号 > 正文 申请入驻

杨植麟首次透露K3架构,从月之暗面到MiniMax,中国AI“开源派”打响全球突围战

0
分享至

北京时间11月11日凌晨,月之暗面创始人杨植麟与联合创始人周昕宇、吴育昕在知名论坛Reddit集体上线。在这个全球技术极客聚集地,三位首次同时露面,就上周发布的K2 Thinking模型开启了一场长达数小时的线上AMA(线上问答)。


图片来源:论坛截图

《每日经济新闻》记者了解到,在交流中,杨植麟不仅回应了关于训练成本、技术路线等方面的问题,还透露了下一代K3模型的研发方向。“KDA(Kimi Delta Attention,一种线性注意力模块)是我们最新的实验性架构,相关想法很可能会在K3中使用。”他表示,“我们希望在K3中融入重大的架构变革并开发新的能力。”

当被问及开源策略这一核心问题时,杨植麟的回答显得既理想化又坚定:“我们拥抱开源,因为我们相信AGI(通用人工智能)应该引导大家走向团结而不是分裂。”

这场线上对话在业界看来,展现了中国AI(人工智能)企业正以更加开放、成熟的姿态融入全球技术生态。此前的7月,美国知名编程器Cursor开始全面禁止来自中国的IP调用Claude等模型。受此影响,Kimi K2调用量一度大幅上升。

本次线上问答还透露了哪些技术路线?中国大模型厂商在全球赛道上有着怎样鲜明的分野?

K3计划引入重大架构变革

11月6日晚间,月之暗面旗下Kimi大模型发布了Kimi K2 Thinking,并称其为“Kimi迄今能力最强的开源思考模型”。

Kimi官方表示,Kimi K2 Thinking是基于“模型即Agent(智能体)”理念训练的新一代Thinking Agent,它原生掌握“边思考、边使用工具”的能力。

而Kimi K2 Thinking得到外界瞩目的原因在于其“能打”的实测成绩。据官方披露,Kimi K2 Thinking在“人类最后的考试”(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到SOTA(当前技术水平的最前沿)水平。

在“人类最后的考试”测试中,Kimi K2 Thinking的得分为44.9%,作为对比,Kimi公布的同场测试中GPT-5(High)的成绩为41.7%。

同时,长思维链能力也成为K2 Thinking备受关注的焦点。据介绍,该模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性。而实现这一能力并非一帆风顺。吴育昕在回答中坦言,支持“思考-工具-思考-工具”的交错执行模式是其中一大难点,这种模式在大语言模型(LLM)中仍属较新行为,需投入大量工程才能有效实现。

对于“如此长的推理链如何保持稳定性”这一疑问,杨植麟进一步阐释了技术实现路径:“我们采用端到端的智能体强化学习训练K2 Thinking,这使得模型在数百个步骤的工具调用过程中,包括检索在内的每个中间环节都能保持良好的性能。”

值得一提的是,针对外界关心的训练成本传闻,杨植麟也首次做出澄清。

他表示,广为流传的“460万美元”并非官方数字,真正的训练成本很难量化,因为主要部分是研究和实验。

吴育昕透露,K2 Thinking是在配备了Infiniband的H800 GPU(图形处理器)集群上完成训练的。尽管在算力规模上不占优势,但团队“把每张显卡的性能都压榨到了极致”。

本次问答中下一代K3的蓝图也已初现轮廓。

杨植麟透露,团队正计划在K3中引入重大的架构变革。“从历史经验看,混合注意力机制在长序列任务中往往难以超越完全注意力机制。而我们在KDA架构上的实验表明,它在所有评估维度上都展现出性能提升,包括长序列输入输出的强化学习场景,同时保持了线性注意力机制的效率优势。因此,K3很可能会采纳相关的设计理念。”

除了架构革新,团队还透露正在开发视觉语言模型(VL)。并且在文本模型方面,Kimi曾尝试过1M上下文窗口,但因当时服务成本过高而未能推行。随着技术进步与成本优化,团队表示未来将重新考虑引入更长的上下文窗口。

中国开源应用生态正在形成

在全球AI竞赛中,国产大模型正凭借技术实力与开源策略,在国际舞台上赢得越来越多的关注与认可,同时也面临来自市场与地缘政治的挑战。

本次问答中,一位海外用户分享了他的两难处境:其公司虽然认可Kimi模型的出色能力,但因其为“中国大模型”,出于潜在风险考量,不敢在生产环境中部署。

对此,吴育昕回应,完全理解这类担忧。虽然“封禁”风险常常超出企业的控制范围,但开源模式正是化解此疑虑的有效途径——企业可以通过自行部署掌握控制权。他坦言:“我们期待一个更加互信的技术世界,但这需要时间。”

杨植麟则从更宏大的愿景出发:“我们拥抱开源,因为我们相信AGI应该要引导大家走向团结而不是分裂。”


吴育昕(上)和杨植麟(下)在论坛中的回复 图片来源:论坛截图

这种以开源构建信任、以技术连接世界的策略,正在复杂的国际环境中显现成效。

今年7月,当美国知名编程工具Cursor全面禁止中国IP调用Claude等模型后,市场迅速做出了选择。据平台OpenRouter数据显示,Kimi K2的调用量随即大幅攀升,与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token(大模型处理文本时的最小单位)。其API(应用程序编程接口)价格仅为Claude Sonnet的五分之一,展现出性价比的竞争力。

这样的增长势头并非孤例。10月27日,国内另一家AI独角兽MiniMax发布的开源文本模型M2,在权威测评榜Artificial Analysis中冲至全球总分前五、开源模型第一,实现了中国开源模型的历史性突破。更引人注目的是其成本效益:M2的综合成本低至每百万Tokens约0.53美元,约为Claude 4.5 Sonnet的8%,且推理速度近乎其两倍。

在技术路线上,国内头部模型公司已呈现出清晰的差异化发展路径:MiniMax M2主打极致性价比与高速推理,致力于构建丰富的多模态应用生态;而Kimi则持续专注将长文本处理和深度思考能力推向极致,探索大模型的能力上限。

面对与OpenAI等巨头的竞争,周昕宇幽默回应:“我们也不清楚OpenAI为何如此烧钱,这恐怕只有萨姆・奥尔特曼本人知道。我们有属于自己的方式和节奏。”他强调,公司的核心使命始终是寻求从能源到智能的最佳转换,未来将继续专注于提升智能本身。

对于外界翘首以盼的下一代模型K3,杨植麟的回答充满期待:“在OpenAI建成千亿级美元数据中心之前,K3会推出的。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
参加志愿活动期间,李春来同志突发疾病逝世

参加志愿活动期间,李春来同志突发疾病逝世

新京报政事儿
2025-11-16 16:37:31
此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

此女只应天上有,人间只有此一人,真的漂亮,而且很媚,媚而不俗

乡野小珥
2025-10-19 14:41:29
40岁师父和20岁女徒弟偷情:全过程披露,肮脏聊天曝光,原配发声

40岁师父和20岁女徒弟偷情:全过程披露,肮脏聊天曝光,原配发声

博士观察
2025-11-06 20:42:23
狗主人说:“我拒绝调解,让民警晚上等打架电话”:丈夫遭反杀了

狗主人说:“我拒绝调解,让民警晚上等打架电话”:丈夫遭反杀了

汉史趣闻
2025-11-15 20:34:53
家里托关系找的工作有多抽象?网友:真离谱,这是什么家人

家里托关系找的工作有多抽象?网友:真离谱,这是什么家人

解读热点事件
2025-11-14 00:10:03
一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

蔡蔡说史
2025-11-15 05:12:34
保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

保密期限终到期,中央首长透露:毛岸英真相,可以向外界公开!

明月清风阁
2025-11-14 15:20:03
无耻到家!居然有人给陈志洗白?

无耻到家!居然有人给陈志洗白?

吃瓜盟主
2025-11-15 15:36:01
世界杯决出32席:欧洲5队直通!意大利踢附加赛,奥运会冠军出局

世界杯决出32席:欧洲5队直通!意大利踢附加赛,奥运会冠军出局

侃球熊弟
2025-11-17 05:25:46
《哪吒2》获金鸡奖没人来领奖,出品方、导演、团队均缺席

《哪吒2》获金鸡奖没人来领奖,出品方、导演、团队均缺席

韩小娱
2025-11-16 09:38:33
『高分佳作』筱田优来照顾怀孕妻子的嫂子 演技满分,眼神太媚了

『高分佳作』筱田优来照顾怀孕妻子的嫂子 演技满分,眼神太媚了

素然追光
2025-11-16 04:00:02
特斯拉要求剔除中国零件,2年内全面替换,马斯克这刀砍向谁?

特斯拉要求剔除中国零件,2年内全面替换,马斯克这刀砍向谁?

蓝色海边
2025-11-17 02:11:55
83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

83年,下岗职工花700块买下上海废旧水塔住,22年后拆迁时愣了

温情邮局
2025-11-11 10:58:54
成都85亿三国蜀汉城获批!2026动工,再造“大唐不夜城”?

成都85亿三国蜀汉城获批!2026动工,再造“大唐不夜城”?

记录生活日常阿蜴
2025-11-17 01:29:21
1996年,姚文元出狱后,向中央提两个请求,第二个被一口回绝

1996年,姚文元出狱后,向中央提两个请求,第二个被一口回绝

雍亲王府
2025-11-15 21:50:03
疯狂的嘴脸,果然似曾相识

疯狂的嘴脸,果然似曾相识

极目新闻
2025-11-16 22:17:53
实锤!罗马诺确认:曼联3巨头2026集体离队

实锤!罗马诺确认:曼联3巨头2026集体离队

澜归序
2025-11-17 01:00:29
朱珠霍建华主演《他为什么依然单身》今晚开播,帅哥美女看点十足

朱珠霍建华主演《他为什么依然单身》今晚开播,帅哥美女看点十足

露珠聊影视
2025-11-16 17:08:01
戏子误国?央视公开点名,官媒狠批,这几个都是咎由自取的

戏子误国?央视公开点名,官媒狠批,这几个都是咎由自取的

阿废冷眼观察所
2025-11-17 01:44:07
什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

带你感受人间冷暖
2025-11-12 00:05:08
2025-11-17 06:55:00
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1402603文章数 2720036关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

数码
亲子
时尚
旅游
军事航空

数码要闻

华为鸿蒙HarmonyOS 6.0.0.112版本首曝,支持电脑投平板

亲子要闻

一分钟教你判断孩子的咳嗽代表什么

秋天怎么穿出时尚感?避开老气的着装方式,美得自然又大方

旅游要闻

年度名场面!燕雀湖池杉林层林尽染,治愈你整个冬天

军事要闻

海军四川舰顺利完成首次航行试验

无障碍浏览 进入关怀版