网易首页 > 网易号 > 正文 申请入驻

杨植麟首次透露K3架构,从月之暗面到MiniMax,中国AI“开源派”打响全球突围战

0
分享至

北京时间11月11日凌晨,月之暗面创始人杨植麟与联合创始人周昕宇、吴育昕在知名论坛Reddit集体上线。在这个全球技术极客聚集地,三位首次同时露面,就上周发布的K2 Thinking模型开启了一场长达数小时的线上AMA(线上问答)。


图片来源:论坛截图

《每日经济新闻》记者了解到,在交流中,杨植麟不仅回应了关于训练成本、技术路线等方面的问题,还透露了下一代K3模型的研发方向。“KDA(Kimi Delta Attention,一种线性注意力模块)是我们最新的实验性架构,相关想法很可能会在K3中使用。”他表示,“我们希望在K3中融入重大的架构变革并开发新的能力。”

当被问及开源策略这一核心问题时,杨植麟的回答显得既理想化又坚定:“我们拥抱开源,因为我们相信AGI(通用人工智能)应该引导大家走向团结而不是分裂。”

这场线上对话在业界看来,展现了中国AI(人工智能)企业正以更加开放、成熟的姿态融入全球技术生态。此前的7月,美国知名编程器Cursor开始全面禁止来自中国的IP调用Claude等模型。受此影响,Kimi K2调用量一度大幅上升。

本次线上问答还透露了哪些技术路线?中国大模型厂商在全球赛道上有着怎样鲜明的分野?

K3计划引入重大架构变革

11月6日晚间,月之暗面旗下Kimi大模型发布了Kimi K2 Thinking,并称其为“Kimi迄今能力最强的开源思考模型”。

Kimi官方表示,Kimi K2 Thinking是基于“模型即Agent(智能体)”理念训练的新一代Thinking Agent,它原生掌握“边思考、边使用工具”的能力。

而Kimi K2 Thinking得到外界瞩目的原因在于其“能打”的实测成绩。据官方披露,Kimi K2 Thinking在“人类最后的考试”(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到SOTA(当前技术水平的最前沿)水平。

在“人类最后的考试”测试中,Kimi K2 Thinking的得分为44.9%,作为对比,Kimi公布的同场测试中GPT-5(High)的成绩为41.7%。

同时,长思维链能力也成为K2 Thinking备受关注的焦点。据介绍,该模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性。而实现这一能力并非一帆风顺。吴育昕在回答中坦言,支持“思考-工具-思考-工具”的交错执行模式是其中一大难点,这种模式在大语言模型(LLM)中仍属较新行为,需投入大量工程才能有效实现。

对于“如此长的推理链如何保持稳定性”这一疑问,杨植麟进一步阐释了技术实现路径:“我们采用端到端的智能体强化学习训练K2 Thinking,这使得模型在数百个步骤的工具调用过程中,包括检索在内的每个中间环节都能保持良好的性能。”

值得一提的是,针对外界关心的训练成本传闻,杨植麟也首次做出澄清。

他表示,广为流传的“460万美元”并非官方数字,真正的训练成本很难量化,因为主要部分是研究和实验。

吴育昕透露,K2 Thinking是在配备了Infiniband的H800 GPU(图形处理器)集群上完成训练的。尽管在算力规模上不占优势,但团队“把每张显卡的性能都压榨到了极致”。

本次问答中下一代K3的蓝图也已初现轮廓。

杨植麟透露,团队正计划在K3中引入重大的架构变革。“从历史经验看,混合注意力机制在长序列任务中往往难以超越完全注意力机制。而我们在KDA架构上的实验表明,它在所有评估维度上都展现出性能提升,包括长序列输入输出的强化学习场景,同时保持了线性注意力机制的效率优势。因此,K3很可能会采纳相关的设计理念。”

除了架构革新,团队还透露正在开发视觉语言模型(VL)。并且在文本模型方面,Kimi曾尝试过1M上下文窗口,但因当时服务成本过高而未能推行。随着技术进步与成本优化,团队表示未来将重新考虑引入更长的上下文窗口。

中国开源应用生态正在形成

在全球AI竞赛中,国产大模型正凭借技术实力与开源策略,在国际舞台上赢得越来越多的关注与认可,同时也面临来自市场与地缘政治的挑战。

本次问答中,一位海外用户分享了他的两难处境:其公司虽然认可Kimi模型的出色能力,但因其为“中国大模型”,出于潜在风险考量,不敢在生产环境中部署。

对此,吴育昕回应,完全理解这类担忧。虽然“封禁”风险常常超出企业的控制范围,但开源模式正是化解此疑虑的有效途径——企业可以通过自行部署掌握控制权。他坦言:“我们期待一个更加互信的技术世界,但这需要时间。”

杨植麟则从更宏大的愿景出发:“我们拥抱开源,因为我们相信AGI应该要引导大家走向团结而不是分裂。”


吴育昕(上)和杨植麟(下)在论坛中的回复 图片来源:论坛截图

这种以开源构建信任、以技术连接世界的策略,正在复杂的国际环境中显现成效。

今年7月,当美国知名编程工具Cursor全面禁止中国IP调用Claude等模型后,市场迅速做出了选择。据平台OpenRouter数据显示,Kimi K2的调用量随即大幅攀升,与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token(大模型处理文本时的最小单位)。其API(应用程序编程接口)价格仅为Claude Sonnet的五分之一,展现出性价比的竞争力。

这样的增长势头并非孤例。10月27日,国内另一家AI独角兽MiniMax发布的开源文本模型M2,在权威测评榜Artificial Analysis中冲至全球总分前五、开源模型第一,实现了中国开源模型的历史性突破。更引人注目的是其成本效益:M2的综合成本低至每百万Tokens约0.53美元,约为Claude 4.5 Sonnet的8%,且推理速度近乎其两倍。

在技术路线上,国内头部模型公司已呈现出清晰的差异化发展路径:MiniMax M2主打极致性价比与高速推理,致力于构建丰富的多模态应用生态;而Kimi则持续专注将长文本处理和深度思考能力推向极致,探索大模型的能力上限。

面对与OpenAI等巨头的竞争,周昕宇幽默回应:“我们也不清楚OpenAI为何如此烧钱,这恐怕只有萨姆・奥尔特曼本人知道。我们有属于自己的方式和节奏。”他强调,公司的核心使命始终是寻求从能源到智能的最佳转换,未来将继续专注于提升智能本身。

对于外界翘首以盼的下一代模型K3,杨植麟的回答充满期待:“在OpenAI建成千亿级美元数据中心之前,K3会推出的。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官宣!003A型与004型核航母同步建造,2035年前中国实现“2核4常”!

官宣!003A型与004型核航母同步建造,2035年前中国实现“2核4常”!

纾瑶
2025-11-13 10:04:57
突发!迈赫股份董事长被留置调查,公司紧急推举80后总经理代行职责

突发!迈赫股份董事长被留置调查,公司紧急推举80后总经理代行职责

每日经济新闻
2025-11-16 20:03:06
不舍!中国羽毛球三位世界冠军同一天说再见,何冰娇哭着亲吻场地

不舍!中国羽毛球三位世界冠军同一天说再见,何冰娇哭着亲吻场地

体坛小二哥
2025-11-16 18:53:51
连续两场表现平平,火箭双向合同锋线新星终于打出了全能的表现?

连续两场表现平平,火箭双向合同锋线新星终于打出了全能的表现?

稻谷与小麦
2025-11-16 23:35:14
中年男人“返贫五件套”,你又沾了哪几件?

中年男人“返贫五件套”,你又沾了哪几件?

互联网.乱侃秀
2025-11-16 12:25:16
狗咬人案件,李胜透露详情:狗主人有5次不死机会,他们还串供了

狗咬人案件,李胜透露详情:狗主人有5次不死机会,他们还串供了

江山挥笔
2025-11-16 16:36:24
《解放军报》刊文:武力介入台海,日本全国都有沦为战场的风险

《解放军报》刊文:武力介入台海,日本全国都有沦为战场的风险

每日经济新闻
2025-11-16 15:09:54
这8种东西不能用酒精擦,一擦就坏,再也修复不回来了!

这8种东西不能用酒精擦,一擦就坏,再也修复不回来了!

装修秀
2025-11-13 11:50:03
发展联盟首秀打出精彩表现!火箭后场新援能否得到教练组的关注?

发展联盟首秀打出精彩表现!火箭后场新援能否得到教练组的关注?

稻谷与小麦
2025-11-16 23:25:38
最新一批股价有50%上涨空间的公司名单出炉!

最新一批股价有50%上涨空间的公司名单出炉!

证券市场周刊市场号
2025-11-16 19:12:53
《凤凰台上》的播出告诉观众:中年古偶真的没市场了!

《凤凰台上》的播出告诉观众:中年古偶真的没市场了!

海绵宝宝的心事
2025-11-15 12:16:02
苹果刚上架的新品,开售就火到断货了

苹果刚上架的新品,开售就火到断货了

科技堡垒
2025-11-15 12:04:21
一旦台海爆发冲突,最难的不是台湾,而是距大陆仅50公里的东引岛

一旦台海爆发冲突,最难的不是台湾,而是距大陆仅50公里的东引岛

放开他让wo来
2025-11-08 22:41:14
克洛普回归!官宣新身份,目标直指2026世界杯

克洛普回归!官宣新身份,目标直指2026世界杯

夜白侃球
2025-11-16 23:18:28
科索沃队史首次杀入世欧预附加赛,并保有末轮直通世界杯的可能

科索沃队史首次杀入世欧预附加赛,并保有末轮直通世界杯的可能

懂球帝
2025-11-16 12:12:22
这种丰满的腿,穿紧身瑜伽裤真的好看吗?

这种丰满的腿,穿紧身瑜伽裤真的好看吗?

小乔古装汉服
2025-10-15 17:16:17
45岁董洁在北京定居,住豪宅不请保姆不通暖气,还要自己洗衣做饭

45岁董洁在北京定居,住豪宅不请保姆不通暖气,还要自己洗衣做饭

疯说时尚
2025-11-16 10:37:52
耻辱1-4!5亿欧瑞典5轮1分垫底:1.4亿欧锋霸梦游 仍有望踢世界杯

耻辱1-4!5亿欧瑞典5轮1分垫底:1.4亿欧锋霸梦游 仍有望踢世界杯

风过乡
2025-11-16 06:50:08
毛主席的机要秘书“小谢”有多美?清纯可爱,曾任北京市委书记

毛主席的机要秘书“小谢”有多美?清纯可爱,曾任北京市委书记

万物知识圈
2025-11-16 09:23:42
王曼昱战胜孙颖莎,成为卫冕全运会乒乓球女单冠军第四人

王曼昱战胜孙颖莎,成为卫冕全运会乒乓球女单冠军第四人

澎湃新闻
2025-11-16 23:14:28
2025-11-17 00:52:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1402521文章数 2720034关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

央视:若高市早苗死不悔改 日本将万劫不复

头条要闻

央视:若高市早苗死不悔改 日本将万劫不复

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

艺术
游戏
旅游
房产
军事航空

艺术要闻

这些获奖摄影作品,简直让人目不暇接!

《纪元117:罗马和平》多人游戏问题大 育碧承诺修复

旅游要闻

浙江绍兴:一泓文脉润古城

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

军事要闻

海军四川舰顺利完成首次航行试验

无障碍浏览 进入关怀版