网易首页 > 网易号 > 正文 申请入驻

国产大模型在多项基准测试中超越GPT-5

0
分享至

记者丨雷晨

编辑丨张伟贤

近期,月之暗面三位创始人杨植麟、周昕宇和吴育昕同时现身Reddit论坛,进行了一场长达数小时的线上问答活动。

这场技术极客风格的互动,举办在Kimi K2 Thinking模型发布第五天。该模型在“人类最后的考试”等多项基准测试中表现超越GPT-5,引发全球AI社区关注。

在问答过程中,创始人团队不仅回应了训练成本、算力优化、开源策略等核心问题,更直面海外用户对“中国LLM”的使用疑虑。


多项测评成绩领先

11月6日晚,月之暗面推出Kimi K2 Thinking模型,并称其为“Kimi迄今能力最强的开源思考模型”。

这一模型基于“模型即Agent”理念训练,原生掌握“边思考、边使用工具”的能力。在多项权威基准测试中,K2 Thinking达到SOTA水平。

譬如,在被称为“人类最后的考试”的HLE(Humanity’s Last Exam)测试中,K2 Thinking获得了44.9%的成绩,超过GPT-5的41.7%。在自主网络浏览能力BrowseComp基准测试中,Kimi K2 Thinking同样以60.2%的得分,领先GPT-5的54.9%。同时在复杂信息收集推理SEAL-0测试中,其以56.3%的得分超过GPT-5的51.4%。

值得一提的是,该模型无需人类干预,即可凭借持续稳定的深度思考能力自主实现高达300步的工具调用,从而帮助用户解决更复杂的问题。这是月之暗面在Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用的步数,实现更强的Agent和推理性能。

K2 Thinking最引人注目的特点之一,是其推理性能的全面提升。据悉,该模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性。

吴育昕表示,这种支持“思考-工具-思考-工具”的交错执行模式,在大语言模型中仍属较新行为。

月之暗面以HLE测试中一道人文类题目推理过程为例,在示例中,Kimi K2 Thinking经过5次搜索和推理,结合每步搜索到的新信息,层层深入,最终推理出了答案。

而当推理链条变长,如何保持其推理过程中的稳定性?杨植麟表示,团队采用端到端的智能体强化学习训练K2 Thinking,这使模型在数百个步骤的工具调用过程中,包括检索在内的每个中间环节都保持良好性能。


极致压榨算力

在算力资源相对有限的条件下,月之暗面团队展现出了优秀的工程优化能力。

吴育昕在回答中坦言,团队使用的是配备Infiniband的H800 GPU集群,无论在算力规模还是芯片性能上都不占优势。

但他强调,团队“把每张显卡的性能都压榨到了极致”。

针对训练成本问题,杨植麟也做出回应。他强调,所谓“460万美元”的成本并非官方数字,真正的训练成本很难量化,因为主要部分是研究和实验。

关于外界对模型使用较多代币的质疑,杨植麟回应道:“当前版本中,我们优先考虑的是绝对性能而非代币效率。”他表示,后续会尝试将效率纳入奖励机制,以便模型能学习如何简化思考过程。

在工程落地层面,K2 Thinking采用了原生INT4量化技术,对MoE组件应用了INT4纯权重量化,使得生成速度提升了约2倍。

周昕宇补充道,选择INT4是为了更好地兼容“非Blackwell GPU”,同时利用现有的INT4推理marlin内核。

谈及OpenAI的烧钱策略,周昕宇表示:“我们也不清楚OpenAI为何如此烧钱,这恐怕只有萨姆·奥尔特曼本人知道。我们有属于自己的方式和节奏。”


国产大模型突围

值得注意的是,月之暗面所坚持的开源策略,让中国AI大模型得到了更广泛的国际认可。

今年7月,美国知名编程工具Cursor全面禁止中国IP调用Claude等模型。市场迅速做出了选择——平台OpenRouter数据显示,Kimi K2的调用量随即大幅攀升。其API价格仅为Claude Sonnet的五分之一,展现出显著的性价比竞争力。

在交流环节,一位海外用户表示,在其工作场所,Kimi是其主要测试的模型,但生产使用上仍然会用美国本土模型,这主要由于管理层对于“中国LLM”的风险感知。

对此,吴育昕表示,虽然“封禁”风险通常超过控制范畴,但开源模式是消除部分疑虑的好办法。

杨植麟亦表示:“我们之所以支持开源,是因为我们相信开源是一件促进团结而非分裂的事情。当前虽然有一些挑战,但我们非常乐意与大家共同面对。”

从欧洲到北美,从亚洲到非洲,越来越多的开发者正在调试基于Kimi K2 Thinking的应用。

OpenRouter官网显示,在近一周的模型调用榜单上,排名前二十的模型中,中国模型已占据七席。而Kimi K2更与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token。


(图片来源:OpenRouter官网)

当前,月之暗面已经勾勒出下一代K3模型的发展蓝图。

杨植麟表示:“在OpenAI建成千亿级美元数据中心之前,K3会推出的。”他透露,团队正计划在K3中引入重大的架构变革,“KDA是我们最新的实验性架构,相关想法很可能会在K3中使用。”

据介绍,KDA(Kimi Delta Attention,一种线性注意力模块)在实验中表现出色,杨植麟表示它在所有评估维度上都展现出性能提升,包括长序列输入输出的强化学习场景,同时保持了线性注意力机制的效率优势。

SFC

出品丨21财经客户端 21世纪经济报道

编辑丨黎雨桐

21君荐读

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女篮全运超级大逆转!22分逆袭后再18分逆转:他们才是最大的黑马

女篮全运超级大逆转!22分逆袭后再18分逆转:他们才是最大的黑马

篮球快餐车
2025-11-15 02:22:37
中国和俄罗斯投弃权票

中国和俄罗斯投弃权票

政知新媒体
2025-11-15 12:38:29
金价11月15日:大家要有心理准备,金价暴跌后,下周很可能这样走

金价11月15日:大家要有心理准备,金价暴跌后,下周很可能这样走

小陆搞笑日常
2025-11-15 12:07:16
中国网球假球丑闻!三名中国球员因涉嫌操纵比赛遭ITIA禁赛罚款!

中国网球假球丑闻!三名中国球员因涉嫌操纵比赛遭ITIA禁赛罚款!

网球之家
2025-11-15 12:59:59
谁最旺?这3个生肖贵人护体,日子越过越顺,好运挡不住!

谁最旺?这3个生肖贵人护体,日子越过越顺,好运挡不住!

毅谈生肖
2025-11-15 12:00:46
高市还在搞事?日本同时被四国痛批,一盟友划清界限!

高市还在搞事?日本同时被四国痛批,一盟友划清界限!

极目新闻
2025-11-15 12:38:03
计划有变!神舟22飞船即将无人发射,中国空间站到底发生了什么

计划有变!神舟22飞船即将无人发射,中国空间站到底发生了什么

军机Talk
2025-11-15 10:28:45
【汽车人】卷不动了?比亚迪10月销量跌31%

【汽车人】卷不动了?比亚迪10月销量跌31%

汽车人传媒
2025-11-15 15:50:31
狗咬人案监控曝光!邻居很凶,被告家属称闯入者9人,他们先动手

狗咬人案监控曝光!邻居很凶,被告家属称闯入者9人,他们先动手

鋭娱之乐
2025-11-15 20:54:05
贝索斯晒“新格伦”火箭升空画面 马斯克:太美了

贝索斯晒“新格伦”火箭升空画面 马斯克:太美了

快科技
2025-11-15 16:33:38
盛泽二中门口现数名“黄毛”,家长愤怒,学校:已联系街道核实

盛泽二中门口现数名“黄毛”,家长愤怒,学校:已联系街道核实

游者走天下
2025-11-15 10:47:53
网红小英丈夫上拉如被曝肇事逃逸,警方回应:正在核实处理

网红小英丈夫上拉如被曝肇事逃逸,警方回应:正在核实处理

极目新闻
2025-11-15 15:38:51
17日起强冷空气自北向南影响广东

17日起强冷空气自北向南影响广东

广东天气
2025-11-15 16:02:39
天津女排第二败江苏六连胜!福建丢局无缘小组第一,浙江搅局成功

天津女排第二败江苏六连胜!福建丢局无缘小组第一,浙江搅局成功

排球黄金眼
2025-11-15 15:19:36
李诞直播徐志胜私事,难堪话题引多人围观,徐志胜的回击很有水平

李诞直播徐志胜私事,难堪话题引多人围观,徐志胜的回击很有水平

娱乐独家内幕
2025-11-14 03:30:59
沈伯洋逃出台湾,国民党拒绝救人,郑丽文已通告全岛,蒋万安笑了

沈伯洋逃出台湾,国民党拒绝救人,郑丽文已通告全岛,蒋万安笑了

影孖看世界
2025-11-15 18:12:56
霍思燕这件衣服太宽松了吧,练个瑜伽都快走光了,是故意的吧

霍思燕这件衣服太宽松了吧,练个瑜伽都快走光了,是故意的吧

情感大头说说
2025-10-26 03:25:09
泰国财长宣布:将对低价进口商品征收10%的关税!发生了什么?

泰国财长宣布:将对低价进口商品征收10%的关税!发生了什么?

王爷说图表
2025-11-14 22:54:43
王永康书记,回西安吧!

王永康书记,回西安吧!

贞观108坊
2025-11-15 10:46:01
高市早苗通知全球,不撤回涉台言论,话音刚落,解放军攻击11亮相

高市早苗通知全球,不撤回涉台言论,话音刚落,解放军攻击11亮相

谛听骨语本尊
2025-11-13 16:10:40
2025-11-15 22:16:50
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
220260文章数 743292关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

高市对华挑衅后日本同时被四国痛批 特朗普划清界限

头条要闻

高市对华挑衅后日本同时被四国痛批 特朗普划清界限

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

游戏
健康
旅游
房产
公开课

《超英派遣中心》IGN 9分:第二季还要等多久出?

金振口服液助力科学应对呼吸道疾病

旅游要闻

【2025打卡中国】淮安松弛感拉满 法国博主:原来这就是《西游记》作者家乡!

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版