网易首页 > 网易号 > 正文 申请入驻

国产大模型在多项基准测试中超越GPT-5

0
分享至

记者丨雷晨

编辑丨张伟贤

近期,月之暗面三位创始人杨植麟、周昕宇和吴育昕同时现身Reddit论坛,进行了一场长达数小时的线上问答活动。

这场技术极客风格的互动,举办在Kimi K2 Thinking模型发布第五天。该模型在“人类最后的考试”等多项基准测试中表现超越GPT-5,引发全球AI社区关注。

在问答过程中,创始人团队不仅回应了训练成本、算力优化、开源策略等核心问题,更直面海外用户对“中国LLM”的使用疑虑。


多项测评成绩领先

11月6日晚,月之暗面推出Kimi K2 Thinking模型,并称其为“Kimi迄今能力最强的开源思考模型”。

这一模型基于“模型即Agent”理念训练,原生掌握“边思考、边使用工具”的能力。在多项权威基准测试中,K2 Thinking达到SOTA水平。

譬如,在被称为“人类最后的考试”的HLE(Humanity’s Last Exam)测试中,K2 Thinking获得了44.9%的成绩,超过GPT-5的41.7%。在自主网络浏览能力BrowseComp基准测试中,Kimi K2 Thinking同样以60.2%的得分,领先GPT-5的54.9%。同时在复杂信息收集推理SEAL-0测试中,其以56.3%的得分超过GPT-5的51.4%。

值得一提的是,该模型无需人类干预,即可凭借持续稳定的深度思考能力自主实现高达300步的工具调用,从而帮助用户解决更复杂的问题。这是月之暗面在Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用的步数,实现更强的Agent和推理性能。

K2 Thinking最引人注目的特点之一,是其推理性能的全面提升。据悉,该模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性。

吴育昕表示,这种支持“思考-工具-思考-工具”的交错执行模式,在大语言模型中仍属较新行为。

月之暗面以HLE测试中一道人文类题目推理过程为例,在示例中,Kimi K2 Thinking经过5次搜索和推理,结合每步搜索到的新信息,层层深入,最终推理出了答案。

而当推理链条变长,如何保持其推理过程中的稳定性?杨植麟表示,团队采用端到端的智能体强化学习训练K2 Thinking,这使模型在数百个步骤的工具调用过程中,包括检索在内的每个中间环节都保持良好性能。


极致压榨算力

在算力资源相对有限的条件下,月之暗面团队展现出了优秀的工程优化能力。

吴育昕在回答中坦言,团队使用的是配备Infiniband的H800 GPU集群,无论在算力规模还是芯片性能上都不占优势。

但他强调,团队“把每张显卡的性能都压榨到了极致”。

针对训练成本问题,杨植麟也做出回应。他强调,所谓“460万美元”的成本并非官方数字,真正的训练成本很难量化,因为主要部分是研究和实验。

关于外界对模型使用较多代币的质疑,杨植麟回应道:“当前版本中,我们优先考虑的是绝对性能而非代币效率。”他表示,后续会尝试将效率纳入奖励机制,以便模型能学习如何简化思考过程。

在工程落地层面,K2 Thinking采用了原生INT4量化技术,对MoE组件应用了INT4纯权重量化,使得生成速度提升了约2倍。

周昕宇补充道,选择INT4是为了更好地兼容“非Blackwell GPU”,同时利用现有的INT4推理marlin内核。

谈及OpenAI的烧钱策略,周昕宇表示:“我们也不清楚OpenAI为何如此烧钱,这恐怕只有萨姆·奥尔特曼本人知道。我们有属于自己的方式和节奏。”


国产大模型突围

值得注意的是,月之暗面所坚持的开源策略,让中国AI大模型得到了更广泛的国际认可。

今年7月,美国知名编程工具Cursor全面禁止中国IP调用Claude等模型。市场迅速做出了选择——平台OpenRouter数据显示,Kimi K2的调用量随即大幅攀升。其API价格仅为Claude Sonnet的五分之一,展现出显著的性价比竞争力。

在交流环节,一位海外用户表示,在其工作场所,Kimi是其主要测试的模型,但生产使用上仍然会用美国本土模型,这主要由于管理层对于“中国LLM”的风险感知。

对此,吴育昕表示,虽然“封禁”风险通常超过控制范畴,但开源模式是消除部分疑虑的好办法。

杨植麟亦表示:“我们之所以支持开源,是因为我们相信开源是一件促进团结而非分裂的事情。当前虽然有一些挑战,但我们非常乐意与大家共同面对。”

从欧洲到北美,从亚洲到非洲,越来越多的开发者正在调试基于Kimi K2 Thinking的应用。

OpenRouter官网显示,在近一周的模型调用榜单上,排名前二十的模型中,中国模型已占据七席。而Kimi K2更与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token。


(图片来源:OpenRouter官网)

当前,月之暗面已经勾勒出下一代K3模型的发展蓝图。

杨植麟表示:“在OpenAI建成千亿级美元数据中心之前,K3会推出的。”他透露,团队正计划在K3中引入重大的架构变革,“KDA是我们最新的实验性架构,相关想法很可能会在K3中使用。”

据介绍,KDA(Kimi Delta Attention,一种线性注意力模块)在实验中表现出色,杨植麟表示它在所有评估维度上都展现出性能提升,包括长序列输入输出的强化学习场景,同时保持了线性注意力机制的效率优势。

SFC

出品丨21财经客户端 21世纪经济报道

编辑丨黎雨桐

21君荐读

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广州这件新闻,不该让最底层的人承担代价!

广州这件新闻,不该让最底层的人承担代价!

胖胖说他不胖
2026-01-05 09:55:08
下课后首次露面!阿莫林笑容灿烂,双手插兜,离开曼联彻底解脱

下课后首次露面!阿莫林笑容灿烂,双手插兜,离开曼联彻底解脱

奥拜尔
2026-01-05 22:57:09
国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:28:44
河北网友分享农村天然气取暖真实情况,仅几户有小孩的会开

河北网友分享农村天然气取暖真实情况,仅几户有小孩的会开

映射生活的身影
2026-01-05 20:18:43
控制马杜罗后,特朗普与马斯克共进晚餐 马斯克:2026将是精彩的一年

控制马杜罗后,特朗普与马斯克共进晚餐 马斯克:2026将是精彩的一年

红星新闻
2026-01-05 18:18:14
姚明观战!上海7连胜大胜终结广厦8连胜 张镇麟16分胡金秋22分

姚明观战!上海7连胜大胜终结广厦8连胜 张镇麟16分胡金秋22分

醉卧浮生
2026-01-05 21:48:36
从1198元跌至400元!二手价格“大跳水”!几个月前曾爆火

从1198元跌至400元!二手价格“大跳水”!几个月前曾爆火

环球网资讯
2026-01-05 16:22:45
CBA疯狂一夜!广东被3分压哨绝杀,广厦22分惨败,大黑马冲上榜首

CBA疯狂一夜!广东被3分压哨绝杀,广厦22分惨败,大黑马冲上榜首

侃球熊弟
2026-01-05 20:49:34
遥遥领先的华为数据库故障,导致中国银行app中断服务

遥遥领先的华为数据库故障,导致中国银行app中断服务

老冯云数
2026-01-05 11:52:36
委内瑞拉启动全面战备状态!在委华人:多城警力集结、商家大多“半开门”营业

委内瑞拉启动全面战备状态!在委华人:多城警力集结、商家大多“半开门”营业

第一财经资讯
2026-01-05 16:39:11
长沙同学聚会15秒亲吻视频:涉事男的妻子和女的丈夫,表示抗议

长沙同学聚会15秒亲吻视频:涉事男的妻子和女的丈夫,表示抗议

江山挥笔
2026-01-04 16:28:59
景区21辆车被扎胎后续!凶手正脸被扒,彻底社死,作案原因曝光

景区21辆车被扎胎后续!凶手正脸被扒,彻底社死,作案原因曝光

奇思妙想草叶君
2026-01-05 16:08:00
华强北又爆火!销量猛增270%!有人拖空箱子扫货……

华强北又爆火!销量猛增270%!有人拖空箱子扫货……

今日美食分享
2026-01-05 14:05:48
突然通知:马上搬离!上海多处魔方公寓停止运营 租客报警:电梯停运 押金没着落 还可能遭“停水停电”

突然通知:马上搬离!上海多处魔方公寓停止运营 租客报警:电梯停运 押金没着落 还可能遭“停水停电”

中国能源网
2026-01-05 14:50:11
在美国的马杜罗没想到,副总统只扛了一天,就带领全国人民投降了

在美国的马杜罗没想到,副总统只扛了一天,就带领全国人民投降了

瞳哥视界
2026-01-05 21:45:48
中方高规格接待,李在明来京吃晚宴,关键时刻,平壤采取军事行动

中方高规格接待,李在明来京吃晚宴,关键时刻,平壤采取军事行动

云鹏叙事
2026-01-05 16:10:48
上海千亿集团塌房!企业要求员工“裸辞”,老板早已携款“跑路”

上海千亿集团塌房!企业要求员工“裸辞”,老板早已携款“跑路”

时光在作祟
2026-01-05 19:54:32
伊朗动荡第9天,风云突变,多路武装发动攻击,占领近50个城镇

伊朗动荡第9天,风云突变,多路武装发动攻击,占领近50个城镇

高博新视野
2026-01-05 18:06:45
全网380万人围观!连代码都不看,4个月“烧掉”30亿Token,不懂编程的他却做出了50+个产品……

全网380万人围观!连代码都不看,4个月“烧掉”30亿Token,不懂编程的他却做出了50+个产品……

CSDN
2026-01-05 18:18:45
俄乌彻底结束了?乌军精锐从四面八方出现,排着队一起向俄军投降

俄乌彻底结束了?乌军精锐从四面八方出现,排着队一起向俄军投降

健身狂人
2026-01-03 20:04:20
2026-01-06 04:55:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
227646文章数 743494关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

亲子
艺术
健康
旅游
时尚

亲子要闻

你们打过自己的孩子吗?真打那种

艺术要闻

抖音第二总部今年启动开工建设,坐标深圳!

这些新疗法,让化疗不再那么痛苦

旅游要闻

198.33万人次市民游客元旦假期畅游浦东,文旅市场迎来开门红

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

无障碍浏览 进入关怀版