网易首页 > 网易号 > 正文 申请入驻

国产大模型在多项基准测试中超越GPT-5

0
分享至

记者丨雷晨

编辑丨张伟贤

近期,月之暗面三位创始人杨植麟、周昕宇和吴育昕同时现身Reddit论坛,进行了一场长达数小时的线上问答活动。

这场技术极客风格的互动,举办在Kimi K2 Thinking模型发布第五天。该模型在“人类最后的考试”等多项基准测试中表现超越GPT-5,引发全球AI社区关注。

在问答过程中,创始人团队不仅回应了训练成本、算力优化、开源策略等核心问题,更直面海外用户对“中国LLM”的使用疑虑。


多项测评成绩领先

11月6日晚,月之暗面推出Kimi K2 Thinking模型,并称其为“Kimi迄今能力最强的开源思考模型”。

这一模型基于“模型即Agent”理念训练,原生掌握“边思考、边使用工具”的能力。在多项权威基准测试中,K2 Thinking达到SOTA水平。

譬如,在被称为“人类最后的考试”的HLE(Humanity’s Last Exam)测试中,K2 Thinking获得了44.9%的成绩,超过GPT-5的41.7%。在自主网络浏览能力BrowseComp基准测试中,Kimi K2 Thinking同样以60.2%的得分,领先GPT-5的54.9%。同时在复杂信息收集推理SEAL-0测试中,其以56.3%的得分超过GPT-5的51.4%。

值得一提的是,该模型无需人类干预,即可凭借持续稳定的深度思考能力自主实现高达300步的工具调用,从而帮助用户解决更复杂的问题。这是月之暗面在Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用的步数,实现更强的Agent和推理性能。

K2 Thinking最引人注目的特点之一,是其推理性能的全面提升。据悉,该模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性。

吴育昕表示,这种支持“思考-工具-思考-工具”的交错执行模式,在大语言模型中仍属较新行为。

月之暗面以HLE测试中一道人文类题目推理过程为例,在示例中,Kimi K2 Thinking经过5次搜索和推理,结合每步搜索到的新信息,层层深入,最终推理出了答案。

而当推理链条变长,如何保持其推理过程中的稳定性?杨植麟表示,团队采用端到端的智能体强化学习训练K2 Thinking,这使模型在数百个步骤的工具调用过程中,包括检索在内的每个中间环节都保持良好性能。


极致压榨算力

在算力资源相对有限的条件下,月之暗面团队展现出了优秀的工程优化能力。

吴育昕在回答中坦言,团队使用的是配备Infiniband的H800 GPU集群,无论在算力规模还是芯片性能上都不占优势。

但他强调,团队“把每张显卡的性能都压榨到了极致”。

针对训练成本问题,杨植麟也做出回应。他强调,所谓“460万美元”的成本并非官方数字,真正的训练成本很难量化,因为主要部分是研究和实验。

关于外界对模型使用较多代币的质疑,杨植麟回应道:“当前版本中,我们优先考虑的是绝对性能而非代币效率。”他表示,后续会尝试将效率纳入奖励机制,以便模型能学习如何简化思考过程。

在工程落地层面,K2 Thinking采用了原生INT4量化技术,对MoE组件应用了INT4纯权重量化,使得生成速度提升了约2倍。

周昕宇补充道,选择INT4是为了更好地兼容“非Blackwell GPU”,同时利用现有的INT4推理marlin内核。

谈及OpenAI的烧钱策略,周昕宇表示:“我们也不清楚OpenAI为何如此烧钱,这恐怕只有萨姆·奥尔特曼本人知道。我们有属于自己的方式和节奏。”


国产大模型突围

值得注意的是,月之暗面所坚持的开源策略,让中国AI大模型得到了更广泛的国际认可。

今年7月,美国知名编程工具Cursor全面禁止中国IP调用Claude等模型。市场迅速做出了选择——平台OpenRouter数据显示,Kimi K2的调用量随即大幅攀升。其API价格仅为Claude Sonnet的五分之一,展现出显著的性价比竞争力。

在交流环节,一位海外用户表示,在其工作场所,Kimi是其主要测试的模型,但生产使用上仍然会用美国本土模型,这主要由于管理层对于“中国LLM”的风险感知。

对此,吴育昕表示,虽然“封禁”风险通常超过控制范畴,但开源模式是消除部分疑虑的好办法。

杨植麟亦表示:“我们之所以支持开源,是因为我们相信开源是一件促进团结而非分裂的事情。当前虽然有一些挑战,但我们非常乐意与大家共同面对。”

从欧洲到北美,从亚洲到非洲,越来越多的开发者正在调试基于Kimi K2 Thinking的应用。

OpenRouter官网显示,在近一周的模型调用榜单上,排名前二十的模型中,中国模型已占据七席。而Kimi K2更与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token。


(图片来源:OpenRouter官网)

当前,月之暗面已经勾勒出下一代K3模型的发展蓝图。

杨植麟表示:“在OpenAI建成千亿级美元数据中心之前,K3会推出的。”他透露,团队正计划在K3中引入重大的架构变革,“KDA是我们最新的实验性架构,相关想法很可能会在K3中使用。”

据介绍,KDA(Kimi Delta Attention,一种线性注意力模块)在实验中表现出色,杨植麟表示它在所有评估维度上都展现出性能提升,包括长序列输入输出的强化学习场景,同时保持了线性注意力机制的效率优势。

SFC

出品丨21财经客户端 21世纪经济报道

编辑丨黎雨桐

21君荐读

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外媒:斯帕莱蒂要求签赛季20球级别的得分手,尤文看上萨拉赫

外媒:斯帕莱蒂要求签赛季20球级别的得分手,尤文看上萨拉赫

懂球帝
2026-04-23 03:07:36
我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

我在伊拉克开工厂,娶了4个老婆,虽然年入千万,如今却很焦虑!

千秋文化
2026-04-16 20:12:45
你抛美债,我抛中债!外资纷纷减持中国债,大量资金流向美国?

你抛美债,我抛中债!外资纷纷减持中国债,大量资金流向美国?

安珈使者啊
2026-04-22 09:52:52
生涯最佳一战!4年前你可是和文班争状元的天之骄子啊!

生涯最佳一战!4年前你可是和文班争状元的天之骄子啊!

篮球大图
2026-04-22 12:21:49
退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

混沌录
2026-04-22 19:51:07
玉林烤鸭品牌创始人、玉林餐饮集团董事长邹胜利去世,北京烹饪协会:沉痛悼念

玉林烤鸭品牌创始人、玉林餐饮集团董事长邹胜利去世,北京烹饪协会:沉痛悼念

界面新闻
2026-04-22 14:23:15
如今定居广东的朱芳雨,大儿走篮球路,二儿优秀低调,三儿最潇洒

如今定居广东的朱芳雨,大儿走篮球路,二儿优秀低调,三儿最潇洒

翰飞观事
2026-04-22 14:42:17
梁宏博:樊振东不打世乒赛和WTT国际乒联无关 是中国乒协和他决定

梁宏博:樊振东不打世乒赛和WTT国际乒联无关 是中国乒协和他决定

818体育
2026-04-22 16:31:49
新澳门六合彩113期一码中特内幕十拿九稳

新澳门六合彩113期一码中特内幕十拿九稳

一杯烈酒与你醉
2026-04-23 00:06:45
格力回应铝线电机争议:相关工程机已停产,海信称靠多三两铜多500元时代已终结

格力回应铝线电机争议:相关工程机已停产,海信称靠多三两铜多500元时代已终结

红星资本局
2026-04-21 20:40:16
非常炸裂:以色列列出全球黑名单,明确警告各国:反以,就是反犹

非常炸裂:以色列列出全球黑名单,明确警告各国:反以,就是反犹

远方风林
2026-04-22 11:58:01
摩根大通:中国楼市触底反弹在即

摩根大通:中国楼市触底反弹在即

邓浩志教买房
2026-04-22 18:32:28
提醒大家:最近逛超市,记得多囤这5样,五一可能迎来大涨价!

提醒大家:最近逛超市,记得多囤这5样,五一可能迎来大涨价!

小娟教做菜
2026-04-21 16:32:56
日舰闯台海3天后,高市被逼辞职,岸田已扛旗,052D抵近奄美大岛

日舰闯台海3天后,高市被逼辞职,岸田已扛旗,052D抵近奄美大岛

小莜读史
2026-04-22 14:50:11
特朗普没料到:霍尔木兹危机打醒中国,一个万亿级产业开始爆发

特朗普没料到:霍尔木兹危机打醒中国,一个万亿级产业开始爆发

触摸史迹
2026-04-22 12:45:25
黎巴嫩女孩到沈阳留学,和广东小伙谈恋爱,直言自己是半个中国人

黎巴嫩女孩到沈阳留学,和广东小伙谈恋爱,直言自己是半个中国人

不写散文诗
2026-04-22 16:12:04
全面压制!美日菲七国军演拉开帷幕,中国双航母战斗群冲向南海!

全面压制!美日菲七国军演拉开帷幕,中国双航母战斗群冲向南海!

阿龙聊军事
2026-04-22 15:02:44
2-0!马德里1000赛:中国金花获胜首人产生,王欣瑜郑钦文新消息

2-0!马德里1000赛:中国金花获胜首人产生,王欣瑜郑钦文新消息

大秦壁虎白话体育
2026-04-22 19:11:07
真惨!一年大跌90%从360跌到27,牛散吕强、广发证券、瑞银却重仓

真惨!一年大跌90%从360跌到27,牛散吕强、广发证券、瑞银却重仓

长风价值掘金
2026-04-22 16:25:45
太敢说!34岁方博:现在全是内斗+拉踩队友 不求自己好但求别人差

太敢说!34岁方博:现在全是内斗+拉踩队友 不求自己好但求别人差

念洲
2026-04-22 13:49:49
2026-04-23 03:44:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
244398文章数 744129关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

伊朗:特朗普“又说谎了”

头条要闻

伊朗:特朗普“又说谎了”

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

教育
亲子
旅游
房产
公开课

教育要闻

3分钟学会一个雅思7分句/段(第340期)

亲子要闻

妈妈看不到的时候,孩子能拒绝才真的放心!

旅游要闻

“运上行”周五首航

房产要闻

官宣!今年9月起,广州中小学“重点班”将成历史!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版