网易首页 > 网易号 > 正文 申请入驻

国产大模型在多项基准测试中超越GPT-5

0
分享至

来源:市场资讯

(来源:21世纪经济报道)

记者丨雷晨

编辑丨张伟贤

近期,月之暗面三位创始人杨植麟、周昕宇和吴育昕同时现身Reddit论坛,进行了一场长达数小时的线上问答活动。

这场技术极客风格的互动,举办在Kimi K2 Thinking模型发布第五天。该模型在“人类最后的考试”等多项基准测试中表现超越GPT-5,引发全球AI社区关注。

在问答过程中,创始人团队不仅回应了训练成本、算力优化、开源策略等核心问题,更直面海外用户对“中国LLM”的使用疑虑。


多项测评成绩领先

11月6日晚,月之暗面推出Kimi K2 Thinking模型,并称其为“Kimi迄今能力最强的开源思考模型”。

这一模型基于“模型即Agent”理念训练,原生掌握“边思考、边使用工具”的能力。在多项权威基准测试中,K2 Thinking达到SOTA水平。

譬如,在被称为“人类最后的考试”的HLE(Humanity’s Last Exam)测试中,K2 Thinking获得了44.9%的成绩,超过GPT-5的41.7%。在自主网络浏览能力BrowseComp基准测试中,Kimi K2 Thinking同样以60.2%的得分,领先GPT-5的54.9%。同时在复杂信息收集推理SEAL-0测试中,其以56.3%的得分超过GPT-5的51.4%。

值得一提的是,该模型无需人类干预,即可凭借持续稳定的深度思考能力自主实现高达300步的工具调用,从而帮助用户解决更复杂的问题。这是月之暗面在Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用的步数,实现更强的Agent和推理性能。

K2 Thinking最引人注目的特点之一,是其推理性能的全面提升。据悉,该模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性。

吴育昕表示,这种支持“思考-工具-思考-工具”的交错执行模式,在大语言模型中仍属较新行为。

月之暗面以HLE测试中一道人文类题目推理过程为例,在示例中,Kimi K2 Thinking经过5次搜索和推理,结合每步搜索到的新信息,层层深入,最终推理出了答案。

而当推理链条变长,如何保持其推理过程中的稳定性?杨植麟表示,团队采用端到端的智能体强化学习训练K2 Thinking,这使模型在数百个步骤的工具调用过程中,包括检索在内的每个中间环节都保持良好性能。


极致压榨算力

在算力资源相对有限的条件下,月之暗面团队展现出了优秀的工程优化能力。

吴育昕在回答中坦言,团队使用的是配备Infiniband的H800 GPU集群,无论在算力规模还是芯片性能上都不占优势。

但他强调,团队“把每张显卡的性能都压榨到了极致”。

针对训练成本问题,杨植麟也做出回应。他强调,所谓“460万美元”的成本并非官方数字,真正的训练成本很难量化,因为主要部分是研究和实验。

关于外界对模型使用较多代币的质疑,杨植麟回应道:“当前版本中,我们优先考虑的是绝对性能而非代币效率。”他表示,后续会尝试将效率纳入奖励机制,以便模型能学习如何简化思考过程。

在工程落地层面,K2 Thinking采用了原生INT4量化技术,对MoE组件应用了INT4纯权重量化,使得生成速度提升了约2倍。

周昕宇补充道,选择INT4是为了更好地兼容“非Blackwell GPU”,同时利用现有的INT4推理marlin内核。

谈及OpenAI的烧钱策略,周昕宇表示:“我们也不清楚OpenAI为何如此烧钱,这恐怕只有萨姆·奥尔特曼本人知道。我们有属于自己的方式和节奏。”


国产大模型突围

值得注意的是,月之暗面所坚持的开源策略,让中国AI大模型得到了更广泛的国际认可。

今年7月,美国知名编程工具Cursor全面禁止中国IP调用Claude等模型。市场迅速做出了选择——平台OpenRouter数据显示,Kimi K2的调用量随即大幅攀升。其API价格仅为Claude Sonnet的五分之一,展现出显著的性价比竞争力。

在交流环节,一位海外用户表示,在其工作场所,Kimi是其主要测试的模型,但生产使用上仍然会用美国本土模型,这主要由于管理层对于“中国LLM”的风险感知。

对此,吴育昕表示,虽然“封禁”风险通常超过控制范畴,但开源模式是消除部分疑虑的好办法。

杨植麟亦表示:“我们之所以支持开源,是因为我们相信开源是一件促进团结而非分裂的事情。当前虽然有一些挑战,但我们非常乐意与大家共同面对。”

从欧洲到北美,从亚洲到非洲,越来越多的开发者正在调试基于Kimi K2 Thinking的应用。

OpenRouter官网显示,在近一周的模型调用榜单上,排名前二十的模型中,中国模型已占据七席。而Kimi K2更与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token。


(图片来源:OpenRouter官网)

当前,月之暗面已经勾勒出下一代K3模型的发展蓝图。

杨植麟表示:“在OpenAI建成千亿级美元数据中心之前,K3会推出的。”他透露,团队正计划在K3中引入重大的架构变革,“KDA是我们最新的实验性架构,相关想法很可能会在K3中使用。”

据介绍,KDA(Kimi Delta Attention,一种线性注意力模块)在实验中表现出色,杨植麟表示它在所有评估维度上都展现出性能提升,包括长序列输入输出的强化学习场景,同时保持了线性注意力机制的效率优势。

SFC

出品丨21财经客户端 21世纪经济报道

编辑丨黎雨桐

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高市早苗不装了,对中方发出战争威胁,关键时刻,俄罗斯力挺中国

高市早苗不装了,对中方发出战争威胁,关键时刻,俄罗斯力挺中国

荷兰豆爱健康
2025-11-16 10:19:01
中国大陆至日本航班量大幅下滑

中国大陆至日本航班量大幅下滑

极目新闻
2025-11-16 20:42:16
为啥混混不去大公司收保护费?网友:大公司背后势力他们惹不起

为啥混混不去大公司收保护费?网友:大公司背后势力他们惹不起

带你感受人间冷暖
2025-11-16 00:15:05
媒体人:杨瀚森的动作是场上10名球员里最慢的 但他有他的节奏

媒体人:杨瀚森的动作是场上10名球员里最慢的 但他有他的节奏

云隐南山
2025-11-17 11:44:09
高市早苗:独岛是日本固有领土,早晚都得收回!高市又抛惊天言论

高市早苗:独岛是日本固有领土,早晚都得收回!高市又抛惊天言论

娱乐圈的笔娱君
2025-11-16 07:12:49
23岁中国留学生在美失联超3周,父母已赴美寻女:9月开始未到校上课,朋友约她吃饭也爽约了

23岁中国留学生在美失联超3周,父母已赴美寻女:9月开始未到校上课,朋友约她吃饭也爽约了

极目新闻
2025-11-17 11:45:34
1天吃28吨食物!四川工厂养220亿只蟑螂,住星空房吃营养餐

1天吃28吨食物!四川工厂养220亿只蟑螂,住星空房吃营养餐

万象硬核本尊
2025-11-16 18:32:46
交管12123新变化:违章当天就通知 4次免罚不是随便用,看完再操作

交管12123新变化:违章当天就通知 4次免罚不是随便用,看完再操作

芭比衣橱
2025-11-17 04:52:17
山村的秘密:“地下水里有金子”,村民大肆盗采地下水,大户年入上百万

山村的秘密:“地下水里有金子”,村民大肆盗采地下水,大户年入上百万

新京报
2025-11-17 07:57:25
阿里开始严查午休

阿里开始严查午休

蚂蚁大喇叭
2025-11-17 09:56:58
霍尊复出,亮相音乐节连唱9首歌曲;4年前宣布退圈:我的错,我来扛

霍尊复出,亮相音乐节连唱9首歌曲;4年前宣布退圈:我的错,我来扛

台州交通广播
2025-11-17 11:39:46
雷军刚刚连发多条微博

雷军刚刚连发多条微博

每日经济新闻
2025-11-16 14:58:06
宇树机器人表演冲拳、踢腿等功夫时意外“翻车”摔倒,租赁店负责人:踩到了衣服,租一天七八千元

宇树机器人表演冲拳、踢腿等功夫时意外“翻车”摔倒,租赁店负责人:踩到了衣服,租一天七八千元

极目新闻
2025-11-17 09:37:57
西贝“闭店潮”加速蔓延,贾国龙终究撑不下去了

西贝“闭店潮”加速蔓延,贾国龙终究撑不下去了

热点菌本君
2025-11-16 17:46:36
G联赛:杨瀚森21+9+3+3帽连中两记续命三分 混音惜败吞首败

G联赛:杨瀚森21+9+3+3帽连中两记续命三分 混音惜败吞首败

醉卧浮生
2025-11-17 11:23:37
军事 | 又一艘电磁弹射舰首次试航,中国海军再添独门利器!

军事 | 又一艘电磁弹射舰首次试航,中国海军再添独门利器!

新民周刊
2025-11-17 09:09:38
王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

王思聪成功和懒懒分手,回国的懒懒被曝变卖奢侈品,网友吐槽太贵

娱乐团长
2025-11-16 15:45:42
两口子都在体制内是啥体验?网友:稳定的穷,但也确实稳定

两口子都在体制内是啥体验?网友:稳定的穷,但也确实稳定

解读热点事件
2025-11-17 00:15:03
哈兰德双响,挪威4-1逆转意大利!8轮全胜夺头名,第4次进世界杯

哈兰德双响,挪威4-1逆转意大利!8轮全胜夺头名,第4次进世界杯

侃球熊弟
2025-11-17 04:59:48
换车,就是一个巨大的消费陷阱。

换车,就是一个巨大的消费陷阱。

爱吃糖的猫cat
2025-11-16 18:14:27
2025-11-17 14:32:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1399726文章数 4523关注度
往期回顾 全部

科技要闻

营销话术反噬信任,雷军不该只是一怒了之

头条要闻

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

头条要闻

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

二次封后的宋佳凭什么狂妄?

财经要闻

疯狂的"吸金村":村民大肆盗采地下水

汽车要闻

荣威M7+豆包大模型 用车机AI策划说车视频怎么样?

态度原创

艺术
时尚
本地
数码
健康

艺术要闻

这雪景,太美了!

中年女人的开挂指南,避开花衣服和紧身衣,把优雅感焊在身上

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

数码要闻

戴森新一代无叶冷暖风扇AM15发布,首发价3790元

血液科专家揭秘白血病七大误区

无障碍浏览 进入关怀版