网易首页 > 网易号 > 正文 申请入驻

“人类最后的考试”,中国模型赢了GPT-5

0
分享至

21世纪经济报道记者雷晨

近期,月之暗面三位创始人杨植麟、周昕宇和吴育昕同时现身Reddit论坛,进行了一场长达数小时的线上问答活动。

这场技术极客风格的互动,举办在Kimi K2 Thinking模型发布第五天。该模型在“人类最后的考试”等多项基准测试中表现超越GPT-5,引发全球AI社区关注。

在问答过程中,创始人团队不仅回应了训练成本、算力优化、开源策略等核心问题,更直面海外用户对“中国LLM”的使用疑虑。

多项测评成绩领先

11月6日晚,月之暗面推出Kimi K2 Thinking模型,并称其为“Kimi迄今能力最强的开源思考模型”。

这一模型基于“模型即Agent”理念训练,原生掌握“边思考、边使用工具”的能力。在多项权威基准测试中,K2 Thinking达到SOTA水平。

譬如,在被称为“人类最后的考试”的HLE(Humanity’s Last Exam)测试中,K2 Thinking获得了44.9%的成绩,超过GPT-5的41.7%。在自主网络浏览能力BrowseComp基准测试中,Kimi K2 Thinking同样以60.2%的得分,领先GPT-5的54.9%。同时在复杂信息收集推理SEAL-0测试中,其以56.3%的得分超过GPT-5的51.4%。

值得一提的是,该模型无需人类干预,即可凭借持续稳定的深度思考能力自主实现高达300步的工具调用,从而帮助用户解决更复杂的问题。这是月之暗面在Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用的步数,实现更强的Agent和推理性能。

K2 Thinking最引人注目的特点之一,是其推理性能的全面提升。据悉,该模型能够连续执行200至300次工具调用来解决复杂问题,保证任务连续性。

吴育昕表示,这种支持“思考-工具-思考-工具”的交错执行模式,在大语言模型中仍属较新行为。

月之暗面以HLE测试中一道人文类题目推理过程为例,在示例中,Kimi K2 Thinking经过5次搜索和推理,结合每步搜索到的新信息,层层深入,最终推理出了答案。

而当推理链条变长,如何保持其推理过程中的稳定性?杨植麟表示,团队采用端到端的智能体强化学习训练K2 Thinking,这使模型在数百个步骤的工具调用过程中,包括检索在内的每个中间环节都保持良好性能。

极致压榨算力

在算力资源相对有限的条件下,月之暗面团队展现出了优秀的工程优化能力。

吴育昕在回答中坦言,团队使用的是配备Infiniband的H800 GPU集群,无论在算力规模还是芯片性能上都不占优势。

但他强调,团队“把每张显卡的性能都压榨到了极致”。

针对训练成本问题,杨植麟也做出回应。他强调,所谓“460万美元”的成本并非官方数字,真正的训练成本很难量化,因为主要部分是研究和实验。

关于外界对模型使用较多代币的质疑,杨植麟回应道:“当前版本中,我们优先考虑的是绝对性能而非代币效率。”他表示,后续会尝试将效率纳入奖励机制,以便模型能学习如何简化思考过程。

在工程落地层面,K2 Thinking采用了原生INT4量化技术,对MoE组件应用了INT4纯权重量化,使得生成速度提升了约2倍。

周昕宇补充道,选择INT4是为了更好地兼容“非Blackwell GPU”,同时利用现有的INT4推理marlin内核。

谈及OpenAI的烧钱策略,周昕宇表示:“我们也不清楚OpenAI为何如此烧钱,这恐怕只有萨姆·奥尔特曼本人知道。我们有属于自己的方式和节奏。”

国产大模型突围

值得注意的是,月之暗面所坚持的开源策略,让中国AI大模型得到了更广泛的国际认可。

今年7月,美国知名编程工具Cursor全面禁止中国IP调用Claude等模型。市场迅速做出了选择——平台OpenRouter数据显示,Kimi K2的调用量随即大幅攀升。其API价格仅为Claude Sonnet的五分之一,展现出显著的性价比竞争力。

在交流环节,一位海外用户表示,在其工作场所,Kimi是其主要测试的模型,但生产使用上仍然会用美国本土模型,这主要由于管理层对于“中国LLM”的风险感知。

对此,吴育昕表示,虽然“封禁”风险通常超过控制范畴,但开源模式是消除部分疑虑的好办法。

杨植麟亦表示:“我们之所以支持开源,是因为我们相信开源是一件促进团结而非分裂的事情。当前虽然有一些挑战,但我们非常乐意与大家共同面对。”

从欧洲到北美,从亚洲到非洲,越来越多的开发者正在调试基于Kimi K2 Thinking的应用。

OpenRouter官网显示,在近一周的模型调用榜单上,排名前二十的模型中,中国模型已占据七席。而Kimi K2更与同期发布的Grok4登上增长榜前两名,日处理量突破100亿Token。


(图片来源:OpenRouter官网)

当前,月之暗面已经勾勒出下一代K3模型的发展蓝图。

杨植麟表示:“在OpenAI建成千亿级美元数据中心之前,K3会推出的。”他透露,团队正计划在K3中引入重大的架构变革,“KDA是我们最新的实验性架构,相关想法很可能会在K3中使用。”

据介绍,KDA(Kimi Delta Attention,一种线性注意力模块)在实验中表现出色,杨植麟表示它在所有评估维度上都展现出性能提升,包括长序列输入输出的强化学习场景,同时保持了线性注意力机制的效率优势。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
无罪!无罪!无罪!这才是老百姓要的正义!

无罪!无罪!无罪!这才是老百姓要的正义!

胖胖说他不胖
2026-04-06 09:00:47
消息一出,学界的群聊炸开了:北大数学学院通告

消息一出,学界的群聊炸开了:北大数学学院通告

岁月有情1314
2026-04-05 22:19:00
快讯!台湾地区前领导人蔡英文发表声明了!

快讯!台湾地区前领导人蔡英文发表声明了!

达文西看世界
2026-04-06 09:13:17
董宇辉无视法律,卖假保健品怒赚超1000万后,竟对消费者只退款不赔偿

董宇辉无视法律,卖假保健品怒赚超1000万后,竟对消费者只退款不赔偿

可达鸭面面观
2026-04-06 15:47:53
泪崩!王楚钦首夺世界杯冠军,躺地怒吼,没想到松岛是这样的反应

泪崩!王楚钦首夺世界杯冠军,躺地怒吼,没想到松岛是这样的反应

阿纂看事
2026-04-06 10:45:45
和稀泥终于引起公愤了!

和稀泥终于引起公愤了!

胖胖说他不胖
2026-04-06 09:00:47
同行骂他白痴,名帅拒握手!38岁法布雷加斯正颠覆意甲

同行骂他白痴,名帅拒握手!38岁法布雷加斯正颠覆意甲

仰卧撑FTUer
2026-04-06 20:30:03
无油可加!澳大利亚144家加油站燃料耗尽,能源部长:全国目前汽油储备约39天,柴油和航空燃料储备均约29天

无油可加!澳大利亚144家加油站燃料耗尽,能源部长:全国目前汽油储备约39天,柴油和航空燃料储备均约29天

都市快报橙柿互动
2026-04-06 12:34:39
我们并没有用40年走完发达国家200年的路

我们并没有用40年走完发达国家200年的路

文青大叔说
2026-03-13 08:13:38
刚刚,伊朗直接摊牌,美国再敢动手,全球两条生命线一起断

刚刚,伊朗直接摊牌,美国再敢动手,全球两条生命线一起断

Ck的蜜糖
2026-04-06 14:01:19
买一赠一也清不掉库存,中国人的牛奶喝到“天花板”了吗?

买一赠一也清不掉库存,中国人的牛奶喝到“天花板”了吗?

临云史策
2026-04-06 12:05:24
兵者,诡道也?在伊朗“高风险搜救行动”的美版叙事

兵者,诡道也?在伊朗“高风险搜救行动”的美版叙事

澎湃新闻
2026-04-06 14:34:26
8换1!交易首秀!NBA榜眼即将手撕火箭

8换1!交易首秀!NBA榜眼即将手撕火箭

篮球实战宝典
2026-04-06 22:00:22
上海三甲医院专家凌晨发文:1小时来了6个心梗,这一波很密集!42岁男子打球时突然胸痛,还好队友反应快

上海三甲医院专家凌晨发文:1小时来了6个心梗,这一波很密集!42岁男子打球时突然胸痛,还好队友反应快

新民晚报
2026-04-06 15:15:31
伊朗缴获美军飞行员的私人物品,有牙膏,内裤,牛肉干,压缩食品

伊朗缴获美军飞行员的私人物品,有牙膏,内裤,牛肉干,压缩食品

魔都姐姐杂谈
2026-04-06 13:11:53
锁定季后赛!北京狂轰22-0逆转同曦 陈盈骏26+10郭昊文30分

锁定季后赛!北京狂轰22-0逆转同曦 陈盈骏26+10郭昊文30分

醉卧浮生
2026-04-06 21:38:33
西方要合围中国?马克龙拒邀G7,德日联合声明妄言插手台海局势!

西方要合围中国?马克龙拒邀G7,德日联合声明妄言插手台海局势!

军机Talk
2026-04-06 15:11:34
1.5亿欧标价!维尼修斯离队皇马倒计时,英超五大豪门欲抢人!

1.5亿欧标价!维尼修斯离队皇马倒计时,英超五大豪门欲抢人!

田先生篮球
2026-04-06 14:19:39
法国冠军车手锐评张雪机车夺冠,7字一针见血,字字直戳国人心窝

法国冠军车手锐评张雪机车夺冠,7字一针见血,字字直戳国人心窝

以茶带书
2026-04-06 14:11:13
2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

2020年,长沙女子癌症晚期,争夺女儿40万学费,直言:我只想活着

大鱼简科
2026-04-06 11:33:07
2026-04-06 23:24:49
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
241566文章数 744003关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

安徽6岁失联女童确认遇害 嫌犯已被抓获归案

头条要闻

安徽6岁失联女童确认遇害 嫌犯已被抓获归案

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

艺术
旅游
数码
公开课
军事航空

艺术要闻

这才是中华最美隶书!颠覆书法圈认知

旅游要闻

清明假期广东接待游客1985.1万人次,旅游收入超百亿

数码要闻

微星泰坦18 Ultra 2026游戏本上市,顶配售价47999元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗:在C-130运输机残骸中发现一具美军士兵遗体

无障碍浏览 进入关怀版