网易首页 > 网易号 > 正文 申请入驻

开源模型89.2%的数学成绩,让闭源神话开始动摇

0
分享至

美国高中数学邀请赛(AIME)的考场上,能坐着的都是全美前5%的数学尖子。这场考试考的不是刷题速度,是多步骤证明构造、数论与组合几何的优雅推理——大多数成年人连题目都读不懂。

去年,谷歌的Gemma 3在这张卷子上拿了20.8%。


今年,Gemma 4拿了89.2%。


这不是迭代优化,是质变。而且发生在单代模型之间,发生在一台消费级GPU就能跑的开源权重模型上。

先看完整体数据,再谈这意味着什么。

Codeforces ELO 2150是什么概念?全球竞技编程选手中的前0.1%,大师级段位。Gemma 3的ELO只有110, essentially是个新手。Gemma 4的2150意味着:在算法竞赛里,它能击败几乎所有职业软件工程师。

但真正让开发者坐直的是另一组数字:智能体工具使用率,从6.6%跳到86.4%。这不是学术基准测试,是模型链式调用工具、处理错误、自主完成多步骤任务的实际能力。成功率86%的智能体是生产工具,6.6%的是玩具。

什么变了?

不是简单的堆算力、灌数据。架构和训练方式发生了实质性转向:

第一,思考模式(Thinking mode)。Gemma 4内置了思维链推理,解题前会先"打草稿"——最多4000多个token的推演过程,再给出答案。20.8%是立即作答的成绩,89.2%是拥有4000 token草稿纸后的成绩。


第二,原生函数调用。智能体能力的跃升几乎完全源于此。Gemma 3是被提示词逼出函数调用的,Gemma 4把工具使用作为一等训练目标。

第三,MoE架构。26B参数的A4B MoE模型在AIME上拿到88.3%,几乎追平31B的稠密模型,但每次推理只激活4B参数。专家 specialization 确实在起作用:数学题被路由给数学专家。

第四,256K上下文。多步推理需要跨步骤维持复杂状态,更长的上下文意味着推理链延长时信息损失更少。

这些不是同一思路的渐进改良,是换了一条路。

一年前的行业共识是:开源模型落后前沿6-12个月,且将维持这个差距;正经干活还得用GPT-4或Claude。

Gemma 4 31B的基准测试对比正在动摇这个判断。需要谨慎的是:这些测试并非同步进行,模型能力也会随更新变化。关键不在于"Gemma 4在某项上击败了GPT-4o",而在于开源与闭源的差距正在以快于预期的速度收窄。

当消费级硬件能跑起接近前沿的推理能力,当89.2%的数学成绩来自公开权重而非API密钥——开发者开始重新计算成本结构、数据主权和定制自由度。这不是说闭源模型没有优势,是说"必须用闭源"的默认假设,正在变得可质疑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
基恩暗讽B费是“蠢驴”,曼联名宿与曼联队长的口水战持续升级

基恩暗讽B费是“蠢驴”,曼联名宿与曼联队长的口水战持续升级

夜白侃球
2026-05-26 10:17:40
庆祝阿森纳夺冠,“雪儿”宋雪莹身穿厄德高球衣主持天下足球

庆祝阿森纳夺冠,“雪儿”宋雪莹身穿厄德高球衣主持天下足球

懂球帝
2026-05-26 09:51:18
韩国一大学教授发表侮辱性言论,称“韩国8成女性靠性交易挣钱”,校方迟迟未处分引争议

韩国一大学教授发表侮辱性言论,称“韩国8成女性靠性交易挣钱”,校方迟迟未处分引争议

扬子晚报
2026-05-25 21:48:43
拒绝听命特朗普,美联储新主席立誓,对华立场曝光,中方再抛美债

拒绝听命特朗普,美联储新主席立誓,对华立场曝光,中方再抛美债

影孖看世界
2026-05-25 23:43:38
体育总局三记重拳,拳拳打在樊振东的痛点上:他不用再逃了

体育总局三记重拳,拳拳打在樊振东的痛点上:他不用再逃了

最爱乒乓球
2026-05-26 05:01:31
球报:伯恩茅斯主场仅有11379个座位不符合欧战标准

球报:伯恩茅斯主场仅有11379个座位不符合欧战标准

懂球帝
2026-05-26 03:00:17
一婚娶演员,二婚娶主持,如今在江苏租房住,和四个娃过田园生活

一婚娶演员,二婚娶主持,如今在江苏租房住,和四个娃过田园生活

素衣读史
2026-05-11 20:56:03
许多网友晒猫被古天乐评论,以为只是网名,结果…是本人?!

许多网友晒猫被古天乐评论,以为只是网名,结果…是本人?!

爱宠物
2026-05-25 22:32:44
75岁姜昆近况:与46岁单身爱女相依为命,日子过得让人羡慕

75岁姜昆近况:与46岁单身爱女相依为命,日子过得让人羡慕

娱说瑜悦
2026-04-04 15:38:01
全球4个最顶尖大脑作出共同判断,留给人类的时间只有5年了

全球4个最顶尖大脑作出共同判断,留给人类的时间只有5年了

史政先锋
2026-05-23 15:03:56
谈判破裂?中方拒绝美军三号人物访华,国防部强硬表态:必须统一

谈判破裂?中方拒绝美军三号人物访华,国防部强硬表态:必须统一

小小科普员
2026-05-25 15:05:04
失误大王,哈登今年季后赛失误数已经超越坎宁安,全联盟最多

失误大王,哈登今年季后赛失误数已经超越坎宁安,全联盟最多

懂球帝
2026-05-26 09:10:07
比销量下滑更可怕的是:就连生活在县城的居民,都开始抛弃油车?

比销量下滑更可怕的是:就连生活在县城的居民,都开始抛弃油车?

南风不及你温柔
2026-05-21 19:27:29
37分惨败!哈登12分9罚5失误,米切尔31+4无力回天,唐斯全队第二

37分惨败!哈登12分9罚5失误,米切尔31+4无力回天,唐斯全队第二

鱼崖大话篮球
2026-05-26 10:37:54
活久见!因女生投诉男子光膀健身不雅,浙江一健身房禁止女性入店

活久见!因女生投诉男子光膀健身不雅,浙江一健身房禁止女性入店

火山詩话
2026-05-24 12:20:45
轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

轻断食再次封神!复旦大学研究证实,让肝脏脂肪在5个月内少20.5%

健康科普365
2026-05-23 23:00:03
武契奇访华称巅峰!锂矿开采权给欧盟,中国冶炼如何接招?

武契奇访华称巅峰!锂矿开采权给欧盟,中国冶炼如何接招?

混沌录
2026-05-25 23:16:08
卷巨额遗产出逃英国,给杨振宁戴绿帽子,翁帆身上的谣言太离谱了

卷巨额遗产出逃英国,给杨振宁戴绿帽子,翁帆身上的谣言太离谱了

花小猫的美食日常
2026-05-26 08:21:05
韩网友一直疑惑:铁证如山!中国人为何还不承认汉字起源于韩国?

韩网友一直疑惑:铁证如山!中国人为何还不承认汉字起源于韩国?

非虚构人间
2026-05-25 01:12:59
刚刚,广东省委书记和省长为千亿母基金揭牌

刚刚,广东省委书记和省长为千亿母基金揭牌

新浪财经
2026-05-25 15:03:33
2026-05-26 11:12:50
Ping值焦虑
Ping值焦虑
有态度网友ytd
3698文章数 54关注度
往期回顾 全部

教育要闻

文脉承圣迹 祈愿赴前程新东方济南学校曲阜孔庙为高三复读学子高考祈福

头条要闻

多所高校学者被举报涉嫌学术不端:论文数据荒诞粗糙

头条要闻

多所高校学者被举报涉嫌学术不端:论文数据荒诞粗糙

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

景甜被曝停工失联 富商索要2亿和解费

财经要闻

走近何庭波

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

本地
手机
旅游
家居
公开课

本地新闻

用云锦的方式,打开江苏南京

手机要闻

手握幸运星,随手4K大片:荣耀600系列,年轻人的“好运机”

旅游要闻

江西南昌:湿地公园 绿景怡人

家居要闻

生与命相依 旧公寓改造

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版