网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

最高138.7分！国产大模型「考研数学」成绩单出炉，哪家AI能上岸？

2025-01-14 16:13:03　来源: 学术头条

北京举报

0

分享至

高考、考研数学，旨在考察学生的逻辑推理素养，每年都会难倒一大片准备上岸的学子。

那么，对于被训练成「像人类一样思考」的人工智能（AI）系统，尤其是近期讨论颇多的 o1 类推理模型而言，「数学」这门考试到底难不难呢？

更进一步说，如果同时参加 2025 考研的数学考试，国内头部推理模型与 OpenAI o1 的差距又有多大呢？

日前，来自清华大学人工智能研究院基础模型研究中心的团队，便晒出了国内外 13 个模型（基础模型、深度推理模型）在 2025 年考研数学（一、二、三）上交出的答卷——

直白一点说：o1 最强，但对国产头部模型（如 GLM-zero-preview、QwQ）的领先优势不大。

具体而言，这些推理模型的 2025 考研数学成绩全部达到了 120+，最强模型 OpenAI o1 的分数达到了惊人的 141.3 分（平均），在总计 66 道题目中，仅答错了 3.5 道。

另外，相比于 o1，国内推理模型 GLM-zero-preview（平均 138.7 分）和 QwQ（平均 137.0 分）的表现也并无巨大劣势，分差仅在个位数水平。

第三梯队模型 DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 的表现也不差，分数均在 120 分以上。

值得注意的是，曾于 2023 年位居榜首的基础模型 GPT-4，在本次测试中仅获得 70.7 分，排名倒数第一。这一结果表明，在过去的一年中，语言模型在数学推理领域取得了显著的进步。

完整评测结果如下：

值得一提的是，尽管 o1 在深度推理方面的表现击败了所有国产推理大模型，但国产大模型正将这一差距逐渐缩小，此次智谱的 GLM-zero-preview 和阿里的 QwQ 的成绩便说明了这一点。

基础模型 vs 深度思考模型

为全面深入地探究各模型厂商在深度思考能力优化方面所取得的成果，评测团队对相应基础模型与深度推理模型进行了对比分析。

他们表示，这一对比并非意味着各深度推理模型是基于对应基础模型所做优化，其主要目的在于直观呈现各厂商在模型综合能力提升方面的进展与成效。

相关对比结果如下图所示：

注：OpenAI 的基础模型采用的是 GPT-4o。

通过对比分析，OpenAI o1 相较于基础模型 GPT-4o 的提升幅度最显著，达到了 57.3 分；阿里的 Qwen 模型和智谱的 GLM 模型，提升幅度紧随其后，分别达到了 47.0 分和 34.3 分。深度求索和月之暗面的模型提升幅度相对较小，这主要是由于其基础模型本身分数较高。

在本次测试中，他们将表现最为优异的基础模型 DeepSeek-v3 作为参照基准，进而对各厂商深度推理模型的性能提升情况进行评估，相关数据呈现如下图所示：

可以看出，智谱、阿里在深度推理模型的性能提升方面做了很大的优化，分数分别为 18.3 和 16.7，接近 OpenAI（21.0）。

评测方法

在本次评测过程中，评测团队发现并非所有模型均提供 API 支持，且部分提供 API 服务的模型在输出内容长度超出一定限制时，会出现内容截断的情况。为确保评测工作的公正性与准确性，他们决定统一采用各模型厂商的网页端进行测试操作。

在测试过程中，每道题目均在独立的对话窗口中进行，以此消除上下文信息对测试结果可能产生的干扰。

鉴于部分模型输出存在一定不稳定性，为降低由此引发的分数波动，他们设定当同一模型在三次测试中有两次及以上回答正确时，方将其记录为正确答案。

整理：学术君

如需转载或投稿，请直接在公众号内留言

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

“全网最听劝妈妈”30天涨粉超62万，1分钟视频报价3万

大象新闻 2026-01-17 13:09:19
3063 跟贴 3063
“皖西麻黄鸡成本150元，与辉同行卖不足28元”引质疑，官方介入

大风新闻 2026-01-17 17:36:24
3194 跟贴 3194

日本急了：万一中国开始管控医药产品将带来巨大麻烦

澎湃新闻 2026-01-17 22:45:14
1570 跟贴 1570

追觅科技CEO俞浩发声：怼人的员工早就提出离职，我有肚量，不会在意

红星新闻 2026-01-17 14:02:10
737 跟贴 737
美媒：世界大国展开第六代战机竞赛

参考消息 2026-01-17 21:33:04
147 跟贴 147

风雪中送别聂卫平

北京日报 2026-01-18 08:29:25
865 跟贴 865

内存条价格暴涨，电脑组装涨价一至两千元

环球网资讯 2026-01-17 07:42:06
1656 跟贴 1656
热闻|曼联2-0复仇曼城，阿森纳客场0-0平森林以7分优势领跑英超

齐鲁壹点 2026-01-18 06:52:21
36 跟贴 36

坐高铁不用自己扛行李了！多地火车站开通新服务

学申论的谈妹 2026-01-17 16:39:21
164 跟贴 164
今年首场寒潮有何特点？专家解读

环球网资讯 2026-01-18 08:10:24
22 跟贴 22
曝爵士将在休赛期追求里夫斯届时他已成为完全自由球员

北青网-北京青年报 2026-01-18 08:14:04
20 跟贴 20
广东佛山一中学103人感染诺如病毒，目前病情稳定！校方回应：这两天一直在消杀

潇湘晨报 2026-01-17 14:02:12
124 跟贴 124
苏州一企业愿无偿为嫣然医院提供场地负责人：将详谈

潇湘晨报 2026-01-18 11:51:30
0 跟贴 0
两部门：商业用房购房贷款最低首付款比例不低于30%

财联社 2026-01-17 15:30:17
252 跟贴 252
12306推出旅客误购限时免费退票服务规则详解

央视新闻客户端 2026-01-18 08:49:29
115 跟贴 115
2026春运火车票明天开售

每日经济新闻 2026-01-18 09:53:04
135 跟贴 135
四川绵竹三大千亿园区布局：循环经济、锂电崛起、白酒提质

红星资本局 2026-01-17 20:02:26
89 跟贴 89
为中国式现代化行稳致远提供有力保障——政法战线奋力推进更高水平平安中国法治中国建设

国际在线 2026-01-17 20:31:07
72 跟贴 72
民政局副局长王津东，负责养老等工作，套走1257万，性质恶劣！

新京报政事儿 2026-01-17 22:08:57
1 跟贴 1
我们有李昊！U23国足点球大战战胜乌兹别克斯坦晋级4强

澎湃新闻 2026-01-17 22:16:27
0 跟贴 0
呼和浩特：一熊孩子小区里放烟花“命中”14楼！

青城之窗 2026-01-18 12:19:34
0 跟贴 0

为夺格陵兰岛美再挥关税大棒欧洲8国集体反击

为夺格陵兰岛美再挥关税大棒欧洲8国集体反击

极目新闻

2026-01-18 07:16:25

杨开慧雕像缺石料，那块石头竟是毛主席像剩下的“伴侣石”

杨开慧雕像缺石料，那块石头竟是毛主席像剩下的“伴侣石”

孙缡北漂拍客

2026-01-16 18:41:35

2026年新成语：恶意寻子！该警惕了，细节越挖越心寒！

2026年新成语：恶意寻子！该警惕了，细节越挖越心寒！

你食不食油饼

2026-01-11 06:41:42

从一骑绝尘到逆市下跌，理想的时代就此落幕？

从一骑绝尘到逆市下跌，理想的时代就此落幕？

钟叔驾道

2026-01-16 17:52:14

日本集体悼念聂卫平！棋圣小林光一：中国国民英雄输给他后我剃发出家

日本集体悼念聂卫平！棋圣小林光一：中国国民英雄输给他后我剃发出家

野渡舟山人

2026-01-16 09:52:00

1969年，叶剑英被贬长沙，少将黎原机场怒斥秘书：这叫忘恩负义！

1969年，叶剑英被贬长沙，少将黎原机场怒斥秘书：这叫忘恩负义！

文史明鉴

2026-01-15 20:58:11

原来他就是聂卫平长子，移民日本改国籍娶日本妻，拒绝让儿子姓聂

原来他就是聂卫平长子，移民日本改国籍娶日本妻，拒绝让儿子姓聂

一娱三分地

2026-01-15 16:10:35

艰苦卓绝的比赛，中国U-23两个细节，显示我们梦不会永远在谷底。

艰苦卓绝的比赛，中国U-23两个细节，显示我们梦不会永远在谷底。

小鬼头体育

2026-01-18 11:20:41

不满美国威胁格陵兰岛自治政府总理：我们的未来由自己决定

不满美国威胁格陵兰岛自治政府总理：我们的未来由自己决定

环球网资讯

2026-01-18 06:22:08

那些本子里的大雷女主角，其实都是作者照着自己画的？

那些本子里的大雷女主角，其实都是作者照着自己画的？

游戏动力ATK

2026-01-09 23:18:53

加拿大是怎么被特鲁多在9年里“玩崩”的？

加拿大是怎么被特鲁多在9年里“玩崩”的？

萧遥笙

2026-01-15 12:25:03

蒙古国大胆想法：拿400平方公里和中国换通道？想将稀土运往美国

蒙古国大胆想法：拿400平方公里和中国换通道？想将稀土运往美国

科普100克克

2025-12-27 13:33:52

从垄断95%到仅剩2.3%，日本的崩溃循环，中国亲手按下终止键

从垄断95%到仅剩2.3%，日本的崩溃循环，中国亲手按下终止键

墨兰史书

2025-11-19 11:35:03

闫学晶双手插兜像大腕儿戴墨镜机场扫货网友：一副爱咋咋地的样

闫学晶双手插兜像大腕儿戴墨镜机场扫货网友：一副爱咋咋地的样

小娱乐悠悠

2026-01-16 09:36:02

告别棋圣，世界棋坛以及全国各界雪中送别聂卫平

告别棋圣，世界棋坛以及全国各界雪中送别聂卫平

澎湃新闻

2026-01-18 11:10:28

德转评米兰冬窗引援失败11人：圣地亚哥、皮扬特克、帕奎塔上榜

德转评米兰冬窗引援失败11人：圣地亚哥、皮扬特克、帕奎塔上榜

懂球帝

2026-01-18 04:46:17

历史上的辽国和金国，是现在中国哪个省份？答案让人深感意外

历史上的辽国和金国，是现在中国哪个省份？答案让人深感意外

长风文史

2026-01-17 16:14:02

1975年，基辛格给毛主席下了一道命令，主席写了张纸条回击，尼克松看后直摇头：这气魄谁能比？

1975年，基辛格给毛主席下了一道命令，主席写了张纸条回击，尼克松看后直摇头：这气魄谁能比？

老杉说历史

2026-01-12 22:07:15

隐忍24年，陈婷终于撕下完美伪装，她给所有“已婚女人”上了一课

隐忍24年，陈婷终于撕下完美伪装，她给所有“已婚女人”上了一课

近史谈

2025-12-27 13:49:49

修电池白送顶配！七年前旧MacBook进苹果售后：免费换回M4 Max旗舰

修电池白送顶配！七年前旧MacBook进苹果售后：免费换回M4 Max旗舰

快科技

2026-01-16 11:26:47

致力于学术传播和科学普及，重点关注AI4Science、大模型等前沿科学进展。

1429文章数 5081关注度

往期回顾全部

教育要闻

孩子不够聪明，大多是家长踩了这些坑

头条要闻

东西卖出去钱却没进账几个月后店长发现银行卡有问题

头条要闻

东西卖出去钱却没进账几个月后店长发现银行卡有问题

体育要闻

越南媒体：李昊将成为越南U23面临的巨大挑战

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA，势败如山倒

科技要闻

AI大事！马斯克：索赔9300亿元

汽车要闻

林肯贾鸣镝：稳中求进，将精细化运营进行到底

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

亲子

时尚

本地

旅游

家居要闻

岁月柔情现代品质轻奢

亲子要闻

我盼望你未来成为超级帅哥

翻拍一部剧，有这么难吗？

本地新闻

云游内蒙｜黄沙与碧波撞色，乌海天生会“混搭”

旅游要闻

八达岭冰封雪飘尽显北国壮美

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版