网易首页 > 网易号 > 正文 申请入驻

最高138.7分!国产大模型「考研数学」成绩单出炉,哪家AI能上岸?

0
分享至

高考、考研数学,旨在考察学生的逻辑推理素养,每年都会难倒一大片准备上岸的学子。

那么,对于被训练成「像人类一样思考」的人工智能(AI)系统,尤其是近期讨论颇多的 o1 类推理模型而言,「数学」这门考试到底难不难呢?

更进一步说,如果同时参加 2025 考研的数学考试,国内头部推理模型与 OpenAI o1 的差距又有多大呢?

日前,来自清华大学人工智能研究院基础模型研究中心的团队,便晒出了国内外 13 个模型(基础模型、深度推理模型)在 2025 年考研数学(一、二、三)上交出的答卷——

直白一点说:o1 最强,但对国产头部模型(如 GLM-zero-preview、QwQ)的领先优势不大。

具体而言,这些推理模型的 2025 考研数学成绩全部达到了 120+,最强模型 OpenAI o1 的分数达到了惊人的 141.3 分(平均),在总计 66 道题目中,仅答错了 3.5 道。

另外,相比于 o1,国内推理模型 GLM-zero-preview(平均 138.7 分)和 QwQ(平均 137.0 分)的表现也并无巨大劣势,分差仅在个位数水平。

第三梯队模型 DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 的表现也不差,分数均在 120 分以上。

值得注意的是,曾于 2023 年位居榜首的基础模型 GPT-4,在本次测试中仅获得 70.7 分,排名倒数第一。这一结果表明,在过去的一年中,语言模型在数学推理领域取得了显著的进步

完整评测结果如下:

值得一提的是,尽管 o1 在深度推理方面的表现击败了所有国产推理大模型,但国产大模型正将这一差距逐渐缩小,此次智谱的 GLM-zero-preview 和阿里的 QwQ 的成绩便说明了这一点。

基础模型 vs 深度思考模型

为全面深入地探究各模型厂商在深度思考能力优化方面所取得的成果,评测团队对相应基础模型与深度推理模型进行了对比分析。

他们表示,这一对比并非意味着各深度推理模型是基于对应基础模型所做优化,其主要目的在于直观呈现各厂商在模型综合能力提升方面的进展与成效。

相关对比结果如下图所示:

注:OpenAI 的基础模型采用的是 GPT-4o。

通过对比分析,OpenAI o1 相较于基础模型 GPT-4o 的提升幅度最显著,达到了 57.3 分;阿里的 Qwen 模型和智谱的 GLM 模型,提升幅度紧随其后,分别达到了 47.0 分和 34.3 分。深度求索和月之暗面的模型提升幅度相对较小,这主要是由于其基础模型本身分数较高。

在本次测试中,他们将表现最为优异的基础模型 DeepSeek-v3 作为参照基准,进而对各厂商深度推理模型的性能提升情况进行评估,相关数据呈现如下图所示:

可以看出,智谱、阿里在深度推理模型的性能提升方面做了很大的优化,分数分别为 18.3 和 16.7,接近 OpenAI(21.0)。

评测方法

在本次评测过程中,评测团队发现并非所有模型均提供 API 支持,且部分提供 API 服务的模型在输出内容长度超出一定限制时,会出现内容截断的情况。为确保评测工作的公正性与准确性,他们决定统一采用各模型厂商的网页端进行测试操作。

在测试过程中,每道题目均在独立的对话窗口中进行,以此消除上下文信息对测试结果可能产生的干扰。

鉴于部分模型输出存在一定不稳定性,为降低由此引发的分数波动,他们设定当同一模型在三次测试中有两次及以上回答正确时,方将其记录为正确答案。

整理:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为夺格陵兰岛 美再挥关税大棒 欧洲8国集体反击

为夺格陵兰岛 美再挥关税大棒 欧洲8国集体反击

极目新闻
2026-01-18 07:16:25
杨开慧雕像缺石料,那块石头竟是毛主席像剩下的“伴侣石”

杨开慧雕像缺石料,那块石头竟是毛主席像剩下的“伴侣石”

孙缡北漂拍客
2026-01-16 18:41:35
2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

2026年新成语:恶意寻子!该警惕了,细节越挖越心寒!

你食不食油饼
2026-01-11 06:41:42
从一骑绝尘到逆市下跌,理想的时代就此落幕?

从一骑绝尘到逆市下跌,理想的时代就此落幕?

钟叔驾道
2026-01-16 17:52:14
日本集体悼念聂卫平!棋圣小林光一:中国国民英雄 输给他后我剃发出家

日本集体悼念聂卫平!棋圣小林光一:中国国民英雄 输给他后我剃发出家

野渡舟山人
2026-01-16 09:52:00
1969年,叶剑英被贬长沙,少将黎原机场怒斥秘书:这叫忘恩负义!

1969年,叶剑英被贬长沙,少将黎原机场怒斥秘书:这叫忘恩负义!

文史明鉴
2026-01-15 20:58:11
原来他就是聂卫平长子,移民日本改国籍娶日本妻,拒绝让儿子姓聂

原来他就是聂卫平长子,移民日本改国籍娶日本妻,拒绝让儿子姓聂

一娱三分地
2026-01-15 16:10:35
艰苦卓绝的比赛,中国U-23两个细节,显示我们梦不会永远在谷底。

艰苦卓绝的比赛,中国U-23两个细节,显示我们梦不会永远在谷底。

小鬼头体育
2026-01-18 11:20:41
不满美国威胁 格陵兰岛自治政府总理:我们的未来由自己决定

不满美国威胁 格陵兰岛自治政府总理:我们的未来由自己决定

环球网资讯
2026-01-18 06:22:08
那些本子里的大雷女主角,其实都是作者照着自己画的?

那些本子里的大雷女主角,其实都是作者照着自己画的?

游戏动力ATK
2026-01-09 23:18:53
加拿大是怎么被特鲁多在9年里“玩崩”的?

加拿大是怎么被特鲁多在9年里“玩崩”的?

萧遥笙
2026-01-15 12:25:03
蒙古国大胆想法:拿400平方公里和中国换通道?想将稀土运往美国

蒙古国大胆想法:拿400平方公里和中国换通道?想将稀土运往美国

科普100克克
2025-12-27 13:33:52
从垄断95%到仅剩2.3%,日本的崩溃循环,中国亲手按下终止键

从垄断95%到仅剩2.3%,日本的崩溃循环,中国亲手按下终止键

墨兰史书
2025-11-19 11:35:03
闫学晶双手插兜像大腕儿 戴墨镜机场扫货 网友:一副爱咋咋地的样

闫学晶双手插兜像大腕儿 戴墨镜机场扫货 网友:一副爱咋咋地的样

小娱乐悠悠
2026-01-16 09:36:02
告别棋圣,世界棋坛以及全国各界雪中送别聂卫平

告别棋圣,世界棋坛以及全国各界雪中送别聂卫平

澎湃新闻
2026-01-18 11:10:28
德转评米兰冬窗引援失败11人:圣地亚哥、皮扬特克、帕奎塔上榜

德转评米兰冬窗引援失败11人:圣地亚哥、皮扬特克、帕奎塔上榜

懂球帝
2026-01-18 04:46:17
历史上的辽国和金国,是现在中国哪个省份?答案让人深感意外

历史上的辽国和金国,是现在中国哪个省份?答案让人深感意外

长风文史
2026-01-17 16:14:02
1975年,基辛格给毛主席下了一道命令,主席写了张纸条回击,尼克松看后直摇头:这气魄谁能比?

1975年,基辛格给毛主席下了一道命令,主席写了张纸条回击,尼克松看后直摇头:这气魄谁能比?

老杉说历史
2026-01-12 22:07:15
隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

隐忍24年,陈婷终于撕下完美伪装,她给所有“已婚女人”上了一课

近史谈
2025-12-27 13:49:49
修电池白送顶配!七年前旧MacBook进苹果售后:免费换回M4 Max旗舰

修电池白送顶配!七年前旧MacBook进苹果售后:免费换回M4 Max旗舰

快科技
2026-01-16 11:26:47
2026-01-18 12:40:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1429文章数 5081关注度
往期回顾 全部

教育要闻

孩子不够聪明,大多是家长踩了这些坑

头条要闻

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

头条要闻

东西卖出去钱却没进账 几个月后店长发现银行卡有问题

体育要闻

越南媒体:李昊将成为越南U23面临的巨大挑战

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

科技要闻

AI大事!马斯克:索赔9300亿元

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

家居
亲子
时尚
本地
旅游

家居要闻

岁月柔情 现代品质轻奢

亲子要闻

我盼望你未来成为超级帅哥

翻拍一部剧,有这么难吗?

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

旅游要闻

八达岭冰封雪飘尽显北国壮美

无障碍浏览 进入关怀版