网易首页 > 网易号 > 正文 申请入驻

最高138.7分!国产大模型「考研数学」成绩单出炉,哪家AI能上岸?

0
分享至

高考、考研数学,旨在考察学生的逻辑推理素养,每年都会难倒一大片准备上岸的学子。

那么,对于被训练成「像人类一样思考」的人工智能(AI)系统,尤其是近期讨论颇多的 o1 类推理模型而言,「数学」这门考试到底难不难呢?

更进一步说,如果同时参加 2025 考研的数学考试,国内头部推理模型与 OpenAI o1 的差距又有多大呢?

日前,来自清华大学人工智能研究院基础模型研究中心的团队,便晒出了国内外 13 个模型(基础模型、深度推理模型)在 2025 年考研数学(一、二、三)上交出的答卷——

直白一点说:o1 最强,但对国产头部模型(如 GLM-zero-preview、QwQ)的领先优势不大。

具体而言,这些推理模型的 2025 考研数学成绩全部达到了 120+,最强模型 OpenAI o1 的分数达到了惊人的 141.3 分(平均),在总计 66 道题目中,仅答错了 3.5 道。

另外,相比于 o1,国内推理模型 GLM-zero-preview(平均 138.7 分)和 QwQ(平均 137.0 分)的表现也并无巨大劣势,分差仅在个位数水平。

第三梯队模型 DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 的表现也不差,分数均在 120 分以上。

值得注意的是,曾于 2023 年位居榜首的基础模型 GPT-4,在本次测试中仅获得 70.7 分,排名倒数第一。这一结果表明,在过去的一年中,语言模型在数学推理领域取得了显著的进步

完整评测结果如下:

值得一提的是,尽管 o1 在深度推理方面的表现击败了所有国产推理大模型,但国产大模型正将这一差距逐渐缩小,此次智谱的 GLM-zero-preview 和阿里的 QwQ 的成绩便说明了这一点。

基础模型 vs 深度思考模型

为全面深入地探究各模型厂商在深度思考能力优化方面所取得的成果,评测团队对相应基础模型与深度推理模型进行了对比分析。

他们表示,这一对比并非意味着各深度推理模型是基于对应基础模型所做优化,其主要目的在于直观呈现各厂商在模型综合能力提升方面的进展与成效。

相关对比结果如下图所示:

注:OpenAI 的基础模型采用的是 GPT-4o。

通过对比分析,OpenAI o1 相较于基础模型 GPT-4o 的提升幅度最显著,达到了 57.3 分;阿里的 Qwen 模型和智谱的 GLM 模型,提升幅度紧随其后,分别达到了 47.0 分和 34.3 分。深度求索和月之暗面的模型提升幅度相对较小,这主要是由于其基础模型本身分数较高。

在本次测试中,他们将表现最为优异的基础模型 DeepSeek-v3 作为参照基准,进而对各厂商深度推理模型的性能提升情况进行评估,相关数据呈现如下图所示:

可以看出,智谱、阿里在深度推理模型的性能提升方面做了很大的优化,分数分别为 18.3 和 16.7,接近 OpenAI(21.0)。

评测方法

在本次评测过程中,评测团队发现并非所有模型均提供 API 支持,且部分提供 API 服务的模型在输出内容长度超出一定限制时,会出现内容截断的情况。为确保评测工作的公正性与准确性,他们决定统一采用各模型厂商的网页端进行测试操作。

在测试过程中,每道题目均在独立的对话窗口中进行,以此消除上下文信息对测试结果可能产生的干扰。

鉴于部分模型输出存在一定不稳定性,为降低由此引发的分数波动,他们设定当同一模型在三次测试中有两次及以上回答正确时,方将其记录为正确答案。

整理:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
海归光环已经消失?49.5万留学生涌回国,残酷真相:企业只认这个

海归光环已经消失?49.5万留学生涌回国,残酷真相:企业只认这个

鬼菜生活
2026-01-12 11:46:20
曝35岁徐冬冬已怀孕!50岁尹子维紧张护肚,两人将在2月举办婚礼

曝35岁徐冬冬已怀孕!50岁尹子维紧张护肚,两人将在2月举办婚礼

叶公子
2026-01-13 17:31:57
株洲跟风杀猪宴后续:当地文旅被网友骂惨,灿灿紧急回应两件事!

株洲跟风杀猪宴后续:当地文旅被网友骂惨,灿灿紧急回应两件事!

科学发掘
2026-01-14 12:59:52
承认了,威斯布鲁克带领国王队大胜湖人队后承认,很享受打老东家

承认了,威斯布鲁克带领国王队大胜湖人队后承认,很享受打老东家

好火子
2026-01-14 01:06:26
泰国在建高铁突发事故,已致22人死亡

泰国在建高铁突发事故,已致22人死亡

第一财经资讯
2026-01-14 14:04:56
看见68岁老伴突然病逝,我才发现:大部分男人没有真正的养老生活

看见68岁老伴突然病逝,我才发现:大部分男人没有真正的养老生活

小马达情感故事
2025-12-17 16:35:03
我去上海看病想住弟弟家被拒,默默停掉每月给他打的五千元生活费

我去上海看病想住弟弟家被拒,默默停掉每月给他打的五千元生活费

晓艾故事汇
2026-01-09 14:40:27
贵州省2名县处级干部被开除党籍和公职

贵州省2名县处级干部被开除党籍和公职

贵阳网
2026-01-14 14:08:56
高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

高市早苗对华正式“宣战”!中国两邻居站队日本,特朗普告示全球

闻识
2026-01-14 11:38:46
明确了!C1能增驾D驾照,交警:满足1个条件,就能成功升级C1D

明确了!C1能增驾D驾照,交警:满足1个条件,就能成功升级C1D

电动车小辣椒
2026-01-12 07:04:53
1949年六大名著改为四大名著,去掉的那两本家喻户晓,你可能想不到

1949年六大名著改为四大名著,去掉的那两本家喻户晓,你可能想不到

历史回忆室
2026-01-09 20:33:14
特朗普紧急发文,直言:美国可能会完蛋,中国已是他的最大救星

特朗普紧急发文,直言:美国可能会完蛋,中国已是他的最大救星

靓仔情感
2026-01-14 12:43:24
刘强东和章泽天刚领证那会,刘强东41岁,章泽天还差一个月满22岁

刘强东和章泽天刚领证那会,刘强东41岁,章泽天还差一个月满22岁

沉思默想的人
2026-01-14 07:24:08
美方通告全球,中方大幅抛售美债,特朗普终于动手,美联储将换人

美方通告全球,中方大幅抛售美债,特朗普终于动手,美联储将换人

史料布籍
2026-01-13 23:09:06
湖南刨猪宴翻车:灿灿采访说漏嘴,遭全网围攻,这下官方都救不了

湖南刨猪宴翻车:灿灿采访说漏嘴,遭全网围攻,这下官方都救不了

我不叫阿哏
2026-01-14 08:07:52
乌度卡终于做正确调整!戴维森取代霍乐迪,奥科吉提首发效果不差

乌度卡终于做正确调整!戴维森取代霍乐迪,奥科吉提首发效果不差

篮球资讯达人
2026-01-14 12:27:25
无约基奇8战5胜!沃特森场均25+7被挺MIP 在场+18今夏可冲亿元

无约基奇8战5胜!沃特森场均25+7被挺MIP 在场+18今夏可冲亿元

颜小白的篮球梦
2026-01-14 12:39:35
记者:皇马从未真正信任阿隆索;多家豪门有意邀请阿隆索执教

记者:皇马从未真正信任阿隆索;多家豪门有意邀请阿隆索执教

懂球帝
2026-01-13 14:43:01
67户人家狂赚30亿!又一个华西村杀疯了,家家住别墅人人是股东

67户人家狂赚30亿!又一个华西村杀疯了,家家住别墅人人是股东

小莜读史
2026-01-13 22:09:47
陈赓去世31年后,妻子傅涯前往台湾,抵达后竟有十几辆车等候接机

陈赓去世31年后,妻子傅涯前往台湾,抵达后竟有十几辆车等候接机

南宗历史
2026-01-14 09:57:53
2026-01-14 14:36:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1429文章数 5081关注度
往期回顾 全部

教育要闻

实验班的价值观

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

头条要闻

一户人家被全楼"孤立":加装电梯没出资 卖房时尴尬了

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

沪深北交易所提高融资保证金比例

科技要闻

美国批准英伟达H200卖给中国,但有条件

汽车要闻

曝Model Y或降到20万以内!

态度原创

旅游
家居
数码
手机
艺术

旅游要闻

从“打卡”到“栖居”: 外国游客为何持续选择中国

家居要闻

心之所向 现代建构之美

数码要闻

华硕:TUF GAMING X870-PRO WIFI7 W NEO主板系列首发NitroPath

手机要闻

王自如对比苹果Air与荣耀Air:后者已解决摄像头、单扬等问题

艺术要闻

八大山人『山水花鸟册』

无障碍浏览 进入关怀版