网易首页 > 网易号 > 正文 申请入驻

6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟垫底

0
分享至

机器之心报道

编辑:杨文

还在让大模型写高考作文?有本事做高考数学卷子。

又是一年高考时。

这届考生上午刚经历了抽象作文的洗礼,下午又被数学无情创飞。考试一结束,「高考数学」、「新一卷数学大题 难」等词条就火速冲上微博热搜,考生们在评论区集体「哀嚎」:「大题写到怀疑人生」、「选择填空送分,大题送命」。

而自从生成式 AI 走红后,大模型「决战」高考也成了每年的保留节目,尤其是在今年这个国内外大模型卷逻辑推理的当口。趁着各家大模型还来不及「作弊」,我们就用这新鲜出炉的高考数学题考考它们。

在考题选择上,我们采用 2025 年数学新课标 Ⅰ 卷中的 14 道客观题进行测试,满分 73 分,包括 8 道单选题、3 道多选题、3 道填空题。为保证公平公正,我们将题目截图分别投喂给大模型,不做 System Prompt 引导,不开启联网搜索,直接输出结果,且所有测试模型只有一次答题机会。

(注:在实测中我们发现 DeepSeek 的 OCR 识别出现不少错误,所以此次使用其他 AI 将图片转化为文本问题,再对 DeepSeek 进行测试。)

计分方法也依照高考判分原则:

  • 单选题 8 道,每道 5 分,选项正确计分,错误不得分;
  • 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
  • 填空题 3 道,每道 5 分,填空正确计分,错误不得分。

规则搞清楚了,接下来有请此次的参赛选手:字节的豆包、深度求索的 DeepSeek、阿里的通义、腾讯的元宝(T1)、百度的文心 X1 Turbo,以及踢馆选手 OpenAI 的 o3。

由于目前标准答案尚未公开,本次测试的参考答案是由多位数学大牛解答核对。最终各大模型的考试成绩如下图所示。

这 6 家大模型中表现最亮眼的就是豆包和元宝,它俩虽然都「栽」在了第 6 道单选题上,但仍以 68 分的总成绩并列第一;DeepSeek 和通义则稍微逊色一些,前者错了 2 道单选题拿下 63 分,后者则在 1 道单选、1 道多选上失误最终拿到 62 分;相比之下,文心 X1 频频在多选题和填空题上「掉链子」,最终只获得 51 分,正确率仅为 70%。

面对中国的高考数学题,o3 表现出明显的「水土不服」,它仅拿到 34 分,正确率只有 47%。之前就有传言称 o3 在某些情况下会触发「降智」,如此看来并非空穴来风,否则这个表现实在令人难以置信。

欲知这 6 大模型的具体答题截图,请移步链接:https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEb

6 家顶流模型 PK 高考数学

相比于写作文,高考数学才是真正的 AI 照妖镜。

这是因为高考作文尽管对语言表达、逻辑结构、思辨能力有一定要求,但它本质上仍是一个语言生成任务,具有较强的模糊空间和容错度,而且经过这两年的技术迭代,大模型个个都练成了「段子手」,写作文自然是手拿把掐。

而高考数学则不同,它需要从已知条件出发,逻辑严密地推导每一个结论,过程中只要一步出现偏差,最终答案十有八九会出错。更何况,高考数学题还存在「题型常变」「设问刁钻」等特点,这些都进一步挑战了模型的泛化能力和思维深度。

接下来,我们就看看这六款大模型面对不同题目类型的表现。

单选题

高考数学包含 8 道单选题,满分 40 分。

从跑分情况来看,豆包、通义、元宝和文心打成平手,均斩获 35 分不错的成绩;其次就是 DeepSeek 错了两道单选拿下 30 分,表现最拉胯的竟是 o3,光单选题就错了一半。

作为曾经的推理模型「扛把子」,o3 在「送分」的第 2 题上就翻了车。起初它的思路还挺清晰,但从第二步就开始「胡说八道」,最终一顿操作猛如虎,算出个选项里没有的答案。

DeepSeek 最大的 bug 则是图片识别,就以第 6 题为例。

原题中本附着一张信息图,为了省事我们索性就将题目截图直接丢给 DeepSeek,但它对眼前的图表视而不见,一个劲地抱怨「题目描述不完整,无法确定答案」,甚至末了还开始蒙答案糊弄人。

其实,这道题通过数形结合就能直观看出,其准确答案应为 2√2。通义作为国产 AI 中唯一答对第 6 题的选手,计算方法竟是错误的,只不过是歪打正着落在正确选项的区间。

多选题

多选题曾让无数考生头疼,因为它的正确选项不固定,多答或少答都会扣分,再加上题目里总设些陷阱,一不小心就会失误。

高考数学多选题有 3 道,总共 18 分。豆包、DeepSeek 和元宝三道题全部满分,发挥相当稳定。

相比于 DeepSeek 动辄几百秒的思考时间,通义主打一个速度,仅用时 26 秒就直出答案,但步骤分析过于简略,缺乏必要的验证环节,这就很容易失手。比如它在前两题上答得都很漂亮,却在下图这道题上突然智商「掉线」。该题正确答案是 ABC,通义却给出了 A、D,至于为何不选 B、C,它的解释非常简单粗暴,因为「无法通过现有条件直接推导」。

文心 X1 就有点尴尬了。三道题目错了俩,其中一道还是未响应。它和 DeepSeek 犯了同样的毛病,都是经常性地识别不了图片内容。

o3 好像还没适应国内高考的「多选套路」,一道题都没全对,明明是多选它偏做成单选,当然这么做也有好处,就是不至于零封,怎么也能得个 4 分。

填空题

或许是这次填空题相对简单,有四家大模型斩获满分,分别是豆包、DeepSeek、通义和元宝。

文心 X1 有点可惜,整个答题思路都是正确的,也算出了公比为 2 或 - 2,但偏偏在最后画蛇添足,莫名其妙地说了句「通常取正值」,导致一分未得。

有哪些进步?又暴露了哪些问题?

有一说一,各家大模型公司狠砸的真金白银还真没白花,今年大模型的数学推理能力确实有了明显的进步。

首先表现在得分上。去年我们也曾让大模型挑战高考数学题,但彼时它们连高考数学及格线都没过,甚至 9.9 和 9.11 哪个大、strawberry 有几个 r 都答不对。反观今年大模型的表现,除 o3 外,其他 5 款模型均突破 43.8 分的及格线,甚至豆包和元宝还保持了 93% 的正确率。

其次,增加了反思能力。去年大模型还没学会反思,做题时因某个步骤错误而无法找到正确选项时,它们不再回头检查,而是直接简单粗暴地表示「没有正确选项」。而今年的大模型不再是一根筋,只要遇到不对劲的地方就会推倒重来,典型代表就是 DeepSeek,一言不合就验证,这也导致思考时间漫长,有时做一道题甚至能用时 15 分钟。

最后,推理步骤更加完善。回顾去年大模型在做高考数学题时的表现,普遍存在解析过程较为简略的情况,经常会跳步,有时解析过程一长还会陷入死循环。今年则是除了通义仍然「惜字如金」外,其他大模型都能够系统性地展示完整的推理链路,从问题分析、公式选择、计算步骤到结果验证,每个环节都有清晰的逻辑阐述。即使是数学基础相对薄弱的用户,也能够通过模型提供的详细解析过程,深入理解问题的本质和解决思路。

不过,从这次评测中我们也发现了大模型几个典型的毛病。

最常见的就是计算细节错误,即使模型理解了题意,推理方向正确,最后也容易在中间步骤出错,比如符号看错、公式套错、代数变形不规范等。

另一个核心问题是公式、图形与几何直觉的处理能力不足,比如解析几何类题目依赖较强的空间感和图形理解,这对语言模型而言是天然短板。在逻辑推理链较长或题型设计较「逆向」的题目中,模型还可能表现出蒙答案的倾向,看似给出了结论,但中间链条无法自洽或存在明显漏洞。

此外,对题目条件的敏感度不够。模型有时会忽略某些隐含条件,导致结论偏差。尤其在多选题中,模型容易满足于找到一个正确选项而不穷尽其他可能,从而漏选或误选。填空题则容易受到「无提示答题」能力的限制,不能推理出完整的结果。

随着技术不断进化,大模型的数学能力也会不断提高,相信总有一天大模型能弥补「偏科」的毛病。

最后,预祝各位考生金榜题名,考上理想的大学!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“今天柯文哲、明天任何人”,国民党声援白营:彼此一起走下去

“今天柯文哲、明天任何人”,国民党声援白营:彼此一起走下去

海峡导报社
2026-03-29 17:53:07
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-25 21:05:22
混到我这个地步,已经没什么救了~

混到我这个地步,已经没什么救了~

果粉之家
2026-03-27 14:56:34
内存条价格出现断崖式下跌,16G内存条1天跌了上百元,专家:未来将持续降价

内存条价格出现断崖式下跌,16G内存条1天跌了上百元,专家:未来将持续降价

极目新闻
2026-03-29 22:53:03
打击伊朗为何不需要太多美军呢?因为只需打垮12.5万革命卫队而已

打击伊朗为何不需要太多美军呢?因为只需打垮12.5万革命卫队而已

民间胡扯老哥
2026-03-30 05:05:52
中国电车比亚迪东南亚杀疯了!新加坡销量断层第一,泰国总理安利

中国电车比亚迪东南亚杀疯了!新加坡销量断层第一,泰国总理安利

新加坡万事通
2026-03-29 20:25:58
当不成总统了?美国迎三大噩耗,百万人逼宫,他承认对中国上头了

当不成总统了?美国迎三大噩耗,百万人逼宫,他承认对中国上头了

知法而形
2026-03-29 11:53:37
西班牙宣布对参与美伊战事的军用飞机关闭领空

西班牙宣布对参与美伊战事的军用飞机关闭领空

每日经济新闻
2026-03-30 15:35:32
万科开始大清算

万科开始大清算

地产微资讯
2026-03-30 10:50:26
善恶有报!逼人民日报怒批、暗讽张雪峰,1300万网红终为荒唐买单

善恶有报!逼人民日报怒批、暗讽张雪峰,1300万网红终为荒唐买单

观察鉴娱
2026-03-29 09:24:41
改写历史,真主党打进了以色列本土

改写历史,真主党打进了以色列本土

星火聊天下
2026-03-30 16:09:46
悬念不大了!西部前10最终排名预测:火箭第6避开湖人,勇士垫底

悬念不大了!西部前10最终排名预测:火箭第6避开湖人,勇士垫底

小火箭爱体育
2026-03-30 17:05:17
浙江男子一想抽烟,老婆就让他把烟换成彩票,结果中得701万大奖,老婆:买彩票是我老公独有的戒烟方式,既保护身体,也有一份小小的希望

浙江男子一想抽烟,老婆就让他把烟换成彩票,结果中得701万大奖,老婆:买彩票是我老公独有的戒烟方式,既保护身体,也有一份小小的希望

洪观新闻
2026-03-30 15:28:58
全国猪价跌破5元 创历史新低

全国猪价跌破5元 创历史新低

财联社
2026-03-29 18:02:12
张雪峰遗体转运画面流出!前妻和现任妻子现身,下属向遗像三叩首

张雪峰遗体转运画面流出!前妻和现任妻子现身,下属向遗像三叩首

博士观察
2026-03-29 11:52:26
打车这件事,被千问用 AI 重新定义

打车这件事,被千问用 AI 重新定义

爱范儿
2026-03-25 14:09:52
“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

都市快报橙柿互动
2026-03-29 12:26:05
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
悄悄积阴德的10种方法:你不说,天会给你记

悄悄积阴德的10种方法:你不说,天会给你记

金沛的国学笔记
2026-03-29 11:56:12
广东一男子偷走妈祖庙里的黄金耳环,给自家供奉的妈祖佩戴,法院判了

广东一男子偷走妈祖庙里的黄金耳环,给自家供奉的妈祖佩戴,法院判了

环球网资讯
2026-03-30 17:23:11
2026-03-30 19:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12640文章数 142599关注度
往期回顾 全部

教育要闻

来上课了——做一道错一道之高考50经典难题(上)第1段

头条要闻

河南女子举报母亲去世后被结婚 官方通报

头条要闻

河南女子举报母亲去世后被结婚 官方通报

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

科技要闻

一句谎言引发的硅谷血案

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

亲子
家居
本地
手机
公开课

亲子要闻

儿科医生提醒,这些药千万不要混着吃!

家居要闻

东方法式美学 现代简约

本地新闻

用Color Walk的方式解锁城市春日

手机要闻

哈苏双2亿小屏旗舰!OPPO Find X9s Pro官宣:4月见

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版