网易首页 > 网易号 > 正文 申请入驻

十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”

0
分享至

2025年高考大幕虽已落下,但关于数学科目难度的讨论热度不减。

《每日经济新闻》记者(以下简称“每经记者”)选取今年的全国新课标数学I卷作为考题,对DeepSeek-R1、腾讯混元T1、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型进行了测评,以检验当今主流AI推理大模型的数学能力。

测评结果显示,国产大模型DeepSeek-R1与腾讯混元T1以零错误并列榜首。而被马斯克称为“地表最强AI”的Grok 3却遭遇“滑铁卢”,排名倒数第三。


测评标准

本次测评以2025年全国新课标数学I卷(总分150分)作为考题。但每经记者在测试中发现,部分AI推理模型以“重要考试期间”为由拒绝对包含试题的图片进行识别和解答。

为了让所有参评大模型站在同一起跑线,测评移除了试卷中所有需要分析图形和图表的题目,形成一份有效总分为117分的标准化试卷。

同时,对于谷歌Gemini 2.5 Pro等没有这一限制的推理模型,仍将以150分的完整试卷进行测试,旨在测试推理大模型所能达到的最高水平。

扣分标准上,每经记者在选择题和填空题上都遵循了高考评卷的扣分标准,但对于解答题,本次测评只根据结果计算得分,不对过程打分。

需要说明的是,在此次测试中,每款推理大模型只进行单次测试,得分也仅反映单次测试的结果。

DeepSeek-R1和腾讯混元T1并列第一

在排除了图形/图表题的117分试卷测试中,DeepSeek-R1与腾讯混元T1展现出了绝对的优势,以零错误的完美表现,取得了117分的满分成绩,并列第一。这表明,在代数计算和函数题等题型解答上,其能力已经达到了极高的水准和稳定性。

讯飞星火X1以112分的成绩紧随其后。相较于DeepSeek-R1与腾讯混元T1这两款大模型,讯飞星火X1多错了一道填空题。这道题的正确答案是“±2”,而讯飞星火X1给出的答案是“2”。实际上,该模型的推理过程没有问题,认为“2”和“-2”都满足题目条件,但陷入自我怀疑,最终只给出了答案“2”。

讯飞星火X1的推理过程

其他得分超过100分的还有Gemini 2.5 Pro(109分)、o3(107分)、阿里千问Qwen3(106分)和豆包深度思考模式(104分)。在分数占比最高的解答题上,Gemini 2.5 Pro和o3均有失误,其中一道大题仅有部分正确,而阿里千问Qwen3和豆包深度思考模式均拿下满分。

Grok 3惨遭“滑铁卢”,排名倒数第三

在本次参评的所有AI推理大模型中,如果说有谁的结果最令人意外,那无疑是马斯克旗下xAI公司开发的、被马斯克称为“地表最强AI”的Grok 3。

Grok在发布之初就被市场寄予厚望,被认为是最有潜力挑战GPT和Gemini霸主地位的“黑马”。马斯克多次暗示,Grok的目标是成为最强大的AI。

然而,Grok 3此次的表现可以说是遭遇了“滑铁卢”。在117分的试题测试中,Grok 3仅获得91分,在10个参与测试的推理大模型中排名倒数第三

深入分析其答卷,每经记者发现,Grok 3失分的一个独特且关键的原因:它似乎无法正确理解多选题这类题型。

测试过程显示,即使在记者提示题目为多选题的情况下,Grok 3也“顽固”地只给出一个它认为的最优解,导致只能得到部分分数。

排名倒数第二的是智谱清言推理模式,在117分试卷的测试中得分为78分。

实际上,该模型在多道题目的推理过程中都找到了正确答案,但是往往会在最后一步出现自我怀疑导致逻辑崩溃,陷入循环,最终功亏一篑,白白丢了很多分。

智谱清言推理模式解答过程截图

排在最末尾的是Kimi k1.5,该模型在最后两道压轴大题上栽了大跟头,损失了大量的分数。

综合所有测试情况来看,在处理有固定步骤和严密逻辑的数学问题上,AI推理大模型已经具备很强的能力。但在涉及抽象和创新思维的题目上,目前的大模型还存在一定的局限性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
车还在,厂没了,40 万哪吒车主的尴尬

车还在,厂没了,40 万哪吒车主的尴尬

科技狐
2026-04-26 22:54:06
上海地铁互殴最新后续!双双被行拘,客服发声,知情人曝更多细节

上海地铁互殴最新后续!双双被行拘,客服发声,知情人曝更多细节

爱写的樱桃
2026-04-26 21:38:12
触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

触目惊心!央视曝光上海一中医馆:从医生到病人全是演员!

人间颂
2026-04-20 10:16:00
广东人狂喜!全国最长跨市“地铁”来了,横跨5座城市

广东人狂喜!全国最长跨市“地铁”来了,横跨5座城市

小怪吃美食
2026-04-27 12:44:55
列宁曾派特工来到中国,专门暗杀一个人:脑袋至今保存在俄博物馆

列宁曾派特工来到中国,专门暗杀一个人:脑袋至今保存在俄博物馆

抽象派大师
2026-04-25 18:39:46
南方黑芝麻创始人,被立案调查

南方黑芝麻创始人,被立案调查

第一财经资讯
2026-04-27 09:28:28
曝杨子新女友已产子!与黄圣依婚姻存续期疑云重重,去年否定关系

曝杨子新女友已产子!与黄圣依婚姻存续期疑云重重,去年否定关系

一盅情怀
2026-04-27 14:27:14
执行董事被曝“在美疑涉性侵指控”,知名公司紧急公告

执行董事被曝“在美疑涉性侵指控”,知名公司紧急公告

南方都市报
2026-04-27 14:57:10
张军被查,才看懂林丹有多狠!

张军被查,才看懂林丹有多狠!

情感大头说说
2026-04-27 13:26:29
上高环,见真章!谁是新能源车省电之王?

上高环,见真章!谁是新能源车省电之王?

Autolab
2026-04-11 23:12:59
美国已收到伊朗谈判新方案

美国已收到伊朗谈判新方案

界面新闻
2026-04-27 11:28:26
重磅!中国DDR5价格大跌!

重磅!中国DDR5价格大跌!

EETOP半导体社区
2026-04-27 08:09:41
田亮儿子照片炸锅!确实很蹊跷,网友集体催去医院

田亮儿子照片炸锅!确实很蹊跷,网友集体催去医院

南万说娱26
2026-04-27 09:22:43
上海迪士尼一男子劝阻另一男子吸烟,反被连扇巴掌、拳打脚踢!当事人删帖称“对方赔了五位数”,警方已介入

上海迪士尼一男子劝阻另一男子吸烟,反被连扇巴掌、拳打脚踢!当事人删帖称“对方赔了五位数”,警方已介入

都市快报橙柿互动
2026-04-27 14:53:19
斯诺克赛程:决出4席8强,吴宜泽生死战,火箭冲8冠,5虎变3虎?

斯诺克赛程:决出4席8强,吴宜泽生死战,火箭冲8冠,5虎变3虎?

刘姚尧的文字城堡
2026-04-27 07:56:16
太扎心!400万炒到剩20万,三年半亏掉380万

太扎心!400万炒到剩20万,三年半亏掉380万

财经智多星
2026-04-26 11:02:55
伟伟道来 | 伊朗为什么越来越强硬

伟伟道来 | 伊朗为什么越来越强硬

经济观察报
2026-04-27 12:08:53
67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

67岁迟志强现状:出狱37年后,定居黑龙江,儿子工作令人泪目

蹲坑看世界
2026-04-25 19:10:38
科尔:我主张直接取消三分线 詹姆斯没有乔丹的威慑力和统治气场

科尔:我主张直接取消三分线 詹姆斯没有乔丹的威慑力和统治气场

罗说NBA
2026-04-27 10:09:08
芬兰外长突然发难:不和中国签自贸协定!中方一句话淡定回应

芬兰外长突然发难:不和中国签自贸协定!中方一句话淡定回应

闻识
2026-04-27 12:07:18
2026-04-27 16:08:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1551535文章数 2725554关注度
往期回顾 全部

教育要闻

孩子主动表达的语言发展支持方法

头条要闻

美国白宫记协晚宴突发枪击事件 外交部回应

头条要闻

美国白宫记协晚宴突发枪击事件 外交部回应

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

DeepSeek融资、字节加码 AI开始真烧钱了

科技要闻

DeepSeek V4上线三天,第一批实测出来了

汽车要闻

在不确定中寻找确定性:大众汽车的中国解法

态度原创

数码
艺术
家居
本地
军事航空

数码要闻

内存降50%就心动想买了吗!报告:DRAM和NAND价格或在2027年见顶

艺术要闻

你绝对想不到,摄影能让她成为女神!

家居要闻

江景风格 流动的秩序

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版