网易首页 > 网易号 > 正文 申请入驻

5个140分!2026高考数学AI评测出炉

0
分享至


15日,山东省教育招生考试院举办2026年夏季高考评卷工作开放日活动。

2026年山东省参加夏季高考统一考试的考生共计72万人,9个科目试卷总数达到432万余份。 评卷工作委托山东大学和山东师范大学进行,共选聘评卷员3700余人。

山东大学负责评阅语文、数学、物理、化学、生物5个科目。山东师范大学负责评阅外语、思想政治、历史、地理4个科目。评卷工作于6月11日正式启动,选择题部分实行机器评阅,目前已全部完成。非选择题部分由人工网上评阅,目前正在进行中。

据悉,本轮评卷工作结束后,我省将陆续开展成绩汇总、 录取控制分数线 划定等工作,6月25日下午3点后正式公布高考成绩。

近日,新京报展开一场评测,选取讯飞星火、DeepSeek、智谱、ChatGPT、Kimi和MiniMax六款以推理见长的大模型,以2026年新高考I卷数学卷为统一试题进行测试。评测邀请了两位专业教师参与阅卷评分:人大附中北京经济技术开发区学校高中数学教师、教研组长、北京市数学骨干教师韩静波,以及北京市中学数学特级教师、全国高中数理化名师俱乐部副理事长、中国数学奥林匹克高级教练丁益祥。

六个“考生”,五个上了140分

测试共19道题目,满分150分。试卷题目依据网络流出的多个版本交叉验证而成,可能与真题存在不完全相符的情况,但所有模型使用的是同一套题目,不影响横向比较的公平性。

从总分来看,六款大模型呈现了明显的梯度:讯飞星火以148分位居第一,Kimi以145分紧随其后,DeepSeek144分、智谱143分、MiniMax142分依次排列,ChatGPT以137分排在末尾。六个“考生”中,有五个上了140分


▲6名大模型“考生”总体得分情况。新京报制图/卢子雄

基础题全员满分,解题规范拉开差距

在选择题和多选题上,六款模型实现了全员满分,仅有个别模型在填空题上出现了失误。真正拉开差距的,是解答题的得分和解题过程的规范性。

讯飞星火的规范分与结果分完全一致,推理过程较为清晰,字符也较规范。丁益祥举例说,在第15题第(2)小题中,讯飞星火给出了几何法和向量法两种解法;第18题第(2)小题的两问中,它充分利用了平面几何中三角形面积之间的关系,并借助夹角公式简化了运算。丁益祥还注意到,“MiniMax卷”和“智谱卷”在第18题第(2)小题的第①问上,同样利用了几何中三角形面积关系来处理问题,“都有不错表现”。

韩静波则发现,讯飞星火在数形结合、对图形几何性质的分析上明显优于其他模型,“它在解析第二问几何性质时分析得很好,做法简洁,还有一些题目给出了两种解法。”

其他模型则在解答题中不同程度地出现了步骤失分,原因多为关键推导缺失或逻辑不连贯


▲各大模型“考生”不同题目分数统计情况。新京报制图/卢子雄

压轴题分出高下,部分模型用了"超纲"知识

压轴题(第18、19题)成为区分模型复杂推理能力的分水岭。大部分模型在第18题中表现尚可,但在第19题上出现了明显的“后继乏力”——有模型仅得到12分(满分17分),暴露出部分大模型在处理多步骤、高复杂度逻辑链时仍存在能力短板。

韩静波观察发现,DeepSeek在形式化的代数推导方面比较擅长,能按部就班地完成长逻辑推导,但在数形结合、对图形几何性质的分析上稍显欠缺,利用题目特殊性灵活处理问题的能力也显不足。

值得注意的是,部分模型在解题中动用了超出高中知识范围的方法。丁益祥指出,“DeepSeek卷”“Kimi卷”“ChatGPT卷”“智谱卷”在求解第18题第(2)小题时都使用了向量的叉乘运算,而“DeepSeek卷”在第19题第(2)小题中还动用了“上确界”的概念。丁益祥表示,这些都属于高等数学知识,在解答高考数学试题中一般不宜使用。


▲丁益祥对试卷的批阅记录。

"答卷各有千秋",仍有改进余地

除了知识运用的问题,丁益祥还指出了大模型在答题呈现上的一些不足。“MiniMax卷”和“智谱卷”中存在字符不统一、不规范的情况,给人的感觉较为凌乱。他还提到,ChatGPT卷第15题第(2)小题的几何法证明较为繁琐,智谱卷第19题第(3)小题的推导也不够简练。

不过,在答题思路的一致性上,六款模型表现出了一定程度的趋同。以第15题第(1)小题为例,六份答卷一致地采用几何法证明;第18题第(1)小题,六份答卷一致地利用参数之间的关系求椭圆的标准方程;第19题第(1)小题,六份答卷也一致地使用直接计算的方法得出结果。丁益祥用“某些思路雷同,答卷各有千秋”来概括六份答卷。

总体而言,测评结果表明,头部大模型在高考数学场景中已展现出一定的解题实力,不仅能算出正确结果,也能以较为规范、严谨的过程呈现推导思路。但部分模型在步骤规范性、复杂压轴题的推理能力以及答题格式的规范呈现上,仍然存在明显的提升空间。正如有专家指出,当前大模型的数学能力竞争,已从“能算出结果”转向了“过程严谨、逻辑完整、复杂问题可拆解”的更高阶段。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
无需催生!中国最愿意生孩子的省,根本不用催,连续七年全国第一

无需催生!中国最愿意生孩子的省,根本不用催,连续七年全国第一

素衣读史
2026-05-26 21:52:56
这才是大赢家!贝克汉姆美国世界杯期间狂接广告,已赚1.76亿。

这才是大赢家!贝克汉姆美国世界杯期间狂接广告,已赚1.76亿。

喜欢历史的阿繁
2026-06-22 01:10:16
别盲目躺平!逾期几年没事都是假话,这两类债务碰不得

别盲目躺平!逾期几年没事都是假话,这两类债务碰不得

负债老莫
2026-05-07 17:34:07
逆天!3少年轮奸女学生并笑着拍下了全程,结果法官:不用坐牢,他们还小

逆天!3少年轮奸女学生并笑着拍下了全程,结果法官:不用坐牢,他们还小

北美省钱快报
2026-06-02 04:45:28
有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

有性生活和没性生活,身体会出卖你!第三个区别,很多人没想到

健康科普365
2026-05-30 16:30:29
乱套了!美联储二把手违规赴宴,密会美银高层,加息底牌被看穿?

乱套了!美联储二把手违规赴宴,密会美银高层,加息底牌被看穿?

至死不渝的爱情
2026-06-21 14:06:47
娜然坐霍家主桌照片曝光!已被认可、黑料被扒,郭晶晶评论区沦陷

娜然坐霍家主桌照片曝光!已被认可、黑料被扒,郭晶晶评论区沦陷

素衣读史
2026-06-21 21:49:56
59年军委开会没人通知粟裕,毛主席很不高兴:你们有人家的本事?

59年军委开会没人通知粟裕,毛主席很不高兴:你们有人家的本事?

新时代的两性情感
2026-06-21 08:46:54
既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

既然给脸不要脸,那就彻底撕破脸!王毅外长已经把话挑明了

安安说
2026-02-01 14:01:51
搞笑图片第1250期:我要住这个站,我非得写个万字书要求改名

搞笑图片第1250期:我要住这个站,我非得写个万字书要求改名

今天的快乐
2026-06-21 22:14:43
德国队天塌了!5500万中卫或韧带撕裂 世界杯恐报销 主帅:不乐观

德国队天塌了!5500万中卫或韧带撕裂 世界杯恐报销 主帅:不乐观

我爱英超
2026-06-21 07:47:47
跟儿女相处:讲道理是下策,闭嘴是中策,上策你绝对想不到

跟儿女相处:讲道理是下策,闭嘴是中策,上策你绝对想不到

热心市民小黄
2026-06-03 13:30:41
心理学揭示:恶人敢反复拿你开刀、把你吃定,从来不是你太老实,也不是你没手段,而是你身上有这两种“被猎特质”

心理学揭示:恶人敢反复拿你开刀、把你吃定,从来不是你太老实,也不是你没手段,而是你身上有这两种“被猎特质”

心理观察局
2026-06-18 07:00:08
一夜间!中国女排提前重返亚洲第一,波巴遭爆冷,土耳其跃居第3

一夜间!中国女排提前重返亚洲第一,波巴遭爆冷,土耳其跃居第3

吴猖旅行ing
2026-06-22 00:49:35
他是导致台湾难以收复的关键人物,若不是他,台湾或许早就解放了

他是导致台湾难以收复的关键人物,若不是他,台湾或许早就解放了

兵卒史
2026-06-10 04:40:13
人到中年才发现一个饭局定律:酒桌上,那个不喝酒、不说话、只埋头吃菜的人,往往是这两种

人到中年才发现一个饭局定律:酒桌上,那个不喝酒、不说话、只埋头吃菜的人,往往是这两种

心理观察局
2026-04-29 15:46:18
吵成一锅粥!欧盟最后时刻放弃对华贸易战,10国主战,马克龙带头

吵成一锅粥!欧盟最后时刻放弃对华贸易战,10国主战,马克龙带头

面包夹知识
2026-06-21 18:22:26
四名出国打球的女排姑娘已经齐刷刷归队了!

四名出国打球的女排姑娘已经齐刷刷归队了!

眼界纵横
2026-04-23 12:10:28
泽连斯基这回是真把天捅破了

泽连斯基这回是真把天捅破了

回京历史梦
2026-06-21 18:40:15
1400万成本,零明星零宣发,票房剑指1.5亿,这才是年度大黑马

1400万成本,零明星零宣发,票房剑指1.5亿,这才是年度大黑马

探长读财
2026-06-21 23:24:46
2026-06-22 03:00:49
山东教育 incentive-icons
山东教育
发布山东教育界资讯
6893文章数 13231关注度
往期回顾 全部

教育要闻

今年毕业季透着不寻常:大批高材生不进大厂,全在抢这碗饭!

头条要闻

西班牙4-0大胜沙特 亚马尔首次世界杯首发+首球

头条要闻

西班牙4-0大胜沙特 亚马尔首次世界杯首发+首球

体育要闻

德国的超级替补,10年前还在工厂上班

娱乐要闻

原来她就是张颂文老婆

财经要闻

“床垫界的特斯拉”破产了

科技要闻

马斯克拿下7800亿元天价薪酬 2028年可兑现

汽车要闻

惊出冷汗!重庆实测奥迪A5L,华为智驾这波操作绝了…

态度原创

亲子
房产
本地
时尚
公开课

亲子要闻

阿宝表演单杠,考考小姨们帮我数6分钟荡了多少圈?老妈数晕了

房产要闻

商业清零式退潮,大量住宅登场!三亚又要大规模调规!

本地新闻

龙腾资江 韵动邵阳

邮报盘点哈兰德奢侈品收藏:33万镑爱马仕包、28万豪华腕表

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版