网易首页 > 网易号 > 正文 申请入驻

大模型的高考数学成绩单:及格已经非常好了

0
分享至

机器之心发布

机器之心编辑部

让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。

一年一度的高考落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!

和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」:



令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。

而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。

具体测试环节:

我们将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。

分数计算方法依照高考真实判分原则:

  • 单选题 8 道,每道 5 分,选项正确计分,错误不得分;
  • 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
  • 填空题,3 道,每道 5 分,填空正确计分,错误不得分。



图|8 个模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确

具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)

多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了

完整测试结果如下:

单选题一

(6个模型回答正确,1个回答错误)

GPT-4o:正确



通义千问 2.5:正确



GLM-4-0520:正确



智谱清言:正确



豆包:正确



文心 4:错误



百川 4:正确



单选题二

(3个模型回答正确,4个回答错误)

GPT-4o:错误



通义千问 2.5:正确



GLM-4-0520:正确



智谱清言:正确



豆包:错误



文心 4:错误



百川 4:错误



单选题三

(全部回答正确)

GPT-4o:正确



通义千问 2.5:正确



GLM-4-0520:正确



智谱清言:正确



豆包:正确



文心 4:正确



百川 4:正确



单选题四

(全部回答正确)

GPT-4o:正确



通义千问 2.5:正确



GLM-4-0520:正确



智谱清言:正确



豆包:正确



文心 4:正确



百川 4:正确



单选题五

(6个模型回答正确,一个无响应)

GPT-4o:正确



通义千问 2.5:无响应,最终提示系统超时



GLM-4-0520:正确



智谱清言:正确



豆包:正确



文心 4:正确



百川 4:正确



单选题六

(6个模型回答正确,一个回答错误)

GPT-4o:错误



通义千问:正确



GLM-4-0520:正确



智谱清言:正确



豆包:正确



文心 4:正确



百川 4:正确



单选题七

(6个模型回答正确,一个回答错误)

GPT-4o:正确



通义千问 2.5:错误



GLM-4-0520:正确



智谱清言:正确



豆包:正确



文心 4:正确



百川 4:正确



单选题八

(7个模型无一得出正确答案)

GPT-4o:错误



通义千问2.5:错误



GLM-4-0520:错误



智谱清言:错误



豆包:错误



文心 4:错误



百川 4:错误



多选题一

(3个回答正确,2个部分正确,2个错误)

GPT-4o:正确



通义千问 2.5:错误



GLM-4-0520:正确



智谱清言:部分正确



豆包:正确



文心 4:部分正确



百川 4:错误



多选题二

(2个模型回答部分正确,5个回答错误)

GPT-4o:错误



通义千问 2.5:错误



GLM-4-0520:部分正确



智谱清言:部分正确



豆包:错误



文心 4:错误



百川 4:错误



多选题三

(5个模型回答部分正确,2个回答错误)

GPT-4o:错误



通义千问 2.5:部分正确



GLM-4-0520:部分正确



智谱清言:部分正确



豆包:部分正确



文心 4:部分正确



百川 4:错误



填空题一

(2个模型回答正确,5个回答错误)

GPT-4o:正确



通义千问 2.5:错误



GLM-4-0520:正确



智谱清言:错误



豆包:错误



文心 4:错误



百川 4:错误



填空题二

(1个模型回答正确,6个回答错误)

GPT-4o:错误



通义千问 2.5:错误



GLM-4-0520:正确



智谱清言:错误



豆包:错误



文心 4:错误



百川 4:错误



填空题三

(2个模型回答正确,5个回答错误)

GPT-4o:正确



通义千问 2.5:错误



GLM-4-0520:正确



智谱清言:错误



豆包:错误



文心 4:错误



百川 4:错误



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凌峰,任上被查

凌峰,任上被查

新京报
2024-06-21 15:46:33
科普:女人“羞羞”时,可以承受多粗的“武器”?

科普:女人“羞羞”时,可以承受多粗的“武器”?

喜马拉雅主播暮霭
2024-06-20 08:55:00
19岁武警战士张豪,为抓捕歹徒身中13弹,如今他享受到什么待遇?

19岁武警战士张豪,为抓捕歹徒身中13弹,如今他享受到什么待遇?

百年历史老号
2024-06-21 05:37:07
空前绝后的第一禁片!被禁的原因你绝对想不到...…

空前绝后的第一禁片!被禁的原因你绝对想不到...…

华人星光
2024-06-20 16:09:38
5-3!3-1!足协杯16强诞生两席,青岛点球大战晋级,南通绝杀!

5-3!3-1!足协杯16强诞生两席,青岛点球大战晋级,南通绝杀!

阿牛体育说
2024-06-21 04:14:18
男生要坚持多久,女生才会觉得爽?

男生要坚持多久,女生才会觉得爽?

喜马拉雅主播暮霭
2024-06-19 11:58:36
箭在弦上!南海局势已经到了重大突破的前夜

箭在弦上!南海局势已经到了重大突破的前夜

龙牙的一座山
2024-06-21 10:27:01
已经是一夫多妻制的巴拉圭,性交易反而盛行,有何不为人知的秘密

已经是一夫多妻制的巴拉圭,性交易反而盛行,有何不为人知的秘密

天下霸图
2024-06-21 12:43:03
你敢相信吗?你车上的空调最大输入功率,相当于家里的7匹柜机

你敢相信吗?你车上的空调最大输入功率,相当于家里的7匹柜机

音乐时光的娱乐
2024-06-21 02:52:01
欧洲杯又1名画:16岁巨星狂飙,3人纷纷倒下!如同施魔法

欧洲杯又1名画:16岁巨星狂飙,3人纷纷倒下!如同施魔法

叶青足球世界
2024-06-21 05:06:09
详解毕福剑事件始未,世间再无“毕姥爷”!

详解毕福剑事件始未,世间再无“毕姥爷”!

平安是福呀
2024-04-27 08:46:59
考上中国传媒大学博士生后,龙洋为什么会被一些人骂?

考上中国传媒大学博士生后,龙洋为什么会被一些人骂?

娱乐白名单
2024-06-21 10:08:28
惊!成都地铁13号线路面坍塌,网友:别挖了,整个成都有负一层了

惊!成都地铁13号线路面坍塌,网友:别挖了,整个成都有负一层了

普陀动物世界
2024-06-21 13:21:51
3200万正式加盟湖人,雷迪克授意2换1得武切维奇,再竞争火箭旧将

3200万正式加盟湖人,雷迪克授意2换1得武切维奇,再竞争火箭旧将

刺头体育
2024-06-21 11:58:01
70-80岁幸福老人12条标志,满足8条就很厉害,看看你占几条

70-80岁幸福老人12条标志,满足8条就很厉害,看看你占几条

爱情大使馆
2024-06-19 20:35:14
销量降至0.21万辆!第一批小米车主,已经开始卖车了:“刚提车时恨不得每天住在车里,后来只能忍痛卖车”【附新能源汽车行业现状分析】

销量降至0.21万辆!第一批小米车主,已经开始卖车了:“刚提车时恨不得每天住在车里,后来只能忍痛卖车”【附新能源汽车行业现状分析】

前瞻网
2024-06-19 14:13:10
普京越南开发布会,单手插兜进场好酷,穿西服花裙的小姐姐也惹眼

普京越南开发布会,单手插兜进场好酷,穿西服花裙的小姐姐也惹眼

八八尚语
2024-06-21 10:41:30
巴黎世家9.4万“姨妈裙”,火了!

巴黎世家9.4万“姨妈裙”,火了!

4A广告提案网
2024-06-20 17:01:39
法媒:重回中国,外国旅客要适应让他们猝不及防的全数字化生活

法媒:重回中国,外国旅客要适应让他们猝不及防的全数字化生活

新时光点滴
2024-06-21 04:54:19
尤氏家族离场、 一家7口套现20亿?鸿博股份回应质疑

尤氏家族离场、 一家7口套现20亿?鸿博股份回应质疑

第一财经资讯
2024-06-21 11:17:09
2024-06-21 18:14:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9103文章数 141946关注度
往期回顾 全部

教育要闻

剑南春2024高考专题报道

头条要闻

现场视频:菲维修加固非法“坐滩”军舰影像首度公开

头条要闻

现场视频:菲维修加固非法“坐滩”军舰影像首度公开

体育要闻

1-0"吊打"意大利 西班牙这就叫冠军相?

娱乐要闻

陈晓惹争议!被曝婚变离家出走冷暴力

财经要闻

穿越”法案风云”的药明康德们

科技要闻

鸿蒙NEXT首次将AI能力融入系统

汽车要闻

领克纯电 来得不晚

态度原创

手机
艺术
游戏
亲子
公开课

手机要闻

手机“爆改”充电宝!电池技术迎来大升级

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

曝育碧正在为新作选角:蒙古女性 形象参考权游龙妈

亲子要闻

娃不管长啥疹子,记住3点就够了!荨麻疹、湿疹、痱子都适用!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版