网易首页 > 网易号 > 正文 申请入驻

让AI像人类一样做高考数学题,夸克领跑、豆包紧随

0
分享至

一年一度的高考落下帷幕。对大模型来说,这已经是它第三次参与这场本属于人类考生的考试。

但和前两年不同,之前人们喜欢安排大模型产品写高考作文。今年随着推理模型的火热,人们开始热衷让它参与高考数学。

一个有意思的变化在于,这两天各种各样的高考数学测评结果证明,今年大模型似乎有了质的飞跃——从纯粹的文科生,成为了数学成绩也不错的理科生。

为验证这一结果,我们也选取了四个AI产品——豆包、夸克、元宝和ChatGPT进行测评。

由于这几家模型均具备多模态能力,所以我们将2025年全国新课标数学I卷的题目直接投喂给大模型,不做格式转换,不开启联网搜索,所有测试模型只有一次答题机会。

关于考核标准,我们觉得如果让AI参与考试,就应该把它们当作一个真正的考生考核

所以,本次测评拆解了三大维度

  • 结果正确率:AI考生能力的最直观体现。
  • 答题速度:考试有时间限制,AI考生也应该注意时间安排。
  • 识别准确率:人类考生需要审题准确,不能出现看错数字、符号等问题。所以有多模态能力的AI考生,也需要参与这一考核。

基于这三个维度,我们通过分别打分再计总分的形式,测试出AI考生们的高考数学的考试名次。

更细致的"阅卷规则"参考:

经过以上三个维度的综合测试,最终AI考生们的全面考察结果如下:

如果单看纯粹的卷面分,这几家AI考生的数学分数都在110分以上。想起去年,AI们的高考数学题还经常不及格,真是今非昔比。

而且,不仅是做题,这些AI选手们的解题速度和视觉理解能力都非常强——大部分题目都能在3分钟内完成。只有元宝没有识别出其中的一道题目,其他AI助手在识别上都拿了满分。

谁答对了最多题?

直接的考试分数,是考生最关心的事情。

根据卷面分数,夸克、豆包和ChatGPT分列前三。

一个小插曲是,ChatGPT在难题中经常尝试写代码解题,准确率较高。但考虑到高考现场的考生们不会配备电脑写代码解题,所以我们立刻禁止了它写代码。

整体看下来,大家的选择题和填空题得分差距不是非常大,错误都不是很多。尤其是夸克和ChatGPT,选择和填空题全对。

解答题是让各家AI考生有点为难的题目。尤其是16题,大家都有错误。

首先是元宝,从一开始没能识别出这一道题目,所以也就无法作答——这也是我们这次测试中,唯一一个没有被某一模型识别出的题目。

豆包在这道题上犯错的原因也有点令人迷惑,题目解题思路过程都是对的,就是要把题目中的“m”改成“n”。

感觉这里豆包在审题上出现了理解偏差,不能将“m”和“n”区分开,正确理解m的含义。

在选择和填空上第一名的夸克,第16题中的错误很可惜地发生在最后一步——“利用错位相减法”得出最终结果的部分。

向上翻了一下思考过程,发现它有点“心口不一”。一边说着“相加”,一边算着“相减”,最后结果错误。

谁答得最快,审题最清晰?

答题速度,属于AI考生们的舒适区。

基本上,这四个AI考生的选择题基本都能在60秒内出结果。只有ChatGPT和元宝的第六题,超过了一分钟(但还是很)。

来到解答题,大家的耗时意料之中增加了不少。尤其是ChatGPT,基本最后的几道大题都需要思考6分钟左右。

不过在耗时更长的解题过程里,我们也看到一些惊喜。比如,ChatGPT会自己放大题目、左看右看,确认识别没有问题后再开始解题。

夸克和豆包也很让人惊喜。在整体的速度测评中,夸克位列第一,豆包以一分之差位列第二。

这两家做最难的解答题,单题最长耗费时间在4分钟左右。

至于和多模态相关的审题能力,AI考生们基本上都没让人失望。除了元宝有一题识别不出来,其他考生都是满分。

不同的输出风格,让我找到AI老师

测到这里,本次AI考生的高考数学测评基本可以结束了。

但在就在核对答案的过程中,我还有一个不同寻常的发现。

参与测评的AI考生背后,基本都是推理模型。在仔细看大家的输出时,我发现不同考生的思维输出风格存在差异。而这种差异,会给真正想通过AI学习的考生,带来不同的感觉和效果。

比如,豆包的思维链展示很长很完整,答案却很简洁。夸克的输出更具引导性,比较像老师。元宝的内容,更像是数学学霸,很喜欢计算和公式。

拿颇具难度的第19题举例。

同样是启动深度思考模式,夸克不会把所有的思考过程呈现,而是重述题目,并给出有步骤的解题思路。这个思路里面,也会划一些高中考点。

相比之下,豆包和元宝有点"做题机器"。

在等待豆包给出答案的过程中,可以看到豆包会将长长长的思考思维链完整输出。之后的解答部分虽然简洁,但看表述确实只能用来对答案,难以引发思考。

元宝的回答少了一些清晰的思路指引。相对于夸克和豆包,计算步骤都更复杂一些,基本直奔计算而去,不会在表述中强调考点。

如果从认真学习的角度,相信还是有更多人喜欢夸克老师的引导式画风。

总之,这一次的测评中,我们真实把这四个AI考生真正当作人类测试。发现不管是脑力还是眼力,AI们的进步已经超出想象。随着AI越来越聪明,或许我会收获更多的老师。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
电脑涨疯了,连卖电脑的都劝你别买

电脑涨疯了,连卖电脑的都劝你别买

辉哥说动漫
2026-07-05 20:37:44
一夜3次!四川绵竹连续发生地震,暗藏什么?地磁场曾24小时异常

一夜3次!四川绵竹连续发生地震,暗藏什么?地磁场曾24小时异常

八戒说科学
2026-07-06 01:36:35
“台独记者”范琪斐,狂黑大陆几十年,亲赴大陆后下场大快人心

“台独记者”范琪斐,狂黑大陆几十年,亲赴大陆后下场大快人心

阿郎娱乐
2026-07-04 06:22:27
1995年看露天电影时,邻家嫂子偷偷摸了一下我的手,示意我跟她走

1995年看露天电影时,邻家嫂子偷偷摸了一下我的手,示意我跟她走

千秋文化
2026-07-02 19:32:08
前挪威国脚:我认为挪威有概率击败巴西,因为球队比98年更强了

前挪威国脚:我认为挪威有概率击败巴西,因为球队比98年更强了

懂球帝
2026-07-06 02:35:09
7闺蜜众筹70万开咖啡馆  4个月后从“七仙女”变成“战国七雄”

7闺蜜众筹70万开咖啡馆 4个月后从“七仙女”变成“战国七雄”

尘埃里的看客
2026-06-28 10:42:41
美媒评10大最被低估签约!火箭续签伊森在列 76人太阳均两度上榜

美媒评10大最被低估签约!火箭续签伊森在列 76人太阳均两度上榜

罗说NBA
2026-07-05 21:43:42
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
歌手2026第七期帮唱嘉宾出炉,阵容离谱!网友:请不到人就别办

歌手2026第七期帮唱嘉宾出炉,阵容离谱!网友:请不到人就别办

星宿影视鸭
2026-07-03 14:29:23
一家3代短命!蔡磊处境曝光,斥资续命收效甚微,儿子也成牺牲品

一家3代短命!蔡磊处境曝光,斥资续命收效甚微,儿子也成牺牲品

周哥一影视
2026-07-04 20:40:16
1931年,周恩来带人处决叛徒顾顺章家人,放过仨小孩,却酿成祸患

1931年,周恩来带人处决叛徒顾顺章家人,放过仨小孩,却酿成祸患

阿胡
2024-07-31 11:50:32
4种中国式大妈发型:“自以为时髦,实际油腻显老”,看看是你吗

4种中国式大妈发型:“自以为时髦,实际油腻显老”,看看是你吗

白宸侃片
2026-07-05 00:26:23
西安严鹏追悼仪式曝光:现场全是花圈,外地网友送千束菊花

西安严鹏追悼仪式曝光:现场全是花圈,外地网友送千束菊花

娱乐圈圈圆
2026-07-05 13:27:55
“先把车费结了再哭”,一句话让1548万人破防

“先把车费结了再哭”,一句话让1548万人破防

阿振观点
2026-07-06 03:18:30
巴蒂:劳塔罗、小蜘蛛都是世界级前锋,很难在其中选择一人

巴蒂:劳塔罗、小蜘蛛都是世界级前锋,很难在其中选择一人

天光破云来
2026-07-05 17:13:10
美股指期货开盘上涨,标普500指数期货开盘涨0.4%

美股指期货开盘上涨,标普500指数期货开盘涨0.4%

每日经济新闻
2026-07-06 06:09:05
喜事将近?霍家正式官宣!让香港四大家族刮目相看,郭晶晶说对了

喜事将近?霍家正式官宣!让香港四大家族刮目相看,郭晶晶说对了

天天热点见闻
2026-07-05 08:55:05
金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

金·卡戴珊只穿内衣对镜自拍,仅用细绳遮点

赴一场山海啊
2026-07-03 00:59:33
中吉乌铁路加紧建设,线路图铺开一看,哈萨克斯坦被绕得干干净净

中吉乌铁路加紧建设,线路图铺开一看,哈萨克斯坦被绕得干干净净

雅儿姐在遛弯
2026-05-16 16:17:07
把意大利踢出局,2-1淘汰巴西!这支北欧弱旅,正在颠覆世界杯

把意大利踢出局,2-1淘汰巴西!这支北欧弱旅,正在颠覆世界杯

萌兰聊个球
2026-07-06 06:52:02
2026-07-06 07:40:49
四木相对论 incentive-icons
四木相对论
唠唠科技,看看世界
157文章数 3关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

男子为救3岁儿童变成植物人 妻子咬丈夫脚趾将其唤醒

头条要闻

男子为救3岁儿童变成植物人 妻子咬丈夫脚趾将其唤醒

体育要闻

哈兰德绝杀巴西:效率恶魔,吃人不眨眼

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
时尚
亲子
健康
房产

教育要闻

当“问题学生”成为一种标签

3年赚46亿,杨幂喊出一个安徽富豪

亲子要闻

磨易拉罐小时候玩过吗?现在长大了,没耐心了

听说少吃点能抗衰老?专家讲解!

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

无障碍浏览 进入关怀版