一年一度的高考落下帷幕。对大模型来说,这已经是它第三次参与这场本属于人类考生的考试。
但和前两年不同,之前人们喜欢安排大模型产品写高考作文。今年随着推理模型的火热,人们开始热衷让它参与高考数学。
一个有意思的变化在于,这两天各种各样的高考数学测评结果证明,今年大模型似乎有了质的飞跃——从纯粹的文科生,成为了数学成绩也不错的理科生。
为验证这一结果,我们也选取了四个AI产品——豆包、夸克、元宝和ChatGPT进行测评。
由于这几家模型均具备多模态能力,所以我们将2025年全国新课标数学I卷的题目直接投喂给大模型,不做格式转换,不开启联网搜索,所有测试模型只有一次答题机会。
关于考核标准,我们觉得如果让AI参与考试,就应该把它们当作一个真正的考生考核。
所以,本次测评拆解了三大维度:
- 结果正确率:AI考生能力的最直观体现。
- 答题速度:考试有时间限制,AI考生也应该注意时间安排。
- 识别准确率:人类考生需要审题准确,不能出现看错数字、符号等问题。所以有多模态能力的AI考生,也需要参与这一考核。
基于这三个维度,我们通过分别打分再计总分的形式,测试出AI考生们的高考数学的考试名次。
更细致的"阅卷规则"参考:
经过以上三个维度的综合测试,最终AI考生们的全面考察结果如下:
如果单看纯粹的卷面分,这几家AI考生的数学分数都在110分以上。想起去年,AI们的高考数学题还经常不及格,真是今非昔比。
而且,不仅是做题,这些AI选手们的解题速度和视觉理解能力都非常强——大部分题目都能在3分钟内完成。只有元宝没有识别出其中的一道题目,其他AI助手在识别上都拿了满分。
谁答对了最多题?
直接的考试分数,是考生最关心的事情。
根据卷面分数,夸克、豆包和ChatGPT分列前三。
一个小插曲是,ChatGPT在难题中经常尝试写代码解题,准确率较高。但考虑到高考现场的考生们不会配备电脑写代码解题,所以我们立刻禁止了它写代码。
整体看下来,大家的选择题和填空题得分差距不是非常大,错误都不是很多。尤其是夸克和ChatGPT,选择和填空题全对。
解答题是让各家AI考生有点为难的题目。尤其是16题,大家都有错误。
首先是元宝,从一开始没能识别出这一道题目,所以也就无法作答——这也是我们这次测试中,唯一一个没有被某一模型识别出的题目。
豆包在这道题上犯错的原因也有点令人迷惑,题目解题思路过程都是对的,就是要把题目中的“m”改成“n”。
感觉这里豆包在审题上出现了理解偏差,不能将“m”和“n”区分开,正确理解m的含义。
在选择和填空上第一名的夸克,第16题中的错误很可惜地发生在最后一步——“利用错位相减法”得出最终结果的部分。
向上翻了一下思考过程,发现它有点“心口不一”。一边说着“相加”,一边算着“相减”,最后结果错误。
谁答得最快,审题最清晰?
答题速度,属于AI考生们的舒适区。
基本上,这四个AI考生的选择题基本都能在60秒内出结果。只有ChatGPT和元宝的第六题,超过了一分钟(但还是很)。
来到解答题,大家的耗时意料之中增加了不少。尤其是ChatGPT,基本最后的几道大题都需要思考6分钟左右。
不过在耗时更长的解题过程里,我们也看到一些惊喜。比如,ChatGPT会自己放大题目、左看右看,确认识别没有问题后再开始解题。
夸克和豆包也很让人惊喜。在整体的速度测评中,夸克位列第一,豆包以一分之差位列第二。
这两家做最难的解答题,单题最长耗费时间在4分钟左右。
至于和多模态相关的审题能力,AI考生们基本上都没让人失望。除了元宝有一题识别不出来,其他考生都是满分。
不同的输出风格,让我找到AI老师
测到这里,本次AI考生的高考数学测评基本可以结束了。
但在就在核对答案的过程中,我还有一个不同寻常的发现。
参与测评的AI考生背后,基本都是推理模型。在仔细看大家的输出时,我发现不同考生的思维输出风格存在差异。而这种差异,会给真正想通过AI学习的考生,带来不同的感觉和效果。
比如,豆包的思维链展示很长很完整,答案却很简洁。夸克的输出更具引导性,比较像老师。元宝的内容,更像是数学学霸,很喜欢计算和公式。
拿颇具难度的第19题举例。
同样是启动深度思考模式,夸克不会把所有的思考过程呈现,而是重述题目,并给出有步骤的解题思路。这个思路里面,也会划一些高中考点。
相比之下,豆包和元宝有点"做题机器"。
在等待豆包给出答案的过程中,可以看到豆包会将长长长的思考思维链完整输出。之后的解答部分虽然简洁,但看表述确实只能用来对答案,难以引发思考。
元宝的回答少了一些清晰的思路指引。相对于夸克和豆包,计算步骤都更复杂一些,基本直奔计算而去,不会在表述中强调考点。
如果从认真学习的角度,相信还是有更多人喜欢夸克老师的引导式画风。
总之,这一次的测评中,我们真实把这四个AI考生真正当作人类测试。发现不管是脑力还是眼力,AI们的进步已经超出想象。随着AI越来越聪明,或许我会收获更多的老师。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.