网易首页 > 网易号 > 正文 申请入驻

数学题判卷,为什么机器比人还死板?

0
分享至

你有没有想过,那些号称能解高考数学题的AI,可能本来做对了,却被系统判了零分?

4月24日提交到arXiv的一篇论文,揭露了一个尴尬的行业现状:主流数学评测框架Lighteval和SimpleRL,正在用"字符串匹配"的方式给AI判卷。1/2和0.5被当成错误答案,只因为格式不对。


谁发现了这个问题

论文作者团队设计了一套"大语言模型当裁判"(LLM-as-a-Judge)的评测框架,核心思路很简单:不再比对字符串是否完全相同,而是让另一个AI来判断——这两个数学答案,本质上是不是一回事?

他们在论文中展示了具体的失败案例。在Lighteval和SimpleRL这两个广泛使用的评测框架里,符号化对比方法会产生"假阴性"——模型其实做对了,却被系统标记为错误。这种系统性的低估,直接影响我们对AI数学能力的判断。

作者没有透露他们用了哪个具体模型当"裁判",也没有给出延迟或成本的对比数据。但这套框架被设计成"即插即用"的替换方案,可以直接接入现有的评测流水线。

为什么符号对比会失效

数学答案的表达方式极其灵活。同样是二分之一,可以写成1/2、0.5、\frac{1}{2},甚至"half"。符号对比系统需要预设所有可能的等价形式,这几乎是不可能完成的任务。

更麻烦的是解题路径。一道题可能有多种正确解法,最终答案的形式也会不同。符号对比只认"标准答案"的精确字符串,其他一律判错。

论文作者指出,这种脆弱性在模型接近人类水平时尤为致命。当AI在MATH、GSM8K等竞赛级题目上的表现越来越好,评测方法本身的误差反而成了瓶颈——你可能看到模型"停滞"了,实际上它是被误判卡住了。

用AI评AI,代价是什么

LLM-as-a-Judge的代价显而易见:计算成本。符号对比几乎是瞬间完成,而调用大模型做判断需要时间和金钱。作者没有给出具体数字,但承认这是一种"用计算换鲁棒性"的权衡。

这种权衡是否值得?论文的立场很明确:对于高风险的基准测试, yes。如果评测本身不可靠,那么所有基于它的研究结论都站不住脚。

不过作者也保持了克制。他们在论文中承认,类似的"AI评AI"思路已经在摘要生成、代码生成等领域出现过。这次的创新点在于针对数学推理的特定场景做了适配,而非提出全新的方法论。

这件事为什么重要

数学评测是衡量大语言模型能力的核心标尺之一。如果这个标尺本身有系统性偏差,整个行业的进展评估都会失真。

论文揭示了一个更深层的趋势:评测基础设施正在成为大模型研究的瓶颈。我们花了大量精力训练更好的模型,却还在用粗糙的工具衡量它们。当模型能力逼近甚至超越人类时,这种错配只会越来越严重。

作者没有给出框架的具体准确率数字,只定性描述了"在多种数学表达形式下检测到正确答案的能力更强"。这种谨慎反而增加了说服力——在缺乏完整数据时,不做过度承诺。

一个值得关注的细节:论文提交日期是2026年4月24日。这意味着我们讨论的是一项非常新的工作,其影响还有待社区检验。它会被主流评测框架采纳,还是成为又一个被遗忘的提案?

目前可以确定的是,Lighteval和SimpleRL的用户需要重新审视自己的评测结果。如果你的模型在数学题上"突然退步",也许问题不在模型,而在判卷系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南郑州一远嫁妻子哭诉,丈夫月薪涨至6万后频繁家暴,岳母下跪求情仍不停手,还侮辱其女儿容貌,已去世婆婆曾劝阻:现在离婚亏了

河南郑州一远嫁妻子哭诉,丈夫月薪涨至6万后频繁家暴,岳母下跪求情仍不停手,还侮辱其女儿容貌,已去世婆婆曾劝阻:现在离婚亏了

大风新闻
2026-04-28 15:13:21
AI速度超快!算法专家郭宇认为Claude Code在6个月内就能淘汰知识工作者

AI速度超快!算法专家郭宇认为Claude Code在6个月内就能淘汰知识工作者

知识圈
2026-04-28 19:09:54
《浪漫满屋》女星宣布怀孕「一次就中」:演艺圈最高龄产妇

《浪漫满屋》女星宣布怀孕「一次就中」:演艺圈最高龄产妇

ETtoday星光云
2026-04-28 13:24:15
8-8!29岁赵心童找回状态 压哨连赢2局追平墨菲 强势轰单杆117分

8-8!29岁赵心童找回状态 压哨连赢2局追平墨菲 强势轰单杆117分

我爱英超
2026-04-29 05:40:59
为了西伯利亚的安全,外蒙必须独立?难怪俄国一定要留下乌东四州

为了西伯利亚的安全,外蒙必须独立?难怪俄国一定要留下乌东四州

历史摆渡
2026-04-26 19:55:03
广东清远连州一名53岁男子在出租屋内找卖淫女时,突发疾病猝死!

广东清远连州一名53岁男子在出租屋内找卖淫女时,突发疾病猝死!

匹夫来搞笑
2026-04-29 06:33:04
进球盛宴!巴黎5-4拜仁,登贝莱2射1传,KK7双响,凯恩传射

进球盛宴!巴黎5-4拜仁,登贝莱2射1传,KK7双响,凯恩传射

懂球帝
2026-04-29 05:06:19
特鲁姆普:我现在配不上世界第一,世锦赛墨菲比赵心童更有望夺冠

特鲁姆普:我现在配不上世界第一,世锦赛墨菲比赵心童更有望夺冠

杨华评论
2026-04-28 21:48:25
尴尬!网传天津无血缘继姐弟互生情愫,重组家庭父母陷入道德焦虑

尴尬!网传天津无血缘继姐弟互生情愫,重组家庭父母陷入道德焦虑

火山詩话
2026-04-28 07:41:36
14岁少年杀害同班女同学被判无期,被害人代理律师:已是顶格处罚,却难抚丧女之痛

14岁少年杀害同班女同学被判无期,被害人代理律师:已是顶格处罚,却难抚丧女之痛

潇湘晨报
2026-04-28 22:03:31
特朗普:伊朗刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:已绝对控制霍尔木兹,通过须缴费、用波斯语通讯

特朗普:伊朗刚告知我们,他们已处于“崩溃状态”,希望美国尽快开放海峡!伊朗:已绝对控制霍尔木兹,通过须缴费、用波斯语通讯

每日经济新闻
2026-04-28 22:58:06
跌回20年前!权威数据表明,中国房地产的实际购买力已跌至2006的水平

跌回20年前!权威数据表明,中国房地产的实际购买力已跌至2006的水平

风向观察
2026-04-28 16:20:39
周乐伟涉嫌严重违纪违法,主动投案!曾任格力集团董事长

周乐伟涉嫌严重违纪违法,主动投案!曾任格力集团董事长

每日经济新闻
2026-04-29 00:11:10
起底“性商教母”周媛

起底“性商教母”周媛

中国新闻周刊
2026-04-28 23:01:12
大爆冷!东部第一轰然倒下!黑八奇迹上演,7换1交易赚大了

大爆冷!东部第一轰然倒下!黑八奇迹上演,7换1交易赚大了

篮球扫地僧
2026-04-28 11:10:53
江苏一初中生淘到3本毒气战资料:初步鉴定为真,此前网购5封侵华日军家书并捐献

江苏一初中生淘到3本毒气战资料:初步鉴定为真,此前网购5封侵华日军家书并捐献

新京报
2026-04-28 19:18:03
拜托!不要再拿“致敬”当抄袭的遮羞布

拜托!不要再拿“致敬”当抄袭的遮羞布

细雨中的呼喊
2026-04-28 15:35:07
森林狼vs掘金伤病情况:爱德华兹至少伤停2周 戈登小腿严重拉伤

森林狼vs掘金伤病情况:爱德华兹至少伤停2周 戈登小腿严重拉伤

醉卧浮生
2026-04-29 10:04:15
狂省3.2亿仍排东部第2!史蒂文斯当选年度最佳高管:三年两次获奖

狂省3.2亿仍排东部第2!史蒂文斯当选年度最佳高管:三年两次获奖

罗说NBA
2026-04-29 05:40:23
俄罗斯人大量涌入中国,却发现中俄差距越来越大

俄罗斯人大量涌入中国,却发现中俄差距越来越大

杰丝聊古今
2026-04-28 03:43:50
2026-04-29 10:15:00
固件更新中
固件更新中
有态度网友ytd
3025文章数 28关注度
往期回顾 全部

科技要闻

夭折的造富神话,逼着中国AI回去赚"慢钱"

头条要闻

牛弹琴:白宫官宣两个国王 全世界看得目瞪口呆

头条要闻

牛弹琴:白宫官宣两个国王 全世界看得目瞪口呆

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

多地药店违规串换商品套刷医保揭秘

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

时尚
家居
手机
健康
本地

刘浩存:明媚中绽放

家居要闻

江景风格 流动的秩序

手机要闻

HarmonyOS 7.0要来了!华为开发者大会HDC2026定档6月12-14日

干细胞治疗烧烫伤三大优势!

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版