网易首页 > 网易号 > 正文 申请入驻

专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题

0
分享至

  • MR-Ben团队 投稿
    量子位 | 公众号 QbitAI

大模型测试能拿高分,实际场景中却表现不佳的问题有解了。

贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让一些模型立马现出了原型。

这下不用担心大模型“刷题”太多,测试集无法体现真实水平了。

这个新的测评数据集叫做MR-Ben,利用的是GSM8K、MMLU等数据集中的现有题目。

只不过,大模型在测试中的身份从“答题学生”变成了“阅卷老师”,任务是要给已有的解答步骤指出错误

这样一来,模型无法再通过背诵或猜测撞对题目,测试题泄露也无需担心了。

利用MR-Ben,贾佳亚团队评测了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等许多开源和闭源模型。

目前,该数据集涉及的所有代码和数据均已开源。

熟悉的试题,全新的任务

目前,大模型测试的主流方向是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。

这套测试方式的优点是标准明确、指标直观,且量化结果天然具有话题性。

但作者认为,由于现在的大模型普遍采用逐步作答的思维链方式生成最终答案,导致这种方式并不“靠谱”。

预训练模型在预训练时早已见过数以万亿级别的token,很难判断被评测的模型是否早已见过相应的数据,从而通过“背题”的方式回答正确。

而因为评测的方式主要靠检查最终的答案,因此模型是否是基于正确的理解推理选出正确的选项,也不得而知

尽管学术界不断地对诸如GSM8K、MMLU等数据集进行升级改造,如在GSM8K上引入多语言版本的MGSM数据集,在MMLU的基础上引入更难的题目等,依然无法摆脱选择或填空的窠臼。

并且,这些数据集都已面临着严重的饱和问题,大语言模型在这些指标上的数值已经见顶,并逐渐丧失了区分度。

为此,贾佳亚团队联合MIT、清华、剑桥等多家知名高校,与国内头部标注公司合作,标注了一个针对复杂问题推理过程的评测数据集MR-Ben。

MR-Ben基于GSM8K、MMLU、LogiQA、MHPP等大模型预训练必测数据集的题目,进行了“阅卷式”的范式改造,生成的新数据集更难、更有区分度,更能真实地反映模型推理能力!

不用重新找题出卷,也不用把题目变形来测试模型的鲁棒性,MR-Ben直接让模型从“答题者”变成“阅卷者”,对数据集中已有的答题过程进行评判,通过让大模型当老师来测试它对知识点的掌握情况!

具体来说,贾佳亚团队针对市面上主流的评测数据集GSM8K、MMLU、LogiQA、MHPP等数据集进行整理,并分成了数理化生、代码、逻辑、医药等多个类别,同时区分了不同的难度等级。

针对每个类别、收集到的每个问题,团队精心收集了对应的分步解题过程,并经由专业的硕博标注者进行培训和标注。

标注过程中,解题过程是否正确、出错的位置、出错的原因都会被细致指出,比对大模型的阅卷结果和人类专家的阅卷结果,就能知道模型对知识点的掌握情况。

从评测方式来看,MR-Ben所提出的方法,需要模型对于解题过程的每一个步骤的前提、假设、逻辑都进行细致分析,并对推理过程进行预演来判断当前步骤是否能导向正确答案。

这种“阅卷”式的评测方式从难度上远超于仅答题的评测方式,但可有效避免模型背题所导致的分数虚高问题。而只会背题的学生很难成为一名合格的阅卷老师。

GPT4-Turbo表现最佳

贾佳亚团队针对目前几款知名的大模型进行了评测,部分模型有多个版本参与测试。

可以看到,闭源模型中,GPT4-Turbo的表现最佳(虽然在“阅卷”时未能发现计算错误),在绝大部分的科目里,有demo(k=1)和无demo(k=0)的设置下都领先于其他模型。

智谱团队的GLM模型表现在榜单中位列第二,超过了Claude最新的3.5-Sonnet。

不过不同模型间的区分度较大,最强的GPT4-Turbo在MR-Ben数据集上获得的成绩也不到50分,可以看出其表现仍未饱和。

另外,一些表现较强的开源模型,效果已经赶上了部分商用模型。

除此之外,MR-Ben团队在工作过程中还发现了一些有意思的现象,例如:

  • 低资源场景下,小模型也有不少亮点,MR-Ben评测中Phi-3-mini在一众小模型里脱颖而出,甚至高于或持平几百亿参数的大模型,展现出了微调数据的重要性。
  • MR-Ben场景包含复杂的逻辑解析和逐步推断,Few-shot模式下过长的上下文反而会使得模型困惑,造成水平下降的后果。
  • MR-Ben评测了不少生成-反思-重生成的消融实验,查看不同提示策略的差异,发现对低水平的模型没有效果,对高水平的模型如GPT4-Turbo效果也不明显。反而对中间水平的模型因为总把错的改对,对的改错,效果反而略有提升。
  • 将MR-Ben评测的科目粗略划分成知识型、逻辑型、计算型、算法型后,不同的模型在不同的推理类型上各有优劣。

贾佳亚团队已在github上传一键评测的方式,测试一次消耗的token量大约为12M,开发者可以在自家的模型上评测并提交,MR-Ben团队会及时更新相应的leaderboard。

论文地址:
https://arxiv.org/abs/2406.13975
项目主页:
https://randolph-zeng.github.io/Mr-Ben.github.io/
Github Repo:
https://github.com/dvlab-research/Mr-Ben

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亡国146年:琉球人忘了汉语,却把 “我是中国人” 刻进骨子里

亡国146年:琉球人忘了汉语,却把 “我是中国人” 刻进骨子里

通文知史
2025-11-18 21:15:03
分析:在杜兰特和布拉德利·比尔离开后,太阳队如何超越预期?

分析:在杜兰特和布拉德利·比尔离开后,太阳队如何超越预期?

好火子
2025-11-20 04:06:18
释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

刚哥说法365
2025-11-16 14:35:38
“地表最强小三”!48岁拿下百亿老头却说:我对钱根本没兴趣

“地表最强小三”!48岁拿下百亿老头却说:我对钱根本没兴趣

君笙的拂兮
2025-11-19 01:39:45
65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

65岁倪萍医美后美炸天!优雅时髦,没有皱纹,年轻的像20岁!

大龄女一晓彤
2025-09-23 19:35:20
山东人的体质!1米95张展硕的家庭:父亲1米85,母亲1米75

山东人的体质!1米95张展硕的家庭:父亲1米85,母亲1米75

史行途
2025-11-19 18:22:55
冬天,抓紧吃这“皇帝菜”,一安神,二消痰,三护肝,鲜嫩当季

冬天,抓紧吃这“皇帝菜”,一安神,二消痰,三护肝,鲜嫩当季

阿龙美食记
2025-11-19 21:29:48
意大利哭晕 世界杯附加赛死亡签表浮现 首轮或遇2苦主+决赛碰波兰

意大利哭晕 世界杯附加赛死亡签表浮现 首轮或遇2苦主+决赛碰波兰

我爱英超
2025-11-19 07:14:36
衰老不要光看年龄,7个信号说明你可能真的“老了”

衰老不要光看年龄,7个信号说明你可能真的“老了”

健康八条
2025-11-19 23:16:23
哈佛前校长“投案自首”, 爱泼斯坦文件先斩落民主党大将

哈佛前校长“投案自首”, 爱泼斯坦文件先斩落民主党大将

移光幻影
2025-11-19 08:02:15
出大事了,俄罗斯发起斩首行动,乌军官被杀,泽连斯基紧急出国

出大事了,俄罗斯发起斩首行动,乌军官被杀,泽连斯基紧急出国

扬子的故事屋
2025-11-18 12:25:12
特朗普同意出口F35,中国无意间帮了大忙,让沙特终于得偿所愿

特朗普同意出口F35,中国无意间帮了大忙,让沙特终于得偿所愿

科普100克克
2025-11-20 03:44:45
后悔已经晚了?2大芯片巨头“弃中投美”,中国不会再原谅

后悔已经晚了?2大芯片巨头“弃中投美”,中国不会再原谅

生活新鲜市
2025-11-20 03:06:20
“建议拆完快递的纸箱立马扔掉”火上热搜,网友:再也不敢囤了

“建议拆完快递的纸箱立马扔掉”火上热搜,网友:再也不敢囤了

寒士之言本尊
2025-11-18 15:14:51
“两国关系彻底恶化”,俄方宣布报复!

“两国关系彻底恶化”,俄方宣布报复!

占豪
2025-11-20 03:18:04
女房东收租晕倒,我送她去医院,垫付6.2万,出院后房东:钱我不还你

女房东收租晕倒,我送她去医院,垫付6.2万,出院后房东:钱我不还你

雅俗共赏1
2025-11-19 18:26:30
寒潮来袭 羽绒服迎来“涨价狂潮” 鸭绒从17万一吨涨到58万

寒潮来袭 羽绒服迎来“涨价狂潮” 鸭绒从17万一吨涨到58万

闪电新闻
2025-11-19 11:23:35
人老了,只剩一个人的时候,请记住:1、不再找老伴儿;2、不去养老院;3、不雇保姆,干不动了,就请钟点工

人老了,只剩一个人的时候,请记住:1、不再找老伴儿;2、不去养老院;3、不雇保姆,干不动了,就请钟点工

二胡的岁月如歌
2025-11-18 19:30:26
"最丑"模特冠军后续!全身赘肉拿第一,主办方否认冠军带资进组

"最丑"模特冠军后续!全身赘肉拿第一,主办方否认冠军带资进组

乌娱子酱
2025-11-19 17:40:20
全运女团决赛阵容公布:国乒两大主力无缘交手!陈梦已避开孙颖莎

全运女团决赛阵容公布:国乒两大主力无缘交手!陈梦已避开孙颖莎

野渡舟山人
2025-11-19 17:56:31
2025-11-20 05:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
11708文章数 176335关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

时尚
数码
教育
本地
军事航空

辛芷蕾的炸裂10分钟,让人大受震撼

数码要闻

猫头鹰黑化版散热器风扇来袭

教育要闻

lsa伦敦占星学院是什么

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版