网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题

2024-07-18 15:28:55　来源: 量子位

北京举报

0

分享至

MR-Ben团队投稿
量子位 | 公众号 QbitAI

大模型测试能拿高分，实际场景中却表现不佳的问题有解了。

贾佳亚团队联合多家知名高校提出了一种全新的测评方法，让一些模型立马现出了原型。

这下不用担心大模型“刷题”太多，测试集无法体现真实水平了。

这个新的测评数据集叫做MR-Ben，利用的是GSM8K、MMLU等数据集中的现有题目。

只不过，大模型在测试中的身份从“答题学生”变成了“阅卷老师”，任务是要给已有的解答步骤指出错误。

这样一来，模型无法再通过背诵或猜测撞对题目，测试题泄露也无需担心了。

利用MR-Ben，贾佳亚团队评测了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等许多开源和闭源模型。

目前，该数据集涉及的所有代码和数据均已开源。

熟悉的试题，全新的任务

目前，大模型测试的主流方向是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。

这套测试方式的优点是标准明确、指标直观，且量化结果天然具有话题性。

但作者认为，由于现在的大模型普遍采用逐步作答的思维链方式生成最终答案，导致这种方式并不“靠谱”。

预训练模型在预训练时早已见过数以万亿级别的token，很难判断被评测的模型是否早已见过相应的数据，从而通过“背题”的方式回答正确。

而因为评测的方式主要靠检查最终的答案，因此模型是否是基于正确的理解推理选出正确的选项，也不得而知。

尽管学术界不断地对诸如GSM8K、MMLU等数据集进行升级改造，如在GSM8K上引入多语言版本的MGSM数据集，在MMLU的基础上引入更难的题目等，依然无法摆脱选择或填空的窠臼。

并且，这些数据集都已面临着严重的饱和问题，大语言模型在这些指标上的数值已经见顶，并逐渐丧失了区分度。

为此，贾佳亚团队联合MIT、清华、剑桥等多家知名高校，与国内头部标注公司合作，标注了一个针对复杂问题推理过程的评测数据集MR-Ben。

MR-Ben基于GSM8K、MMLU、LogiQA、MHPP等大模型预训练必测数据集的题目，进行了“阅卷式”的范式改造，生成的新数据集更难、更有区分度，更能真实地反映模型推理能力！

不用重新找题出卷，也不用把题目变形来测试模型的鲁棒性，MR-Ben直接让模型从“答题者”变成“阅卷者”，对数据集中已有的答题过程进行评判，通过让大模型当老师来测试它对知识点的掌握情况！

具体来说，贾佳亚团队针对市面上主流的评测数据集GSM8K、MMLU、LogiQA、MHPP等数据集进行整理，并分成了数理化生、代码、逻辑、医药等多个类别，同时区分了不同的难度等级。

针对每个类别、收集到的每个问题，团队精心收集了对应的分步解题过程，并经由专业的硕博标注者进行培训和标注。

标注过程中，解题过程是否正确、出错的位置、出错的原因都会被细致指出，比对大模型的阅卷结果和人类专家的阅卷结果，就能知道模型对知识点的掌握情况。

从评测方式来看，MR-Ben所提出的方法，需要模型对于解题过程的每一个步骤的前提、假设、逻辑都进行细致分析，并对推理过程进行预演来判断当前步骤是否能导向正确答案。

这种“阅卷”式的评测方式从难度上远超于仅答题的评测方式，但可有效避免模型背题所导致的分数虚高问题。而只会背题的学生很难成为一名合格的阅卷老师。

GPT4-Turbo表现最佳

贾佳亚团队针对目前几款知名的大模型进行了评测，部分模型有多个版本参与测试。

可以看到，闭源模型中，GPT4-Turbo的表现最佳（虽然在“阅卷”时未能发现计算错误），在绝大部分的科目里，有demo（k=1）和无demo（k=0）的设置下都领先于其他模型。

智谱团队的GLM模型表现在榜单中位列第二，超过了Claude最新的3.5-Sonnet。

不过不同模型间的区分度较大，最强的GPT4-Turbo在MR-Ben数据集上获得的成绩也不到50分，可以看出其表现仍未饱和。

另外，一些表现较强的开源模型，效果已经赶上了部分商用模型。

除此之外，MR-Ben团队在工作过程中还发现了一些有意思的现象，例如：

低资源场景下，小模型也有不少亮点，MR-Ben评测中Phi-3-mini在一众小模型里脱颖而出，甚至高于或持平几百亿参数的大模型，展现出了微调数据的重要性。
MR-Ben场景包含复杂的逻辑解析和逐步推断，Few-shot模式下过长的上下文反而会使得模型困惑，造成水平下降的后果。
MR-Ben评测了不少生成-反思-重生成的消融实验，查看不同提示策略的差异，发现对低水平的模型没有效果，对高水平的模型如GPT4-Turbo效果也不明显。反而对中间水平的模型因为总把错的改对，对的改错，效果反而略有提升。
将MR-Ben评测的科目粗略划分成知识型、逻辑型、计算型、算法型后，不同的模型在不同的推理类型上各有优劣。

贾佳亚团队已在github上传一键评测的方式，测试一次消耗的token量大约为12M，开发者可以在自家的模型上评测并提交，MR-Ben团队会及时更新相应的leaderboard。

论文地址：
https://arxiv.org/abs/2406.13975
项目主页：
https://randolph-zeng.github.io/Mr-Ben.github.io/
Github Repo：
https://github.com/dvlab-research/Mr-Ben

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

欧盟发布涉华文件措辞被指系针对中方最激烈官方批评

澎湃新闻 2026-07-16 21:33:19
25790 跟贴 25790
见证英格兰队被宿敌淘汰贝克汉姆抱头痛哭：令人心碎

红星新闻 2026-07-16 10:49:06
8473 跟贴 8473

英媒披露贝林厄姆动手原因：巴尔科赛后"挑衅"图赫尔

红星新闻 2026-07-16 15:11:33
10868 跟贴 10868

国航确认：涉事飞机落地出现异常

南方都市报 2026-07-16 21:27:00
30 跟贴 30
深一度｜从倒霉蛋到绝杀福将，劳塔罗——永远拼尽全力的人

澎湃新闻 2026-07-16 12:40:28
730 跟贴 730

男子在广东搭高铁背包被错拿，包里装有价值500万元现金，工作人员1小时紧急寻回

大风新闻 2026-07-16 18:52:42
196 跟贴 196

美国皮尤最新民调结果：中国全球好感度超美国

环球网资讯 2026-07-16 18:01:11
3932 跟贴 3932
曾经的“快乐水”卖不动了？超市老板：往年夏天卖断货的碳酸饮料今年送都送不出去

闪电新闻 2026-07-16 22:38:12
1034 跟贴 1034

突然宣布退出国内市场！网友：啊？我才买的

扬子晚报 2026-07-16 22:10:21
1488 跟贴 1488
七次流拍，西安“双子塔”等不到接盘者

每日经济新闻 2026-07-16 15:58:13
706 跟贴 706
海关总署：在全球高温多发的情况下，我国空调、电扇、冰箱等“清凉”家电合计出口了1079.1亿元，为全球消费者送去了阵阵“清凉”

政知新媒体 2026-07-14 13:41:53
1839 跟贴 1839
公鸡追逐导致女孩摔倒，家人立即上前保护，随后将公鸡处理

潇湘晨报 2026-07-16 12:45:36
164 跟贴 164
严格落实带薪休假！国家明确：修订《职工带薪年休假条例》

大象新闻 2026-07-16 16:58:06
383 跟贴 383
巴黎多处知名景点：缩短开放时间；有中国游客透露：高温影响行程，改成瞎溜达

南方都市报 2026-07-14 20:05:15
1872 跟贴 1872
沙滩冲脚3元30秒，女子发视频吐槽，怒斥秦皇岛文旅，遭网友批评

谭谈社会 2026-07-17 08:45:16
0 跟贴 0
福建晋江通报废品收购站火灾事故

黄河新闻网吕梁 2026-07-17 08:47:54
0 跟贴 0
佛得角的含金量，还在上升！

大象新闻 2026-07-16 15:06:16
148 跟贴 148
美元指数16日上涨

新华社 2026-07-17 04:48:02
16 跟贴 16
多家公司宣布：下周一，放假

南方都市报 2026-07-16 21:41:47
136 跟贴 136
世卫组织欧洲办事处：5国因高温“额外死亡”近万人

新华社 2026-07-17 07:24:05
10 跟贴 10
惠州一企业剑指塑料核心原料国产化

南方都市报 2026-07-17 07:40:16
3 跟贴 3
公示！济南拟为市区56条道路定名

天下泉城 2026-07-17 09:00:11
0 跟贴 0

贾玲张小斐闹掰真相大白，44岁贾玲真实处境曝光

贾玲张小斐闹掰真相大白，44岁贾玲真实处境曝光

最美的笔触

2026-07-12 12:11:22

伊布：身为梅西球迷很骄傲，但本届世界杯仿佛专为阿根廷铺冠军之路

伊布：身为梅西球迷很骄傲，但本届世界杯仿佛专为阿根廷铺冠军之路

体育闲话说

2026-07-17 06:35:20

医生发现:每天早起后先排便的人，用不了半年，身体或迎来4个改变

医生发现:每天早起后先排便的人，用不了半年，身体或迎来4个改变

路医生健康科普

2026-07-17 05:20:04

塞尔：阿根廷队员展示马岛横幅后，英方要求FIFA禁止多人踢决赛

塞尔：阿根廷队员展示马岛横幅后，英方要求FIFA禁止多人踢决赛

懂球帝

2026-07-16 22:49:05

穆里尼奥钦点！皇马重启挖角！5000 万锁定世界杯第一中场

穆里尼奥钦点！皇马重启挖角！5000 万锁定世界杯第一中场

奶盖熊本熊

2026-07-17 02:05:46

在上海，就业形势越来越严重了，不敢辞职，不敢失业，还有多少人在硬撑？

在上海，就业形势越来越严重了，不敢辞职，不敢失业，还有多少人在硬撑？

侃故事的阿庆

2026-07-17 00:20:00

英阿大战现场，51岁贝克汉姆从振臂狂喜到掩面痛哭，“冷脸看球”的维多利亚搂肩安慰；赛后发文：心碎时刻，但鼓舞人心的回忆永存

英阿大战现场，51岁贝克汉姆从振臂狂喜到掩面痛哭，“冷脸看球”的维多利亚搂肩安慰；赛后发文：心碎时刻，但鼓舞人心的回忆永存

大风新闻

2026-07-16 12:22:09

中国反击显成效，LV胜诉关键人物被扒，代价迅速显现

中国反击显成效，LV胜诉关键人物被扒，代价迅速显现

骄阳之夏明

2026-07-12 22:24:56

欠债两亿卖房还债，邹市明夫妻对饮沉默令人窒息

欠债两亿卖房还债，邹市明夫妻对饮沉默令人窒息

普陀动物世界

2026-07-17 01:58:34

短短三天，印尼收2噩耗，没想到，中方退场后，莫迪又承认一件

短短三天，印尼收2噩耗，没想到，中方退场后，莫迪又承认一件

兰妮搞笑分享

2026-07-17 01:07:56

日媒推测：中国已被6场可能的战争包围，最先爆发战争的不是台海

日媒推测：中国已被6场可能的战争包围，最先爆发战争的不是台海

君笙拂兮啊

2026-07-14 07:03:32

刷新纪录！长鑫科技中签率0.47141739%

刷新纪录！长鑫科技中签率0.47141739%

证券时报

2026-07-16 21:34:03

把央媒警告当耳边风！逐玉剧组官宣演唱会，张凌赫田曦薇受牵连

把央媒警告当耳边风！逐玉剧组官宣演唱会，张凌赫田曦薇受牵连

爱八卦的晓请

2026-07-16 15:06:11

赵露思澳门演唱会生图，穿短裤露屁股蛋子，齐刘海造型撞脸Lisa

赵露思澳门演唱会生图，穿短裤露屁股蛋子，齐刘海造型撞脸Lisa

胡一舸南游y

2026-07-13 18:18:44

冯小刚懵了，《四渡》团队也懵了！

冯小刚懵了，《四渡》团队也懵了！

许三岁

2026-07-17 02:50:04

2027年，如果房价下跌，输得最惨的不是炒房客，而是这4类人！

2027年，如果房价下跌，输得最惨的不是炒房客，而是这4类人！

猫叔东山再起

2026-07-17 08:25:16

格策：在世界杯决赛面对梅西很难忘，那是我第一次明白为何他如此特别

格策：在世界杯决赛面对梅西很难忘，那是我第一次明白为何他如此特别

懂球帝

2026-07-17 00:02:19

78岁邢质斌近况：头发白穿着素，如今定居北京，独子名字饱含深意

78岁邢质斌近况：头发白穿着素，如今定居北京，独子名字饱含深意

小嵩

2026-07-16 01:40:00

阿根廷2-1英格兰，梅西刷新世界杯历史助攻总数纪录；英格兰队主帅图赫尔赛后遭猛批，本人回应

阿根廷2-1英格兰，梅西刷新世界杯历史助攻总数纪录；英格兰队主帅图赫尔赛后遭猛批，本人回应

封面新闻

2026-07-16 09:59:08

19年张扣扣被执行死刑当天，被害者家属语出惊人，当庭说出8个字

19年张扣扣被执行死刑当天，被害者家属语出惊人，当庭说出8个字

麓谷隐士

2026-07-13 10:05:15

追踪人工智能动态

12959文章数 176519关注度

往期回顾全部

科技要闻

月之暗面发布Kimi K3，参数规模达2.8万亿

头条要闻

FIFA回应阿根廷球员展示"马岛横幅"：正评估比赛报告

头条要闻

FIFA回应阿根廷球员展示"马岛横幅"：正评估比赛报告

体育要闻

逆天6后卫神阵，图赫尔活活坑死英格兰

娱乐要闻

天下无不散宴席！白鹿官宣告别欢娱

财经要闻

全球科技股剧烈震荡

汽车要闻

小鹏MONA L03上市为什么选在慕尼黑？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

手机

房产

亲子

军事航空

策略模拟游戏《隐名三国》发售武将身份全靠猜

手机要闻

提升应用流畅体验，vivo、小米、OPPO、荣耀共建公平运行内存机制

房产要闻

洞察新局 | 2026年海珠置业红盘图鉴

亲子要闻

健康笔记丨如何预防和纠正婴儿头睡扁

军事要闻

伊朗议长：这是一场“生存之战”

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版