网易首页 > 网易号 > 正文 申请入驻

贾佳亚团队联手剑桥清华等共推评测新范式 一秒侦破大模型“高分低能”

0
分享至

贾佳亚团队全新评测基准MR-Ben发布,拒绝大模型“高分低能”

随着人工智能领域经历GPT时刻,学术界和产业界共同发力,每月甚至每周都有新的模型问世,大模型产品之多可以说是让人眼花缭乱。为了筛选出真正业界领先的大模型产品,业内衍生出了错综复杂的各类大模型评测方式,大家都希望为大模型做出客观公正的评测,看看究竟哪家产品能力更强。

但为了在行业中“脱颖而出”,业内也不断出现类似“刷榜”的做法,通过专项针对评测题库进行“预训练”从而获取高评分,导致部分大模型出现“高分低能”的现象,在实际场景当中表现不佳。

为此,贾佳亚团队联合MIT、清华、剑桥等多家知名高校,与国内头部标注公司合作,标注了一个针对复杂问题推理过程的评测数据集MR-Ben,基于GSM8K、MMLU、LogiQA、MHPP等大模型预训练必测数据集的题目,进行“阅卷式”的范式改造,生成更难、更有区分度的新数据集,从而真实地反映模型推理能力。

从“刷题考生”变“阅卷老师”,阅卷式考察反映大模型真实水平

目前主流大模型评测是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。使用这套测试方式的好处有很多, 标准明确、指标直观,且量化结果天然具有话题性。

但作者认为这种逐步作答的思维链方式生成最终答案,并不“靠谱”。

结合大模型的训练方式来看,预训练模型在预训练时早已见过数以万亿级别的词元,很难说被评测的模型是否早已见过相应的数据,从而通过“背题”的方式回答正确。而在分步作答的时候,模型是否是基于正确的理解推理选出正确的选项,我们不得而知,因为评测的方式主要靠检查最终的答案。

尽管学术界不断地对诸如GSM8K、MMLU等数据集进行升级改造,如在GSM8K上引入多语言版本的MGSM数据集,在MMLU的基础上引入更难的题目等,依然无法摆脱选择或填空的窠臼。并且,这些数据集都已面临着严重的饱和问题,大语言模型在这些指标上的数值已经见顶,并逐渐丧失了区分度。

而贾佳亚团队的选择是从评测模式的底层进行改革,从而真实反映模型推理能力。

害怕数据泄露导致的大模型背题导致分数虚高吗?贾佳亚团队打造的MR-Ben不用重新找题出卷,也不用把题目变形来测试模型的稳健性,MR-Ben直接让模型从答题者的学生身份,转变为对答题过程的“阅卷”模式,让大模型当老师来测试它对知识点的掌握情况!

不是担心模型对解题过程毫无知觉,有可能出现“幻觉”或错误的理解,蒙对答案吗?MR-Ben直接招聘一批高水平的硕博标注者,对大量题目的解题过程进行精心标注。把解题过程是否正确,出错的位置,出错的原因都细致指出,比对大模型的阅卷结果和人类专家的阅卷结果来测试模型的知识点掌握情况。

具体来说,贾佳亚团队针对市面上主流的评测数据集GSM8K、MMLU、LogiQA、MHPP等数据集进行整理,并分成了数理化生、代码、逻辑、医药等多个类别,同时区分了不同的难度等级。针对每个类别、收集到的每个问题,团队精心收集了对应的分步解题过程,并经由专业的硕博标注者进行培训和标注。

从评测方式来看,MR-Ben所提出的方法需要模型对于解题过程的每一个步骤的前提、假设、逻辑都进行细致分析,并对推理过程进行预演来判断当前步骤是否能导向正确答案。

这种“阅卷”式的评测方式从难度上远超于仅答题的评测方式,但可有效避免模型背题所导致的分数虚高问题。而只会背题的学生很难成为一名合格的阅卷老师。

其次,MR-Ben通过使用了人力精细的标注流程控制,取得了大量的高质量标注,而巧妙的流程设计又使得评测方式能够直观地量化。

知名大模型公开评测,GPT4-Turbo表现最佳

贾佳亚团队针对性测试了时下最具代表性的十大大语言模型和不同版本。可以看到,闭源大语言模型里,GPT4-Turbo的表现最佳(虽然在“阅卷”时未能发现计算错误),在绝大部分的科目里,有demo(k=1)和无demo(k=0)的设置下都领先于其他模型。

部分开源大语言模型在MR-Ben数据集上的测评结果

可以看到,最强的部分开源大语言模型效果已经赶上了部分商用模型,并且哪怕最强的闭源模型在MR-Ben数据集上表现也仍未饱和,不同模型间的区分度较大。

除此之外,MR-Ben的原论文里还有更多有意思的解析和发现,例如:

•Qwen和Deepseek发布的开源模型哪怕在全球梯队里,PK闭源模型效果也不逊色。

•不同的闭源模型定价策略和实际表现耐人寻味。在使用场景里关注推理能力的小伙伴,可以对照价格和能力找到自己心仪的模型去使用。

•低资源场景下,小模型也有不少亮点,MR-Ben评测中Phi-3-mini在一众小模型里脱颖而出,甚至高于或持平几百亿参数的大模型,展现出了微调数据的重要性。

•MR-Ben场景包含复杂的逻辑解析和逐步推断,Few-shot模式下过长的上下文反而会使得模型困惑,造成水平下降的后果。

•MR-Ben评测了不少生成-反思-重生成的消融实验,查看不同提示策略的差异,发现对低水平的模型没有效果,对高水平的模型如GPT4-Turbo效果也不明显。反而对中间水平的模型因为总把错的改对,对的改错,效果反而略有提升。

•将MR-Ben评测的科目粗略划分成知识型、逻辑型、计算型、算法型后,不同的模型在不同的推理类型上各有优劣。

目前贾佳亚团队已在github上传一键评测的方式,欢迎所有关注复杂推理的小伙伴在自家的模型上评测并提交,团队会及时更新相应的leaderboard。使用官方的脚本一键评测,只需花费12M tokens左右,过程非常丝滑,值得一试。

Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/

Arxiv Page: https://arxiv.org/abs/2406.13975

Github Repo: https://github.com/dvlab-research/Mr-Ben

参考

1.Training Verifiers to Solve Math Word Problems(https://arxiv.org/abs/2110.14168)

2.Measuring Massive Multitask Language Understanding(https://arxiv.org/abs/2009.03300)

3.LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning(https://arxiv.org/abs/2007.08124)

4.MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation(https://arxiv.org/abs/2405.11430)

5. Sparks of Artificial General Intelligence: Early experiments with GPT-4(https://arxiv.org/abs/2303.12712)

6. Qwen Technical Report(https://arxiv.org/abs/2309.16609)

7. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model(https://arxiv.org/abs/2405.04434)

8. Textbooks Are All You Need(https://arxiv.org/abs/2306.11644)

9. Large Language Models Cannot Self-Correct Reasoning Yet(https://arxiv.org/abs/2310.01798)

雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨思琦回应李家鼎风波,被冤枉15年平方拒落井下石,心疼鼎爷消瘦

杨思琦回应李家鼎风波,被冤枉15年平方拒落井下石,心疼鼎爷消瘦

开开森森
2026-05-10 19:52:51
中国境内唯一一支外国军队,赶了50年赶不走,至今仍驻扎在北京

中国境内唯一一支外国军队,赶了50年赶不走,至今仍驻扎在北京

可乐爱微笑
2026-05-07 02:35:38
皇马连续2个赛季四大皆空,姆巴佩只是背锅的,头号罪魁在幕后了

皇马连续2个赛季四大皆空,姆巴佩只是背锅的,头号罪魁在幕后了

球场没跑道
2026-05-11 11:48:18
县交警队长被举报工作日KTV饮酒;镇雄公安:事先已请假,未违规违纪

县交警队长被举报工作日KTV饮酒;镇雄公安:事先已请假,未违规违纪

大风新闻
2026-05-10 15:07:12
认命了?张本智和戴上银牌后开心合影+有说有笑 教练队友表情尴尬

认命了?张本智和戴上银牌后开心合影+有说有笑 教练队友表情尴尬

风过乡
2026-05-11 07:50:21
女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

狸猫之一的动物圈
2026-05-10 10:17:09
迪马利亚:有人话太多,我们在场上证明自己

迪马利亚:有人话太多,我们在场上证明自己

懂球帝
2026-05-11 10:45:03
广东全员抵京备战G3:胡明轩乖巧合影,徐杰人气火爆,焦泊乔热聊

广东全员抵京备战G3:胡明轩乖巧合影,徐杰人气火爆,焦泊乔热聊

二哥聊球
2026-05-11 12:21:35
法国正式颁布关于归还非法所获文物的法律:将1815至1972年间以偷盗、掠夺等方式所得的外国文物,从“公共领域”中“移出”

法国正式颁布关于归还非法所获文物的法律:将1815至1972年间以偷盗、掠夺等方式所得的外国文物,从“公共领域”中“移出”

封面新闻
2026-05-11 05:24:07
哈佛提醒:防肌肉流失别只补蛋白!这6种营养才是关键

哈佛提醒:防肌肉流失别只补蛋白!这6种营养才是关键

橘子约定
2026-05-05 20:49:53
5月11日,人社部会公布2026年养老金调整通知吗?社保制度优化

5月11日,人社部会公布2026年养老金调整通知吗?社保制度优化

社保小达人
2026-05-11 10:07:04
奇才抽状元签引热议!美媒力挺选迪班萨组四巨:全新15人名单崛起

奇才抽状元签引热议!美媒力挺选迪班萨组四巨:全新15人名单崛起

颜小白的篮球梦
2026-05-11 09:12:16
汪峰森林北分手了?女方回应堪比教科书!网友:段位碾压章子怡

汪峰森林北分手了?女方回应堪比教科书!网友:段位碾压章子怡

奇怪的鲨鱼们
2026-05-11 05:13:32
“平价米其林”招牌卤肉饭用预制料包?自称6小时慢煮…北京有店被评“不如路边摊”

“平价米其林”招牌卤肉饭用预制料包?自称6小时慢煮…北京有店被评“不如路边摊”

北京商报
2026-05-10 16:15:37
汉坦病毒mRNA疫苗全球研发缓慢,中国相关灭活疫苗已上市20年

汉坦病毒mRNA疫苗全球研发缓慢,中国相关灭活疫苗已上市20年

红星新闻
2026-05-09 17:39:29
NBA状元签出炉!仅一夜,快船队成最大赢家,下赛季超级黑马诞生

NBA状元签出炉!仅一夜,快船队成最大赢家,下赛季超级黑马诞生

慢歌轻步谣
2026-05-11 09:00:13
形势有多严峻?曾经的王牌专业凉了!辅导员和教授感到无力和沉重

形势有多严峻?曾经的王牌专业凉了!辅导员和教授感到无力和沉重

慧翔百科
2026-05-09 11:34:26
英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

英超VAR最重要判罚!西汉姆绝平球被吹,决定冠军归属,枪手欢庆

奥拜尔
2026-05-11 02:03:40
千万别在网上买双人马桶!这卖家秀画面简直没眼看哈哈...

千万别在网上买双人马桶!这卖家秀画面简直没眼看哈哈...

经典段子
2026-05-10 22:35:43
李晨在《跑男》委屈到骨子里,被新嘉宾嘲讽、节目组针对,陈赫提他红了眼,刘浩存力挺

李晨在《跑男》委屈到骨子里,被新嘉宾嘲讽、节目组针对,陈赫提他红了眼,刘浩存力挺

科学发掘
2026-05-10 18:54:06
2026-05-11 12:52:49
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69275文章数 656122关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

头条要闻

姑娘海底捞吃完饭遭多名男子殴打 两颗门牙被一拳打断

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

谢霆锋没想到,王菲靠张艺谋重返巅峰

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

全球化成国内车企未来胜负手,谁是出海最强"水手"?

态度原创

时尚
健康
房产
艺术
军事航空

轻松拿捏又甜又酷的造型,试试这些轻熟穿搭,温柔有女人味儿

干细胞能让人“返老还童”吗

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

艺术要闻

2026中央美术学院博士生毕业作品选

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版