网易首页 > 网易号 > 正文 申请入驻

一秒侦破大模型“高分低能”:贾佳亚团队联手剑桥清华等共推评测新范式

0
分享至

作者 | MR-Ben 团队

颠覆过往大模型评测标准,最新、最全、最权威的测评数据集 MR-Ben 来了!

这是继今年 4 月发布堪称 GPT-4 + DALL- E-3 的王炸产品超强视觉语言模型 Mini-Gemini 后,港中文贾佳亚团队再次提出的极具代表性的作品。在 MR-Ben 的“监督”下,大模型不仅要像学生那样会答题,还要像老师那样会阅卷,真实的推理能力无所遁形。

MR-Ben 细致地评测了不少国内外一线的开源和闭源模型,如 GPT4-Turbo、Cluade3.5-Sonnet、Mistral-Large、Zhipu-GLM4、Moonshot-v1、Yi-Large、Qwen2-70B、Deepseek-V2 等,并进行了详尽的分析。

哪些看似美丽的大模型会被“卸妆”,哪个模型地表最强?目前该工作所有代码和数据均已开源,一起来看看!

Project Page: https://randolph-zeng.github.io/Mr-Ben.github.io/

Arxiv Page: https://arxiv.org/abs/2406.13975

Github Repo:https://github.com/dvlab-research/Mr-Ben

MR-Ben 秒破大模型“高分低能”

人工智能领域进入 GPT 时刻后,学术界和产业界共同发力,每月甚至每周都有新的模型问世。

大模型层出不穷,用什么标准来衡量大模型的具体能力?目前的主流方向是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。使用这套测试方式的好处有很多, 简单来说可以分为以下几点:

  • 标准化考试易于量化和评测,标准明确,对就是对错就是错。

  • 指标直观,在国内高考或者美国高考 SAT 里取得怎么样的分数易于比较和理解。

  • 量化结果天然具有话题性(如 GPT4 轻松通过美国律师认证资格考试极为吸引眼球)。但如果深究大模型的训练方式,就会发现这种逐步作答的思维链方式生成最终答案,并不“靠谱”。

问题正是出现在分步作答的流程上。

预训练模型在预训练时早已见过数以万亿级别的词元,很难说被评测的模型是否早已见过相应的数据,从而通过“背题”的方式回答正确。而在分步作答的时候,模型是否是基于正确的理解推理选出正确的选项,我们不得而知,因为评测的方式主要靠检查最终的答案。

尽管学术界不断地对诸如 GSM8K、MMLU 等数据集进行升级改造,如在 GSM8K 上引入多语言版本的 MGSM 数据集,在 MMLU 的基础上引入更难的题目等,依然无法摆脱选择或填空的窠臼。

并且,这些数据集都已面临着严重的饱和问题,大语言模型在这些指标上的数值已经见顶,并逐渐丧失了区分度。

为此,贾佳亚团队联合 MIT、清华、剑桥等多家知名高校,与国内头部标注公司合作,标注了一个针对复杂问题推理过程的评测数据集 MR-Ben。

MR-Ben 基于 GSM8K、MMLU、LogiQA、MHPP 等大模型预训练必测数据集的题目,进行了“阅卷式”的范式改造,生成的新数据集更难、更有区分度,更能真实地反映模型推理能力。

而贾佳亚团队这次的工作还针对现存评测痛点进行了针对性的改进:

害怕数据泄露导致的大模型背题导致分数虚高?不用重新找题出卷,也不用把题目变形来测试模型的稳健性,MR-Ben 直接让模型从答题者的学生身份,转变为对答题过程的“阅卷”模式,让大模型当老师来测试它对知识点的掌握情况!

担心模型对解题过程毫无知觉,有可能出现“幻觉”或错误的理解,蒙对答案?MR-Ben 直接招聘一批高水平的硕博标注者,对大量题目的解题过程进行精心标注。把解题过程是否正确,出错的位置,出错的原因都细致指出,比对大模型的阅卷结果和人类专家的阅卷结果来测试模型的知识点掌握情况。

具体来说,贾佳亚团队针对市面上主流的评测数据集 GSM8K、MMLU、LogiQA、MHPP 等数据集进行整理,并分成了数理化生、代码、逻辑、医药等多个类别,同时区分了不同的难度等级。针对每个类别、收集到的每个问题,团队精心收集了对应的分步解题过程,并经由专业的硕博标注者进行培训和标注。

MR-Ben 数据集的构建流程

表现最佳大模型是它?

接下来,让我们结合 MR-Ben 工作中给出的具体例子,看看为什么说逐步作答生成最终答案的方式和相关评测不靠谱。

作为被评测的“阅卷”模型,GPT4-Turbo 并未发现第二步所隐藏的计算错误:

# E.1 数学

## 科目:高中数学

## 问题:哪个最小的整数被4除余1,被3除余2,被5除余2?

## 选项:[A] 67 [B] 43 [C] 57 [D] 37

## 答案:D

###采样模型:Claude2

模型解答步骤:

- 步骤1:检查选项A(67)当67除以4,余数是3,不是1。所以67不是正确答案。

- 步骤2:检查选项B(43)当43除以4,余数是1。当43除以3,余数是3,不是2。所以43不是正确答案。

- 步骤3:检查选项C(57)当57除以4,余数是1。当57除以3,余数是0,不是2。所以57不是正确答案。

- 步骤4:检查选项D(37)当37除以4,余数是1。当37除以3,余数是1。当37除以5,余数是2。

- 步骤5:选项D(37)满足所有条件,是正确答案。

###解答:选项D

###人工注解

模型解答正确性:不正确

首次错误步骤:步骤2

模型解答错误原因:

在步骤2中,模型错误计算了43除以4的余数为1而不是3。模型假设当43除以4时余数是1,但余数应该是3。这里有一个计算错误。

###修正后的首个正确步骤:步骤2

当43除以4,余数是1。当43除以3,余数是1。当43除以5,余数是3,不是2。因此,43不是正确答案。

###评测模型:gpt-4-turbo

模型回复:

-步骤1:步骤检查67除以4和3的余数,发现它符合被4除余3的条件,这是一个正确的验证。

-步骤2:检查43除以4、3、5的余数,发现1、3、5的余数正确匹配预期,除了5的余数不符合条件。

-步骤3:步骤计算57除以4和3的余数,余数分别是1和0。当57除以3时余数不符合条件。

-步骤4:步骤检查并验证37除以4、3、5的余数,发现所有预期的余数都准确,得出37满足题目中的所有条件。

###解答过程是否正确:正确

###第一个出错的步骤:不适用

###第一个出错步骤的原因:不适用

可以看到,当给定问题、确定的解答过程,评测语言模型的方式就转换成了让模型对解答过程进行“阅卷”并评判正误、指出错误位置及原因。其中解答过程的正误,潜在的出错位置可以通过与标注结果进行比对来计算。而模型出错步骤和原因的评测,则可以交由 GPT4,通过比较标注人员给出的错误原因解释和模型的错误原因解释,来判断模型是否正确。

从评测方式来看,MR-Ben 所提出的方法需要模型对于解题过程的每一个步骤的前提、假设、逻辑都进行细致分析,并对推理过程进行预演来判断当前步骤是否能导向正确答案。

这种“阅卷”式的评测方式从难度上远超于仅答题的评测方式,但可有效避免模型背题所导致的分数虚高问题。而只会背题的学生很难成为一名合格的阅卷老师。

其次,MR-Ben 通过使用了人力精细的标注流程控制,取得了大量的高质量标注,而巧妙的流程设计又使得评测方式能够直观地量化。

贾佳亚团队还针对性测试了时下最具代表性的十大大语言模型和不同版本。可以看到,闭源大语言模型里,GPT4-Turbo 的表现最佳(虽然在“阅卷”时未能发现计算错误),在绝大部分的科目里,有 demo(k=1)和无 demo(k=0)的设置下都领先于其他模型。

部分闭源大语言模型在 MR-Ben 数据集上的测评结果

部分开源大语言模型在 MR-Ben 数据集上的测评结果

可以看到,最强的部分开源大语言模型效果已经赶上了部分商用模型,并且哪怕最强的闭源模型在 MR-Ben 数据集上表现也仍未饱和,不同模型间的区分度较大。

除此之外,MR-Ben 的原论文里还有更多有意思的解析和发现,例如:

  • Qwen 和 Deepseek 发布的开源模型哪怕在全球梯队里,PK 闭源模型效果也不逊色。

  • 不同的闭源模型定价策略和实际表现耐人寻味。在使用场景里关注推理能力的小伙伴,可以对照价格和能力找到自己心仪的模型去使用。

  • 低资源场景下,小模型也有不少亮点,MR-Ben 评测中 Phi-3-mini 在一众小模型里脱颖而出,甚至高于或持平几百亿参数的大模型,展现出了微调数据的重要性。

  • MR-Ben 场景包含复杂的逻辑解析和逐步推断,Few-shot 模式下过长的上下文反而会使得模型困惑,造成水平下降的后果。

  • MR-Ben 评测了不少生成 - 反思 - 重生成的消融实验,查看不同提示策略的差异,发现对低水平的模型没有效果,对高水平的模型如 GPT4-Turbo 效果也不明显。反而对中间水平的模型因为总把错的改对,对的改错,效果反而略有提升。

  • 将 MR-Ben 评测的科目粗略划分成知识型、逻辑型、计算型、算法型后,不同的模型在不同的推理类型上各有优劣。

官方表示,使用官方脚本一键评测只需花费 12M tokens 左右。目前,贾佳亚团队已在 github 上传一键评测的方式,关注复杂推理的开发者可以在自家的模型上评测并提交,团队会及时更新相应的 leaderboard。

参考:

  • Training Verifiers to Solve Math Word Problems (https://arxiv.org/abs/2110.14168)

  • Measuring Massive Multitask Language Understanding( https://arxiv.org/abs/2009.03300)

  • LogiQA: A Challenge Dataset for Machine Reading Comprehension with Logical Reasoning (https://arxiv.org/abs/2007.08124)

  • MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation( https://arxiv.org/abs/2405.11430)

  • Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)

  • Qwen Technical Report (https://arxiv.org/abs/2309.16609)

  • DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (https://arxiv.org/abs/2405.04434)

  • Textbooks Are All You Need (https://arxiv.org/abs/2306.11644)

  • Large Language Models Cannot Self-Correct Reasoning Yet (https://arxiv.org/abs/2310.01798)


8 月 18-19 日,AICon 全球人工智能开发与应用大会将在上海举办。来自字节跳动、华为、阿里巴巴、微软亚洲研究院、智源研究院、上海人工智能实验室、蔚来汽车、小红书、零一万物等头部企业及研究机构的 60+ 资深专家,将带来 AI 和大模型超全落地场景与最佳实践分享,帮助与会者提升技术视野、获得有价值的实践指导。

在主题演讲环节,我们已经邀请到「蔚来创始人 李斌」分享围绕 SmartEV 和 AI 结合的关键问题,蔚来汽车的思考与实践;「顺丰集团 CIO、顺丰科技 CEO 耿艳坤」将重磅发布顺丰物流大模型;「面壁智能联合创始人、CEO 李大海」,则将带来他对于大模型技术、产品与行业发展的前瞻洞察。大会火热报名中,7 月 31 日前可以享受9 折优惠,单张门票节省 480 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。

内容推荐

AIGC技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话30位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选10余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世锦赛:世界亚军2-7连输六局,赵心童十连胜,丁俊晖面临挑战

世锦赛:世界亚军2-7连输六局,赵心童十连胜,丁俊晖面临挑战

许钇很机智
2026-04-19 07:58:47
争冠天王山战前!阿森纳官网前瞻客战曼城:这是我们一生一次的机会

争冠天王山战前!阿森纳官网前瞻客战曼城:这是我们一生一次的机会

生活新鲜市
2026-04-19 08:16:07
解放后损失最大俘虏逃跑事件,劫走一架飞机带走3名我军中层干部

解放后损失最大俘虏逃跑事件,劫走一架飞机带走3名我军中层干部

鹤羽说个事
2026-04-16 22:07:31
同名同姓同身份证尾号,山东一女子称被异地法院错判,万元存款被强制执行,损失3年利息

同名同姓同身份证尾号,山东一女子称被异地法院错判,万元存款被强制执行,损失3年利息

封面新闻
2026-04-18 16:24:02
恒大集团许家印坑的最惨的9位大佬

恒大集团许家印坑的最惨的9位大佬

地产微资讯
2026-03-29 19:08:15
事出反常必有妖!日军舰闯台海,中国“打而不打”背后藏一盘大棋

事出反常必有妖!日军舰闯台海,中国“打而不打”背后藏一盘大棋

阿芒娱乐说
2026-04-18 10:05:25
第10艘船出事,美军全面封锁,严禁中伊原油交易,中国打出反制牌

第10艘船出事,美军全面封锁,严禁中伊原油交易,中国打出反制牌

寻墨阁
2026-04-19 01:50:02
胡锡进给沃尔沃汽车做广告,评论区全翻车了……

胡锡进给沃尔沃汽车做广告,评论区全翻车了……

麦杰逊
2026-04-17 11:51:26
特朗普:美伊正在对话,“伊朗又想封锁海峡,但无法要挟我们,今天结束前会有消息”

特朗普:美伊正在对话,“伊朗又想封锁海峡,但无法要挟我们,今天结束前会有消息”

澎湃新闻
2026-04-19 01:00:04
江西“射里头”火了!全国奇葩地名大赏

江西“射里头”火了!全国奇葩地名大赏

深度报
2026-04-18 21:53:14
高股息+破净+国企改革!2026年二季度,这5只压舱石标的值得收藏

高股息+破净+国企改革!2026年二季度,这5只压舱石标的值得收藏

小白鸽财经
2026-04-18 20:30:03
看了宋宁峰的某鱼账号,发现他审美品味挺高,网友:没觉得他缺钱

看了宋宁峰的某鱼账号,发现他审美品味挺高,网友:没觉得他缺钱

情感大头说说
2026-04-18 20:50:37
导游骂此人是遵义会议唯一支持博古的人,游客:我父亲一无是处?

导游骂此人是遵义会议唯一支持博古的人,游客:我父亲一无是处?

大运河时空
2026-04-18 08:35:03
7天242人死亡!中国游客亲历泰国泼水节,怒诉街头摩的飙至七八十码

7天242人死亡!中国游客亲历泰国泼水节,怒诉街头摩的飙至七八十码

刘哥谈体育
2026-04-19 06:56:49
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
这种小吃“比砒霜还毒”?怎么还有人在买卖!

这种小吃“比砒霜还毒”?怎么还有人在买卖!

果壳
2026-04-18 20:10:46
反转!穆里尼奥拒绝英超豪门!他愿重返伯纳乌

反转!穆里尼奥拒绝英超豪门!他愿重返伯纳乌

澜归序
2026-04-19 00:43:29
二手车市场满屏“九成新”,车商实锤猫腻,我们全成了接盘侠

二手车市场满屏“九成新”,车商实锤猫腻,我们全成了接盘侠

洞见小能手
2026-04-16 16:21:52
记录报:穆里尼奥成为皇马新帅候选,弗洛伦蒂诺有意和他会面

记录报:穆里尼奥成为皇马新帅候选,弗洛伦蒂诺有意和他会面

懂球帝
2026-04-19 05:29:08
辞去央视铁饭碗,带着儿子嫁给张译,20年过去,才知道她有多明智

辞去央视铁饭碗,带着儿子嫁给张译,20年过去,才知道她有多明智

秋姐居
2026-04-18 22:04:49
2026-04-19 09:35:01
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1434文章数 146关注度
往期回顾 全部

科技要闻

传Meta下月拟裁8000 大举清退人力为AI腾位

头条要闻

女子与情人在车上发生关系后被杀 还被灌农药伪造殉情

头条要闻

女子与情人在车上发生关系后被杀 还被灌农药伪造殉情

体育要闻

时隔25年重返英超!没有人再嘲笑他了

娱乐要闻

刘德华回应潘宏彬去世,拒谈丧礼细节

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

房产
时尚
游戏
旅游
军事航空

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

选对发型,真的能少走很多变美弯路

让老粥批直呼“计划有变”的岁兽代理人,到底是什么东西?

旅游要闻

贵州湄潭:从卖茶叶到卖体验,一片茶叶如何“玩”出新业态?

军事要闻

解放军护卫舰与外舰缠斗20小时 细节披露

无障碍浏览 进入关怀版