网易首页 > 网易号 > 正文 申请入驻

大模型权威测试被曝翻车!偏袒GPT-4等闭源模型,提示词区别对待

0
分享至

白交 发自 凹非寺
量子位 | 公众号 QbitAI

大模型权威测试,翻车了?!

HuggingFace都在用的MMLU-PRO,被扒出评测方法更偏向闭源模型,被网友直接在GitHub Issue提出质疑。

此前MMLU原始版本早已经被各家大模型刷爆了,谁考都是高分,对前沿模型已经没有了区分度

号称更强大、更具挑战线性多任务语言基准MMLU-Pro,成了业界对大模型性能的重要参考。

但结果没想到的是,现在有人扒出其在采样参数、系统提示和答案提取等方面设置不公平,存在一些令人震惊的差异。

随便对系统提示词做了个小修改,直接将开源阵营的Llama-3-8b-q8的性能提高了10分?!

emmm……就问大模型跑分到底还能不能信了?

被扒偏向闭源模型

这是源于Reddit上一位ML/AI爱好者的意外发现。

还特意做了个免责声明,自己只是感兴趣,并不是ML研究员(Doge)

出于好奇想了解它是如何工作的,于是检查了原始repo中的代码以及每个模型使用的提示和响应。

不看不知道,一看吓一跳。

首先,他们不会对所有模型使用相同的参数。

其次,给每个大模型的Prompt差别也挺大啊喂?!

跟GPT-4o说:

您是知识专家,您应该回答多选题,得出最终答案为「答案是 ….」

跟GPT-4说:

以下是有关{主题}的选择题(含答案)。请逐步思考,然后在最后以 “答案是 (X) ”作为输出。

更离谱的是Claude3,没有系统提示词?!!!

此外,这位网友还发现,模型必须按照指令输出准确的短语和格式,这点至关重要。

否则,模型的答案就不会被认可,而是会为模型随机生成一个答案。

于是乎他进行了一个小小的测试。

通过调整系统提示,来强调格式的重要性,结果模型分数显著提高。

比如给llama-3-8b-q8说了这些话,结果它在一些类别中得分提高了10分以上。

作为一名知识渊博的专家,你的任务是回答只有一个正确答案的多项选择题。清楚地解释你对每道题的思考过程,提供全面、逐步的推理,说明你是如何得出最终答案的。如果没有一个选项完全符合,请选择最接近的一个。用准确的短语和格式结束每个回答至关重要: 答案是 (X),其中 X 代表字母选项,即使选择最接近的选项也是如此。

此外对各个模型答案提取regex也不一样。

此事一出,大家一片哗然。他去团队GitHub页面底下反应,也得到了官方回复。

官方回应:对结果影响不超过1%

大概有这么几个意思。

首先,关于采样参数和系统提示,我们建议使用我们 git 仓库中的 evaluate_from_api.py 和 evaluate_from_local.py,因为这些设置与我们论文中报告的结果一致。

至于像那些闭源模型的结果,因为是不同合作者同时运行的,所以会有些细微差别。

不过他们表示,有进行抽样测试,发现对结果的影响很小,不超过 1%。

另外,他们在论文中还强调了 MMLU-Pro 的鲁棒性,因此从节约成本的角度出发,我们选择了不重新运行所有项目。

对于答案提取regex问题,团队承认:这的确是一个重要问题。

因为像 GPT-4o 和 Gemini 这样的高性能模型来说,影响微乎其微。但对于较小规模的模型来说,影响可能会更大。

他们正计划引入召回率更高的答案提取词法,并将相应地进行标准化和重新提取答案。

此前还被爆出MMLU-Pro以数学为主

今年5月,来自滑铁卢大模型老虎实验室陈文虎团队推出MMLU-Pro版。

当时强调它主要有这些特点:

1、随机猜测的空间更小。Pro版使用 10 个选项而不是 4 个选项。

2、更复杂:MMLU-Pro 添加了更多不同学科的大学水平问题,共计12K个问题。

3、MMLU-Pro 更稳健,对不同提示的敏感度更低。

结果 GPT-4o(71%)实际上比 GPT-4-turbo(62%)提高了 9%在原始 MMLU 上,改进只有 2% 左右。

但使用之后发现,有人反馈说MMLU-Pro以数学能力为主,但此前MMLU的价值在于知识和推理。

很多问题都需要多步骤的思维链CoT推理来解决应用数学问题。

这样的话对大模型来说太难了,大部分都集中在低端,这样评估也就没有意义。

好了对于这件事你怎么看呢?

参考链接:
[1]https://www.reddit.com/r/LocalLLaMA/comments/1dw8l3j/comment/lbu6efr/?utm_source=ainews&utm_medium=email&utm_campaign=ainews-et-tu-mmlu-pro
[2]https://github.com/TIGER-AI-Lab/MMLU-Pro/issues/5
[3]https://www.reddit.com/r/LocalLLaMA/comments/1du52gf/mmlupro_is_a_math_benchmark/?utm_source=ainews&utm_medium=email&utm_campaign=ainews-et-tu-mmlu-pro
[4]https://x.com/WenhuChen/status/1790597967319007564
[5]https://x.com/WenhuChen/with_replies

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国坠毁的运输机,到底是伊朗打下来的,还是美国人自己炸毁的?

美国坠毁的运输机,到底是伊朗打下来的,还是美国人自己炸毁的?

小萝卜丝
2026-04-06 17:14:42
伊朗缴获美军飞行员的私人物品,有牙膏,内裤,牛肉干,压缩食品

伊朗缴获美军飞行员的私人物品,有牙膏,内裤,牛肉干,压缩食品

魔都姐姐杂谈
2026-04-06 13:11:53
刚刚,伊朗杀疯了,创造了史诗级战果!

刚刚,伊朗杀疯了,创造了史诗级战果!

一个坏土豆
2026-04-06 19:11:24
被6天春假破防!江苏闷声发大财

被6天春假破防!江苏闷声发大财

瓜哥的动物日记
2026-04-06 14:35:56
安徽6岁失联女童已遇害:凶手是35岁女邻居,正脸曝光,面相老实

安徽6岁失联女童已遇害:凶手是35岁女邻居,正脸曝光,面相老实

南城无双
2026-04-07 02:27:36
澳大利亚等5国外长发表联合声明:袭击联合国维和人员不可接受

澳大利亚等5国外长发表联合声明:袭击联合国维和人员不可接受

环球网资讯
2026-04-06 11:51:14
美媒:中国应对中东危机展现惊人韧性

美媒:中国应对中东危机展现惊人韧性

参考消息
2026-04-06 16:28:04
张雪妈妈何琼,厦大中文系毕业的作家,客居福建,为儿子抵押房子

张雪妈妈何琼,厦大中文系毕业的作家,客居福建,为儿子抵押房子

晓徙娱乐
2026-04-07 02:29:48
无罪!无罪!无罪!这才是老百姓要的正义!

无罪!无罪!无罪!这才是老百姓要的正义!

胖胖说他不胖
2026-04-06 09:00:47
易中天,获奖励20万元

易中天,获奖励20万元

极目新闻
2026-04-06 21:04:19
重磅:乌克兰摧毁俄罗斯新罗西斯克港!击中所有码头

重磅:乌克兰摧毁俄罗斯新罗西斯克港!击中所有码头

项鹏飞
2026-04-06 21:40:36
陈光标称已向嫣然医院捐赠1000万元,张雪评论“标哥真男人”,二手车商:车没收成,但心里很暖

陈光标称已向嫣然医院捐赠1000万元,张雪评论“标哥真男人”,二手车商:车没收成,但心里很暖

极目新闻
2026-04-06 21:04:20
英媒:美军飞行员靠“嗑药”飞到伊朗

英媒:美军飞行员靠“嗑药”飞到伊朗

参考消息
2026-04-06 21:14:36
伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

伊朗官方确认:翼龙-2首次参战即被击落,海湾国家反应强烈

最新声音
2026-04-06 08:32:33
台湾地区前领导人马英九:我不希望台湾成为第二个香港!

台湾地区前领导人马英九:我不希望台湾成为第二个香港!

共工之锚
2026-04-06 19:29:37
伊朗发布美军士兵遗体照:在一架坠毁运输机残骸中发现,这是特朗普“可耻失败的又一证据”

伊朗发布美军士兵遗体照:在一架坠毁运输机残骸中发现,这是特朗普“可耻失败的又一证据”

都市快报橙柿互动
2026-04-06 14:32:22
万科的清算才刚刚开始!谁都逃不了!

万科的清算才刚刚开始!谁都逃不了!

伊历史
2026-04-06 14:41:46
后续!安徽失联女童已遇害,凶手是女邻居,此前有人精准预测

后续!安徽失联女童已遇害,凶手是女邻居,此前有人精准预测

潮鹿逐梦
2026-04-07 00:36:40
安徽6岁女童已遇害!凶手身份披露,网友曝作案过程,比想象残忍

安徽6岁女童已遇害!凶手身份披露,网友曝作案过程,比想象残忍

情感的我
2026-04-07 04:05:54
广东知名歌手离世一年后才被发现,一生未结婚令人唏嘘

广东知名歌手离世一年后才被发现,一生未结婚令人唏嘘

梦醉为红颜一笑
2026-04-06 21:10:32
2026-04-07 08:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12428文章数 176443关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普:如果能做主我会抢走伊朗石油 会赚很多钱

头条要闻

特朗普:如果能做主我会抢走伊朗石油 会赚很多钱

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

本地
家居
手机
旅游
数码

本地新闻

跟着歌声游安徽,听古村回响

家居要闻

温馨多元 爱的具象化

手机要闻

爆料称折叠屏iPhone已进入试产,iPhone 18 Pro仍无黑色版本

旅游要闻

张鹏、陈伟良:把握“追花经济”,与次第开放的美相逢

数码要闻

Meta为雷朋Display智能眼镜推出第二个重大更新

无障碍浏览 进入关怀版