网易首页 > 网易号 > 正文 申请入驻

评测大模型何须「万题海战」?上交 EssenceBench:数据压缩200倍,排名一致性达95%

0
分享至


仅需50道题就能测准GSM8K?大模型评测界的“瘦身革命”来了!

上海交通大学、阿里Qwen团队等提出 EssenceBench——首个由粗到细、结合进化算法的评测基准压缩框架。它不仅能剔除榜单中的“水分”,还能通过遗传算法(GA)精选出最具代表性的“精华题”,仅用 1/200 的数据量,就能实现 95% 的排名一致性!

就像一位经验丰富的考官,不用让学生做完整本五三模拟,只挑几道关键大题,就能精准排好全班座次。


论文基本信息

论文标题:Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?

论文链接:https://arxiv.org/abs/2510.10457

Github地址:https://github.com/gszfwsb/EssenceBench

关键词:基准压缩、大模型评测、遗传算法、样本冗余、排名一致性

本文共同第一作者王少博(Shaobo Wang)为上海交通大学博士生,王聪(Cong Wang)来自上海交大 EPIC Lab, Wenjie Fu 来自复旦大学。通讯作者为其导师、上海交大助理教授张林峰。本文其他作者来自香港科技大学、上海AI Lab、智谱AI等机构。

01


评测大模型,跑分跑断腿?

模型有苦难言:“OpenCompass有上百个任务,测我一次要烧掉大约1000个GPU小时,能不能省省?”

随着大模型能力维度的扩张,Benchmark(评测基准)的数量和体积也急剧膨胀。传统的全量评测存在三大痛点:

  • 贵:测一个Qwen2.5-7B-Instruct就要耗费数千万Token;

  • 慢:迭代一个版本等评测结果要等到花儿都谢了;

  • 水:很多题目其实是“重复造轮子”,测了也白测。

而 EssenceBench 就像评测界的“浓缩咖啡”——体积虽小,提神醒脑(效果保真)。

02


现象洞察:榜单“注水”有多严重?

EssenceBench 首先对Open LLM Leaderboard进行了深入的“体检”,发现样本冗余现象普遍存在。论文定义了两种冗余:

文本冗余 (Text Redundancy):

  • 定义:利用 BGE-M3 等嵌入模型计算题目间的语义相似度。

  • 现象:很多题目仅仅是更换了人名、地名或微调了句式,核心语义完全一致。这种“换皮题”在榜单中大量存在。

排名冗余 (Ranking Redundancy):

  • 定义:这是一种更隐蔽的冗余。论文计算了不同题目在所有模型上的排名之间的皮尔逊相关系数。

  • 现象:如果两道题,所有模型的得分模式都一样(例如:模型A、B都对,模型C、D都错),那么它们提供的“区分度信息”就是重复的。保留两道这样的题,除了增加计算量,无法提供更多关于模型能力差异的信息。


03


方法机制:由粗到细,遗传算法“进化”出黄金考卷

与传统的训练侧数据压缩不同,训练数据的压缩往往基于注意力分数,梯度,EL2N分数,保证最终的性能与全集数据训练的性能持平甚至超过。测试集压缩往往注重模型的排名一致性,而不简单的只进行分数重构。

EssenceBench 将基准压缩视为一个复杂的组合优化问题,提出了一个三阶段的由粗到细 (Coarse-to-Fine)框架:

1. 粗粒度过滤 (Coarse Filtering) —— 先把水的挤干

榜单里充斥着“孪生题”!EssenceBench 发现主要有两种冗余:

  • 文本冗余:题目换个说法,意思完全一样;

  • 排名冗余:有些题大家要么都对、要么都错,根本拉不开分差。 利用二进制得分矩阵,直接砍掉这些无效样本。

2. 子集搜索 (Subset Search) —— 遗传算法登场

如何在剩下的题目中选出最好的组合?暴力搜索是不可能的(组合数是天文数字)。EssenceBench 引入了遗传算法 (GA)

  • 利用遗传算法 (GA)在剩下的题目中进行“优胜劣汰”;

  • 通过交叉、变异、锦标赛选择,寻找能最小化预测误差(RMSE)的题目组合;

  • 训练一个轻量级预测器(GAM),快速预判子集分数。

3. 归因细化 (attribution refinement) —— 归因分析保多样

为了防止选出来的题太偏(比如只选了难题,忽略了基础题),EssenceBench 引入了EBM (Explainable Boosting Machine)进行归因分析:

  • 为了防止选出来的题太偏,利用EBM (Explainable Boosting Machine)计算样本归因分数;

  • 根据分数将题目分组(高贡献、低贡献、随机),再次进行微观筛选,确保考卷既有区分度又覆盖全面。

  • 这种策略确保了生成的考卷既有区分度(高贡献),又覆盖了容易被忽视的角落(低贡献),保证了评测的鲁棒性。

这一套组合拳打下来,既保证了分数准,又保证了排名稳!


04


实验结果:效果炸裂,刷新SOTA

1. 误差大幅降低

在五个主流榜单上,EssenceBench 的表现均优于 MetaBench、GraNd、PPL 等现有方法。在 GSM8K 数据集上,当子集大小为 500 时,EssenceBench 的预测误差(RMSE)仅为 0.3769,相比 SOTA 方法 MetaBench (0.9579) 降低了 60.7%。这意味着用极少的数据就能极准地预测模型分数。


2. 排名高度一致

评测的核心是“比大小”。EssenceBench 在压缩后,依然能完美保持模型间的相对排名。在 HellaSwag 上,EssenceBench(橙色)的排名波动显著小于 MetaBench(绿色)。即便压缩 200 倍(仅用 50 题),95% 的模型排名位移仍在 5% 以内。


05


案例分析:它到底剔除了什么

EssenceBench 之所以高效,是因为它拥有一双“火眼金睛”,能精准识别出那些看似不同、实则重复的题目。论文展示了两个极具代表性的剔除案例:

1. 文本冗余:换汤不换药的“孪生题”

在 GSM8K 数学集中,EssenceBench 发现了大量仅仅是数字或变量微调的题目:

  • 题目 A:“Zack 的储物柜大小是 Timothy 的一半。Peter 的储物柜大小是 Zack 的 1/4。如果 Peter 的储物柜是 5 立方英寸,请问 Timothy 的储物柜是多少立方英寸?

  • 题目 B:“Timothy 的储物柜是 24 立方英寸。Zack 的储物柜大小是 Timothy 的一半。Peter 的储物柜大小是 Zack 的 1/4。请问 Peter 的储物柜是多少立方英寸?

[解析]这两道题虽然问法相反(已知部分求整体 vs 已知整体求部分),但其核心考察的算术结构逻辑链条是完全一致的。对于大模型来说,只要能做对 A,大概率也能做对 B。EssenceBench 果断剔除其中之一,避免了无效的重复测试。

2. 排名冗余:异曲同工的“隐形重复”

这是 EssenceBench 最“聪明”的地方——它能发现那些题面完全不同,但区分度完全一致的题目:

  • 题目 A(货币计算):“Axel 有 50 个银比索和 80 个金比索。他去拜访朋友 Anna,Anna 拥有的银比索数量是 Axel 的两倍,金比索比 Axel 多 40 个。请问他们两人总共有多少比索?

  • 题目 B(考试计分):“Amy 正在参加历史考试。她答对了 80% 的多选题,90% 的判断题,以及 60% 的简答题。多选题和判断题每题 1 分,简答题每题 5 分。如果试卷上有 10 道多选题,20 道判断题和 5 道简答题,请问 Amy 得了多少分?

[解析]乍一看,一个是算钱,一个是算分,风马牛不相及。但 EssenceBench 通过分析模型表现发现,这两道题在模型排名上的贡献是高度冗余的。它们都要求模型具备复杂的多步数值推理、中间变量推导以及加权求和的能力。 数据表明,能做对 A 的模型几乎都能做对 B,做错 A 的也几乎都做错 B。这意味着保留两道题并不会改变模型的相对排名,删掉一道,排名依然稳如泰山


06


泛化能力:不止老榜单,新题库也通吃

EssenceBench 不仅在经典榜单上强,面对MathVista(多模态)、LiveMCPBench(Agent工具调用)、GPQA(博士级难题)等8个现代高难度基准测试,同样展现出强大的泛化能力。 例如在 GSM-Plus 对抗性数学评测中,RMSE 低至 0.010,几乎完美复刻全量榜单表现。


07
核心优势总结

相比于 MetaBench 或传统的基于梯度/困惑度的选择方法,EssenceBench 的杀手锏在于:

1. 考虑了样本间的相互作用:不是孤立地看一道题好不好,而是看它们组合起来能不能代表整体;

2. 搜索效率高:遗传算法比暴力搜索或简单启发式更聪明地在巨大空间中寻找最优解;

3. 关注排名一致性:评测的核心是“比大小”,EssenceBench 紧紧咬住 Rank Stability 这一关键指标。

08


启示与未来

EssenceBench 告诉我们,大模型评测的“摩尔定律”失效了——榜单规模的指数级增长是不可持续的。未来的评测范式将从“大数据暴力测试”转向“小数据精准评估”

只要考题出得精,几百道题足矣看穿一个千亿参数模型的真实水平。从此以后,评测不再是巨头专属的“算力游戏”,小实验室也能快速迭代、精准打榜!

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新CEO上任直接放大招!AirPods Pro首次塞进摄像头:苹果又要改变世界

新CEO上任直接放大招!AirPods Pro首次塞进摄像头:苹果又要改变世界

快科技
2026-05-08 12:13:15
日本高层访华无果后,不甘心的高市决定亲自访华,中方态度坚决

日本高层访华无果后,不甘心的高市决定亲自访华,中方态度坚决

潋滟晴方DAY
2026-05-08 05:03:41
福州一智力残疾女孩在医院全托管期间“高坠身亡”,家属质疑死因,当地多方回应

福州一智力残疾女孩在医院全托管期间“高坠身亡”,家属质疑死因,当地多方回应

潇湘晨报
2026-05-08 15:14:19
一粒减肥神药掀翻7个行业!百事麦当劳股价大跌,保险养老竟也被迫重大调整

一粒减肥神药掀翻7个行业!百事麦当劳股价大跌,保险养老竟也被迫重大调整

爆角追踪
2026-05-05 20:01:26
看完心酸!网贷逾期人数持续暴涨,男人欠债和女人欠债根本不一样

看完心酸!网贷逾期人数持续暴涨,男人欠债和女人欠债根本不一样

记录生活日常阿蜴
2026-05-08 14:06:50
上海官宣:将承办2028年奥运会资格系列赛

上海官宣:将承办2028年奥运会资格系列赛

现代快报
2026-05-08 09:21:24
更衣室大战加速穆里尼奥回归?诸多名宿支持穆帅,已跟高层通过气

更衣室大战加速穆里尼奥回归?诸多名宿支持穆帅,已跟高层通过气

里芃芃体育
2026-05-08 16:00:14
4只皮皮虾1035元,为何如此高昂?明码标价是否就等于合理定价?

4只皮皮虾1035元,为何如此高昂?明码标价是否就等于合理定价?

之乎者也小鱼儿
2026-05-07 09:08:25
长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

揽星河的笔记
2026-05-07 20:18:36
老大还未出手,几个小弟轮番暴揍湖人,雷管选人可真精!

老大还未出手,几个小弟轮番暴揍湖人,雷管选人可真精!

毒舌NBA
2026-05-08 17:34:47
“典型的占便宜没够!”家长不让小学女儿去春游,三句话暴露心机

“典型的占便宜没够!”家长不让小学女儿去春游,三句话暴露心机

妍妍教育日记
2026-05-07 12:40:05
黄子佼获缓刑4年,无需入狱服刑,他偷笑着走出法庭

黄子佼获缓刑4年,无需入狱服刑,他偷笑着走出法庭

素素娱乐
2026-05-08 09:01:53
再见了CBA?徐昕已被美国球队高薪挖墙脚:年薪有望超过2000万?

再见了CBA?徐昕已被美国球队高薪挖墙脚:年薪有望超过2000万?

篮球快餐车
2026-05-08 00:46:53
官方:咪咕视频、爱奇艺体育将转播U17亚洲杯第2轮中国vs日本

官方:咪咕视频、爱奇艺体育将转播U17亚洲杯第2轮中国vs日本

懂球帝
2026-05-08 15:57:17
两任国防部长判死缓,今天不得不提这个人了。

两任国防部长判死缓,今天不得不提这个人了。

华人星光
2026-05-08 11:04:21
全网吵炸!北京女大学生青海自驾游,幸存女孩一审被判4年,冤吗

全网吵炸!北京女大学生青海自驾游,幸存女孩一审被判4年,冤吗

一盅情怀
2026-05-08 09:07:58
总部人均奖金610万 中国厂却一毛不拔!三星、SK海力士国内员工集体要求涨薪

总部人均奖金610万 中国厂却一毛不拔!三星、SK海力士国内员工集体要求涨薪

快科技
2026-05-07 20:13:05
活塞险胜2-0骑士:哈登13中3致命失误 坎宁安25+10米切尔31分

活塞险胜2-0骑士:哈登13中3致命失误 坎宁安25+10米切尔31分

醉卧浮生
2026-05-08 09:42:28
何庆魁女儿去世,年仅54岁,哥哥亲口证实噩耗,父亲外出捕鱼散心

何庆魁女儿去世,年仅54岁,哥哥亲口证实噩耗,父亲外出捕鱼散心

东方不败然多多
2026-05-08 16:49:12
詹姆斯季后赛输108场 NBA历史高居第一!为什么还是NBA最伟大球员

詹姆斯季后赛输108场 NBA历史高居第一!为什么还是NBA最伟大球员

体坛八点半的那些事儿
2026-05-08 18:43:27
2026-05-08 19:39:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7254文章数 20751关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

媒体:"4只皮皮虾1035元"店主去世仅43岁 触发人们反思

头条要闻

媒体:"4只皮皮虾1035元"店主去世仅43岁 触发人们反思

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

轮到豆包收割了?

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

家居
艺术
游戏
手机
军事航空

家居要闻

流动的尺度 打破家的形式主义

艺术要闻

探索施密德的油画,感受无法抵挡的艺术魅力!

索尼PS要打造最佳游戏平台!独占新作用AI 玩家别慌

手机要闻

某厂骁龙2nm新机配置全曝光:2nm+2亿像素,或为荣耀Magic 9系列

军事要闻

伊朗:最高领袖穆杰塔巴全面掌控局势

无障碍浏览 进入关怀版