网易首页 > 网易号 > 正文 申请入驻

那个考倒全球AI的测试,已经没人信了

0
分享至

2024年底,GPT-4在MMLU(大规模多任务语言理解,Massive Multitask Language Understanding)上的得分超过90%,Claude紧随其后。但同一个模型,面对真实用户的简单提问却频频翻车。这个吊诡现象正在撕裂AI行业的评估体系——我们用了四年的黄金标准,可能从一开始就跑偏了。

一图看懂:MMLU的"满分陷阱"


MMLU的设计逻辑很直白:用57个学科的多选题考模型,覆盖从初等数学到专业法律。但问题就出在这个"多选"上。

上图展示了MMLU的典型题目结构。每个问题四个选项,模型只需选出概率最高的那个。这种设计催生了两种作弊路径:

第一,选项偏差。研究人员发现,MMLU数据集中正确答案的分布并不均匀,某些选项位置出现频率异常。模型不需要真懂题,只需学会"选C"的统计规律就能提分。

第二,知识污染。MMLU的题目来源包括公开考试题库、教科书习题。这些材料早在2021年前就被大规模爬取进预训练语料。模型不是在"解题",是在"背答案"。

更荒诞的是评分方式。MMLU允许模型对每个选项输出概率,取最高值为答案。这意味着模型可以" hedging"——对所有选项都分配一定概率,赌其中一个命中。这种机制与人类考生的单选决策完全不同,却共享同一个"准确率"指标。

分数通胀:当90分成为及格线

2023年,GPT-4的MMLU得分是86.4%。一年后,Claude 3.5 Sonnet达到88.7%,Gemini 1.5 Pro冲上90%。分数曲线陡峭得不像技术进步,更像通货膨胀。

这种通胀有明确的时间节点。2024年上半年,多家实验室被曝出在MMLU测试中使用思维链提示(Chain-of-Thought,CoT)——让模型"一步步思考"后再作答。这相当于允许考生打草稿,分数自然飙升。

但CoT的引入制造了新的不公平。不同模型的CoT实现差异巨大:有的生成500词推理过程,有的仅添加几个过渡词。用同一套评分标准衡量,就像比较开卷考与闭卷考的成绩。

更隐蔽的问题是动态基准。MMLU的测试集固定,模型厂商可以针对性优化。Anthropic的研究人员承认,他们的团队会分析MMLU的错误模式,调整训练数据分布。这不是作弊,是理性策略——但当所有人都在针对同一套题刷分,区分度就归零了。

2024年9月,一项来自UC Berkeley的研究戳破了窗户纸。他们用改写后的MMLU题目测试同一批模型:保持知识点不变,仅替换措辞和选项顺序。结果平均得分下跌12-18个百分点。高分模型对措辞变化的敏感度,暴露了其模式匹配的本质。

替代方案图谱:谁在接棒

MMLU失宠后,评估战场分裂为三条战线。每条路线都在回答同一个问题:我们到底想测模型的什么能力?

路线一:动态对抗——让测试比模型进化更快

代表选手是HumanEval(代码生成)和SWE-bench(真实软件工程任务)。这类基准的核心设计是任务实例持续更新。SWE-bench从GitHub实时抓取未解决的Issue,模型需要像真实开发者一样定位bug、提交补丁。

动态性的代价是成本。单次SWE-bench评估需要运行模型生成的代码,消耗大量计算资源。MMLU的批量推理几分钟完成,SWE-bench可能要跑数小时。这解释了为什么它至今未被广泛用于发布会PPT——太慢了,不够"性感"。

但慢有慢的价值。2024年12月,OpenAI的o3模型在SWE-bench上达到71.7%的解决率,引发行业震动。这个数字的可信度远高于MMLU的90%+,因为每个百分点都对应真实的代码合并请求。

路线二:人类对齐——让真人当裁判

Chatbot Arena(聊天机器人竞技场)是这一派的旗帜。平台让用户与两个匿名模型对话,投票选出更优回复。累计超过100万轮对战后,生成Elo排名。

这个设计的巧妙之处在于任务开放性。用户提问不受预设题库限制,从"写Python脚本"到"安慰失恋的朋友"应有尽有。模型无法针对性准备,只能凭真实能力接招。

但人类裁判也有盲区。Arena的投票者以英语用户为主,中文、阿拉伯语等语种的评估严重不足。更微妙的是风格偏见:长篇大论、格式工整的回复往往得分更高,即使信息密度更低。有研究者发现,简单地在回答前加"当然,我很乐意帮助您",胜率就能提升几个点。

2024年11月,Arena团队推出Hard Prompts子集,专门收集需要多步推理的复杂问题。这是对"简单问答占比过高"批评的回应,但人工筛选成本限制了规模。

路线三:能力分解——拒绝"综合智商"幻觉

最激进的替代方案来自Epoch AIMETR(模型评估与威胁研究,Model Evaluation and Threat Research)。他们不追求单一分数,而是将"智能"拆解为可独立测量的维度。

METR的框架包含四个层级:任务完成度(能否达成目标)、自主性(需要多少人类干预)、泛化性(陌生场景的表现)、效率(时间/计算成本)。每个层级下设具体指标,例如"在24小时内独立完成一个从未见过的数据分析项目"。

这种评估拒绝"模型A比模型B聪明"的简化叙事。一个模型可能在代码任务上自主性强,却在多轮谈判中频繁请求澄清。METR的报告以雷达图呈现,迫使读者接受能力的碎片化真相。

Epoch AI则专注于前沿数学推理。他们的测试集由职业数学家设计,题目不在任何公开资料中。2024年的结果显示,即使最先进的模型,在需要构造性证明的题目上成功率不足5%。这与MMLU上"数学满分"的表象形成刺眼对比。

商业暗战:评估即权力

基准测试从来不是中立的技术工具。选择用什么指标、如何加权,本质是价值判断的物化。

2024年的几起事件暴露了这种权力博弈。3月,谷歌Gemini发布时宣称"在MMLU上超越GPT-4",但被发现使用了5-shot CoT(5个示例提示),而OpenAI的官方分数基于0-shot(无示例)。比较基准不一致,"超越"沦为文字游戏。

6月,Meta的Llama 3技术报告直接拒绝提供MMLU分数,理由是"该指标已无法反映模型能力"。这是大厂首次公开否定行业通行标准,引发评估话语权争夺的明牌化。

更深层的变化发生在融资环节。2024年下半年,多家AI安全初创公司获得大额投资,其核心产品正是替代性评估方案。Anthropic的Responsible Scaling Policy(负责任扩展政策)要求,模型在特定能力测试达标前不得扩大规模。这些测试的具体设计,可能成为比MMLU更具约束力的行业门槛。

评估权的分散也带来混乱。同一模型在不同榜单排名悬殊:Claude 3.5 Sonnet在Arena领先,在SWE-bench落后o1;Gemini在MMLU称王,在Epoch的数学测试中垫底。买家无所适从,"看榜单选型"的策略失效。

这种混乱或许正是健康的开始。单一指标的暴政被打破,能力的多元性被迫承认。就像高考分数不能定义一个人,MMLU的死亡提醒我们:任何压缩为一维数字的"智能",都是便利的谎言。

你的模型评估工具箱

如果你正在选型或自研模型,2025年的评估策略需要重构。以下是基于当前实践的粗糙指南:

第一,拒绝"总分"诱惑。要求供应商提供能力维度的拆解,警惕任何宣称"全面领先"的营销话术。具体问:在与你业务相关的任务类型上,得分是多少?

第二,自建私有测试集。公开基准的污染不可避免。从真实业务日志中抽样,构建不对外披露的评估样本。规模不需要大,100-500条高质量题目足以暴露模型的真实边界。

第三,引入对抗性测试。让内部团队扮演"红队",专门设计能诱导模型出错的提示。这比看基准分数更能预判上线后的翻车场景。

第四,关注效率指标。延迟、成本、并发能力是生产环境的硬约束。一个MMLU 95%但推理成本高出10倍的模型,对大多数场景是负资产。

第五,动态复评。模型版本迭代速度远超传统软件。建立季度复评机制,同一套私有测试集在不同版本上跑分,追踪能力漂移——包括退化。

MMLU的衰落不是终点,是行业成熟的必经阵痛。当评估从"比谁分数高"转向"测清楚能干什么、不能干什么",AI产品才能真正走出演示厅,进入 messy 的真实世界。这场标准重建的权力真空期,正是从业者重新定义规则的机会窗口——别只当观众。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《八千里路云和月》大结局:5对情侣5种悲剧,丁玉娇孟万福最凄惨

《八千里路云和月》大结局:5对情侣5种悲剧,丁玉娇孟万福最凄惨

楼兰娱姐
2026-04-23 19:22:07
特鲁姆普浇灭赵心童世界第一!11位种子全晋级,墨菲死里逃生

特鲁姆普浇灭赵心童世界第一!11位种子全晋级,墨菲死里逃生

观察鉴娱
2026-04-23 10:58:02
马筱梅不忍了!宣布割席大S孩子的事,透露隐情,不想伤害更多人

马筱梅不忍了!宣布割席大S孩子的事,透露隐情,不想伤害更多人

黔乡小姊妹
2026-04-24 08:18:51
徐帆回应离婚5个月,冯小刚近况曝光,他的“小心思”再藏不住了

徐帆回应离婚5个月,冯小刚近况曝光,他的“小心思”再藏不住了

天天热点见闻
2026-04-19 08:13:15
51岁何润东骑自行车买早饭,妻子林姵希蹬车小腿纤细,很般配

51岁何润东骑自行车买早饭,妻子林姵希蹬车小腿纤细,很般配

娱乐圈圈圆
2026-04-22 10:45:56
令人遗憾!怀特塞德正式退出,原因曝光,卢伟表明态度,上海谨慎

令人遗憾!怀特塞德正式退出,原因曝光,卢伟表明态度,上海谨慎

萌兰聊个球
2026-04-23 08:52:23
狂胜23分!成雷霆最惧怕的对手,2换1交易大赚,你们真的要冲冠

狂胜23分!成雷霆最惧怕的对手,2换1交易大赚,你们真的要冲冠

篮球扫地僧
2026-04-24 06:53:02
彻底改变!捷达正式换标

彻底改变!捷达正式换标

新浪财经
2026-04-24 00:42:22
信仰不是法外之地,全国开始雷霆出击整顿寺庙

信仰不是法外之地,全国开始雷霆出击整顿寺庙

世界圈
2026-04-17 08:50:05
300475,一季度净利暴增7835%

300475,一季度净利暴增7835%

中国基金报
2026-04-23 22:42:34
狄龙:季后赛应该像乔丹、詹姆斯一样强硬,亚历山大有点脆弱

狄龙:季后赛应该像乔丹、詹姆斯一样强硬,亚历山大有点脆弱

懂球帝
2026-04-23 13:41:07
当不成总统了?美国四大前总统已联手,打响扳倒特朗普的第一枪

当不成总统了?美国四大前总统已联手,打响扳倒特朗普的第一枪

生活魔术专家
2026-04-23 18:20:58
巴拿马运河通行费创新高 美国石油运输激增推高拥堵与成本

巴拿马运河通行费创新高 美国石油运输激增推高拥堵与成本

财联社
2026-04-23 16:58:05
伊朗新型防空导弹改变战争经济

伊朗新型防空导弹改变战争经济

参考消息
2026-04-23 20:52:20
赖清德窜访被迫取消后,侯友宜不装了,黄国昌摊牌,郑丽文回应了

赖清德窜访被迫取消后,侯友宜不装了,黄国昌摊牌,郑丽文回应了

叮当当科技
2026-04-23 04:23:54
4月24日精选热点:日本光刻胶断供,这些国产替代龙头要大涨

4月24日精选热点:日本光刻胶断供,这些国产替代龙头要大涨

元芳说投资
2026-04-23 21:24:13
73岁老人在养老院遭85岁室友殴打,全身多处骨折、头部被缝9针,鉴定为多处轻伤二级;该案民警:将转为刑案

73岁老人在养老院遭85岁室友殴打,全身多处骨折、头部被缝9针,鉴定为多处轻伤二级;该案民警:将转为刑案

扬子晚报
2026-04-24 07:42:51
4200万人社保断缴刷屏全网,真相没那么简单

4200万人社保断缴刷屏全网,真相没那么简单

流苏晚晴
2026-04-23 19:53:55
奉陪到底,中国通知欧委会立即删除涉华条款,冯德莱恩已读不回

奉陪到底,中国通知欧委会立即删除涉华条款,冯德莱恩已读不回

坠入二次元的海洋
2026-04-24 07:53:20
岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

岛内最新民调,事关两岸统一,蒋万安郑丽文支持率有惊人变化?

DS北风
2026-04-23 15:56:17
2026-04-24 09:08:49
薛定谔的BUG
薛定谔的BUG
有态度网友ytd
1666文章数 37关注度
往期回顾 全部

科技要闻

马斯克喊出"史上最大产品",但量产难预测

头条要闻

女子网购1450单又退货1450单 老板娘盘点后称损失12万

头条要闻

女子网购1450单又退货1450单 老板娘盘点后称损失12万

体育要闻

给文班剃头的马刺DJ,成为NBA最佳第六人

娱乐要闻

王大陆因涉黑讨债被判 女友也一同获刑

财经要闻

19家企业要"铝代铜",格力偏不

汽车要闻

预售30.29万起 岚图泰山X8配896线激光雷达

态度原创

本地
房产
旅游
公开课
军事航空

本地新闻

SAGA GIRLS 2026女团选秀

房产要闻

三亚安居房,突然官宣!

旅游要闻

走进榉溪村

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美伊陷入互相封锁僵局

无障碍浏览 进入关怀版