那个考倒全球AI的测试，已经没人信了|基准|推理|示例|维度

那个考倒全球AI的测试，已经没人信了

2026-04-22 16:14:48　来源: 薛定谔的BUG

北京举报

分享至

2024年底，GPT-4在MMLU（大规模多任务语言理解，Massive Multitask Language Understanding）上的得分超过90%，Claude紧随其后。但同一个模型，面对真实用户的简单提问却频频翻车。这个吊诡现象正在撕裂AI行业的评估体系——我们用了四年的黄金标准，可能从一开始就跑偏了。

一图看懂：MMLU的"满分陷阱"

MMLU的设计逻辑很直白：用57个学科的多选题考模型，覆盖从初等数学到专业法律。但问题就出在这个"多选"上。

上图展示了MMLU的典型题目结构。每个问题四个选项，模型只需选出概率最高的那个。这种设计催生了两种作弊路径：

第一，选项偏差。研究人员发现，MMLU数据集中正确答案的分布并不均匀，某些选项位置出现频率异常。模型不需要真懂题，只需学会"选C"的统计规律就能提分。

第二，知识污染。MMLU的题目来源包括公开考试题库、教科书习题。这些材料早在2021年前就被大规模爬取进预训练语料。模型不是在"解题"，是在"背答案"。

更荒诞的是评分方式。MMLU允许模型对每个选项输出概率，取最高值为答案。这意味着模型可以" hedging"——对所有选项都分配一定概率，赌其中一个命中。这种机制与人类考生的单选决策完全不同，却共享同一个"准确率"指标。

分数通胀：当90分成为及格线

2023年，GPT-4的MMLU得分是86.4%。一年后，Claude 3.5 Sonnet达到88.7%，Gemini 1.5 Pro冲上90%。分数曲线陡峭得不像技术进步，更像通货膨胀。

这种通胀有明确的时间节点。2024年上半年，多家实验室被曝出在MMLU测试中使用思维链提示（Chain-of-Thought，CoT）——让模型"一步步思考"后再作答。这相当于允许考生打草稿，分数自然飙升。

但CoT的引入制造了新的不公平。不同模型的CoT实现差异巨大：有的生成500词推理过程，有的仅添加几个过渡词。用同一套评分标准衡量，就像比较开卷考与闭卷考的成绩。

更隐蔽的问题是动态基准。MMLU的测试集固定，模型厂商可以针对性优化。Anthropic的研究人员承认，他们的团队会分析MMLU的错误模式，调整训练数据分布。这不是作弊，是理性策略——但当所有人都在针对同一套题刷分，区分度就归零了。

2024年9月，一项来自UC Berkeley的研究戳破了窗户纸。他们用改写后的MMLU题目测试同一批模型：保持知识点不变，仅替换措辞和选项顺序。结果平均得分下跌12-18个百分点。高分模型对措辞变化的敏感度，暴露了其模式匹配的本质。

替代方案图谱：谁在接棒

MMLU失宠后，评估战场分裂为三条战线。每条路线都在回答同一个问题：我们到底想测模型的什么能力？

路线一：动态对抗——让测试比模型进化更快

代表选手是HumanEval（代码生成）和SWE-bench（真实软件工程任务）。这类基准的核心设计是任务实例持续更新。SWE-bench从GitHub实时抓取未解决的Issue，模型需要像真实开发者一样定位bug、提交补丁。

动态性的代价是成本。单次SWE-bench评估需要运行模型生成的代码，消耗大量计算资源。MMLU的批量推理几分钟完成，SWE-bench可能要跑数小时。这解释了为什么它至今未被广泛用于发布会PPT——太慢了，不够"性感"。

但慢有慢的价值。2024年12月，OpenAI的o3模型在SWE-bench上达到71.7%的解决率，引发行业震动。这个数字的可信度远高于MMLU的90%+，因为每个百分点都对应真实的代码合并请求。

路线二：人类对齐——让真人当裁判

Chatbot Arena（聊天机器人竞技场）是这一派的旗帜。平台让用户与两个匿名模型对话，投票选出更优回复。累计超过100万轮对战后，生成Elo排名。

这个设计的巧妙之处在于任务开放性。用户提问不受预设题库限制，从"写Python脚本"到"安慰失恋的朋友"应有尽有。模型无法针对性准备，只能凭真实能力接招。

但人类裁判也有盲区。Arena的投票者以英语用户为主，中文、阿拉伯语等语种的评估严重不足。更微妙的是风格偏见：长篇大论、格式工整的回复往往得分更高，即使信息密度更低。有研究者发现，简单地在回答前加"当然，我很乐意帮助您"，胜率就能提升几个点。

2024年11月，Arena团队推出Hard Prompts子集，专门收集需要多步推理的复杂问题。这是对"简单问答占比过高"批评的回应，但人工筛选成本限制了规模。

路线三：能力分解——拒绝"综合智商"幻觉

最激进的替代方案来自Epoch AI和METR（模型评估与威胁研究，Model Evaluation and Threat Research）。他们不追求单一分数，而是将"智能"拆解为可独立测量的维度。

METR的框架包含四个层级：任务完成度（能否达成目标）、自主性（需要多少人类干预）、泛化性（陌生场景的表现）、效率（时间/计算成本）。每个层级下设具体指标，例如"在24小时内独立完成一个从未见过的数据分析项目"。

这种评估拒绝"模型A比模型B聪明"的简化叙事。一个模型可能在代码任务上自主性强，却在多轮谈判中频繁请求澄清。METR的报告以雷达图呈现，迫使读者接受能力的碎片化真相。

Epoch AI则专注于前沿数学推理。他们的测试集由职业数学家设计，题目不在任何公开资料中。2024年的结果显示，即使最先进的模型，在需要构造性证明的题目上成功率不足5%。这与MMLU上"数学满分"的表象形成刺眼对比。

商业暗战：评估即权力

基准测试从来不是中立的技术工具。选择用什么指标、如何加权，本质是价值判断的物化。

2024年的几起事件暴露了这种权力博弈。3月，谷歌Gemini发布时宣称"在MMLU上超越GPT-4"，但被发现使用了5-shot CoT（5个示例提示），而OpenAI的官方分数基于0-shot（无示例）。比较基准不一致，"超越"沦为文字游戏。

6月，Meta的Llama 3技术报告直接拒绝提供MMLU分数，理由是"该指标已无法反映模型能力"。这是大厂首次公开否定行业通行标准，引发评估话语权争夺的明牌化。

更深层的变化发生在融资环节。2024年下半年，多家AI安全初创公司获得大额投资，其核心产品正是替代性评估方案。Anthropic的Responsible Scaling Policy（负责任扩展政策）要求，模型在特定能力测试达标前不得扩大规模。这些测试的具体设计，可能成为比MMLU更具约束力的行业门槛。

评估权的分散也带来混乱。同一模型在不同榜单排名悬殊：Claude 3.5 Sonnet在Arena领先，在SWE-bench落后o1；Gemini在MMLU称王，在Epoch的数学测试中垫底。买家无所适从，"看榜单选型"的策略失效。

这种混乱或许正是健康的开始。单一指标的暴政被打破，能力的多元性被迫承认。就像高考分数不能定义一个人，MMLU的死亡提醒我们：任何压缩为一维数字的"智能"，都是便利的谎言。

你的模型评估工具箱

如果你正在选型或自研模型，2025年的评估策略需要重构。以下是基于当前实践的粗糙指南：

第一，拒绝"总分"诱惑。要求供应商提供能力维度的拆解，警惕任何宣称"全面领先"的营销话术。具体问：在与你业务相关的任务类型上，得分是多少？

第二，自建私有测试集。公开基准的污染不可避免。从真实业务日志中抽样，构建不对外披露的评估样本。规模不需要大，100-500条高质量题目足以暴露模型的真实边界。

第三，引入对抗性测试。让内部团队扮演"红队"，专门设计能诱导模型出错的提示。这比看基准分数更能预判上线后的翻车场景。

第四，关注效率指标。延迟、成本、并发能力是生产环境的硬约束。一个MMLU 95%但推理成本高出10倍的模型，对大多数场景是负资产。

第五，动态复评。模型版本迭代速度远超传统软件。建立季度复评机制，同一套私有测试集在不同版本上跑分，追踪能力漂移——包括退化。

MMLU的衰落不是终点，是行业成熟的必经阵痛。当评估从"比谁分数高"转向"测清楚能干什么、不能干什么"，AI产品才能真正走出演示厅，进入 messy 的真实世界。这场标准重建的权力真空期，正是从业者重新定义规则的机会窗口——别只当观众。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.