网易首页 > 网易号 > 正文 申请入驻

一份没有标准答案的AI考卷,顶尖模型集体失灵

0
分享至

最近一两年,大型语言模型在各类标准化测试上的表现已经让人有点审美疲劳。MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)曾经是衡量模型能力的黄金标准,2022 年时 540 亿参数的 PaLM 勉强跨过 60% 的及格线,到了 2024 年,微软只用 38 亿参数的 Phi-3-mini 就达到了同样水平。

斯坦福大学 2025 年 AI 指数报告直言不讳地指出,MMLU、GSM8K、HumanEval 这些传统基准测试正在“饱和”,顶尖模型的分数已经逼近甚至超越人类水平,它们不再能有效区分模型之间的能力差异。

这引发了一个尴尬的问题:当考试变得太简单,我们怎么知道谁真的学会了?

2025 年 6 月,纽约大学和普林斯顿大学等高校的研究人员等人推出了 LiveCodeBench Pro,一个由奥赛奖牌得主们策划的竞赛级编程基准测试。它从 Codeforces、ICPC、IOI 等顶级赛事实时抓取题目,试图通过“防污染”设计来解决数据泄露问题。在那个基准上,最好的模型在中等难度题目上也只有 53% 的通过率,在高难度题目上直接归零。但 LiveCodeBench Pro 仍然采用传统的“通过/不通过”评判方式——要么全对,要么不得分。

为了解决这个问题,半年后,一支汇聚了加州大学伯克利分校、普林斯顿、加州大学圣地亚哥分校等多所顶尖高校成员的联合团队,共同推出了 FrontierCS。

这支团队可谓汇聚了基准测试领域的“全明星阵容”:除了打造了 LiveCodeBench Pro 的柴文浩及其团队,另一位核心共同负责人冒峘志此前主导的伯克利函数调用排行榜(Berkeley Function Calling Leaderboard, BFCL)也早已成为评估大模型工具使用能力的重要业界标准。两项高质量基准测试的主导者强强联手,使得 FrontierCS 在设计之初就具备了更全面、专业的评测视角的评测视野,为其严谨性提供了有力背书。


(来源:研究团队)

这次,团队所构建的并非又一套“更难的选择题”,而是在评测范式上做出了根本性转变。


图丨相关论文(来源:arXiv)

它包含 156 道计算机科学领域的开放式问题,覆盖算法优化、操作系统、高性能计算、数据库、人工智能研究等多个方向。与传统基准测试最大的不同在于:这些问题没有已知的最优解,但每个答案的质量都可以被客观量化评分。

想象一下,你要把一堆形状各异的俄罗斯方块(学名叫多连块,Polyomino)尽可能紧密地塞进一个矩形网格里。最紧密的摆法是什么?没人知道。但给定任意一种摆法,我们可以精确计算出它的密度(占据面积除以总面积)。人类专家在这道题上能达到 87% 的密度,而 GPT-5 Thinking 只做到 47%。两种摆法都未必是最优解,但密度这个连续指标能直观地反映出相对表现:谁的解法更好,一眼就能看出来。


(来源:arXiv)

FrontierCS 的核心设计者之一、来自伯克利的博士生忙秋阳在接受采访时解释了这种设计背后的逻辑:“我们会刻意挑选那些本身是开放式的、最终解未知,但又能客观打分的题目。比如给定一个 SAT 问题,我们都知道它是 NP-hard 的,严格求最优在现实里往往不可达。但我们可以看它最多满足了多少约束条件,然后据此给出分数。这个分数是客观的,完全符合题目要求,也能够被验证。”

这种设计解决了传统基准测试的两个痼疾。第一个是数据污染问题。当测试题和答案都已公开,模型完全可能在预训练阶段就“背”过这些题,分数高不代表真正理解。FrontierCS 的题目虽然公开,但由于没有标准答案可背,模型必须真正“动脑子”才能拿分。

第二个问题是评测粒度太粗。传统基准测试通常采用“通过/不通过”的二元评判,SWE-bench 上解决一个极难的 issue 和解决一个简单的 issue 都只能算“做对一题”。而 FrontierCS 为每道题设计了连续的评分函数,能够精确刻画模型在“做得多好”这个维度上的差异。


(来源:arXiv)

这套基准测试分为两个赛道。算法赛道包含 107 道题,大多改编自 IOI(国际信息学奥林匹克)、ICPC(国际大学生程序设计竞赛)世界总决赛等顶级编程竞赛,但被重新设计成开放式版本。研究赛道有 49 道题,来自真实的计算机科学研究场景,比如设计向量数据库索引以平衡查询延迟和召回率,或者优化 GPU 内核代码。

在算法赛道上,人类专家的平均得分是 95.41 分,而表现最好的 Gemini 3.0 Pro 只拿到 29.37 分。GPT-5 Thinking、Claude Opus 4.5、DeepSeek V3.2 Thinking 等当红模型的得分都在 10 到 15 分之间徘徊。


图丨在算法赛道上的基准测试结果(来源:arXiv)

即使把采样次数从 1 次增加到 5 次,取最高分(Score@5),最好的模型也只能达到 52 分左右。研究赛道的情况稍好一些,Claude Opus 4.5 以 29.40 分领先,但同样远低于人类水平。

通过对模型行为模式进行更细致的观察,团队还发现了一些有意思,甚至违反直觉的现象。柴文浩在采访中提到:“在 LiveCodeBench Pro 这样的基准测试上,我们观察到‘思考越多表现越好’几乎是铁律。但在 FrontierCS 上,这个规律不再成立。模型的推理是有上限的,超过这个上限之后,多花的那部分‘思考’,未必能带来直接的收益提升。”

研究团队做了一个对照实验:把 GPT-5 Thinking 的推理强度分别设为低、中、高三档。从低到中,平均得分从 7.9 分涨到 15.3 分,符合预期。但从中到高,分数反而从 15.3 分掉到 12.6 分。这或许意味着当前推理模型的训练方式可能存在根本性的局限,它们被训练来“找到正确答案”,而不是“找到更好的答案”。

团队对此的解释是:“模型更擅长的,其实是读懂教科书式的问题。它的推理本质上是:我给你一道算法竞赛题,你可以很快把它归类到某个常见套路上。但面对开放式问题,这种思路就行不通了。”

他举了个例子:在交互式问题(Interactive Problems)上,模型的表现尤其糟糕。这类题目要求你通过多轮查询来推断某个隐藏的结构,不存在任何可以直接套用的教科书算法。“这些题不会出现在任何 textbook 里。每一个开放式问题都需要先观察题目的性质,再利用这些性质去构造更优的解法。”


(来源:arXiv)

团队还观察到一个“微优化陷阱”:模型经常会陷入一些细枝末节的优化,而忽略了核心的算法选择。论文中举了多连块打包问题的例子,GPT-5 Thinking 倾向于直接用输出格式(变换列表)作为内部数据结构,这虽然节省内存,但会让碰撞检测和空间搜索变得极其繁琐,导致 30% 的尝试直接输出无效代码,剩下 70% 也只能拿到低分。

而如果在提示词中加一句“请用二维数组维护矩形状态,最后再转换成输出格式”,模型的表现就会大幅改善。这说明当前模型缺乏识别“什么优化才是重要的”的能力,它们容易被表面上合理但战略上无关紧要的细节所吸引。

Claude 系列模型展现出了一种独特的“研究—工程分裂症”。在算法赛道上,Claude Sonnet 4.5 只拿到 5.84 分,是所有测试模型中最低的;但在研究赛道上,Claude Opus 4.5 以 29.40 分拔得头筹。

柴文浩分析道:“Claude 往往会给出一个相对简单、工整、稳定、不容易出错但并非最优的解,然后就停住了。所以它更适合做一些工程类的事情,在 algorithm track 上表现就非常一般。”这与 Claude 在 SWE-bench Verified 上的亮眼表现形成对照,那个基准测试评估的恰恰是解决真实软件工程问题的能力。

当然,开放式基准测试也有其局限。冒峘志坦承,虽然 FrontierCS 的题目设计决定了不存在可以“背诵”的标准答案,但如果只是想达到某个中等分数(比如 50 分),理论上仍然可以通过训练高分轨迹(trace)来“抄近道”。此外,不同题目之间的分数并不直接可比,一个系统研究任务的 70 分和一个算法优化任务的 70 分,含义可能完全不同。

为了缓解这个问题,为缓解可比性问题,团队曾讨论用基于 Elo rating 的排名方案做相对比较,但也认为它未必最优:Elo 需要大量 battle 数据,成本很高。更现实的方案是按总体分布划分区间,给出 A/B/C/D 之类的等级分档(例如前 15% 为 A、再后 25% 为 B),用分档呈现相对水平。

在谈到 FrontierCS 的长期规划时,忙秋阳说:“这些题目的本质决定了它很难做到绝对饱和。最多是我们给的这些人类参照可能会被模型超过,但即使两年后所有人类参照都被超过了,也不意味着这个题就被‘解决’了。我们仍然可以量化每一道题目前被做到什么程度。”

研究团队设计了三种难度升级机制:添加新问题、在不改变题目描述的前提下收紧约束条件(比如更严格的时间限制或更大规模的测试用例)、以及在模型接近或超越人类基准时更新参考解和评分阈值。这确保了基准测试能够随着模型能力的提升而“进化”,避免再次陷入饱和困境。

这种“动态进化”的机制,正是 FrontierCS 区别于传统评测集的关键。

在另一位核心贡献者李知非看来,FrontierCS 的设计反映了 AI 发展的一个重要趋势:从单一模型向“AI 驱动的系统(AI-Driven Systems)”演进。他认为,未来的 AI 可能不再是单纯给出静态答案的模型,而是能够生成海量候选方案,并通过验证器自动筛选(Filter)甚至修正(Refine)代码的复杂系统。面对这种具备“暴力破解”潜力的系统,传统的静态测试可能会失效。

“真正的挑战在于,能否在没有标准答案的开放空间里,持续找到更优的解。”李知非解释道,FrontierCS 利用了算法与系统领域天然具备的“可靠验证器(Reliable Verifier)”,例如算法的时空复杂度或系统的吞吐量与延迟,以此构建连续的评分阶梯。这促使 AI 系统不能止步于“做对”,而是在算法设计与系统优化的闭环中尝试寻找更优解。

团队将这种设计理念总结为“Evolving Challenges for Evolving Intelligence”(进化的智能需要进化的挑战)。他们希望 FrontierCS 不仅是一个评估工具,未来也能成为支持下一代 AI 系统(ADRS)进行自主探索和演进的验证平台。

从更宏观的视角看,FrontierCS 的意义不仅在于提供一个更难的测试,而在于它为强化学习训练开辟了新的可能性。传统代码生成任务的奖励信号是二元的,要么通过测试,要么不通过。而 FrontierCS 的每道题都提供连续的、可验证的质量分数,这天然适合作为 RL 训练的奖励。

团队在采访中表达了这个愿景:“我们希望社区能在这些开放式问题上找到更好的训练方式,让模型愿意多想一点,也能因此拿到更多分。”如果这个愿景实现,模型或许能学会一种新的思维模式,不是“找到正确答案然后停止”,而是“持续探索更好的方案”。

几十年来,计算机科学的许多核心问题,如调度算法、背包问题、电路设计等都是典型的开放式优化问题。它们没有一劳永逸的最优解,只有在特定约束下的更好近似。如果大语言模型想要从进化为真正的“研究员”,它们必须学会在这种没有标准答案的迷雾中导航。FrontierCS 提供的,正是这样一片实验场地。

正如论文结尾所写:当前的大型推理模型在开放式优化和系统级权衡方面仍然脆弱,在封闭式编程任务上的能力并不能可靠地迁移到开放式问题求解。这不是一个可以通过简单堆叠算力或延长思考时间来解决的问题。某种意义上,它指向的是当前 AI 能力的一个结构性盲区——我们训练模型去寻找“正确”的答案,却没有教会它们什么是“更好”。

参考资料:

1.https://arxiv.org/abs/2512.15699

2.https://frontier-cs.org/

3.https://github.com/FrontierCS/Frontier-CS

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TVB“御用烂仔”演员游飚去世,终年57岁,李力持发文悼念

TVB“御用烂仔”演员游飚去世,终年57岁,李力持发文悼念

红星新闻
2026-02-25 11:05:07
张兰撒谎风波升级!细节证明孩子非新生儿,产房被扒是月子中心

张兰撒谎风波升级!细节证明孩子非新生儿,产房被扒是月子中心

古希腊掌管月桂的神
2026-02-25 16:35:25
贝加尔湖事故中溺亡的7名国人,很大可能连赔偿都拿不到

贝加尔湖事故中溺亡的7名国人,很大可能连赔偿都拿不到

律法刑道
2026-02-25 12:16:48
春节旅行,看完三亚账单我沉默了:一家三口10天,烧掉一年血汗钱

春节旅行,看完三亚账单我沉默了:一家三口10天,烧掉一年血汗钱

夜深爱杂谈
2026-02-24 22:41:54
被北京制裁后,日本一片哀嚎,高市下决心:5年内从中国东边反击

被北京制裁后,日本一片哀嚎,高市下决心:5年内从中国东边反击

时时有聊
2026-02-25 09:47:23
3-2逆转狂傲!张本智和轻视国乒小将藏何底气

3-2逆转狂傲!张本智和轻视国乒小将藏何底气

卿子书
2026-02-25 08:52:19
含泪告别赛场!43岁了,已经是个传奇!

含泪告别赛场!43岁了,已经是个传奇!

德译洋洋
2026-02-25 12:20:33
雨雨雨!后半周雨水频“串场”,最强降水时段→

雨雨雨!后半周雨水频“串场”,最强降水时段→

上观新闻
2026-02-25 18:59:07
河南二次通报平顶山事件,这对嚣张夫妻三天就被批捕了

河南二次通报平顶山事件,这对嚣张夫妻三天就被批捕了

林中木白
2026-02-25 09:08:10
比尔盖茨承认出轨,与俄罗斯核物理学家有染,否认与爱泼斯坦有关

比尔盖茨承认出轨,与俄罗斯核物理学家有染,否认与爱泼斯坦有关

社会酱
2026-02-25 16:46:40
俄对外情报局称英国和法国正准备向乌克兰转让核武器,外交部表态

俄对外情报局称英国和法国正准备向乌克兰转让核武器,外交部表态

环球网资讯
2026-02-25 15:31:00
重庆警方通报:卢某(男,64岁)在23楼住房内故意向窗外抛洒污物,已被行拘

重庆警方通报:卢某(男,64岁)在23楼住房内故意向窗外抛洒污物,已被行拘

环球网资讯
2026-02-25 16:33:08
哈登0罚20分创队史最老纪录!骑士赛季首胜尼克斯 米切尔23分

哈登0罚20分创队史最老纪录!骑士赛季首胜尼克斯 米切尔23分

醉卧浮生
2026-02-25 11:14:21
雨+雨夹雪+中到大雪!河北大范围雨雪要来!

雨+雨夹雪+中到大雪!河北大范围雨雪要来!

掌中邯郸
2026-02-25 11:10:27
传魅族将放弃手机业务:团队全裁,补偿“N+1”

传魅族将放弃手机业务:团队全裁,补偿“N+1”

芯智讯
2026-02-24 21:36:43
江苏一家去贝加尔湖旅游:一万六都花了,却为省200全家遇难

江苏一家去贝加尔湖旅游:一万六都花了,却为省200全家遇难

观察鉴娱
2026-02-24 09:48:21
李亚鹏年初六到陈光标家做客!为陈光标儿子送行,陈太太罕见露脸

李亚鹏年初六到陈光标家做客!为陈光标儿子送行,陈太太罕见露脸

洲洲影视娱评
2026-02-25 15:25:18
中国核工业集团,总工程师罗琦,突然从一个极重要位置上被撤下来

中国核工业集团,总工程师罗琦,突然从一个极重要位置上被撤下来

百态人间
2026-02-25 15:36:52
连霍高速交警硬核喊话:速度提不起来就给我去慢车道!

连霍高速交警硬核喊话:速度提不起来就给我去慢车道!

闪电新闻
2026-02-24 15:52:12
詹姆斯:东契奇最后机会不错没找好节奏 我接球后也有点失去平衡

詹姆斯:东契奇最后机会不错没找好节奏 我接球后也有点失去平衡

罗说NBA
2026-02-25 14:53:00
2026-02-25 20:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16320文章数 514653关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

新房被淹男子12年未交物业费 春节前后家中停水超50天

头条要闻

新房被淹男子12年未交物业费 春节前后家中停水超50天

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

教育
本地
手机
健康
公开课

教育要闻

关注 | 当孩子满口“网络谐音梗”:是语言潮流,还是表达力危机?

本地新闻

津南好·四时总相宜

手机要闻

消息称魅族手机业务已经实质性停摆,追觅曾谈判收购

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版