网易首页 > 网易号 > 正文 申请入驻

Test Time Scaling Law远未达到上限!华为诺亚代码HLCE终极基准

0
分享至

本文的第一作者为华为诺亚研究员李向阳,毕业于北京大学,开源组织 BigCode 项目组成员。此前他们团队曾经推出 CoIR 代码检索基准,目前已经成为代码检索领域的标杆 benchmark。其余主要成员也大部分来自 CoIR 项目组。

大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?

来自华为诺亚方舟实验室的一项最新研究给出了一个颇具挑战性的答案。他们推出了一个全新的编程基准 ——“人类最后的编程考试” (Humanity's Last Code Exam, HLCE)

该基准包含了过去 15 年(2010-2024)间,全球难度最高的两项编程竞赛:国际信息学奥林匹克竞赛(IOI)和国际大学生程序设计竞赛世界总决赛(ICPC World Finals)中最顶尖的 235 道题目。

结果如何?即便是当前最先进的推理模型,如 OpenAI 的 o4-mini (high) 和 谷歌的 Gemini-2.5 Pro,在 HLCE 上的单次尝试成功率(pass@1)也分别只有15.85% 和 11.4%,与它们在其他基准上动辄超过 70% 的表现形成鲜明对比。 这表明,面对真正考验顶尖人类智慧的编程难题,现有的大模型还有很长的路要走。

  • 论文地址: https://www.arxiv.org/abs/2506.12713
  • 项目地址: https://github.com/Humanity-s-Last-Code-Exam/HLCE

直面 “最强大脑”:为何需要 HLCE?

近年来,LLM 在代码生成领域取得了惊人的进步,许多主流基准(如 LiveCodeBench、APPS 等)已经无法对最前沿的模型构成真正的挑战。研究者指出,现有基准存在几个关键问题:

1.难度有限:对于顶级 LLM 来说,很多题目已经过于简单。

2.缺乏交互式评测:大多数基准采用标准的输入 / 输出(I/O)模式,而忽略了在真实竞赛中常见的 “交互式” 题目。这类题目要求程序与评测系统进行动态交互,对模型的实时逻辑能力要求更高。

3.测试时扩展规律(Test-time Scaling Laws)未被充分探索:模型在推理时花费更多计算资源能否持续提升性能?这个问题在复杂编程任务上尚无定论。

为构建高质量基准,研究团队对 HLCE 题目进行了深度处理。例如 ICPC World Finals 题目原始材料均为 PDF 格式,团队通过人工逐题提取、转写为 Markdown 并校验,确保题目完整性。最终形成的 HLCE 基准包含:1)235 道 IOI/ICPC World Finals 历史难题;2)标准 I/O 与交互式双题型;3)全可复现的评测体系。

模型表现如何?顶级 LLM 也 “考蒙了”

研究团队在 HLCE 上全面评估了 12 个主流 LLM,包括推理模型(如 o4-mini (high), Gemini-2.5 Pro, DeepSeek-R1)和非推理模型(如 chatgpt-4o-latest, claude-3.7-sonnet)。 实验结果揭示了几个有趣的现象:

推理模型优势巨大:具备推理能力的模型表现显著优于非推理模型。最强的 o4-mini (high) 的平均 pass@1 通过率(15.85%)大约是最强非推理模型 deepseek-v3-0324(3.53%)的 4.5 倍。

IOI 交互式题目是 “硬骨头”:所有模型在 IOI 题目上的表现都远差于 ICPC world finals 题目。例如,o4-mini (high) 在 ICPC 上的 pass@1 为 25.21%,但在 IOI 上骤降至 6.48%。研究者认为,这与当前模型的训练数据和强化学习方式主要基于标准 I/O 模式有关,对于交互式问题准备不足。

奇特的模型退化现象:一个例外是 claude-3.7-thinking 模型,尽管是推理模型,但其表现甚至不如一些非推理模型,在 IOI 题目上通过率为 0%。研究者推测,这可能是因为 claude 针对通用软件工程任务进行了优化,而非高难度的算法竞赛。

“我知道我不知道?”:模型的自我认知悖论

除了代码生成,研究者还设计了一个新颖的 “自我认知”(self-recognition)任务:让模型判断自身生成的代码是否正确,以评估其能力边界感知力。

结果出人意料:

  • 代码能力最强的O4-mini (high),自我认知能力(AUC 0.63)并不突出。
  • 反观通用模型ChatGPT-4o-latest,展现了更强的 “自知之明”(AUC 0.84)。

这种 “苏格拉底悖论”—— 卓越的问题解决能力与清晰的自我认知能力未能同步发展 —— 暗示在现有 LLM 架构中,推理能力与元认知能力(metacognition)可能遵循不同的进化路径。

大语言模型的 Test Time scaling law 到极限了吗

一个关键问题是:目前 LLM 的推理能力已经非常强了,目前这种范式达到极限了吗?未来的模型的推理能力还能继续发展吗? 而面对如此高难度的 HLCE benchmark,这显然是一个绝佳的机会来研究大语言模型的Test Time Scaling Law

研究者将模型生成的每组回答按照 thinking token 的数量按照长短进行分组,然后重新测试性能。从图中可以看出,随着思考长度的不断延长,模型的性能在不断的提升,并且远远没有达到上限。

这个结论告诉我们,可以继续大胆的优化推理模型,至少在现在远远没有到达 Test Time scaling law 达到上限。

LLM vs 人类顶尖选手:差距还有多大?

基于上述发现,研究者将模型的最佳表现(基于 5 次尝试,IOI 取 5 次的最大分数,ICPC world Finals 取 5 次解决掉的最多题目)与历年 IOI 和 ICPC 世界总决赛的奖牌分数线进行了直接对比。

结果令人振奋:顶级 LLM 已经具备了赢得奖牌的实力。Gemini-2.5-pro 和 o4-mini (high) 的表现分别达到了 IOI 和 ICPC 的银牌和金牌水平。

这也解释了一个看似矛盾的现象:尽管模型单次成功率很低,但只要给予足够多的尝试机会(这正是 “测试时扩展规律” 的体现),它们就能找到正确的解法,从而在竞赛中获得高分。

未来方向

这项研究通过 HLCE 这一极具挑战性的基准,清晰地揭示了当前 LLM 在高级编程和推理能力上的优势与短板。 它证明了,虽然 LLM 在单次尝试的稳定性上仍有欠缺,但其内部已蕴含解决超复杂问题的知识。更重要的是,测试时扩展规律在这一极限难度下依然有效,为我们指明了一条清晰的性能提升路径:通过更优的搜索策略和更多的计算投入,可以持续挖掘模型的潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

扬子晚报
2026-03-25 20:25:53
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

姆巴佩:说我在皇马遭误诊是假的,也怪我留下了可解读的空间

懂球帝
2026-03-26 04:09:06
西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

西甲希望之星杯:巴萨5-0上海海港,皇马4球大胜维达德

懂球帝
2026-03-26 14:33:09
伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

伊朗愿意与“主和派”万斯谈!特朗普一边宣称胜利一边增兵中东:我和鲁比奥也要参与

红星新闻
2026-03-25 17:17:14
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
来消息了!日本船主协会会长突然爆出猛料!

来消息了!日本船主协会会长突然爆出猛料!

达文西看世界
2026-03-26 10:48:30
A股:刚刚,突传重大消息,两个信号,周四将迎来更大级别的变盘

A股:刚刚,突传重大消息,两个信号,周四将迎来更大级别的变盘

云鹏叙事
2026-03-26 00:00:06
看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

看看伊朗东北方都是哪些国家,就知道伊朗为何如此淡定了

孤云朗境
2026-03-06 20:43:36
辛纳在迈阿密比赛中险些误伤美国球星,赛后赶紧致歉

辛纳在迈阿密比赛中险些误伤美国球星,赛后赶紧致歉

网球之家
2026-03-26 13:25:54
大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

体坛小李
2026-03-26 08:53:49
NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

NBA西部:前10确定了,马刺有望争第1,快船抢7,湖人首轮遇火箭

铁甲西奇
2026-03-26 16:43:09
泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

削桐作琴
2026-03-26 18:14:58
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

剖腹自尽?日本陆自军官持刀冲入中国大使馆,想杀中国外交员!

军武次位面
2026-03-26 14:26:42
张雪峰直播连炫7根雪糕,三口一根猛灌凉水:他哪是爱吃冰

张雪峰直播连炫7根雪糕,三口一根猛灌凉水:他哪是爱吃冰

风起见你
2026-03-26 07:57:51
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

周杰伦《太阳之子》炸裂数据:182万张、7000万、3800万播放!

可乐谈情感
2026-03-26 13:42:47
巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

巴萨旧将:当时赫莱布知道自己要离队,他往功能饮料里兑酒喝

懂球帝
2026-03-26 06:43:09
2026-03-26 19:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
时尚
教育
手机
军事航空

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

皮衣+裙,高级到炸

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版